Mais dados é melhor que um algoritmo mais eficiente

Recentemente li um texto de blog do Anand Rajaraman no qual ele descreve uma atividade que ele passou para seus alunos na Universidade de Stanford na qual eles deveriam realizar qualquer tarefa de data mining não trivial, onde a maioria decidiu tentar resolver o “Netflix Chalenge”, um desafio no qual o candidato deve fazer um algoritmo de recomendação de filmes melhor que o da plataforma.

O desafio consiste em usar um dataset enviado pela empresa onde várias pessoas deram notas para filmes e o desafio é predizer a nota de filmes sem notas dadas. Um clássico problema de receber um dataset de treino, treinar um modelo com esses dados e testar esse mesmo modelo em um dataset de teste. Se você conseguir uma acurácia superior à do algoritmo da netflix respeitando uma determinada margem você leva para casa um prêmio de 1 milhão de dólares.

Continuando na descrição de sua experiência em sua aula, Rajaraman comenta que vários alunos experimentaram diversas abordagens. Entre elas, podemos destacar duas: um time A experimentou um algoritmo extremamente elaborado para resolver o problema e um time B fundiu o dataset da Netflix com dados fornecidos pelo IMBD (Internet Movie Data Base).

Resumindo a história, o time B conseguiu melhores resultados e quase alcançou a acurácia da Netflix, mesmo com um algoritmo mais simples que o do time A, que não foi muito longe.

Minha experiência no Curso de Ciência da Computação

Em uma disciplina chamada “Informática e Sociedade”, na UFPA, tínhamos aulas muito mais próximas da filosofia, onde éramos convidados a debater sobre diversos assuntos referentes aos impactos da computação na sociedade. Acredito que foi uma boa experiência para mim.

Nessa disciplina, uma das aulas era sobre dados e o professor trouxe uma provocação: “Dados são realmente o novo petróleo?”. Eu não tenho certeza absoluta se essa foi a fonte que ele nos passou para discutirmos em aula, mas eu creio que era. Segue o link:

Is Data Really The New Oil?

Lembro que eu fui o mais engajado naquela aula, até mesmo por sempre ser entusiasmado com dados. Eu realmente discordava com o ponto do professor. Para ele, na verdade, o novo petróleo eram os algoritmos que tratavam esses dados e não os dados em sim.

Entretanto, para mim a analogia sempre foi bem clara: dados são a matéria prima, sem ele nada é feito. Além disso, assim como petróleo é inútil sem o processamento que ele passa, dados não servem para nada se estiverem espalhados e sujos, se não são processados e se não agregamos valor para o mesmo através de processos industriais.

O artigo do Anand Rajaraman me lembrou essa discussão novamente, me fazendo acreditar ainda mais que mais dados no fim resolvem problemas melhor que algoritmos extremamente elaborados.

Claro que isso não é um incentivo a deixar de estudar algoritmos, afinal de contas, tendo uma mesma quantidade X de dados, um algoritmo melhor vai fazer um trabalho melhor.

Conclusão

Esse foi um tema que passou pela minha cabeça nos últimos dias e me deixou curioso para ouvir a opinião de outras pessoas. Peço desculpas se cometi algum erro ao comentar sobre petróleo, estou longe de ser um especialista no assunto, diferente do querido Sérgio Sacani do Space Today.

Ademais, espero que tenham gostado da leitura. Críticas, sugestões e correções são muito bem vindas na sessão de comentários abaixo. Vejo vocês no meu próximo artigo.