Na era dos zettabytes, a profusão de novas tecnologias gera uma quantidade enorme de terminologias, muitas das quais entram na moda – as chamadas buzzwords, na linguagem da internet. As palavras em inglês, incorporadas ao português e adotadas por técnicos e especialistas, se espalham pela rede e facilmente nos adaptamos à “nova linguagem”. Porém, uma questão da maior relevância é a importância de usar as novas expressões corretamente, evitando a armadilha de nos perdermos no redemoinho do vocabulário constantemente renovado. Focamos aqui em três termos bastante em alta e muitas vezes usados – erroneamente – como se fossem sinônimos: Data Science, Machine Learning e Estatística.

Vamos começar pela base da pirâmide, onde estão a estatística e a matemática, duas áreas do conhecimento imprescindíveis para a Inteligência Artificial (IA). A estatística é um conjunto de métodos e teorias usadas para analisar e modelar dados. A estatística não se preocupa em capturar e armazenar informação, por exemplo. Preocupa-se com métodos, organização, resumo, apresentação e interpretação dos dados. Também tira conclusões sobre as características das fontes de onde as informações foram coletadas.

Em um patamar acima, vem o conceito de Machine Learning (ML, ou, em português, aprendizado de máquina), como um subcampo da ciência da computação, que evoluiu do estudo de reconhecimento de padrões e da teoria da aprendizagem computacional da IA. O ML usa algoritmos capazes de aprender com dados, fazer previsões e tomar decisões, superando as limitações da programação tradicional baseada em instruções estatísticas.

Estatística e Machine Learning, portanto, estão correlacionados mas não são iguais. É possível afirmar que as abordagens estatísticas e matemáticas evoluíram a ponto de permitir o uso em Machine Learning. Para deixar mais claro: o ML trabalha com algoritmos e estatísticas para desenvolver programas que podem usar sua própria experiência para melhorar processos industriais e profissionais e também o cotidiano das pessoas. Empresas como Amazon e Facebook usam algoritmos de ML para criar suas recomendações, selecionar e guiar assuntos. O Google usa algoritmos de ML para buscas, análise de e-mails, recomendações de respostas no Allo etc.

E qual é a relação da Data Sciene, a ciência de dados, com a estatística?

Recorrendo a uma imagem ilustrativa, a ciência de dados seria o sistema solar; e a estatística, um planeta. A ciência de dados utiliza a estatística, mas muito mais do que isso: envolve toda a cadeia do trabalho com dados para gerar informações, conhecimento e, finalmente, valor, por meio de métodos e técnicas que vão da engenharia de dados aos algoritmos mais avançados da Inteligência Artificial.

A ciência de dados compreende o uso de diversas tecnologias, modelos e metodologias para capturar, armazenar e processar informações, gerando valor a um negócio – de acordo com a definição de Alessandra Montini, professora de Métodos Quantitativos e Informática na Faculdade de Economia, Administração e Contabilidade (FEA) da USP e coordenadora do Laboratório de Análise de Dados (Labdata) da Fundação Instituto de Administração (FIA).

Alessandra explica que o mundo está se tornando cada vez mais data driven. Ou seja, orientado por dados. De modo que não é mais possível tomar a decisão correta sem analisar esse volume gigantesco de informações disponíveis. Aí entram as máquinas, que não fazem isso tudo sozinhas. São as pessoas que definem diretrizes, estabelecem critérios e podem manusear as soluções tecnológicas. E, claro, sabem como transformar toda essa informação em conteúdo útil, em ação e em resultado.

BigData Corp

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *