Modelos Geradores e Analíticos para Análise de Dados

Roger Peng 2019/04/29

Descrever como é criada uma análise de dados é um tópico de grande interesse para mim e há algumas maneiras diferentes de pensar sobre ele. Duas maneiras diferentes de pensar sobre a análise de dados são o que eu chamo de abordagem “generativa” e a abordagem “analítica”. Outra forma, mais informal, que eu gosto de pensar sobre essas abordagens é como o modelo “biológico” e o modelo “médico”. Lendo através da literatura sobre o processo de análise de dados, notei que muitos parecem focar no primeiro e não no segundo e acho que isso representa uma oportunidade para um novo e interessante trabalho.

Modelo generativo

A abordagem generativa para pensar sobre análise de dados foca no processo pelo qual uma análise é criada. Desenvolver uma compreensão das decisões que são tomadas para passar do passo um para o passo dois para o passo três, etc. pode nos ajudar a recriar ou reconstruir uma análise de dados. Embora a reconstrução pode não ser exatamente o objetivo de estudar a análise de dados desta maneira, ter uma melhor compreensão do processo pode abrir portas em relação à melhoria do processo.

Uma característica chave do processo analítico de dados é que ele normalmente ocorre dentro da cabeça do analista de dados, tornando impossível observá-lo diretamente. As medições podem ser feitas perguntando aos analistas o que eles estavam pensando em um determinado momento, mas isso pode estar sujeito a uma variedade de erros de medição, como com qualquer dado que dependa da chamada de um sujeito. Em algumas situações, há informação parcial disponível, por exemplo, se o analista escreve o processo de pensamento através de uma série de relatórios ou se uma equipe está envolvida e há um registro de comunicação sobre o processo. A partir deste tipo de informação, é possível reunir um quadro razoável de “como as coisas acontecem” e descrever o processo para gerar uma análise de dados.

Este modelo é útil para entender o “processo biológico”, ou seja, os mecanismos subjacentes à forma como as análises de dados são criadas, por vezes referidos como “pensamento estatístico”. Não há dúvida de que este processo tem interesse inerente tanto para fins de ensino como para a compreensão do trabalho aplicado. Mas há um ingrediente chave que falta e falarei mais sobre isso abaixo.

Modelo Analítico

Uma segunda abordagem ao pensar sobre análise de dados ignora os processos subjacentes que servem para gerar a análise de dados e, em vez disso, olha para os resultados observáveis da análise. Esses outputs podem ser um documento R markdown, um relatório PDF ou mesmo um slide deck (Stephanie Hicks e eu nos referimos a isso como o recipiente analítico). A vantagem desta abordagem é que os outputs analíticos são reais e podem ser observados diretamente. Naturalmente, o que um analista coloca num relatório ou num slide deck normalmente representa apenas uma fração do que poderia ter sido produzido no curso de uma análise de dados completa. Entretanto, vale a pena notar que os elementos colocados no relatório são o resultado cumulativo de todas as decisões tomadas durante uma análise de dados.

Eu já usei a teoria da música como uma analogia para análise de dados muitas vezes antes, principalmente porque…é tudo o que sei, mas também porque ela realmente funciona! Quando ouvimos ou examinamos uma peça de música, essencialmente não temos conhecimento de como essa música veio a ser. Não podemos mais entrevistar Mozart ou Beethoven sobre como eles escreveram a sua música. E mesmo assim ainda somos capazes de fazer algumas coisas importantes:

  • Analisar e teorizar. Podemos analisar a música que ouvimos (e sua representação escrita, se disponível) e falar sobre como diferentes peças de música diferem umas das outras ou compartilhar semelhanças. Podemos desenvolver um senso do que é comumente feito por um determinado compositor, ou através de muitos compositores, e avaliar quais são os resultados mais bem sucedidos ou menos bem sucedidos. É até possível estabelecer conexões entre diferentes tipos de música separados por séculos. Nada disto requer conhecimento dos processos subjacentes.
  • Dar Feedback. Quando os alunos estão aprendendo a compor música, uma parte essencial desse treinamento é a tocar a música na frente dos outros. O público pode então dar feedback sobre o que funcionou e o que não funcionou. Ocasionalmente, alguém pode perguntar “O que você estava pensando?” mas, na maioria das vezes, isso não é necessário. Se algo estiver realmente quebrado, às vezes é possível prescrever alguma ação corretiva (por exemplo, “faça um acorde em Dó ao invés de um acorde em D”).

Existem até dois podcasts inteiros dedicados à análise da música – Notas Pegajosas e Switched on Pop – e eles geralmente não entrevistam os artistas envolvidos (isso seria particularmente difícil para Notas Pegajosas). Por outro lado, o podcast Song Exploder tem uma abordagem mais “generativa” ao fazer o artista falar sobre o processo criativo.

I referiu-se a este modelo analítico para análise de dados como a abordagem “médica” porque espelha, num sentido básico, o problema que um médico enfrenta. Quando um paciente chega, há um conjunto de sintomas e o próprio relatório/história do paciente. Com base nessas informações, o médico tem que prescrever um curso de ação (geralmente, para coletar mais dados). Muitas vezes há pouca compreensão detalhada dos processos biológicos subjacentes a uma doença, mas o médico pode ter uma vasta experiência pessoal, bem como uma literatura de ensaios clínicos comparando vários tratamentos dos quais se pode extrair. Na medicina humana, o conhecimento dos processos biológicos é fundamental para conceber novas intervenções, mas pode não desempenhar um papel tão grande na prescrição de tratamentos específicos.

Quando vejo uma análise de dados, como professor, revisor de pares ou apenas um colega ao fundo do corredor, normalmente é meu trabalho dar feedback de forma oportuna. Nessas situações, normalmente não há tempo para entrevistas extensas sobre o processo de desenvolvimento da análise, mesmo que isso possa ser de fato útil. Ao invés disso, preciso fazer um julgamento com base nos resultados observados e talvez algumas breves perguntas de acompanhamento. Na medida em que eu posso fornecer feedback que eu acho que irá melhorar a qualidade da análise, é porque eu tenho um senso do que faz uma análise bem sucedida.

O Ingrediente Faltando

Stephanie Hicks e eu discutimos quais são os elementos de uma análise de dados, bem como quais podem ser os princípios que orientam o desenvolvimento de uma análise. Em um novo artigo, descrevemos e caracterizamos o sucesso de uma análise de dados, com base em uma correspondência de princípios entre o analista e o público. Isso é algo que eu já toquei anteriormente, tanto neste blog quanto no meu podcast com Hilary Parker, mas de uma maneira geral de forma mais manual. Desenvolver um modelo mais formal, como Stephanie e eu fizemos aqui, tem sido útil e tem fornecido alguns insights adicionais.

Tanto para o modelo generativo quanto para o modelo analítico de análise de dados, o ingrediente que faltava era uma definição clara do que fazia uma análise de dados ser bem sucedida. O outro lado dessa moeda, naturalmente, é saber quando uma análise de dados falhou. A abordagem analítica é útil porque nos permite separar a análise do analista e categorizar as análises de acordo com suas características observadas. Mas a categorização é “não ordenada”, a menos que tenhamos alguma noção de sucesso. Sem uma definição de sucesso, somos incapazes de criticar formalmente as análises e explicar nosso raciocínio de forma lógica.

A abordagem generativa é útil porque revela potenciais alvos de intervenção, especialmente do ponto de vista didático, a fim de melhorar a análise de dados (assim como a compreensão de um processo biológico). Entretanto, sem uma definição concreta de sucesso, não temos um alvo a ser atingido e não sabemos como intervir para fazer uma melhoria real. Em outras palavras, não há nenhum resultado sobre o qual possamos “treinar nosso modelo” para análise de dados.

I mencionei acima que há muito foco no desenvolvimento do modelo generativo para análise de dados, mas comparativamente pouco trabalho no desenvolvimento do modelo analítico. Contudo, ambos os modelos são fundamentais para melhorar a qualidade da análise de dados e aprender com o trabalho anterior. Penso que isto representa uma importante oportunidade para estatísticos, cientistas de dados e outros estudarem como podemos caracterizar as análises de dados com base nos resultados observados e como podemos estabelecer conexões entre as análises.