Modelos generativos y analíticos para el análisis de datos

Roger Peng 2019/04/29

Describir cómo se crea un análisis de datos es un tema de gran interés para mí y hay algunas maneras diferentes de pensar en ello. Dos formas diferentes de pensar en el análisis de datos son lo que yo llamo el enfoque «generativo» y el enfoque «analítico». Otra forma, más informal, en la que me gusta pensar en estos enfoques es como el modelo «biológico» y el modelo «médico». Leyendo la literatura sobre el proceso de análisis de datos, me he dado cuenta de que muchos parecen centrarse en el primero más que en el segundo y creo que eso presenta una oportunidad para un trabajo nuevo e interesante.

Modelo generativo

El enfoque generativo para pensar en el análisis de datos se centra en el proceso por el cual se crea un análisis. Desarrollar una comprensión de las decisiones que se toman para pasar del paso uno al paso dos al paso tres, etc. puede ayudarnos a recrear o reconstruir un análisis de datos. Aunque la reconstrucción puede no ser exactamente el objetivo de estudiar el análisis de datos de esta manera, tener una mejor comprensión del proceso puede abrir puertas con respecto a la mejora del proceso.

Una característica clave del proceso de análisis de datos es que normalmente tiene lugar dentro de la cabeza del analista de datos, lo que hace imposible observarlo directamente. Se pueden realizar mediciones preguntando a los analistas en qué estaban pensando en un momento dado, pero eso puede estar sujeto a una serie de errores de medición, como ocurre con cualquier dato que dependa del recuerdo de un sujeto. En algunas situaciones, se dispone de información parcial, por ejemplo si el analista escribe el proceso de pensamiento a través de una serie de informes o si participa un equipo y hay un registro de comunicación sobre el proceso. A partir de este tipo de información, es posible reunir una imagen razonable de «cómo suceden las cosas» y describir el proceso de generación de un análisis de datos.

Este modelo es útil para comprender el «proceso biológico», es decir, los mecanismos subyacentes de cómo se crean los análisis de datos, a veces denominados «pensamiento estadístico». No cabe duda de que este proceso tiene un interés inherente tanto para la enseñanza como para la comprensión del trabajo aplicado. Pero hay un ingrediente clave que falta y del que hablaré más adelante.

Modelo analítico

Un segundo enfoque para pensar en el análisis de datos ignora los procesos subyacentes que sirven para generar el análisis de datos y, en cambio, se fija en los resultados observables del análisis. Estos resultados pueden ser un documento R markdown, un informe en PDF, o incluso una presentación de diapositivas (Stephanie Hicks y yo nos referimos a esto como el contenedor analítico). La ventaja de este enfoque es que los resultados del análisis son reales y pueden observarse directamente. Por supuesto, lo que un analista pone en un informe o en una presentación de diapositivas normalmente sólo representa una fracción de lo que podría haberse producido en el curso de un análisis de datos completo. Sin embargo, vale la pena señalar que los elementos colocados en el informe son el resultado acumulativo de todas las decisiones tomadas en el curso de un análisis de datos.

He utilizado la teoría musical como una analogía para el análisis de datos muchas veces antes, sobre todo porque … es todo lo que sé, pero también porque realmente funciona! Cuando escuchamos o examinamos una pieza musical, no tenemos esencialmente ningún conocimiento de cómo esa música llegó a ser. Ya no podemos entrevistar a Mozart o a Beethoven sobre cómo escribieron su música. Sin embargo, podemos hacer algunas cosas importantes:

  • Analizar y teorizar. Podemos analizar la música que escuchamos (y su representación escrita, si está disponible) y hablar sobre cómo las diferentes piezas musicales difieren entre sí o comparten similitudes. Podemos desarrollar un sentido de lo que suele hacer un compositor determinado, o a través de muchos compositores, y evaluar qué producciones tienen más éxito o menos. Incluso es posible establecer conexiones entre distintos tipos de música separados por siglos. Nada de esto requiere el conocimiento de los procesos subyacentes.
  • Dar retroalimentación. Cuando los estudiantes están aprendiendo a componer música, una parte esencial de ese entrenamiento es tocar la música delante de otros. El público puede entonces dar su opinión sobre lo que ha funcionado y lo que no. De vez en cuando, alguien puede preguntar «¿En qué estabas pensando?», pero en la mayoría de los casos no es necesario. Si algo está realmente roto, a veces es posible prescribir alguna acción correctiva (por ejemplo, «haz que esto sea un acorde de Do en lugar de un acorde de Re»).

Hay incluso dos podcasts enteros dedicados a analizar la música -Sticky Notes y Switched on Pop- y generalmente no entrevistan a los artistas implicados (esto sería especialmente difícil para Sticky Notes). Por el contrario, el podcast Song Exploder adopta un enfoque más «generativo» al hacer que el artista hable sobre el proceso creativo.

Me referí a este modelo analítico para el análisis de datos como el enfoque «médico» porque refleja, en un sentido básico, el problema al que se enfrenta un médico. Cuando llega un paciente, hay un conjunto de síntomas y el propio informe/historia del paciente. A partir de esa información, el médico tiene que prescribir un curso de acción (normalmente, recoger más datos). A menudo hay poco conocimiento detallado de los procesos biológicos que subyacen a una enfermedad, pero el médico puede tener una gran experiencia personal, así como una literatura de ensayos clínicos que comparan varios tratamientos de los que puede servirse. En la medicina humana, el conocimiento de los procesos biológicos es fundamental para el diseño de nuevas intervenciones, pero puede no desempeñar un papel tan importante en la prescripción de tratamientos específicos.

Cuando veo un análisis de datos, como profesor, como revisor de pares, o simplemente como colega al final del pasillo, por lo general es mi trabajo dar retroalimentación de manera oportuna. En estas situaciones no suele haber tiempo para hacer entrevistas extensas sobre el proceso de desarrollo del análisis, aunque eso pueda ser útil. Más bien, tengo que emitir un juicio basado en los resultados observados y quizás algunas breves preguntas de seguimiento. En la medida en que puedo proporcionar comentarios que creo que mejorarán la calidad del análisis, es porque tengo una idea de lo que hace un análisis exitoso.

El ingrediente que falta

Stephanie Hicks y yo hemos discutido cuáles son los elementos de un análisis de datos, así como cuáles podrían ser los principios que guían el desarrollo de un análisis. En un nuevo artículo, describimos y caracterizamos el éxito de un análisis de datos, basándonos en una coincidencia de principios entre el analista y el público. Esto es algo que ya he tocado anteriormente, tanto en este blog como en mi podcast con Hilary Parker, pero de forma más manual. El desarrollo de un modelo más formal, como Stephanie y yo hemos hecho aquí, ha sido útil y ha proporcionado algunas ideas adicionales.

Para el modelo generativo y el modelo analítico de análisis de datos, el ingrediente que faltaba era una definición clara de lo que hacía que un análisis de datos tuviera éxito. La otra cara de la moneda, por supuesto, es saber cuándo un análisis de datos ha fracasado. El enfoque analítico es útil porque nos permite separar el análisis del analista y categorizar los análisis según sus características observadas. Pero la categorización es «desordenada» a menos que tengamos alguna noción de éxito. Sin una definición de éxito, no podemos criticar formalmente los análisis y explicar nuestro razonamiento de manera lógica.

El enfoque generativo es útil porque revela posibles objetivos de intervención, especialmente desde una perspectiva pedagógica, para mejorar el análisis de datos (al igual que la comprensión de un proceso biológico). Sin embargo, sin una definición concreta de éxito, no tenemos un objetivo al que aspirar y no sabemos cómo intervenir para conseguir una auténtica mejora. En otras palabras, no hay un resultado en el que podamos «entrenar nuestro modelo» de análisis de datos.

Mencioné anteriormente que hay mucho enfoque en el desarrollo del modelo generativo para el análisis de datos, pero comparativamente poco trabajo en el desarrollo del modelo analítico. Sin embargo, ambos modelos son fundamentales para mejorar la calidad de los análisis de datos y aprender del trabajo anterior. Creo que esto presenta una importante oportunidad para que los estadísticos, los científicos de datos y otros estudien cómo podemos caracterizar los análisis de datos basados en los resultados observados y cómo podemos establecer conexiones entre los análisis.