Modèles génératifs et analytiques pour l’analyse des données
Décrire comment une analyse de données est créée est un sujet qui m’intéresse vivement et il y a quelques façons différentes d’y penser. Deux façons différentes de penser à l’analyse des données sont ce que j’appelle l’approche « générative » et l’approche « analytique ». Une autre façon, plus informelle, de penser à ces approches est le modèle « biologique » et le modèle « médical ». En lisant la littérature sur le processus d’analyse des données, j’ai remarqué que beaucoup semblent se concentrer sur le premier plutôt que sur le second et je pense que cela présente une opportunité pour un travail nouveau et intéressant.
Modèle génératif
L’approche générative pour penser à l’analyse des données se concentre sur le processus par lequel une analyse est créée. Développer une compréhension des décisions qui sont prises pour passer de l’étape un à l’étape deux à l’étape trois, etc. peut nous aider à recréer ou reconstruire une analyse de données. Bien que la reconstruction ne soit pas exactement l’objectif de l’étude de l’analyse des données de cette manière, avoir une meilleure compréhension du processus peut ouvrir des portes en ce qui concerne l’amélioration du processus.
Une caractéristique clé du processus d’analyse des données est qu’il se déroule généralement dans la tête de l’analyste des données, ce qui le rend impossible à observer directement. Des mesures peuvent être prises en demandant aux analystes ce qu’ils pensaient à un moment donné, mais cela peut être sujet à une variété d’erreurs de mesure, comme avec toutes les données qui dépendent de la mémoire d’un sujet. Dans certaines situations, des informations partielles sont disponibles, par exemple si l’analyste consigne le processus de réflexion dans une série de rapports ou si une équipe est impliquée et qu’il existe un enregistrement de la communication sur le processus. A partir de ce type d’information, il est possible de rassembler une image raisonnable de « comment les choses se passent » et de décrire le processus de génération d’une analyse de données.
Ce modèle est utile pour comprendre le « processus biologique », c’est-à-dire les mécanismes sous-jacents de la création des analyses de données, parfois appelé « pensée statistique ». Il ne fait aucun doute que ce processus présente un intérêt intrinsèque tant pour l’enseignement que pour la compréhension des travaux appliqués. Mais il y a un ingrédient clé qui manque et j’en parlerai davantage ci-dessous.
Modèle analytique
Une deuxième approche pour penser l’analyse des données ignore les processus sous-jacents qui servent à générer l’analyse des données et s’intéresse plutôt aux sorties observables de l’analyse. Ces sorties peuvent être un document R markdown, un rapport PDF, ou même un diaporama (Stephanie Hicks et moi-même appelons cela le conteneur analytique). L’avantage de cette approche est que les résultats de l’analyse sont réels et peuvent être directement observés. Bien sûr, ce qu’un analyste met dans un rapport ou un diaporama ne représente généralement qu’une fraction de ce qui aurait pu être produit au cours d’une analyse complète des données. Cependant, il convient de noter que les éléments placés dans le rapport sont le résultat cumulé de toutes les décisions prises au cours d’une analyse de données.
J’ai déjà utilisé la théorie musicale comme analogie pour l’analyse des données à de nombreuses reprises, principalement parce que… c’est tout ce que je connais, mais aussi parce que cela fonctionne vraiment ! Lorsque nous écoutons ou examinons un morceau de musique, nous n’avons essentiellement aucune connaissance de la façon dont cette musique est née. Nous ne pouvons plus interroger Mozart ou Beethoven sur la façon dont ils ont écrit leur musique. Et pourtant, nous sommes toujours capables de faire quelques choses importantes :
- Analyser et théoriser. Nous pouvons analyser la musique que nous entendons (et leur représentation écrite, si elle est disponible) et parler de la façon dont les différents morceaux de musique diffèrent les uns des autres ou partagent des similitudes. Nous pouvons développer un sens de ce qui est couramment fait par un compositeur donné, ou à travers de nombreux compositeurs, et évaluer quels résultats sont plus ou moins réussis. Il est même possible d’établir des liens entre différents types de musique séparés par des siècles. Rien de tout cela ne nécessite la connaissance des processus sous-jacents.
- Donner du feedback. Lorsque les élèves apprennent à composer de la musique, une partie essentielle de cette formation consiste à jouer la musique devant d’autres personnes. Le public peut alors donner son avis sur ce qui a marché et ce qui n’a pas marché. De temps en temps, quelqu’un peut demander « À quoi pensais-tu ? », mais la plupart du temps, ce n’est pas nécessaire. Si quelque chose est vraiment cassé, il est parfois possible de prescrire une action corrective (par exemple, « fais un accord de do au lieu d’un accord de ré »).
Il existe même deux podcasts entiers dédiés à l’analyse de la musique-Sticky Notes et Switched on Pop-et ils n’interviewent généralement pas les artistes concernés (ce serait particulièrement difficile pour Sticky Notes). En revanche, le podcast Song Exploder adopte une approche plus « générative » en faisant parler l’artiste sur le processus créatif.
J’ai appelé ce modèle analytique d’analyse des données l’approche « médecin » car il reflète, dans un sens fondamental, le problème auquel un médecin est confronté. Lorsqu’un patient arrive, il y a un ensemble de symptômes et le rapport/historique du patient lui-même. Sur la base de ces informations, le médecin doit prescrire un plan d’action (généralement, recueillir davantage de données). La compréhension détaillée des processus biologiques sous-jacents à une maladie est souvent limitée, mais le médecin peut disposer d’une grande expérience personnelle, ainsi que d’une littérature d’essais cliniques comparant divers traitements dans laquelle il peut puiser. En médecine humaine, la connaissance des processus biologiques est essentielle pour concevoir de nouvelles interventions, mais elle peut ne pas jouer un rôle aussi important dans la prescription de traitements spécifiques.
Lorsque je vois une analyse de données, en tant qu’enseignant, qu’examinateur par les pairs ou simplement en tant que collègue au bout du couloir, il m’incombe généralement de donner mon avis en temps utile. Dans de telles situations, je n’ai généralement pas le temps de mener des entretiens approfondis sur le processus de développement de l’analyse, même si cela peut s’avérer utile. J’ai plutôt besoin de porter un jugement sur la base des résultats observés et peut-être de quelques brèves questions de suivi. Dans la mesure où je peux fournir des commentaires qui, selon moi, amélioreront la qualité de l’analyse, c’est parce que j’ai une idée de ce qui fait une analyse réussie.
L’ingrédient manquant
Stephanie Hicks et moi avons discuté de ce que sont les éléments d’une analyse de données ainsi que de ce que pourraient être les principes qui guident le développement d’une analyse. Dans un nouvel article, nous décrivons et caractérisons le succès d’une analyse de données, basé sur une correspondance de principes entre l’analyste et le public. C’est un sujet que j’ai déjà abordé, à la fois dans ce blog et dans mon podcast avec Hilary Parker, mais d’une manière généralement plus artisanale. Le développement d’un modèle plus formel, comme Stephanie et moi l’avons fait ici, a été utile et a fourni quelques idées supplémentaires.
Pour le modèle génératif et le modèle analytique de l’analyse des données, l’ingrédient manquant était une définition claire de ce qui faisait le succès d’une analyse de données. Le revers de cette médaille, bien sûr, est de savoir quand une analyse de données a échoué. L’approche analytique est utile car elle nous permet de séparer l’analyse de l’analyste et de classer les analyses en fonction de leurs caractéristiques observées. Mais cette catégorisation est « désordonnée » si nous n’avons pas une certaine notion du succès. Sans définition du succès, nous sommes incapables de critiquer formellement les analyses et d’expliquer notre raisonnement de manière logique.
L’approche générative est utile car elle révèle des cibles potentielles d’intervention, notamment d’un point de vue pédagogique, afin d’améliorer l’analyse des données (tout comme la compréhension d’un processus biologique). Cependant, sans une définition concrète du succès, nous n’avons pas de cible à viser et nous ne savons pas comment intervenir pour apporter une véritable amélioration. En d’autres termes, il n’y a pas de résultat sur lequel nous pouvons « entraîner notre modèle » pour l’analyse des données.
J’ai mentionné plus haut que l’on se concentre beaucoup sur le développement du modèle génératif pour l’analyse des données, mais que l’on travaille comparativement peu à développer le modèle analytique. Pourtant, les deux modèles sont fondamentaux pour améliorer la qualité des analyses de données et apprendre des travaux précédents. Je pense que cela représente une opportunité importante pour les statisticiens, les scientifiques des données et d’autres personnes d’étudier comment nous pouvons caractériser les analyses de données sur la base des sorties observées et comment nous pouvons établir des connexions entre les analyses.