Generative und analytische Modelle für die Datenanalyse

Roger Peng 2019/04/29

Die Beschreibung, wie eine Datenanalyse erstellt wird, ist ein Thema, das mich brennend interessiert, und es gibt einige verschiedene Möglichkeiten, darüber nachzudenken. Zwei verschiedene Arten, über Datenanalysen nachzudenken, nenne ich den „generativen“ Ansatz und den „analytischen“ Ansatz. Eine andere, eher informelle Art, über diese Ansätze nachzudenken, ist das „biologische“ Modell und das „ärztliche“ Modell. Bei der Lektüre der Literatur über den Prozess der Datenanalyse ist mir aufgefallen, dass sich viele eher auf das erstere als auf das letztere zu konzentrieren scheinen, und ich denke, dass dies eine Gelegenheit für neue und interessante Arbeiten darstellt.

Generatives Modell

Der generative Ansatz zur Betrachtung der Datenanalyse konzentriert sich auf den Prozess, durch den eine Analyse erstellt wird. Die Entwicklung eines Verständnisses für die Entscheidungen, die getroffen werden, um von Schritt eins zu Schritt zwei zu Schritt drei usw. zu gelangen, kann uns helfen, eine Datenanalyse neu zu erstellen oder zu rekonstruieren. Auch wenn die Rekonstruktion nicht unbedingt das Ziel der Untersuchung der Datenanalyse auf diese Weise ist, kann ein besseres Verständnis des Prozesses Türen zur Verbesserung des Prozesses öffnen.

Ein wesentliches Merkmal des Datenanalyseprozesses besteht darin, dass er in der Regel im Kopf des Datenanalysten stattfindet, so dass er nicht direkt beobachtet werden kann. Messungen können vorgenommen werden, indem man die Analytiker fragt, was sie zu einem bestimmten Zeitpunkt gedacht haben, aber das kann einer Vielzahl von Messfehlern unterliegen, wie bei allen Daten, die von der Erinnerung einer Person abhängen. In manchen Situationen stehen Teilinformationen zur Verfügung, z. B. wenn der Analytiker den Denkprozess in einer Reihe von Berichten niederschreibt oder wenn ein Team beteiligt ist und es eine Aufzeichnung der Kommunikation über den Prozess gibt. Anhand dieser Art von Informationen ist es möglich, sich ein vernünftiges Bild davon zu machen, „wie die Dinge ablaufen“, und den Prozess zur Erstellung einer Datenanalyse zu beschreiben.

Dieses Modell ist nützlich, um den „biologischen Prozess“ zu verstehen, d.h. die zugrunde liegenden Mechanismen, wie Datenanalysen erstellt werden, die manchmal auch als „statistisches Denken“ bezeichnet werden. Es besteht kein Zweifel, dass dieser Prozess sowohl für die Lehre als auch für das Verständnis der angewandten Arbeit von Interesse ist. Aber es gibt einen wichtigen Bestandteil, der fehlt, und darauf werde ich weiter unten eingehen.

Analytisches Modell

Ein zweiter Ansatz, über Datenanalyse nachzudenken, ignoriert die zugrundeliegenden Prozesse, die dazu dienen, die Datenanalyse zu erzeugen, und betrachtet stattdessen die beobachtbaren Ergebnisse der Analyse. Bei diesen Ergebnissen kann es sich um ein R-Markdown-Dokument, einen PDF-Bericht oder sogar ein Foliendokument handeln (Stephanie Hicks und ich bezeichnen dies als analytischen Container). Der Vorteil dieses Ansatzes ist, dass die Ergebnisse der Analyse real sind und direkt beobachtet werden können. Natürlich stellt das, was ein Analyst in einen Bericht oder ein Foliendokument einstellt, in der Regel nur einen Bruchteil dessen dar, was bei einer vollständigen Datenanalyse herauskommen könnte. Es ist jedoch erwähnenswert, dass die in den Bericht aufgenommenen Elemente das kumulative Ergebnis aller Entscheidungen sind, die im Laufe einer Datenanalyse getroffen werden.

Ich habe die Musiktheorie schon oft als Analogie für die Datenanalyse verwendet, hauptsächlich, weil ich nichts anderes kenne, aber auch, weil sie wirklich funktioniert! Wenn wir uns ein Musikstück anhören oder untersuchen, wissen wir im Grunde genommen nicht, wie diese Musik zustande gekommen ist. Wir können Mozart oder Beethoven nicht mehr dazu befragen, wie sie ihre Musik geschrieben haben. Und doch können wir einige wichtige Dinge tun:

  • Analysieren und Theoretisieren. Wir können die Musik, die wir hören (und ihre schriftliche Darstellung, falls vorhanden), analysieren und darüber sprechen, wie sich verschiedene Musikstücke voneinander unterscheiden oder Ähnlichkeiten aufweisen. Wir können ein Gespür dafür entwickeln, was ein bestimmter Komponist oder viele Komponisten gemeinsam tun, und beurteilen, welche Ergebnisse erfolgreicher oder weniger erfolgreich sind. Es ist sogar möglich, Verbindungen zwischen verschiedenen Arten von Musik herzustellen, die durch Jahrhunderte getrennt sind. Nichts davon erfordert Kenntnisse über die zugrunde liegenden Prozesse.
  • Feedback geben. Wenn Schülerinnen und Schüler lernen, Musik zu komponieren, ist ein wesentlicher Teil dieser Ausbildung das Vorspielen der Musik vor anderen. Das Publikum kann dann Rückmeldung darüber geben, was funktioniert hat und was nicht. Gelegentlich fragt jemand: „Was hast du dir dabei gedacht?“, aber in den meisten Fällen ist das nicht nötig. Wenn etwas wirklich kaputt ist, ist es manchmal möglich, eine Korrekturmaßnahme vorzuschreiben (z. B. „Mach daraus einen C-Akkord statt eines D-Akkordes“).

Es gibt sogar zwei ganze Podcasts, die sich der Analyse von Musik widmen – Sticky Notes und Switched on Pop – und sie interviewen im Allgemeinen nicht die beteiligten Künstler (das wäre bei Sticky Notes besonders schwierig). Im Gegensatz dazu verfolgt der Song Exploder-Podcast einen eher „generativen Ansatz“, indem er den Künstler über den kreativen Prozess sprechen lässt.

Ich habe dieses Analysemodell für die Datenanalyse als „ärztlichen“ Ansatz bezeichnet, weil es in gewissem Sinne das Problem widerspiegelt, mit dem ein Arzt konfrontiert ist. Wenn ein Patient eintrifft, gibt es eine Reihe von Symptomen und den eigenen Bericht/die eigene Geschichte des Patienten. Auf der Grundlage dieser Informationen muss der Arzt eine bestimmte Vorgehensweise vorschreiben (in der Regel die Erhebung weiterer Daten). Die biologischen Prozesse, die einer Krankheit zugrunde liegen, sind oft nicht im Detail bekannt, aber der Arzt kann auf einen großen persönlichen Erfahrungsschatz zurückgreifen sowie auf eine Reihe von klinischen Studien, in denen verschiedene Behandlungen verglichen werden. In der Humanmedizin ist das Wissen über biologische Prozesse entscheidend für die Entwicklung neuer Maßnahmen, spielt aber bei der Verschreibung spezifischer Behandlungen vielleicht keine so große Rolle.

Wenn ich als Lehrer, Gutachter oder einfach nur als Kollege eine Datenanalyse sehe, ist es normalerweise meine Aufgabe, zeitnah ein Feedback zu geben. In solchen Situationen bleibt meist keine Zeit für ausführliche Gespräche über den Entstehungsprozess der Analyse, auch wenn das durchaus nützlich sein könnte. Vielmehr muss ich mir ein Urteil auf der Grundlage der beobachteten Ergebnisse und vielleicht einiger kurzer Folgefragen bilden. Wenn ich ein Feedback geben kann, von dem ich glaube, dass es die Qualität der Analyse verbessert, dann deshalb, weil ich ein Gefühl dafür habe, was eine erfolgreiche Analyse ausmacht.

The Missing Ingredient

Stephanie Hicks und ich haben erörtert, was die Elemente einer Datenanalyse sind und welche Prinzipien die Entwicklung einer Analyse leiten könnten. In einer neuen Arbeit beschreiben und charakterisieren wir den Erfolg einer Datenanalyse, die auf der Übereinstimmung von Prinzipien zwischen dem Analytiker und dem Publikum beruht. Dieses Thema habe ich schon früher angesprochen, sowohl in diesem Blog als auch in meinem Podcast mit Hilary Parker, allerdings in einer eher handschriftlichen Form. Die Entwicklung eines formaleren Modells, wie Stephanie und ich es hier getan haben, war nützlich und hat einige zusätzliche Erkenntnisse gebracht.

Sowohl für das generative Modell als auch für das analytische Modell der Datenanalyse fehlte eine klare Definition dessen, was eine Datenanalyse erfolgreich macht. Die andere Seite der Medaille ist natürlich zu wissen, wann eine Datenanalyse fehlgeschlagen ist. Der analytische Ansatz ist nützlich, weil er es uns ermöglicht, die Analyse vom Analysten zu trennen und die Analysen nach ihren beobachteten Merkmalen zu kategorisieren. Aber die Kategorisierung ist „ungeordnet“, wenn wir keine Vorstellung von Erfolg haben. Ohne eine Definition von Erfolg sind wir nicht in der Lage, Analysen formal zu kritisieren und unsere Argumentation auf logische Weise zu erklären.

Der generative Ansatz ist nützlich, weil er potenzielle Eingriffsziele aufzeigt, insbesondere aus der Perspektive der Lehre, um die Datenanalyse zu verbessern (genau wie das Verständnis eines biologischen Prozesses). Ohne eine konkrete Definition von Erfolg haben wir jedoch kein Ziel, das wir anstreben können, und wir wissen nicht, wie wir eingreifen müssen, um eine echte Verbesserung zu erreichen. Mit anderen Worten, es gibt kein Ergebnis, auf das wir unser Modell für die Datenanalyse „trainieren“ können.

Ich habe oben erwähnt, dass man sich sehr stark auf die Entwicklung des generativen Modells für die Datenanalyse konzentriert, aber vergleichsweise wenig an der Entwicklung des analytischen Modells arbeitet. Beide Modelle sind jedoch von grundlegender Bedeutung für die Verbesserung der Qualität von Datenanalysen und das Lernen aus früheren Arbeiten. Ich denke, dass dies eine wichtige Gelegenheit für Statistiker, Datenwissenschaftler und andere ist, um zu untersuchen, wie wir Datenanalysen auf der Grundlage von beobachteten Ergebnissen charakterisieren können und wie wir Verbindungen zwischen Analysen herstellen können.