Generativa och analytiska modeller för dataanalys

Roger Peng 2019/04/29

Beskrivning av hur en dataanalys skapas är ett ämne som intresserar mig mycket, och det finns några olika sätt att tänka på det. Två olika sätt att tänka på dataanalys är vad jag kallar det ”generativa” tillvägagångssättet och det ”analytiska” tillvägagångssättet. Ett annat, mer informellt, sätt som jag tycker om att tänka på dessa tillvägagångssätt är som den ”biologiska” modellen och den ”medicinska” modellen. När jag läser litteraturen om processen för dataanalys har jag lagt märke till att många verkar fokusera på den förstnämnda snarare än den sistnämnda, och jag tror att detta ger möjlighet till nytt och intressant arbete.

Generativ modell

Den generativa metoden för att tänka på dataanalys fokuserar på den process genom vilken en analys skapas. Att utveckla en förståelse för de beslut som fattas för att gå från steg ett till steg två till steg tre osv. kan hjälpa oss att återskapa eller rekonstruera en dataanalys. Även om rekonstruktion kanske inte exakt är målet med att studera dataanalys på detta sätt, kan en bättre förståelse av processen öppna dörrar när det gäller att förbättra processen.

En viktig egenskap hos den dataanalytiska processen är att den vanligtvis äger rum i dataanalytikerns huvud, vilket gör den omöjlig att observera direkt. Mätningar kan göras genom att fråga analytikerna vad de tänkte vid en viss tidpunkt, men detta kan vara föremål för en mängd olika mätfel, liksom med alla data som är beroende av en persons minnesbilder. I vissa situationer finns partiell information tillgänglig, t.ex. om analytikern skriver ner tankeprocessen genom en rad rapporter eller om ett team är inblandat och det finns ett protokoll över kommunikationen om processen. Utifrån denna typ av information är det möjligt att samla en rimlig bild av ”hur saker och ting händer” och att beskriva processen för att generera en dataanalys.

Denna modell är användbar för att förstå den ”biologiska processen”, dvs. de underliggande mekanismerna för hur dataanalyser skapas, som ibland kallas ”statistiskt tänkande”. Det råder ingen tvekan om att denna process har ett inneboende intresse både för undervisningsändamål och för att förstå tillämpat arbete. Men det finns en viktig ingrediens som saknas och jag kommer att tala mer om den nedan.

Analytisk modell

En andra metod för att tänka på dataanalys ignorerar de underliggande processerna som tjänar till att generera dataanalysen och tittar i stället på de observerbara utfallen av analysen. Sådana resultat kan vara ett R-markdown-dokument, en PDF-rapport eller till och med ett bildspel (Stephanie Hicks och jag kallar detta för den analytiska behållaren). Fördelen med detta tillvägagångssätt är att de analytiska resultaten är verkliga och kan observeras direkt. Det som en analytiker lägger in i en rapport eller ett bildspel representerar naturligtvis bara en bråkdel av vad som kan ha producerats under en fullständig dataanalys. Det är dock värt att notera att de element som placeras i rapporten är det kumulativa resultatet av alla beslut som fattas under dataanalysens gång.

Jag har använt musikteori som en analogi för dataanalys många gånger tidigare, mest för att… det är allt jag kan, men också för att det verkligen fungerar! När vi lyssnar på eller undersöker ett musikstycke har vi i princip ingen kunskap om hur musiken kom till. Vi kan inte längre intervjua Mozart eller Beethoven om hur de skrev sin musik. Ändå kan vi fortfarande göra några viktiga saker:

  • Analysera och teoretisera. Vi kan analysera den musik vi hör (och den skriftliga framställningen av den, om den finns tillgänglig) och tala om hur olika musikstycken skiljer sig från varandra eller har likheter. Vi kan utveckla en känsla för vad som är vanligt förekommande hos en viss kompositör, eller hos många kompositörer, och utvärdera vilka resultat som är mer eller mindre lyckade. Det är till och med möjligt att dra kopplingar mellan olika typer av musik som skiljs åt av århundraden. Inget av detta kräver kunskap om de underliggande processerna.
  • Ge feedback. När elever lär sig att komponera musik är en viktig del av den utbildningen att spela upp musiken inför andra. Publiken kan då ge feedback om vad som fungerade och vad som inte fungerade. Ibland kan någon fråga ”Vad tänkte du på?”, men för det mesta är det inte nödvändigt. Om något verkligen är trasigt är det ibland möjligt att föreskriva någon korrigerande åtgärd (t.ex. ”gör det här till ett C-ackord i stället för ett D-ackord”).

Det finns till och med två hela podcasts som ägnar sig åt att analysera musik – Sticky Notes och Switched on Pop – och de intervjuar i allmänhet inte de inblandade artisterna (detta skulle vara särskilt svårt för Sticky Notes). I podcasten Song Exploder däremot används ett mer ”generativt tillvägagångssätt” genom att låta artisten prata om den kreativa processen.

Jag kallade denna analysmodell för dataanalys för ”läkarmetoden” eftersom den på ett grundläggande sätt speglar det problem som en läkare ställs inför. När en patient anländer finns det en uppsättning symtom och patientens egen rapport/historia. På grundval av denna information måste läkaren föreskriva ett tillvägagångssätt (vanligtvis att samla in fler uppgifter). Ofta finns det inte mycket detaljerad kunskap om de biologiska processer som ligger till grund för en sjukdom, men läkaren kan ha en stor mängd personlig erfarenhet och en litteratur med kliniska prövningar som jämför olika behandlingar att utgå ifrån. Inom humanmedicinen är kunskapen om biologiska processer avgörande för utformningen av nya insatser, men spelar kanske inte lika stor roll när det gäller att förskriva specifika behandlingar.

När jag ser en dataanalys, som lärare, expertgranskare eller bara en kollega i korridoren, är det vanligtvis min uppgift att ge feedback i god tid. I sådana situationer finns det oftast inte tid för omfattande intervjuer om utvecklingsprocessen för analysen, även om det faktiskt kan vara användbart. Snarare måste jag göra en bedömning utifrån de observerade resultaten och kanske några korta uppföljningsfrågor. I den mån jag kan ge feedback som jag tror kommer att förbättra kvaliteten på analysen är det för att jag har en känsla för vad som gör en analys framgångsrik.

Den saknade ingrediensen

Stephanie Hicks och jag har diskuterat vad som är beståndsdelarna i en dataanalys samt vad som skulle kunna vara de principer som vägleder utvecklingen av en analys. I en ny artikel beskriver och karakteriserar vi hur framgångsrik en dataanalys är, baserat på en matchning av principer mellan analytikern och publiken. Detta är något som jag har berört tidigare, både i den här bloggen och i min podcast med Hilary Parker, men på ett generellt sett mer handgripligt sätt. Att utveckla en mer formell modell, som Stephanie och jag har gjort här, har varit användbart och har gett ytterligare insikter.

För både den generativa modellen och den analytiska modellen för dataanalys var den saknade ingrediensen en tydlig definition av vad som gjorde en dataanalys framgångsrik. Den andra sidan av myntet är naturligtvis att veta när en dataanalys har misslyckats. Den analytiska metoden är användbar eftersom den gör det möjligt för oss att skilja analysen från analytikern och kategorisera analyser enligt deras observerade egenskaper. Men kategoriseringen är ”oordnad” om vi inte har någon uppfattning om framgång. Utan en definition av framgång kan vi inte formellt kritisera analyser och förklara våra resonemang på ett logiskt sätt.

Den generativa ansatsen är användbar eftersom den avslöjar potentiella mål för ingripanden, särskilt ur ett pedagogiskt perspektiv, för att förbättra dataanalysen (precis som att förstå en biologisk process). Men utan en konkret definition av framgång har vi inget mål att sträva efter och vi vet inte hur vi ska ingripa för att åstadkomma en verklig förbättring. Med andra ord finns det inget resultat som vi kan ”träna vår modell” för dataanalys.

Jag nämnde ovan att det finns mycket fokus på att utveckla den generativa modellen för dataanalys, men jämförelsevis lite arbete med att utveckla den analytiska modellen. Ändå är båda modellerna grundläggande för att förbättra kvaliteten på dataanalyser och lära sig av tidigare arbete. Jag anser att detta utgör en viktig möjlighet för statistiker, datavetare och andra att studera hur vi kan karakterisera dataanalyser baserat på observerade resultat och hur vi kan dra kopplingar mellan analyser.