Generative og analytiske modeller til dataanalyse
Beskrivelse af, hvordan en dataanalyse skabes, er et emne af stor interesse for mig, og der er et par forskellige måder at tænke på det på. To forskellige måder at tænke på dataanalyse på er det, jeg kalder den “generative” tilgang og den “analytiske” tilgang. En anden, mere uformel måde, som jeg kan lide at tænke på disse tilgange på, er som den “biologiske” model og den “lægelige” model. Når jeg læser litteraturen om processen for dataanalyse, har jeg bemærket, at mange synes at fokusere på førstnævnte snarere end på sidstnævnte, og jeg mener, at det giver mulighed for nyt og interessant arbejde.
Generativ model
Den generative tilgang til at tænke på dataanalyse fokuserer på den proces, hvormed en analyse skabes. Hvis vi udvikler en forståelse af de beslutninger, der træffes for at gå fra trin et til trin to til trin tre osv. kan det hjælpe os med at genskabe eller rekonstruere en dataanalyse. Selv om rekonstruktion måske ikke ligefrem er målet med at studere dataanalyse på denne måde, kan en bedre forståelse af processen åbne døre med hensyn til at forbedre processen.
Et centralt træk ved den dataanalytiske proces er, at den typisk foregår inde i dataanalytikerens hoved, hvilket gør det umuligt at observere den direkte. Der kan foretages målinger ved at spørge analytikerne, hvad de tænkte på et givet tidspunkt, men det kan være genstand for en række målefejl, som det er tilfældet med alle data, der afhænger af en persons erindring. I nogle situationer er der delvise oplysninger til rådighed, f.eks. hvis analytikeren nedskriver tankeprocessen gennem en række rapporter, eller hvis et team er involveret, og der er en optegnelse af kommunikationen om processen. Ud fra denne type oplysninger er det muligt at samle et rimeligt billede af, “hvordan tingene foregår” og beskrive processen for generering af en dataanalyse.
Denne model er nyttig til at forstå den “biologiske proces”, dvs. de underliggende mekanismer for, hvordan dataanalyser skabes, undertiden omtalt som “statistisk tænkning”. Der er ingen tvivl om, at denne proces har en iboende interesse for både undervisningsformål og for at forstå anvendt arbejde. Men der er en nøgleingrediens, der mangler, og den vil jeg tale mere om nedenfor.
Analytisk model
En anden tilgang til at tænke på dataanalyse ignorerer de underliggende processer, der tjener til at skabe dataanalysen, og ser i stedet på de observerbare output af analysen. Sådanne output kan være et R-markdown-dokument, en PDF-rapport eller endog et slide deck (Stephanie Hicks og jeg betegner dette som den analytiske container). Fordelen ved denne fremgangsmåde er, at de analytiske outputs er reelle og kan observeres direkte. Selvfølgelig repræsenterer det, som en analytiker lægger ind i en rapport eller et slide deck, typisk kun en brøkdel af det, der kunne være blevet produceret i løbet af en fuld dataanalyse. Det er dog værd at bemærke, at de elementer, der placeres i rapporten, er det kumulative resultat af alle de beslutninger, der træffes i løbet af en dataanalyse.
Jeg har brugt musikteori som en analogi for dataanalyse mange gange før, mest fordi … det er alt, hvad jeg kender, men også fordi det virkelig virker! Når vi lytter til eller undersøger et stykke musik, har vi stort set ingen viden om, hvordan den musik er opstået. Vi kan ikke længere interviewe Mozart eller Beethoven om, hvordan de har skrevet deres musik. Og alligevel kan vi stadig gøre et par vigtige ting:
- Analysere og teoretisere. Vi kan analysere den musik, vi hører (og deres skriftlige gengivelse, hvis den er tilgængelig), og tale om, hvordan forskellige musikstykker adskiller sig fra hinanden eller har ligheder. Vi kan udvikle en fornemmelse for, hvad der er almindeligt gjort af en given komponist eller på tværs af mange komponister, og vurdere, hvilke output der er mere eller mindre vellykkede. Det er endda muligt at skabe forbindelser mellem forskellige slags musik, der er adskilt af århundreder. Intet af dette kræver kendskab til de underliggende processer.
- Giv feedback. Når elever lærer at komponere musik, er en væsentlig del af denne træning at spille musikken foran andre. Publikum kan så give feedback om, hvad der virkede, og hvad der ikke virkede. Indimellem er der måske nogen, der spørger “Hvad tænkte du på?”, men for det meste er det ikke nødvendigt. Hvis noget virkelig er gået i stykker, er det nogle gange muligt at foreskrive nogle korrigerende handlinger (f.eks. “lav det her til en C-akkord i stedet for en D-akkord”).
Der findes endda to hele podcasts, der er dedikeret til at analysere musik – Sticky Notes og Switched on Pop – og de interviewer som regel ikke de involverede kunstnere (det ville være særligt svært for Sticky Notes). I modsætning hertil har podcasten Song Exploder en mere “generativ tilgang” ved at lade kunstneren tale om den kreative proces.
Jeg omtalte denne analysemodel for dataanalyse som “læge”-tilgangen, fordi den i en grundlæggende forstand afspejler det problem, som en læge står over for. Når en patient ankommer, er der et sæt symptomer og patientens egen rapport/historie. På grundlag af disse oplysninger skal lægen foreskrive en fremgangsmåde (som regel at indsamle flere data). Der er ofte ikke megen detaljeret forståelse af de biologiske processer, der ligger til grund for en sygdom, men lægen kan have et væld af personlige erfaringer samt en litteratur med kliniske forsøg, der sammenligner forskellige behandlinger, som han kan trække på. Inden for humanmedicin er viden om biologiske processer afgørende for udformningen af nye interventioner, men spiller måske ikke en så stor rolle ved ordination af specifikke behandlinger.
Når jeg ser en dataanalyse, er det som lærer, fagfællebedømmer eller blot en kollega nede ad gangen normalt min opgave at give feedback i tide. I sådanne situationer er der normalt ikke tid til udførlige interviews om udviklingsprocessen af analysen, selv om det faktisk kan være nyttigt. Jeg skal snarere foretage en vurdering på baggrund af de observerede output og måske nogle korte opfølgende spørgsmål. I det omfang jeg kan give feedback, som jeg mener vil forbedre analysens kvalitet, er det fordi jeg har en fornemmelse af, hvad der gør en analyse vellykket.
Den manglende ingrediens
Stephanie Hicks og jeg har diskuteret, hvad der er elementerne i en dataanalyse, samt hvad der kunne være de principper, der styrer udviklingen af en analyse. I en ny artikel beskriver og karakteriserer vi succesen af en dataanalyse, baseret på et match af principper mellem analytikeren og målgruppen. Dette er noget, jeg tidligere har berørt, både i denne blog og i min podcast med Hilary Parker, men på en generelt mere håndfast måde. Udviklingen af en mere formel model, som Stephanie og jeg har gjort her, har været nyttig og har givet nogle yderligere indsigter.
For både den generative model og den analytiske model af dataanalyse var den manglende ingrediens en klar definition af, hvad der gjorde en dataanalyse vellykket. Den anden side af denne mønt er naturligvis at vide, hvornår en dataanalyse er mislykkedes. Den analytiske tilgang er nyttig, fordi den giver os mulighed for at adskille analysen fra analytikeren og kategorisere analyserne i henhold til deres observerede karakteristika. Men kategoriseringen er “uordnet”, medmindre vi har et eller andet begreb om succes. Uden en definition af succes er vi ikke i stand til formelt at kritisere analyser og forklare vores ræsonnementer på en logisk måde.
Den generative tilgang er nyttig, fordi den afslører potentielle mål for intervention, især ud fra et undervisningsperspektiv, med henblik på at forbedre dataanalysen (ligesom forståelsen af en biologisk proces). Men uden en konkret definition af succes har vi ikke et mål at stræbe efter, og vi ved ikke, hvordan vi skal gribe ind for at opnå en reel forbedring. Med andre ord er der ikke noget resultat, som vi kan “træne vores model” for dataanalyse.
Jeg nævnte ovenfor, at der er meget fokus på at udvikle den generative model for dataanalyse, men forholdsvis lidt arbejde med at udvikle den analytiske model. Alligevel er begge modeller grundlæggende for at forbedre kvaliteten af dataanalyser og lære af tidligere arbejde. Jeg mener, at dette udgør en vigtig mulighed for statistikere, dataloger og andre til at undersøge, hvordan vi kan karakterisere dataanalyser baseret på observerede output, og hvordan vi kan skabe forbindelser mellem analyser.