Generatieve en Analytische Modellen voor Gegevensanalyse
Het beschrijven van hoe een gegevensanalyse tot stand komt, is een onderwerp dat mijn grote belangstelling heeft en er zijn een paar verschillende manieren om daarover na te denken. Twee verschillende manieren om over gegevensanalyse na te denken zijn wat ik noem de “generatieve” benadering en de “analytische” benadering. Een andere, meer informele, manier waarop ik graag over deze benaderingen denk is als het “biologische” model en het “arts”-model. Bij het doorlezen van de literatuur over het proces van gegevensanalyse is het mij opgevallen dat velen zich meer op het eerste dan op het tweede lijken te richten en ik denk dat dit een kans biedt voor nieuw en interessant werk.
Generatief model
De generatieve benadering van het denken over gegevensanalyse richt zich op het proces waardoor een analyse tot stand komt. Het ontwikkelen van inzicht in de beslissingen die worden genomen om van stap een naar stap twee naar stap drie, enz. te gaan, kan ons helpen een gegevensanalyse opnieuw te maken of te reconstrueren. Hoewel reconstructie misschien niet precies het doel is van het bestuderen van data-analyse op deze manier, kan een beter begrip van het proces deuren openen met betrekking tot het verbeteren van het proces.
Een belangrijk kenmerk van het data-analytische proces is dat het zich typisch afspeelt in het hoofd van de data-analist, waardoor het onmogelijk is het direct te observeren. Metingen kunnen worden verricht door de analisten te vragen wat zij op een bepaald moment dachten, maar dat kan onderhevig zijn aan een verscheidenheid van meetfouten, zoals bij alle gegevens die afhangen van de herinnering van een subject. In sommige situaties is gedeeltelijke informatie beschikbaar, bijvoorbeeld als de analist het denkproces opschrijft door middel van een reeks rapporten of als er een team bij betrokken is en er een verslag is van de communicatie over het proces. Uit dit soort informatie kan een redelijk beeld worden verkregen van “hoe de dingen gebeuren” en kan het proces voor het genereren van een gegevensanalyse worden beschreven.
Dit model is nuttig voor het begrijpen van het “biologische proces”, d.w.z. de onderliggende mechanismen voor hoe gegevensanalyses tot stand komen, soms aangeduid als “statistisch denken”. Het lijdt geen twijfel dat dit proces van inherent belang is, zowel voor onderwijsdoeleinden als voor het begrijpen van toegepast werk. Maar er ontbreekt een belangrijk ingrediënt, waarover ik hieronder meer zal zeggen.
Analytisch model
Een tweede benadering van het denken over gegevensanalyse negeert de onderliggende processen die dienen om de gegevensanalyse te genereren en kijkt in plaats daarvan naar de waarneembare outputs van de analyse. Dergelijke outputs kunnen een R markdown document zijn, een PDF rapport, of zelfs een slide deck (Stephanie Hicks en ik noemen dit de analytische container). Het voordeel van deze aanpak is dat de analytische output reëel is en direct kan worden waargenomen. Natuurlijk, wat een analist in een rapport of een slide deck zet, vertegenwoordigt meestal slechts een fractie van wat zou kunnen zijn geproduceerd in de loop van een volledige gegevensanalyse. Het is echter de moeite waard op te merken dat de elementen in het rapport het cumulatieve resultaat zijn van alle beslissingen die in de loop van een gegevensanalyse zijn genomen.
Ik heb al vaak muziektheorie gebruikt als analogie voor gegevensanalyse, vooral omdat… het alles is wat ik ken, maar ook omdat het echt werkt! Wanneer we naar een muziekstuk luisteren of het onderzoeken, weten we in wezen niet hoe die muziek tot stand is gekomen. We kunnen Mozart of Beethoven niet meer interviewen over hoe zij hun muziek hebben geschreven. En toch kunnen we nog een paar belangrijke dingen doen:
- Analyseren en Theoriseren. We kunnen de muziek die we horen analyseren (en de schriftelijke weergave ervan, indien beschikbaar) en praten over hoe verschillende muziekstukken van elkaar verschillen of gelijkenissen vertonen. We kunnen een gevoel ontwikkelen voor wat vaak wordt gedaan door een bepaalde componist, of door veel componisten, en evalueren welke resultaten meer succesvol of minder succesvol zijn. Het is zelfs mogelijk om verbanden te leggen tussen verschillende soorten muziek die eeuwen van elkaar verwijderd zijn. Niets van dit alles vereist kennis van de onderliggende processen.
- Geef Feedback. Wanneer studenten leren muziek te componeren, is een essentieel onderdeel van die training het spelen van de muziek voor anderen. Het publiek kan dan feedback geven over wat werkte en wat niet. Af en toe kan iemand vragen: “Wat dacht je wel niet?” maar meestal is dat niet nodig. Als iets echt kapot is, is het soms mogelijk om corrigerende maatregelen voor te schrijven (bijv. “maak hier een C-akkoord van in plaats van een D-akkoord”).
Er zijn zelfs twee hele podcasts gewijd aan het analyseren van muziek-Sticky Notes en Switched on Pop-en die interviewen over het algemeen niet de betrokken artiesten (dit zou bijzonder moeilijk zijn voor Sticky Notes). De Song Exploder podcast daarentegen kiest voor een meer “generatieve benadering” door de artiest te laten praten over het creatieve proces.
Ik heb dit analytische model voor data-analyse de “arts”-benadering genoemd, omdat het in wezen het probleem weerspiegelt waarmee een arts wordt geconfronteerd. Wanneer een patiënt binnenkomt, is er een reeks symptomen en het eigen verslag/de eigen geschiedenis van de patiënt. Op basis van die informatie moet de arts een actie voorschrijven (meestal om meer gegevens te verzamelen). Er is vaak weinig gedetailleerd inzicht in de biologische processen die aan een ziekte ten grondslag liggen, maar de arts kan putten uit een schat aan persoonlijke ervaring, alsmede uit een literatuur van klinische proeven waarin verschillende behandelingen worden vergeleken. In de menselijke geneeskunde is de kennis van biologische processen van cruciaal belang voor het ontwerpen van nieuwe interventies, maar speelt zij misschien niet zo’n grote rol bij het voorschrijven van specifieke behandelingen.
Wanneer ik een data-analyse zie, als docent, als peer reviewer, of gewoon als collega in de gang, is het meestal mijn taak om tijdig feedback te geven. In zulke situaties is er meestal geen tijd voor uitgebreide interviews over het ontwikkelingsproces van de analyse, ook al kan dat wel nuttig zijn. Ik moet eerder een oordeel vellen op basis van de waargenomen output en misschien wat korte vervolgvragen stellen. In de mate dat ik feedback kan geven waarvan ik denk dat het de kwaliteit van de analyse zal verbeteren, is dat omdat ik een gevoel heb voor wat een succesvolle analyse maakt.
The Missing Ingredient
Stephanie Hicks en ik hebben besproken wat de elementen van een data-analyse zijn en wat de principes zouden kunnen zijn die de ontwikkeling van een analyse sturen. In een nieuw artikel beschrijven en karakteriseren we het succes van een data-analyse, gebaseerd op een afstemming van principes tussen de analist en het publiek. Dit is iets wat ik al eerder heb aangestipt, zowel in deze blog als in mijn podcast met Hilary Parker, maar over het algemeen op een meer handzame manier. Het ontwikkelen van een meer formeel model, zoals Stephanie en ik hier hebben gedaan, is nuttig geweest en heeft een aantal aanvullende inzichten opgeleverd.
Voor zowel het generatieve model als het analytische model van data-analyse was het ontbrekende ingrediënt een duidelijke definitie van wat een data-analyse succesvol maakte. De andere kant van die medaille is natuurlijk te weten wanneer een gegevensanalyse is mislukt. De analytische benadering is nuttig omdat zij ons in staat stelt de analyse te scheiden van de analist en de analyses te categoriseren op grond van hun waargenomen kenmerken. Maar de categorisering is “ongeordend” tenzij we een notie van succes hebben. Zonder een definitie van succes zijn we niet in staat analyses formeel te bekritiseren en onze redenering op een logische manier uit te leggen.
De generatieve benadering is nuttig omdat zij potentiële doelen voor interventie aan het licht brengt, vooral vanuit een onderwijsperspectief, om de gegevensanalyse te verbeteren (net als het begrijpen van een biologisch proces). Zonder een concrete definitie van succes hebben we echter geen doel om naar te streven en weten we niet hoe we moeten ingrijpen om echte verbetering tot stand te brengen. Met andere woorden, er is geen resultaat waarop wij ons model voor data-analyse kunnen “trainen”.
Ik zei hierboven dat er veel aandacht is voor de ontwikkeling van het generatieve model voor data-analyse, maar betrekkelijk weinig werk voor de ontwikkeling van het analytische model. Toch zijn beide modellen van fundamenteel belang om de kwaliteit van gegevensanalyses te verbeteren en van eerder werk te leren. Ik denk dat dit een belangrijke kans biedt voor statistici, datawetenschappers en anderen om te bestuderen hoe we data-analyses kunnen karakteriseren op basis van waargenomen outputs en hoe we verbanden kunnen leggen tussen analyses.