Generatív és analitikus modellek az adatelemzéshez

Roger Peng 2019/04/29

Az adatelemzés létrehozásának leírása számomra nagyon érdekes téma, és többféleképpen lehet gondolkodni róla. Az adatelemzésről való gondolkodás két különböző módja az, amit én “generatív” megközelítésnek és “analitikus” megközelítésnek nevezek. Egy másik, informálisabb mód, ahogyan szeretek gondolkodni ezekről a megközelítésekről, az a “biológiai” modell és az “orvosi” modell. Az adatelemzés folyamatáról szóló szakirodalmat olvasva észrevettem, hogy sokan inkább az előbbire, mint az utóbbira összpontosítanak, és úgy gondolom, hogy ez lehetőséget nyújt új és érdekes munkára.

Generatív modell

Az adatelemzésről való gondolkodás generatív megközelítése arra a folyamatra összpontosít, amellyel az elemzés létrejön. Az első lépésről a második lépésről a harmadik lépésre stb. való áttéréshez hozott döntések megértésének fejlesztése segíthet az adatelemzés újrateremtésében vagy rekonstruálásában. Bár az adatelemzés ilyen módon történő tanulmányozásának nem éppen a rekonstrukció a célja, a folyamat jobb megértése ajtókat nyithat meg a folyamat javítása tekintetében.

Az adatelemzési folyamat egyik legfontosabb jellemzője, hogy jellemzően az adatelemző fejében zajlik, ami lehetetlenné teszi a közvetlen megfigyelést. Méréseket lehet végezni úgy, hogy megkérdezzük az elemzőket, hogy mire gondoltak egy adott időpontban, de ez számos mérési hibának lehet kitéve, mint minden olyan adat, amely az alany visszaemlékezésétől függ. Bizonyos helyzetekben részleges információk állnak rendelkezésre, például ha az elemző egy sor jelentésen keresztül leírja a gondolkodási folyamatot, vagy ha egy csapat vesz részt benne, és a folyamatról szóló kommunikációról van feljegyzés. Az ilyen típusú információkból ésszerű képet lehet alkotni arról, hogy “hogyan történnek a dolgok”, és le lehet írni az adatelemzés létrehozásának folyamatát.

Ez a modell hasznos a “biológiai folyamat” megértéséhez, azaz az adatelemzések létrehozásának mögöttes mechanizmusaihoz, amelyeket néha “statisztikai gondolkodásnak” neveznek. Kétségtelen, hogy ez a folyamat eredendően érdekes mind oktatási célokra, mind az alkalmazott munka megértéséhez. Van azonban egy kulcsfontosságú összetevő, amely hiányzik, és erről alább bővebben fogok beszélni.

Analitikai modell

Az adatelemzésről való gondolkodás második megközelítése figyelmen kívül hagyja az adatelemzés létrehozására szolgáló mögöttes folyamatokat, és ehelyett az elemzés megfigyelhető kimeneteit vizsgálja. Ilyen kimenet lehet egy R markdown dokumentum, egy PDF jelentés vagy akár egy diakép (Stephanie Hicks és én ezt nevezzük analitikai konténernek). Ennek a megközelítésnek az az előnye, hogy az analitikai kimenetek valósak és közvetlenül megfigyelhetők. Természetesen az, amit egy elemző egy jelentésbe vagy diaképbe tesz, jellemzően csak egy töredékét képviseli annak, amit egy teljes adatelemzés során előállíthatott volna. Érdemes azonban megjegyezni, hogy a jelentésben elhelyezett elemek az adatelemzés során hozott összes döntés halmozott eredménye.

A zeneelméletet már sokszor használtam az adatelemzés analógiájaként, főleg azért, mert… csak ezt tudom, de azért is, mert tényleg működik! Amikor meghallgatunk vagy megvizsgálunk egy zeneművet, alapvetően nincs tudomásunk arról, hogy az a zene hogyan jött létre. Mozartot vagy Beethovent már nem tudjuk meginterjúvolni arról, hogyan írták a zenéjüket. Mégis képesek vagyunk néhány fontos dologra:

  • Elemezni és elméletet alkotni. Elemezhetjük a hallott zenéket (és azok írásos ábrázolását, ha van ilyen), és beszélhetünk arról, hogy a különböző zeneművek miben különböznek egymástól, vagy miben hasonlítanak. Kialakíthatunk egy érzéket arra vonatkozóan, hogy egy adott zeneszerző vagy több zeneszerző által közösen csinálták, és értékelhetjük, hogy mely kimenetek sikeresebbek vagy kevésbé sikeresek. Még az is lehetséges, hogy évszázadok által elválasztott különböző típusú zenék között is kapcsolatot teremtsünk. Mindehhez nem szükséges a mögöttes folyamatok ismerete.
  • Adj visszajelzést. Amikor a diákok zeneszerzést tanulnak, a képzés lényeges része, hogy a zenét mások előtt játsszák el. A közönség ilyenkor visszajelzést adhat arról, hogy mi sikerült és mi nem. Alkalmanként valaki megkérdezheti, hogy “Mire gondoltál?”, de a legtöbbször erre nincs szükség. Ha valami tényleg elromlott, akkor néha lehet valamilyen javító intézkedést előírni (pl. “csináld ezt C akkorddal D akkord helyett”).

Még két egész podcast is foglalkozik a zene elemzésével – a Sticky Notes és a Switched on Pop -, és általában nem készítenek interjút az érintett művészekkel (ez a Sticky Notes esetében különösen nehéz lenne). Ezzel szemben a Song Exploder podcast “generatívabb megközelítést” alkalmaz azáltal, hogy a művész beszél a kreatív folyamatról.

Az adatelemzésnek ezt az elemzési modelljét “orvosi” megközelítésnek neveztem, mert alapvető értelemben azt a problémát tükrözi, amellyel egy orvos szembesül. Amikor egy beteg érkezik, van egy sor tünet és a beteg saját beszámolója/története. Ezen információk alapján az orvosnak fel kell írnia egy cselekvési tervet (általában további adatok gyűjtése). A betegség hátterében álló biológiai folyamatok gyakran kevéssé ismertek, de az orvosnak rengeteg személyes tapasztalata lehet, valamint a különböző kezeléseket összehasonlító klinikai kísérletek irodalma, amelyből meríthet. A humán gyógyászatban a biológiai folyamatok ismerete kritikus fontosságú az új beavatkozások megtervezéséhez, de nem biztos, hogy olyan nagy szerepet játszik a konkrét kezelések felírásában.

Amikor látok egy adatelemzést, tanárként, szakértőként vagy csak egy kollégaként a folyosó végén, általában az a feladatom, hogy időben visszajelzést adjak. Ilyen helyzetekben általában nincs idő kiterjedt interjúkra az elemzés fejlesztési folyamatáról, még akkor sem, ha az valójában hasznos lehet. Inkább a megfigyelt eredmények és esetleg néhány rövid utókérdés alapján kell ítéletet alkotnom. Amennyiben tudok olyan visszajelzést adni, amely szerintem javítja az elemzés minőségét, az azért van, mert van érzékem ahhoz, hogy mitől lesz sikeres az elemzés.

A hiányzó összetevő

Stephanie Hicks és én megvitattuk, hogy mik az adatelemzés elemei, valamint hogy mik lehetnek azok az elvek, amelyek az elemzés kidolgozását irányítják. Egy új tanulmányban leírjuk és jellemezzük egy adatelemzés sikerét, amely az elemző és a célközönség közötti elvek egyezésén alapul. Ezt a témát már korábban is érintettem, mind ebben a blogban, mind a Hilary Parkerrel közös podcastomban, de általában kézzelfoghatóbb módon. Egy formálisabb modell kidolgozása, ahogyan Stephanie és én itt tettük, hasznos volt, és további betekintést nyújtott.

Mind a generatív modell, mind az adatelemzés analitikus modellje esetében a hiányzó összetevő annak egyértelmű meghatározása volt, hogy mitől lesz sikeres egy adatelemzés. Az érem másik oldala természetesen az, hogy tudjuk, mikor bukott meg egy adatelemzés. Az analitikus megközelítés azért hasznos, mert lehetővé teszi az elemzés és az elemző szétválasztását, és az elemzések kategorizálását a megfigyelt jellemzők szerint. A kategorizálás azonban “rendezetlen”, hacsak nincs valamilyen fogalmunk a sikerről. A siker definíciója nélkül nem tudjuk formálisan kritizálni az elemzéseket, és logikusan megmagyarázni érvelésünket.

A generatív megközelítés azért hasznos, mert feltárja a beavatkozás lehetséges célpontjait, különösen a tanítás szempontjából, az adatelemzés javítása érdekében (akárcsak egy biológiai folyamat megértése). A siker konkrét definíciója nélkül azonban nincs cél, amire törekedhetnénk, és nem tudjuk, hogyan avatkozzunk be a valódi javulás érdekében. Más szóval, nincs olyan eredmény, amelyre “betaníthatnánk a modellünket” az adatelemzéshez.

Fentebb említettem, hogy nagy hangsúlyt fektetnek az adatelemzés generatív modelljének fejlesztésére, de viszonylag kevés munkát végeznek az analitikus modell fejlesztésével. Pedig mindkét modell alapvető fontosságú az adatelemzések minőségének javításához és a korábbi munkából való tanuláshoz. Úgy gondolom, ez fontos lehetőséget jelent a statisztikusok, adattudósok és mások számára annak tanulmányozására, hogy hogyan jellemezhetjük az adatelemzéseket a megfigyelt kimenetek alapján, és hogyan vonhatunk le összefüggéseket az elemzések között.