Generativní a analytické modely pro analýzu dat

Roger Peng 2019/04/29

Popis toho, jak se vytváří analýza dat, je téma, které mě velmi zajímá, a existuje několik různých způsobů, jak o něm uvažovat. Dva různé způsoby přemýšlení o analýze dat nazývám „generativní“ přístup a „analytický“ přístup. Dalším, neformálnějším způsobem, jak o těchto přístupech rád přemýšlím, je „biologický“ model a „lékařský“ model. Při pročítání literatury o procesu analýzy dat jsem si všiml, že mnozí se zřejmě zaměřují spíše na ten první než na ten druhý, a myslím, že to představuje příležitost pro novou a zajímavou práci.

Generativní model

Generativní přístup k uvažování o analýze dat se zaměřuje na proces, kterým analýza vzniká. Rozvíjení porozumění rozhodnutím, která jsou činěna při přechodu od kroku jedna ke kroku dvě ke kroku tři atd. nám může pomoci znovu vytvořit nebo rekonstruovat analýzu dat. Rekonstrukce sice nemusí být přesně cílem takto pojatého studia analýzy dat, ale lepší pochopení procesu může otevřít dveře s ohledem na jeho zlepšení.

Klíčovým rysem procesu analýzy dat je, že se obvykle odehrává v hlavě datového analytika, což znemožňuje jeho přímé pozorování. Měření lze provádět dotazováním analytiků na to, co si v daném okamžiku mysleli, což však může být zatíženo různými chybami měření, stejně jako u všech údajů, které závisí na vzpomínkách subjektu. V některých situacích jsou k dispozici dílčí informace, například pokud analytik sepisuje proces přemýšlení prostřednictvím řady zpráv nebo pokud je zapojen tým a existuje záznam komunikace o procesu. Z tohoto typu informací je možné získat přiměřený obraz o tom, „jak se věci dějí“, a popsat proces vytváření analýzy dat.

Tento model je užitečný pro pochopení „biologického procesu“, tj. základních mechanismů, jak se vytvářejí analýzy dat, někdy označované jako „statistické myšlení“. Není pochyb o tom, že tento proces je ze své podstaty zajímavý jak pro účely výuky, tak pro pochopení aplikované práce. Chybí zde však jedna klíčová složka, o které budu hovořit níže.

Analytický model

Druhý přístup k přemýšlení o analýze dat ignoruje základní procesy, které slouží k vytváření analýzy dat, a místo toho se zabývá pozorovatelnými výstupy analýzy. Takovými výstupy může být dokument ve formátu R markdown, zpráva ve formátu PDF nebo dokonce prezentace (Stephanie Hicks a já tomu říkáme analytický kontejner). Výhodou tohoto přístupu je, že analytické výstupy jsou skutečné a lze je přímo pozorovat. Samozřejmě to, co analytik vloží do reportu nebo slide decku, obvykle představuje jen zlomek toho, co by mohlo vzniknout v průběhu úplné analýzy dat. Stojí však za povšimnutí, že prvky umístěné do zprávy jsou kumulativním výsledkem všech rozhodnutí učiněných v průběhu analýzy dat.

Již mnohokrát jsem použil hudební teorii jako analogii pro analýzu dat, většinou proto, že… nic jiného neznám, ale také proto, že to opravdu funguje! Když posloucháme nebo zkoumáme hudební dílo, nemáme v podstatě žádné znalosti o tom, jak tato hudba vznikla. Nemůžeme už vést rozhovory s Mozartem nebo Beethovenem o tom, jak svou hudbu napsali. A přesto jsme stále schopni dělat několik důležitých věcí:

  • Analyzovat a teoretizovat. Můžeme analyzovat hudbu, kterou slyšíme (a její písemné ztvárnění, pokud je k dispozici), a hovořit o tom, jak se od sebe různé hudební skladby liší nebo mají společné rysy. Můžeme si vytvořit představu o tom, co běžně dělá daný skladatel nebo napříč mnoha skladateli, a zhodnotit, které výstupy jsou zdařilejší či méně zdařilé. Dokonce je možné vyvodit souvislosti mezi různými druhy hudby, které od sebe dělí celá staletí. Nic z toho nevyžaduje znalost základních procesů.
  • Poskytněte zpětnou vazbu. Když se studenti učí skládat hudbu, je nezbytnou součástí této výuky přehrávání hudby před ostatními. Posluchači pak mohou poskytnout zpětnou vazbu o tom, co se povedlo a co ne. Občas se někdo může zeptat: „Co sis myslel?“, ale většinou to není nutné. Pokud je něco opravdu rozbité, je někdy možné předepsat nějaké nápravné opatření (např. „udělej z toho akord C místo akordu D“).

Existují dokonce celé dva podcasty věnované analýze hudby – Stickic Notes a Switched on Pop – a zpravidla se v nich nedělají rozhovory se zúčastněnými umělci (u Sticky Notes by to bylo obzvlášť těžké). Naproti tomu podcast Song Exploder uplatňuje více „generativní přístup“ tím, že nechává umělce hovořit o tvůrčím procesu.

Tento analytický model analýzy dat jsem označil jako „lékařský“ přístup, protože v základním smyslu odráží problém, s nímž se potýká lékař. Když přijde pacient, je k dispozici soubor symptomů a pacientova vlastní zpráva/historie. Na základě těchto informací musí lékař předepsat postup (obvykle shromáždit více údajů). Často je málo podrobných znalostí o biologických procesech, které jsou základem nemoci, ale lékař může mít bohaté osobní zkušenosti a také literaturu klinických studií srovnávajících různé způsoby léčby, ze které může čerpat. V humánní medicíně je znalost biologických procesů zásadní pro navrhování nových intervencí, ale nemusí hrát tak velkou roli při předepisování konkrétní léčby.

Když vidím analýzu dat, jako učitel, recenzent nebo jen kolega na chodbě, je obvykle mým úkolem poskytnout včas zpětnou vazbu. V takových situacích obvykle není čas na rozsáhlé rozhovory o procesu vývoje analýzy, i když by to ve skutečnosti mohlo být užitečné. Spíše si musím udělat úsudek na základě pozorovaných výstupů a možná několika stručných doplňujících otázek. Pokud mohu poskytnout zpětnou vazbu, o které si myslím, že zlepší kvalitu analýzy, je to proto, že mám představu o tom, co dělá analýzu úspěšnou.

Chybějící složka

Stephanie Hicks a já jsme diskutovali o tom, jaké jsou prvky analýzy dat, stejně jako o tom, jaké mohou být zásady, kterými se řídí vývoj analýzy. V novém článku popisujeme a charakterizujeme úspěšnost analýzy dat na základě shody principů mezi analytikem a publikem. To je něco, čeho jsem se dotkl již dříve, jak na tomto blogu, tak v mém podcastu s Hilary Parkerovou, ale obecně spíše rukopisně. Vypracování formálnějšího modelu, jak jsme to se Stephanií udělali zde, bylo užitečné a přineslo některé další poznatky.

Pro generativní model i analytický model analýzy dat byla chybějící složkou jasná definice toho, co činí analýzu dat úspěšnou. Druhou stranou této mince je samozřejmě poznání, kdy analýza dat selhala. Analytický přístup je užitečný, protože nám umožňuje oddělit analýzu od analytika a kategorizovat analýzy podle jejich sledovaných vlastností. Tato kategorizace je však „neuspořádaná“, pokud nemáme nějaký pojem úspěchu. Bez definice úspěchu nejsme schopni analýzy formálně kritizovat a logicky vysvětlit své úvahy.

Generativní přístup je užitečný, protože odhaluje potenciální cíle intervence, zejména z hlediska výuky, s cílem zlepšit analýzu dat (stejně jako pochopení biologického procesu). Bez konkrétní definice úspěchu však nemáme cíl, o který bychom mohli usilovat, a nevíme, jak zasáhnout, abychom dosáhli skutečného zlepšení. Jinými slovy, neexistuje žádný výsledek, na kterém bychom mohli „trénovat náš model“ pro analýzu dat.

Výše jsem se zmínil o tom, že je kladen velký důraz na vývoj generativního modelu pro analýzu dat, ale poměrně málo se pracuje na vývoji analytického modelu. Přitom oba modely mají zásadní význam pro zlepšení kvality analýz dat a pro učení se z předchozí práce. Domnívám se, že to představuje důležitou příležitost pro statistiky, datové vědce a další, aby studovali, jak můžeme charakterizovat analýzy dat na základě pozorovaných výstupů a jak můžeme vyvodit souvislosti mezi analýzami.