Generative and Analytical Models for Data Analysis

Roger Peng 2019/04/29

Kuvaus siitä, miten data-analyysi luodaan, on aihe, joka kiinnostaa minua kovasti, ja on olemassa muutama eri tapa ajatella sitä. Kaksi erilaista tapaa ajatella data-analyysia ovat niin sanottu ”generatiivinen” lähestymistapa ja ”analyyttinen” lähestymistapa. Toinen, epävirallisempi tapa, jolla haluan ajatella näitä lähestymistapoja, on ”biologinen” malli ja ”lääkärin” malli. Kun luen läpi data-analyysin prosessia käsittelevää kirjallisuutta, olen huomannut, että monet näyttävät keskittyvän pikemminkin edelliseen kuin jälkimmäiseen, ja mielestäni tämä tarjoaa mahdollisuuden uuteen ja mielenkiintoiseen työhön.

Generatiivinen malli

Generatiivinen lähestymistapa data-analyysin ajatteluun keskittyy prosessiin, jonka avulla analyysi luodaan. Ymmärryksen kehittäminen päätöksistä, joita tehdään siirryttäessä vaiheesta yksi vaiheeseen kaksi vaiheeseen kolme jne. voi auttaa meitä luomaan data-analyysin uudelleen tai rekonstruoimaan sen. Vaikka rekonstruointi ei ehkä olekaan varsinaisesti data-analyysin tutkimisen tavoite tällä tavoin, prosessin parempi ymmärtäminen voi avata ovia prosessin parantamiseksi.

Data-analyysiprosessin keskeinen piirre on se, että se tapahtuu tyypillisesti data-analyytikon pään sisällä, minkä vuoksi sitä on mahdotonta tarkkailla suoraan. Mittauksia voidaan tehdä kysymällä analyytikoilta, mitä he ajattelivat tiettynä ajankohtana, mutta siihen voi liittyä monenlaisia mittausvirheitä, kuten mihin tahansa tietoon, joka on riippuvainen koehenkilön muistamisesta. Joissakin tilanteissa on saatavissa osittaista tietoa, esimerkiksi jos analyytikko kirjoittaa ajatteluprosessin muistiin useiden raporttien avulla tai jos mukana on tiimi ja prosessia koskeva viestintä on kirjattu. Tämäntyyppisestä tiedosta on mahdollista koota kohtuullinen kuva siitä, ”miten asiat tapahtuvat”, ja kuvata data-analyysin tuottamisprosessi.

Tämä malli on hyödyllinen, kun halutaan ymmärtää ”biologista prosessia”, eli taustalla olevia mekanismeja sille, miten data-analyysejä luodaan, ja tähän malliin viitataan toisinaan nimellä ”tilastollinen ajattelu”. Ei ole epäilystäkään siitä, että tämä prosessi on luonnostaan kiinnostava sekä opetustarkoituksiin että sovelletun työn ymmärtämiseksi. Yksi keskeinen ainesosa kuitenkin puuttuu, ja puhun siitä lisää jäljempänä.

Analyyttinen malli

Toinen lähestymistapa data-analyysin ajatteluun jättää huomiotta taustalla olevat prosessit, joiden avulla data-analyysi luodaan, ja sen sijaan tarkastellaan analyysin havaittavia tuotoksia. Tällaisia tuotoksia voivat olla R-markdown-dokumentti, PDF-raportti tai jopa diaesitys (Stephanie Hicks ja minä kutsumme tätä analyyttiseksi säiliöksi). Tämän lähestymistavan etuna on, että analyyttiset tuotokset ovat todellisia ja suoraan havaittavissa. Tietenkin se, mitä analyytikko laittaa raporttiin tai diaesitykseen, edustaa yleensä vain murto-osaa siitä, mitä olisi voitu tuottaa täydellisen data-analyysin aikana. On kuitenkin syytä huomata, että raporttiin sijoitetut elementit ovat kaikkien data-analyysin aikana tehtyjen päätösten kumulatiivinen tulos.

Olen käyttänyt musiikkiteoriaa data-analyysin analogiana monta kertaa aiemmin, lähinnä siksi, että… en osaa muuta, mutta myös siksi, että se todella toimii! Kun kuuntelemme tai tutkimme musiikkikappaletta, meillä ei ole periaatteessa mitään tietoa siitä, miten tuo musiikki on syntynyt. Emme voi enää haastatella Mozartia tai Beethovenia siitä, miten he kirjoittivat musiikkinsa. Silti voimme silti tehdä muutamia tärkeitä asioita:

  • Analysoida ja teoretisoida. Voimme analysoida kuulemaamme musiikkia (ja niiden kirjallista esitystä, jos sellainen on saatavilla) ja puhua siitä, miten eri musiikkikappaleet eroavat toisistaan tai ovat samankaltaisia. Voimme kehittää käsityksen siitä, mitä tietty säveltäjä tai useat säveltäjät yleisesti tekevät, ja arvioida, mitkä tuotokset ovat onnistuneempia tai vähemmän onnistuneita. On jopa mahdollista luoda yhteyksiä eri musiikkilajien välille, joita erottavat vuosisadat. Mikään näistä ei edellytä taustalla olevien prosessien tuntemusta.
  • Anna palautetta. Kun oppilaat opettelevat säveltämään musiikkia, olennainen osa tätä harjoittelua on musiikin soittaminen muiden edessä. Yleisö voi sitten antaa palautetta siitä, mikä toimi ja mikä ei. Toisinaan joku saattaa kysyä ”Mitä ajattelit?”, mutta useimmiten se ei ole tarpeen. Jos jokin on todella rikki, on joskus mahdollista määrätä jokin korjaustoimenpide (esim. ”tee tästä C-sointu D-soinnun sijaan”).

On jopa kaksi kokonaista podcastia, jotka on omistettu musiikin analysoinnille – Sticky Notes ja Switched on Pop – ja niissä ei yleensä haastatella mukana olevia artisteja (tämä olisi erityisen vaikeaa Sticky Notesille). Sitä vastoin Song Exploder -podcastissa käytetään ”generatiivisempaa lähestymistapaa”, jossa taiteilijan annetaan puhua luovasta prosessista.

Viittasin tähän data-analyysin analyyttiseen malliin ”lääkärilähestymistapana”, koska se peilaa perusluonteeltaan ongelmaa, jonka lääkäri kohtaa. Kun potilas saapuu, on olemassa joukko oireita ja potilaan oma kertomus/historia. Näiden tietojen perusteella lääkärin on määrättävä toimintatapa (yleensä lisätietojen kerääminen). Sairauden taustalla olevista biologisista prosesseista on usein vain vähän yksityiskohtaista tietoa, mutta lääkärillä voi olla runsaasti omakohtaista kokemusta sekä erilaisia hoitoja vertailevia kliinisiä tutkimuksia, joista hän voi ammentaa tietoa. Ihmislääketieteessä biologisten prosessien tuntemus on ratkaisevan tärkeää uusien interventioiden suunnittelussa, mutta sillä ei välttämättä ole yhtä suurta merkitystä tiettyjen hoitojen määräämisessä.

Kun näen data-analyysin, opettajana, vertaisarvioijana tai vain kollegana käytävän päässä, tehtäväni on yleensä antaa palautetta ajoissa. Tällaisissa tilanteissa ei yleensä ole aikaa laajoihin haastatteluihin analyysin kehittämisprosessista, vaikka siitä voisi itse asiassa olla hyötyä. Pikemminkin minun on tehtävä arvio havaittujen tuotosten ja ehkä joidenkin lyhyiden jatkokysymysten perusteella. Siinä määrin kuin voin antaa palautetta, jonka uskon parantavan analyysin laatua, se johtuu siitä, että minulla on käsitys siitä, mikä tekee analyysistä onnistuneen.

Puuttuva ainesosa

Stephanie Hicksin kanssa olemme keskustelleet siitä, mitkä ovat aineistoanalyysin osatekijät sekä siitä, mitkä saattaisivat olla analyysin kehittämistä ohjaavia periaatteita. Uudessa artikkelissa kuvaamme ja luonnehdimme data-analyysin onnistumista, joka perustuu analyytikon ja yleisön välisten periaatteiden yhteensovittamiseen. Olen käsitellyt tätä aiemmin sekä tässä blogissa että Hilary Parkerin kanssa pitämässäni podcastissa, mutta yleisesti ottaen enemmän käsin koskien. Muodollisemman mallin kehittäminen, kuten Stephanie ja minä olemme tässä tehneet, on ollut hyödyllistä ja antanut joitakin lisäymmärryksiä.

Sekä generatiivisen mallin että analyyttisen data-analyysin mallin osalta puuttuva ainesosa oli selkeä määritelmä siitä, mikä teki data-analyysistä onnistuneen. Kolikon toinen puoli on tietysti se, että tiedetään, milloin data-analyysi on epäonnistunut. Analyyttinen lähestymistapa on hyödyllinen, koska sen avulla voidaan erottaa analyysi analyytikosta ja luokitella analyysit niiden havaittujen piirteiden mukaan. Luokittelu on kuitenkin ”järjestämätöntä”, ellei meillä ole jotain käsitystä onnistumisesta. Ilman onnistumisen määritelmää emme pysty muodollisesti kritisoimaan analyysejä ja selittämään päättelyämme loogisesti.

Generatiivinen lähestymistapa on hyödyllinen, koska se paljastaa potentiaalisia toimenpidekohteita erityisesti opetuksen näkökulmasta data-analyysin parantamiseksi (aivan kuten biologisen prosessin ymmärtämiseksi). Ilman konkreettista onnistumisen määritelmää meillä ei kuitenkaan ole tavoitetta, johon pyrkiä, emmekä tiedä, miten puuttua asiaan aidon parannuksen aikaansaamiseksi. Toisin sanoen ei ole lopputulosta, jonka perusteella voisimme ”kouluttaa malliamme” data-analyysia varten.

Aiemmin mainitsin, että data-analyysin generatiivisen mallin kehittämiseen keskitytään paljon, mutta analyyttisen mallin kehittämistä tehdään verrattain vähän. Kuitenkin molemmat mallit ovat perustavanlaatuisia data-analyysien laadun parantamisessa ja aiemmasta työstä oppimisessa. Mielestäni tämä tarjoaa tilastotieteilijöille, datatieteilijöille ja muille tärkeän tilaisuuden tutkia, miten voimme luonnehtia data-analyysejä havaittujen tuotosten perusteella ja miten voimme luoda yhteyksiä analyysien välille.