Modeluri generative și analitice pentru analiza datelor

Roger Peng 2019/04/29

Descrierea modului în care este creată o analiză de date este un subiect de mare interes pentru mine și există câteva moduri diferite de a gândi despre aceasta. Două moduri diferite de a gândi despre analiza datelor sunt ceea ce eu numesc abordarea „generativă” și abordarea „analitică”. Un alt mod, mai informal, în care îmi place să mă gândesc la aceste abordări este ca fiind modelul „biologic” și modelul „medicului”. Citind literatura de specialitate despre procesul de analiză a datelor, am observat că mulți par să se concentreze mai degrabă pe prima decât pe cea de-a doua și cred că acest lucru reprezintă o oportunitate pentru o muncă nouă și interesantă.

Modelul generativ

Abordarea generativă de a gândi despre analiza datelor se concentrează pe procesul prin care este creată o analiză. Dezvoltarea unei înțelegeri a deciziilor care sunt luate pentru a trece de la pasul unu la pasul doi la pasul trei, etc. ne poate ajuta să recreăm sau să reconstruim o analiză de date. Deși reconstrucția poate să nu fie exact scopul studierii analizei de date în acest mod, o mai bună înțelegere a procesului poate deschide uși în ceea ce privește îmbunătățirea procesului.

O caracteristică cheie a procesului de analiză a datelor este că acesta are loc de obicei în interiorul capului analistului de date, ceea ce îl face imposibil de observat direct. Măsurătorile pot fi luate prin a întreba analiștii la ce se gândeau la un moment dat, dar acest lucru poate fi supus unei varietăți de erori de măsurare, ca în cazul oricăror date care depind de memoria unui subiect. În unele situații, sunt disponibile informații parțiale, de exemplu, dacă analistul consemnează procesul de gândire printr-o serie de rapoarte sau dacă este implicată o echipă și există o înregistrare a comunicării cu privire la acest proces. Din acest tip de informații, este posibil să se adune o imagine rezonabilă despre „cum se întâmplă lucrurile” și să se descrie procesul de generare a unei analize de date.

Acest model este util pentru a înțelege „procesul biologic”, adică mecanismele care stau la baza modului în care sunt create analizele de date, denumite uneori „gândire statistică”. Nu există nicio îndoială că acest proces are un interes inerent atât pentru scopuri didactice, cât și pentru înțelegerea activității aplicate. Dar există un ingredient cheie care lipsește și despre care voi vorbi mai mult mai jos.

Model analitic

O a doua abordare a gândirii despre analiza datelor ignoră procesele subiacente care servesc la generarea analizei de date și, în schimb, se uită la rezultatele observabile ale analizei. Astfel de ieșiri pot fi un document R markdown, un raport în format PDF sau chiar un slide deck (Stephanie Hicks și cu mine ne referim la acesta ca fiind containerul analitic). Avantajul acestei abordări este că rezultatele analitice sunt reale și pot fi observate direct. Desigur, ceea ce pune un analist într-un raport sau într-un slide deck reprezintă, de obicei, doar o fracțiune din ceea ce ar fi putut fi produs în cursul unei analize complete a datelor. Cu toate acestea, este demn de remarcat faptul că elementele plasate în raport sunt rezultatul cumulativ al tuturor deciziilor luate pe parcursul unei analize de date.

Am folosit teoria muzicii ca analogie pentru analiza datelor de multe ori înainte, în principal pentru că… este tot ce știu, dar și pentru că funcționează cu adevărat! Când ascultăm sau examinăm o piesă muzicală, nu avem în esență nicio cunoștință despre cum a apărut acea muzică. Nu-i mai putem intervieva pe Mozart sau Beethoven despre cum și-au compus muzica. Și totuși, suntem totuși capabili să facem câteva lucruri importante:

  • Analizați și teoretizați. Putem să analizăm muzica pe care o ascultăm (și reprezentarea lor scrisă, dacă este disponibilă) și să vorbim despre modul în care diferite piese muzicale diferă unele de altele sau au asemănări. Am putea să ne facem o idee despre ceea ce se face în mod obișnuit de către un anumit compozitor sau de către mai mulți compozitori și să evaluăm ce rezultate sunt mai reușite sau mai puțin reușite. Este posibil chiar să se stabilească legături între diferite tipuri de muzică separate de secole. Nimic din toate acestea nu necesită cunoașterea proceselor de bază.
  • Oferiți feedback. Atunci când elevii învață să compună muzică, o parte esențială a acestei pregătiri este interpretarea muzicii în fața altora. Publicul poate apoi să dea feedback despre ce a funcționat și ce nu a funcționat. Ocazional, cineva ar putea întreba „La ce te-ai gândit?”, dar, în cea mai mare parte, acest lucru nu este necesar. Dacă ceva este cu adevărat stricat, uneori este posibil să se prescrie o acțiune corectivă (de exemplu, „fă un acord de Do în loc de un acord de Re”).

Există chiar două podcasturi întregi dedicate analizei muzicii – Sticky Notes și Switched on Pop – și, în general, acestea nu intervievează artiștii implicați (acest lucru ar fi deosebit de greu pentru Sticky Notes). În schimb, podcastul Song Exploder adoptă o abordare mai „generativă”, punând artistul să vorbească despre procesul de creație.

Am denumit acest model analitic de analiză a datelor abordarea „medicului”, deoarece reflectă, într-un sens elementar, problema cu care se confruntă un medic. Când sosește un pacient, există un set de simptome și propriul raport/istorie al pacientului. Pe baza acestor informații, medicul trebuie să prescrie un curs de acțiune (de obicei, să colecteze mai multe date). Adesea, există o înțelegere puțin detaliată a proceselor biologice care stau la baza unei boli, dar medicul poate avea o bogată experiență personală, precum și o literatură de studii clinice care compară diverse tratamente din care să se inspire. În medicina umană, cunoașterea proceselor biologice este esențială pentru conceperea de noi intervenții, dar este posibil să nu joace un rol la fel de important în prescrierea unor tratamente specifice.

Când văd o analiză de date, în calitate de profesor, peer reviewer sau pur și simplu un coleg de pe hol, de obicei este de datoria mea să dau feedback în timp util. În astfel de situații, de obicei, nu există timp pentru interviuri extinse despre procesul de dezvoltare a analizei, chiar dacă acest lucru ar putea fi, de fapt, util. Mai degrabă, trebuie să fac o apreciere pe baza rezultatelor observate și, poate, a unor scurte întrebări de urmărire. În măsura în care pot oferi un feedback care cred că va îmbunătăți calitatea analizei, aceasta se datorează faptului că am o idee despre ceea ce înseamnă o analiză de succes.

The Missing Ingredient

Stephanie Hicks și cu mine am discutat despre care sunt elementele unei analize de date, precum și despre care ar putea fi principiile care ghidează dezvoltarea unei analize. Într-o nouă lucrare, descriem și caracterizăm succesul unei analize de date, pe baza unei potriviri de principii între analist și public. Acesta este un aspect pe care l-am mai abordat anterior, atât pe acest blog, cât și în podcastul meu cu Hilary Parker, dar într-o manieră, în general, mai manuală. Dezvoltarea unui model mai formal, așa cum am făcut Stephanie și cu mine aici, a fost utilă și a oferit câteva perspective suplimentare.

Pentru ambele modele, cel generativ și cel analitic al analizei de date, ingredientul lipsă a fost o definiție clară a ceea ce a făcut ca o analiză de date să aibă succes. Cealaltă față a acestei monede, desigur, este să știi când o analiză de date a eșuat. Abordarea analitică este utilă deoarece ne permite să separăm analiza de analist și să clasificăm analizele în funcție de caracteristicile observate. Dar categorizarea este „neordonată” dacă nu avem o anumită noțiune de succes. Fără o definiție a succesului, suntem incapabili să criticăm în mod formal analizele și să ne explicăm raționamentul într-o manieră logică.

Abordarea generativă este utilă pentru că dezvăluie potențiale ținte de intervenție, în special din punct de vedere didactic, pentru a îmbunătăți analiza datelor (la fel ca și înțelegerea unui proces biologic). Cu toate acestea, fără o definiție concretă a succesului, nu avem o țintă spre care să tindem și nu știm cum să intervenim pentru a face îmbunătățiri reale. Cu alte cuvinte, nu există un rezultat pe care să ne putem „antrena modelul” pentru analiza datelor.

Am menționat mai sus că se pune foarte mult accent pe dezvoltarea modelului generativ pentru analiza datelor, dar comparativ se lucrează foarte puțin la dezvoltarea modelului analitic. Cu toate acestea, ambele modele sunt fundamentale pentru îmbunătățirea calității analizelor de date și pentru a învăța din munca anterioară. Cred că acest lucru reprezintă o oportunitate importantă pentru statisticieni, cercetători de date și alții de a studia modul în care putem caracteriza analizele de date pe baza rezultatelor observate și cum putem stabili conexiuni între analize.

.