Modelli generativi e analitici per l’analisi dei dati

Roger Peng 2019/04/29

Descrivere come viene creata un’analisi dei dati è un argomento di grande interesse per me e ci sono alcuni modi diversi di pensarci. Due modi diversi di pensare all’analisi dei dati sono quelli che io chiamo l’approccio “generativo” e l’approccio “analitico”. Un altro modo, più informale, in cui mi piace pensare a questi approcci è il modello “biologico” e il modello “medico”. Leggendo la letteratura sul processo di analisi dei dati, ho notato che molti sembrano concentrarsi sul primo piuttosto che sul secondo e penso che questo presenti un’opportunità per un lavoro nuovo e interessante.

Modello generativo

L’approccio generativo per pensare all’analisi dei dati si concentra sul processo con cui viene creata un’analisi. Sviluppare una comprensione delle decisioni che vengono prese per passare dal passo uno al passo due al passo tre, ecc. può aiutarci a ricreare o ricostruire un’analisi dei dati. Anche se la ricostruzione non è esattamente l’obiettivo di studiare l’analisi dei dati in questo modo, avere una migliore comprensione del processo può aprire le porte per quanto riguarda il miglioramento del processo.

Una caratteristica chiave del processo di analisi dei dati è che tipicamente si svolge nella testa dell’analista dei dati, il che lo rende impossibile da osservare direttamente. Le misurazioni possono essere fatte chiedendo agli analisti cosa stavano pensando in un dato momento, ma questo può essere soggetto a una varietà di errori di misurazione, come per tutti i dati che dipendono dal ricordo di un soggetto. In alcune situazioni, sono disponibili informazioni parziali, per esempio se l’analista scrive il processo di pensiero attraverso una serie di rapporti o se è coinvolto un team e c’è una registrazione della comunicazione sul processo. Da questo tipo di informazioni, è possibile raccogliere un quadro ragionevole di “come accadono le cose” e descrivere il processo di generazione di un’analisi dei dati.

Questo modello è utile per comprendere il “processo biologico”, cioè i meccanismi sottostanti a come vengono create le analisi dei dati, talvolta indicati come “pensiero statistico”. Non c’è dubbio che questo processo ha un interesse intrinseco sia per l’insegnamento che per la comprensione del lavoro applicato. Ma c’è un ingrediente chiave che manca e di cui parlerò più avanti.

Modello analitico

Un secondo approccio per pensare all’analisi dei dati ignora i processi sottostanti che servono a generare l’analisi dei dati e guarda invece ai risultati osservabili dell’analisi. Tali risultati potrebbero essere un documento R markdown, un rapporto PDF, o anche una presentazione (Stephanie Hicks ed io ci riferiamo a questo come il contenitore analitico). Il vantaggio di questo approccio è che gli output analitici sono reali e possono essere osservati direttamente. Naturalmente, ciò che un analista mette in un report o in uno slide deck di solito rappresenta solo una frazione di ciò che potrebbe essere stato prodotto nel corso di un’analisi completa dei dati. Tuttavia, vale la pena notare che gli elementi inseriti nel report sono il risultato cumulativo di tutte le decisioni prese nel corso di un’analisi dei dati.

Ho usato la teoria musicale come analogia per l’analisi dei dati molte volte in passato, soprattutto perché… è tutto ciò che so, ma anche perché funziona davvero! Quando ascoltiamo o esaminiamo un pezzo di musica, non abbiamo essenzialmente alcuna conoscenza di come quella musica sia nata. Non possiamo più intervistare Mozart o Beethoven su come hanno scritto la loro musica. Eppure siamo ancora in grado di fare alcune cose importanti:

  • Analizzare e teorizzare. Possiamo analizzare la musica che ascoltiamo (e la loro rappresentazione scritta, se disponibile) e parlare di come diversi pezzi di musica differiscono l’uno dall’altro o condividono similitudini. Possiamo sviluppare un senso di ciò che è comunemente fatto da un dato compositore, o tra molti compositori, e valutare quali risultati sono più o meno riusciti. È persino possibile tracciare connessioni tra diversi tipi di musica separati da secoli. Niente di tutto ciò richiede la conoscenza dei processi sottostanti.
  • Dare un feedback. Quando gli studenti stanno imparando a comporre musica, una parte essenziale di quella formazione è il suonare la musica di fronte ad altri. Il pubblico può quindi dare un feedback su cosa ha funzionato e cosa no. Occasionalmente, qualcuno potrebbe chiedere “A cosa stavi pensando?” ma per la maggior parte, questo non è necessario. Se qualcosa è veramente rotto, a volte è possibile prescrivere qualche azione correttiva (per esempio “fai questo un accordo di Do invece di un accordo di Re”).

Ci sono persino due interi podcast dedicati all’analisi della musica-Sticky Notes e Switched on Pop-e generalmente non intervistano gli artisti coinvolti (questo sarebbe particolarmente difficile per Sticky Notes). Al contrario, il podcast Song Exploder adotta un approccio più “generativo” facendo parlare l’artista del processo creativo.

Mi sono riferito a questo modello analitico per l’analisi dei dati come approccio “medico” perché rispecchia, in un senso fondamentale, il problema che un medico affronta. Quando arriva un paziente, c’è un insieme di sintomi e il rapporto/storia del paziente stesso. Sulla base di queste informazioni, il medico deve prescrivere una linea d’azione (di solito, per raccogliere più dati). C’è spesso poca comprensione dettagliata dei processi biologici alla base di una malattia, ma il medico può avere una ricchezza di esperienza personale, così come una letteratura di studi clinici che confrontano vari trattamenti da cui attingere. Nella medicina umana, la conoscenza dei processi biologici è fondamentale per la progettazione di nuovi interventi, ma può non avere un ruolo così importante nella prescrizione di trattamenti specifici.

Quando vedo un’analisi dei dati, come insegnante, un peer reviewer, o semplicemente un collega in fondo al corridoio, di solito è mio compito dare un feedback in modo tempestivo. In queste situazioni di solito non c’è tempo per interviste approfondite sul processo di sviluppo dell’analisi, anche se questo potrebbe essere utile. Piuttosto, ho bisogno di esprimere un giudizio basato sui risultati osservati e forse su alcune brevi domande di follow-up. Nella misura in cui posso fornire un feedback che penso possa migliorare la qualità dell’analisi, è perché ho un’idea di ciò che rende un’analisi di successo.

L’ingrediente mancante

Stephanie Hicks ed io abbiamo discusso quali sono gli elementi di un’analisi dei dati e quali potrebbero essere i principi che guidano lo sviluppo di un’analisi. In un nuovo articolo, descriviamo e caratterizziamo il successo di un’analisi dei dati, sulla base di una corrispondenza di principi tra l’analista e il pubblico. Questo è qualcosa che ho toccato in precedenza, sia in questo blog che nel mio podcast con Hilary Parker, ma in modo generalmente più manuale. Sviluppare un modello più formale, come abbiamo fatto qui io e Stephanie, è stato utile e ha fornito alcune intuizioni aggiuntive.

Sia per il modello generativo che per il modello analitico di analisi dei dati, l’ingrediente mancante era una chiara definizione di ciò che rendeva un’analisi dei dati di successo. L’altra faccia della medaglia, naturalmente, è sapere quando un’analisi dei dati è fallita. L’approccio analitico è utile perché ci permette di separare l’analisi dall’analista e di categorizzare le analisi secondo le loro caratteristiche osservate. Ma la categorizzazione è “non ordinata” a meno che non abbiamo qualche nozione di successo. Senza una definizione di successo, non siamo in grado di criticare formalmente le analisi e spiegare il nostro ragionamento in modo logico.

L’approccio generativo è utile perché rivela potenziali obiettivi di intervento, soprattutto dal punto di vista didattico, per migliorare l’analisi dei dati (proprio come la comprensione di un processo biologico). Tuttavia, senza una definizione concreta di successo, non abbiamo un obiettivo a cui tendere e non sappiamo come intervenire per ottenere un vero miglioramento. In altre parole, non c’è un risultato su cui possiamo “addestrare il nostro modello” per l’analisi dei dati.

Ho detto sopra che c’è molta attenzione allo sviluppo del modello generativo per l’analisi dei dati, ma relativamente poco lavoro per sviluppare il modello analitico. Eppure, entrambi i modelli sono fondamentali per migliorare la qualità delle analisi dei dati e per imparare dal lavoro precedente. Penso che questo rappresenti un’importante opportunità per gli statistici, gli scienziati dei dati e altri per studiare come possiamo caratterizzare le analisi dei dati sulla base dei risultati osservati e come possiamo tracciare connessioni tra le analisi.