Generative and Analytical Models for Data Analysis
Opisywanie sposobu tworzenia analizy danych jest tematem, który bardzo mnie interesuje i istnieje kilka różnych sposobów myślenia o tym. Dwa różne sposoby myślenia o analizie danych to to, co nazywam podejściem „generatywnym” i podejściem „analitycznym”. Innym, bardziej nieformalnym sposobem, w jaki lubię myśleć o tych podejściach, jest model „biologiczny” i model „lekarski”. Czytając literaturę na temat procesu analizy danych, zauważyłem, że wielu wydaje się skupiać raczej na tym pierwszym niż na drugim i myślę, że stanowi to okazję do nowej i interesującej pracy.
Model generatywny
Podejście generatywne do myślenia o analizie danych skupia się na procesie, w którym tworzona jest analiza. Zrozumienie decyzji, które są podejmowane w celu przejścia od kroku pierwszego do drugiego, trzeciego itd. może pomóc nam odtworzyć lub zrekonstruować analizę danych. Chociaż rekonstrukcja nie może być dokładnie celem badania analizy danych w ten sposób, mając lepsze zrozumienie procesu może otworzyć drzwi w odniesieniu do poprawy procesu.
Kluczową cechą procesu analizy danych jest to, że zazwyczaj odbywa się wewnątrz głowy analityka danych, co uniemożliwia bezpośrednią obserwację. Pomiary można przeprowadzić pytając analityków, co myśleli w danym momencie, ale może to być obarczone różnymi błędami pomiarowymi, jak w przypadku wszelkich danych, które zależą od pamięci podmiotu. W niektórych sytuacjach dostępne są częściowe informacje, na przykład jeśli analityk zapisuje proces myślenia w serii raportów lub jeśli zaangażowany jest zespół i istnieje zapis komunikacji na temat procesu. Na podstawie tego typu informacji możliwe jest zebranie rozsądnego obrazu tego, „jak rzeczy się dzieją” i opisanie procesu generowania analizy danych.
Model ten jest przydatny do zrozumienia „procesu biologicznego”, tj. mechanizmów leżących u podstaw tworzenia analiz danych, czasami określanych jako „myślenie statystyczne”. Nie ma wątpliwości, że proces ten jest interesujący zarówno dla celów dydaktycznych, jak i dla zrozumienia pracy stosowanej. Ale jest pewien kluczowy składnik, którego brakuje i o tym powiem więcej poniżej.
Model analityczny
Drugie podejście do myślenia o analizie danych ignoruje podstawowe procesy, które służą do generowania analizy danych i zamiast tego patrzy na obserwowalne wyniki analizy. Takim wyjściem może być dokument R markdown, raport PDF, a nawet prezentacja slajdów (Stephanie Hicks i ja określamy to jako kontener analityczny). Zaletą tego podejścia jest to, że wyniki analizy są rzeczywiste i mogą być bezpośrednio obserwowane. Oczywiście to, co analityk umieszcza w raporcie lub w prezentacji slajdów, zazwyczaj stanowi jedynie ułamek tego, co mogłoby powstać w trakcie pełnej analizy danych. Warto jednak zauważyć, że elementy umieszczone w raporcie są skumulowanym wynikiem wszystkich decyzji podjętych w trakcie analizy danych.
Wcześniej wielokrotnie używałem teorii muzyki jako analogii do analizy danych, głównie dlatego, że… to wszystko, co wiem, ale również dlatego, że to naprawdę działa! Kiedy słuchamy lub badamy utwór muzyczny, nie mamy zasadniczo żadnej wiedzy na temat tego, jak ta muzyka powstała. Nie możemy już przeprowadzić wywiadu z Mozartem czy Beethovenem na temat tego, jak napisali swoją muzykę. A jednak nadal jesteśmy w stanie zrobić kilka ważnych rzeczy:
- Analizuj i teoretyzuj. Możemy analizować muzykę, którą słyszymy (i jej pisemną reprezentację, jeśli jest dostępna) i rozmawiać o tym, jak różne utwory muzyczne różnią się od siebie lub mają podobieństwa. Możemy rozwijać poczucie tego, co jest powszechnie robione przez danego kompozytora, lub przez wielu kompozytorów, i oceniać, które wyjścia są bardziej lub mniej udane. Możliwe jest nawet rysowanie powiązań między różnymi rodzajami muzyki, oddzielonymi od siebie wiekami. Żadna z tych czynności nie wymaga znajomości podstawowych procesów.
- Udzielanie informacji zwrotnej. Kiedy uczniowie uczą się komponować muzykę, istotną częścią tego szkolenia jest granie muzyki przed innymi. Publiczność może wtedy dać informację zwrotną o tym, co się udało, a co nie. Od czasu do czasu ktoś może zapytać: „Co ty sobie myślałeś?”, ale w większości przypadków nie jest to konieczne. Jeśli coś jest naprawdę zepsute, to jest czasami możliwe, aby przepisać pewne działania naprawcze (np. „zrobić to akord C zamiast akordu D”).
Istnieją nawet dwa całe podcasty poświęcone analizie muzyki-Sticky Notes i Switched on Pop i zazwyczaj nie wywiady z artystów zaangażowanych (byłoby to szczególnie trudne dla Sticky Notes). Dla kontrastu, podcast Song Exploder przyjmuje bardziej „generatywne podejście”, w którym artysta opowiada o procesie twórczym.
Odniosłem się do tego modelu analitycznego analizy danych jako podejścia „lekarskiego”, ponieważ odzwierciedla on, w podstawowym sensie, problem, z którym styka się lekarz. Kiedy pacjent przybywa, istnieje zestaw objawów i własny raport/historia pacjenta. W oparciu o te informacje, lekarz musi zalecić sposób postępowania (zazwyczaj, aby zebrać więcej danych). Często nie ma szczegółowego zrozumienia procesów biologicznych leżących u podstaw choroby, ale lekarz może mieć bogate osobiste doświadczenie, jak również literaturę badań klinicznych porównujących różne metody leczenia, z której może czerpać. W medycynie ludzkiej wiedza o procesach biologicznych jest krytyczna przy projektowaniu nowych interwencji, ale może nie odgrywać tak dużej roli w przepisywaniu konkretnych zabiegów.
Gdy widzę analizę danych, jako nauczyciel, recenzent, lub po prostu kolega z korytarza, to zwykle moim zadaniem jest przekazanie informacji zwrotnej w odpowiednim czasie. W takich sytuacjach zazwyczaj nie ma czasu na obszerne wywiady na temat procesu tworzenia analizy, nawet jeśli w rzeczywistości może to być przydatne. Raczej muszę dokonać oceny na podstawie zaobserwowanych wyników i być może kilku krótkich pytań uzupełniających. W stopniu, w jakim mogę dostarczyć informacji zwrotnych, które moim zdaniem poprawią jakość analizy, dzieje się tak dlatego, że mam poczucie tego, co sprawia, że analiza jest udana.
Brakujący składnik
Stephanie Hicks i ja dyskutowaliśmy o tym, jakie są elementy analizy danych, a także jakie mogą być zasady, które kierują rozwojem analizy. W nowym artykule opisujemy i charakteryzujemy sukces analizy danych w oparciu o dopasowanie zasad pomiędzy analitykiem a odbiorcami. Jest to coś, co poruszyłem już wcześniej, zarówno na tym blogu, jak i w moim podcaście z Hilary Parker, ale w sposób bardziej odręczny. Opracowanie bardziej formalnego modelu, jak Stephanie i ja zrobiliśmy tutaj, było przydatne i dostarczyło kilka dodatkowych spostrzeżeń.
Zarówno dla modelu generatywnego, jak i analitycznego modelu analizy danych, brakującym składnikiem była jasna definicja tego, co sprawiło, że analiza danych zakończyła się sukcesem. Druga strona tego medalu, oczywiście, jest wiedzieć, kiedy analiza danych nie powiodła się. Podejście analityczne jest przydatne, ponieważ pozwala nam oddzielić analizę od analityka i skategoryzować analizy zgodnie z ich zaobserwowanymi cechami. Ale ta kategoryzacja jest „nieuporządkowana”, jeśli nie mamy jakiegoś pojęcia sukcesu. Bez definicji sukcesu, nie jesteśmy w stanie formalnie skrytykować analiz i wyjaśnić naszego rozumowania w logiczny sposób.
Podejście generatywne jest użyteczne, ponieważ ujawnia potencjalne cele interwencji, szczególnie z perspektywy nauczania, w celu poprawy analizy danych (tak jak zrozumienie procesu biologicznego). Jednakże, bez konkretnej definicji sukcesu, nie mamy celu, do którego możemy dążyć i nie wiemy, jak interweniować, aby dokonać prawdziwej poprawy. Innymi słowy, nie ma wyniku, na którym możemy „trenować nasz model” do analizy danych.
Wspomniałem powyżej, że jest dużo skupienia na rozwoju modelu generatywnego do analizy danych, ale stosunkowo mało pracy rozwijającej model analityczny. Tymczasem oba modele mają fundamentalne znaczenie dla poprawy jakości analiz danych i wyciągania wniosków z poprzedniej pracy. Myślę, że stanowi to ważną okazję dla statystyków, naukowców zajmujących się danymi i innych osób do zbadania, w jaki sposób możemy scharakteryzować analizy danych w oparciu o obserwowane wyniki i w jaki sposób możemy tworzyć połączenia między analizami.