O analiză statistică a operei lui Bob Ross
Bob Ross a fost un profesor desăvârșit. El și-a ghidat fanii pe măsură ce picta „copaci fericiți”, „munți atotputernici” și „nori pufoși” de-a lungul celor 11 ani de carieră televizată în cadrul emisiunii sale de pe PBS, „The Joy of Painting”. În total, Ross a pictat 381 de lucrări în cadrul emisiunii, bazându-se pe un set distinct de elemente, scene și teme, oferind astfel mii de puncte de date. Am decis să folosesc aceste date pentru a preda și eu ceva: conceptele statistice importante de probabilitate condiționată și de grupare, precum și o lecție despre limitările datelor.
Așa că haideți să ne facem un permanent și să ne pregătim să creăm niște foi de calcul fericite!
Ce am descoperit – prin analiza datelor și un interviu cu unul dintre cei mai apropiați colaboratori ai lui Ross – a fost un corp de lucrări care a fost definit de consecvență și de un ideal fundamental personal. Ross s-a născut în Daytona, Florida, și s-a înrolat în Forțele Aeriene la 17 ani. A fost staționat în Fairbanks și și-a petrecut următorii 20 de ani în Alaska. Timpul petrecut acolo pare să fi avut un impact semnificativ asupra subiectelor sale preferate de copaci, munți, nori, lacuri și zăpadă.
Din cele 403 episoade ale emisiunii „The Joy of Painting” – a cărei primă ediție a fost difuzată în perioada 1983-1994 și care continuă să fie difuzată în reluare pe posturile PBS din întreaga țară – Ross a pictat în 381, iar în restul a fost prezent un invitat, cel mai frecvent fiul său Steve Ross. Pe baza imaginilor picturilor lui Bob Ross disponibile în magazinul Bob Ross Inc., am codificat toate episoadele1 folosind 67 de cuvinte-cheie care descriu conținutul (copaci, apă, munți, elemente meteorologice și structuri create de om), alegerile stilistice de încadrare a picturilor și artiștii invitați, pentru un total general de 3.224 de etichete.2
Am analizat datele pentru a afla exact ce a pictat Ross, care a murit în 1995, timp de peste un deceniu la televizor. Rezultatele de top sunt de așteptat – nu știați că a pictat o mulțime de munți, copaci și lacuri! – dar apoi am pus niște cifre la figurile de stil clasice ale lui Ross. El nu a pictat stejari sau molizi, ci „copaci fericiți”. A preferat „munți atotputernici” la vârfuri. Odată ce a pictat un copac, nu a mai pictat altul – a pictat un „prieten.”
Iată cât de des a apărut fiecare tag care a apărut de mai mult de cinci ori în cele 381 de episoade:
Acum că știm probabilitățile de bază ale tag-urilor individuale, putem afla și probabilitățile comune ale unora dintre aceste evenimente. De exemplu, cât de des apar un copac de foioase și un copac de conifere în același tablou? Știm că 57% dintre tablouri conțin un copac de foioase și 53% dintre tablouri conțin un copac de conifere. Conform setului nostru de date, 20 la sută din tablouri conțin cel puțin unul din fiecare.
Mai mult, putem afla și probabilitatea ca Ross să fi pictat ceva, având în vedere că a pictat altceva, o statistică care se numește probabilitate condiționată.
Probabilitatea condiționată poate fi un pic mai complicată. Știm că 44 la sută dintre picturile lui Ross conțin nori, 9 la sută conțin plaja și 7 la sută conțin atât nori, cât și plajă. Putem folosi aceste informații pentru a ne da seama de două lucruri: probabilitatea ca Ross să fi pictat un nor având în vedere că a pictat o plajă și probabilitatea ca el să fi pictat o plajă având în vedere că a pictat un nor. Se împarte probabilitatea comună – 7 la sută în acest caz – la probabilitatea dată – 44 la sută sau 9 la sută, în funcție de faptul dacă doriți să știți probabilitatea unei plaje având în vedere un nor sau a unui nor având în vedere o plajă.
Cea mai mare capcană cu care se confruntă adesea oamenii este să presupună că cele două probabilități sunt identice. Probabilitatea ca Ross să fi pictat un nor având în vedere că a pictat plaja – în esență, câte picturi de plajă au nori – este (0,07)/(0,09), ceea ce înseamnă 78%. Marea majoritate a scenelor de plajă conțin nori. Cu toate acestea, probabilitatea ca Ross să fi pictat o plajă având în vedere că a pictat un nor – sau, câte picturi cu nori conțin o plajă – este de (0,07)/(0,44), adică 16 procente. Deci marea majoritate a picturilor cu nori nu au plaje.
Am calculat probabilitatea condiționată a fiecărei etichete Bob Ross față de orice altă etichetă pentru a răspunde la următoarele întrebări presante.
Care este probabilitatea, dat fiind faptul că Ross a pictat un copac fericit, ca apoi să picteze un prieten pentru acel copac?
Există o probabilitate de 93% ca Ross să picteze un al doilea copac, având în vedere că a pictat un prim copac.
Ce procent din tablourile lui Bob Ross conțin un munte atotputernic?
Aproximativ 39% prezintă în mod proeminent un munte.
Ce procent din aceste tablouri conțin mai mulți munți atotputernici?
Ross era, de asemenea, dispus să picteze prieteni pentru munți. Șaizeci la sută dintre tablourile în care apare un munte au cel puțin doi munți.
În ce procent din aceste tablouri un munte este acoperit de zăpadă?
Dat fiind faptul că Ross a pictat un munte, există o șansă de 66 la sută să existe zăpadă pe el.
Ce zici de micile dealuri cu picioare?
Din 4 la sută dintre tablourile lui Ross apar dealuri. El a preferat în mod clar munții atotputernici.
Ce zici de norii mici și fericiți?
Excelentă întrebare, deoarece 44 la sută dintre picturile lui Ross prezintă în mod proeminent cel puțin un nor. Având în vedere că există un nor pictat, există o șansă de 47 la sută ca acesta să fie unul distinct cumulus. Există doar 14 la sută șanse ca un nor pictat să fie un nor clar cirrus.
Cum rămâne cu micile cabane fermecătoare?
Aproximativ 18 la sută din tablourile sale prezintă o cabană. Având în vedere că Ross a pictat o cabană, există o șansă de 35 la sută ca aceasta să fie pe un lac și o șansă de 40 la sută să fie zăpadă pe jos. În timp ce 72 la sută dintre cabane se află în același tablou cu conifere, doar 63 la sută se află în apropierea copacilor de foioase.
Cât de des a pictat apă?
Întotdeauna! Aproximativ 34 la sută din picturile lui Ross conțin un lac, 33 la sută conțin un râu sau un curs de apă, iar 9 la sută conțin oceanul.
Se pare că nu-i plăcea plaja.
Mult dimpotrivă. Puteți vedea plaja în 75 la sută dintre picturile lui Ross de pe litoral, dar soarele în doar 31 la sută dintre ele. Dacă există un ocean, acesta este probabil agitat: 97 la sută dintre picturile cu ocean au valuri. Cele 36 de picturi oceanice ale lui Ross aveau, de asemenea, mai multe șanse de a prezenta stânci, nori și roci decât media picturilor.
Cum rămâne cu Steve Ross?
Steve părea să prefere lacurile mult mai mult decât Bob. În timp ce doar 34 la sută dintre tablourile lui Bob au un lac în ele, 91 la sută dintre tablourile lui Steve au un lac.
Un obiectiv util pe care îl putem aplica la acest tip de date – în care comparăm vectori de informații – este un instrument de grupare. Ideea din spatele clusterizării este de a determina cât de apropiate sunt anumite grupuri de date de alte puncte din setul de date. Cercetătorii folosesc analiza de grupare în tot felul de domenii – de la biologie la marketingul de consum – ca o modalitate de segmentare a unei populații de, să zicem, plante sau oameni. Aceasta ne permite să găsim subgrupuri interesante de date pe baza cât de asemănătoare sau diferite sunt anumite subgrupuri față de restul setului.
Am folosit un algoritm pentru a împărți întregul set de 403 picturi din „The Joy of Painting” în clustere de picturi similare. Am vrut să știu dacă este posibil să identific cele 10 picturi de bază prezentate în serialul PBS. Pentru a face acest lucru, am efectuat o analiză de grupare a tablourilor prin metoda k-means.3 Rezultatele au fost mixte.
În primul rând, să ne uităm la grupele care au un sens intuitiv. Câștigătorii clari sunt:
- Un cluster de 50 de tablouri etichetate „zăpadă” și „iarnă”
- Un cluster de 28 de tablouri, fiecare cu o ramă ovală de spațiu alb
- Un cluster de 35 de tablouri cu scene oceanice.
Aceste au fost tipurile de grupări clare pe care speram să le găsim. Fiecare are o temă comună și se încadrează în categoria imaginilor iconice ale lui Bob Ross. El a pictat aproximativ o scenă de plajă și o imagine cu ramă ovală pe sezon, și aproximativ două scene cu zăpadă în prim-plan pe sezon. Este logic.
Iată câteva clustere care, de asemenea, au sens, dar care nu ne spun prea multe despre tipul preferat de pictură al lui Ross:
- Un grup de 13 tablouri ale gazdei invitate Steve Ross
- Un grup de 7 tablouri care conțin un pod
- Un grup de 11 tablouri care conțin flori
- Un grup de 30 de tablouri care conțin un gard sau un hambar
- Un grup de 33 de tablouri care conțin o cascadă.
Aceste clustere identifică unele etichete care apar doar în câteva tablouri, dar grupările nu sunt extrem de utile pentru a defini ce a pictat Ross. De exemplu, florile erau foarte rar obiectivul principal al unui tablou, iar noi știam deja de câte ori a apărut Steve Ross în emisiune.
Ultimele două grupări au fost cele mai largi:
- Un grup de 95 de tablouri care conțineau copaci și cel puțin un munte
- Un grup de 103 tablouri care conțineau copaci, dar niciun munte.
Nu extrem de utile, dar totuși destul de interesante. Analiza clusterelor este un instrument atrăgător pentru acest tip de date, dar cu greu are toate răspunsurile.
Pentru a afla mai multe despre Ross și opera sa, dincolo de ceea ce știam deja din date, am sunat-o pe Annette Kowalski, care a fondat Bob Ross Inc. împreună cu pictorul și care rămâne administratorul operei sale.4 Ea mi-a confirmat un lucru pe care îl descoperisem în analiza a sute de peisaje ale lui Ross: opera sa nu este definită de ceea ce este inclus în picturile sale, ci de ceea ce este exclus.
„Mă pot gândi la două momente în care a pictat oameni”, a spus Kowalski. „A fost un om lângă un foc de tabără5 și doi oameni care se plimbau prin pădure. „6 Într-adevăr, datele noastre arată că Ross a pictat o singură dată o persoană – în siluetă pe lângă un copac lângă un foc de tabără.
Când analizăm structurile pe care le-a pictat, se pare că Ross a preferat lucrurile simple celor elaborate. El a pictat 69 de cabane, 25 de garduri în diferite stări de degradare și 17 hambare. Structurile mai complexe făcute de om sunt remarcabil de rare în lucrările sale. Podurile apar doar de șapte ori. Bărci și mori, de două ori fiecare. Ross a pictat un doc, un far și o moară de vânt de-a lungul celor 381 de episoade.
Există ceva în legătură cu structurile pictate de Ross care a trecut aproape în întregime neobservat de fani, potrivit lui Kowalski.
„Vă voi spune cel mai mare secret al lui Bob. Dacă observați, cabanele sale nu au avut niciodată coșuri de fum pe ele”, a spus ea. „Asta pentru că hornurile reprezentau oameni, iar el nu voia niciun semn al unei persoane în picturile sale. Verificați cabanele. Nu au coșuri de fum.”
Ea a adăugat imediat: „Sunt sigură că mă vei suna mâine și îmi vei spune că ai găsit un coș de fum.” Și așa am făcut! Dar a fost nevoie de multă vânătoare. În sezonul 7, episodul 1, „Cabana de iarnă”, există un coș de fum pe cabană (prezentat mai sus, în al treilea rând, coloana centrală). Dar faptul că un coș de fum a apărut o dată în 381 de tablouri nu diminuează cu adevărat punctul de vedere al lui Kowalski.
Când vine vorba de asta, „Bucuria de a picta” nu a fost niciodată cu adevărat despre pictură. Chiar și Kowalski, care conduce o companie care vinde rechizite de pictură marca Bob Ross, crede că majoritatea telespectatorilor nu sunt acolo pentru artă.
„Majoritatea oamenilor care se uită la Bob Ross nu sunt interesați de pictură”, a spus ea. „În cea mai mare parte este vocea lui liniștitoare.”
Din totalul de 403 episoade, nu am reușit să văd lucrarea finalizată a trei picturi: sezonul 9 episodul 10, „Country Charm”; sezonul 15 episodul 4, „Peaceful Reflections” și sezonul 26 episodul 10, „Purple Mountain Range”.”
Din totalul de 403 episoade, nu am reușit să văd lucrarea finalizată a trei tablouri: sezonul 9 episodul 10, „Country Charm”; sezonul 15 episodul 4, „Peaceful Reflections” și sezonul 26 episodul 10, „Purple Mountain Range”.”
Acest set de date rămâne o lucrare în desfășurare – este primul de acest fel – și există, desigur, posibilitatea unor omisiuni. Ar fi nevoie de puțin peste opt zile consecutive pentru a viziona tot „Bucuria de a picta”, așa că este o sarcină nepotrivită pentru o singură persoană. Dar sunt încrezător că datele, în forma actuală, descriu cu acuratețe și consecvență lucrările de-a lungul carierei lui Ross.
Din totalul de 403 episoade, nu am reușit să văd lucrarea finalizată a trei picturi: sezonul 9, episodul 10, „Farmecul țării”; sezonul 15, episodul 4, „Reflecții pașnice” și sezonul 26, episodul 10, „Purple Mountain Range”.”
Acest set de date rămâne o lucrare în desfășurare – este primul de acest fel – și există, desigur, posibilitatea unor omisiuni. Ar fi nevoie de puțin peste opt zile consecutive pentru a viziona tot „Bucuria de a picta”, așa că este o sarcină nepotrivită pentru o singură persoană. Dar sunt încrezător că datele, așa cum sunt ele, descriu cu acuratețe și consecvență munca de-a lungul carierei lui Ross.
Agoritmul k-means este ceea ce numim nedeterminist. Acest lucru înseamnă că veți obține un rezultat ușor diferit de fiecare dată, din cauza caracterului aleatoriu pe care algoritmul îl ia în considerare atunci când determină punctele care definesc centrele clusterelor.
Din totalul de 403 episoade, nu am reușit să văd lucrarea finalizată a trei tablouri: sezonul 9, episodul 10, „Country Charm”; sezonul 15, episodul 4, „Peaceful Reflections” și sezonul 26, episodul 10, „Purple Mountain Range”.”
Acest set de date rămâne o lucrare în desfășurare – este primul de acest fel – și există, desigur, posibilitatea unor omisiuni. Ar fi nevoie de puțin peste opt zile consecutive pentru a viziona tot „Bucuria de a picta”, așa că este o sarcină nepotrivită pentru o singură persoană. Dar sunt încrezător că datele, așa cum sunt ele, descriu cu acuratețe și consecvență munca de-a lungul carierei lui Ross.
Agoritmul k-means este ceea ce numim nedeterminist. Acest lucru înseamnă că veți obține un rezultat ușor diferit de fiecare dată, din cauza caracterului aleatoriu pe care algoritmul îl ia în considerare atunci când determină punctele care definesc centrele clusterelor.
Kowalski a fost, de asemenea, un artist invitat pentru episodul 10 al sezonului 29, „Pot o’ Posies”.����
Din totalul de 403 episoade, nu am reușit să văd lucrarea finalizată a trei tablouri: sezonul 9, episodul 10, „Farmecul țării”; sezonul 15, episodul 4, „Reflecții liniștite” și sezonul 26, episodul 10, „Lanțul munților purpurii”.”
Acest set de date rămâne o lucrare în desfășurare – este primul de acest fel – și există, desigur, posibilitatea unor omisiuni. Ar fi nevoie de puțin peste opt zile consecutive pentru a viziona tot „Bucuria de a picta”, așa că este o sarcină nepotrivită pentru o singură persoană. Dar sunt încrezător că datele, așa cum sunt ele, descriu cu acuratețe și consecvență munca de-a lungul carierei lui Ross.
Agoritmul k-means este ceea ce numim nedeterminist. Acest lucru înseamnă că veți obține un rezultat ușor diferit de fiecare dată, din cauza caracterului aleatoriu pe care algoritmul îl ia în considerare atunci când determină punctele care definesc centrele clusterelor.
Kowalski a fost, de asemenea, un artist invitat pentru episodul 10 al sezonului 29, „Pot o’ Posies”.����
Sezonul 3, episodul 10 „Campfire”
Din totalul de 403 episoade, nu am reușit să văd lucrările finalizate pentru trei tablouri: sezonul 9 episodul 10, „Country Charm”; sezonul 15 episodul 4, „Peaceful Reflections” și sezonul 26 episodul 10, „Purple Mountain Range”.”
Acest set de date rămâne o lucrare în desfășurare – este primul de acest fel – și există, desigur, posibilitatea unor omisiuni. Ar fi nevoie de puțin peste opt zile consecutive pentru a viziona tot „Bucuria de a picta”, așa că este o sarcină nepotrivită pentru o singură persoană. Dar sunt încrezător că datele, așa cum sunt ele, descriu cu acuratețe și consecvență munca de-a lungul carierei lui Ross.
Agoritmul k-means este ceea ce numim nedeterminist. Acest lucru înseamnă că veți obține un rezultat ușor diferit de fiecare dată, din cauza caracterului aleatoriu pe care algoritmul îl ia în considerare atunci când determină punctele care definesc centrele clusterelor.
Kowalski a fost, de asemenea, un artist invitat pentru episodul 10 al sezonului 29, „Pot o’ Posies”.����
Sezonul 3, episodul 10 „Campfire”
Acest al doilea tablou nu a apărut în setul meu de date, dar este foarte posibil să îmi fi scăpat la etichetare.
Cel mai bun din FiveThirtyEight, livrat către dumneavoastră.
.