Statystyczna analiza pracy Boba Rossa
Bob Ross był doskonałym nauczycielem. Prowadził fanów, malując „szczęśliwe drzewa”, „wszechmocne góry” i „puszyste chmury” w ciągu swojej 11-letniej kariery telewizyjnej w programie PBS „The Joy of Painting”. W sumie Ross namalował w programie 381 prac, opierając się na odrębnym zestawie elementów, scen i tematów, a tym samym dostarczając tysiące punktów danych. Postanowiłem wykorzystać te dane, aby nauczyć czegoś siebie: ważnych statystycznych koncepcji prawdopodobieństwa warunkowego i grupowania, jak również lekcji na temat ograniczeń danych.
Więc zróbmy sobie trwałą ondulację i przygotujmy się do stworzenia kilku szczęśliwych arkuszy kalkulacyjnych!
To, co znalazłem – poprzez analizę danych i wywiad z jednym z najbliższych współpracowników Rossa – to korpus prac, który był zdefiniowany przez spójność i fundamentalnie osobisty ideał. Ross urodził się w Daytona, Fla. i wstąpił do Sił Powietrznych w wieku 17 lat. Stacjonował w Fairbanks i spędził kolejne 20 lat na Alasce. Wydaje się, że czas spędzony tam miał znaczący wpływ na jego preferowane tematy drzew, gór, chmur, jezior i śniegu.
Z 403 odcinków programu „The Joy of Painting” – którego pierwsza emisja miała miejsce w latach 1983-1994 i który nadal jest emitowany w powtórkach na stacjach PBS w całym kraju – Ross malował w 381, a w pozostałych wystąpił gość, najczęściej jego syn Steve Ross. Bazując na obrazach obrazów Boba Rossa dostępnych w sklepie Bob Ross Inc. zakodowałem wszystkie odcinki1 używając 67 słów kluczowych opisujących treść (drzewa, woda, góry, elementy pogodowe i struktury stworzone przez człowieka), wybory stylistyczne w kadrowaniu obrazów i artystów gościnnych, w sumie 3224 znaczniki.2
Zanalizowałem dane, aby dowiedzieć się, co dokładnie Ross, który zmarł w 1995 roku, malował przez ponad dekadę w telewizji. Pierwotne wyniki są do przewidzenia – nie wiedziałbyś, że namalował kilka gór, drzew i jezior! – Ale potem przyłożyłem kilka liczb do klasycznych figur mowy Rossa. Nie malował dębów ani świerków, malował „szczęśliwe drzewa”. Wolał „wszechmocne góry” od szczytów. Gdy już namalował jedno drzewo, nie malował innego – malował „przyjaciela.”
Oto jak często każdy tag, który pojawił się więcej niż pięć razy, pojawił się w 381 odcinkach:
Teraz, gdy znamy podstawowe prawdopodobieństwa poszczególnych tagów, możemy również znaleźć wspólne prawdopodobieństwa niektórych z tych zdarzeń. Na przykład, jak często drzewo liściaste i drzewo iglaste pojawiają się na tym samym obrazie? Wiemy, że 57% obrazów zawiera drzewo liściaste, a 53% obrazów zawiera drzewo iglaste. Zgodnie z naszym zestawem danych, 20 procent obrazów zawiera przynajmniej jedno z nich.
Co więcej, możemy również znaleźć prawdopodobieństwo, że Ross namalował coś biorąc pod uwagę, że namalował coś innego, statystyka ta nazywa się prawdopodobieństwem warunkowym.
Prawdopodobieństwo warunkowe może być trochę skomplikowane. Wiemy, że 44 procent obrazów Rossa zawiera chmury, 9 procent zawiera plażę, a 7 procent zawiera zarówno chmury jak i plażę. Możemy użyć tych informacji, aby obliczyć dwie rzeczy: prawdopodobieństwo, że Ross namalował chmurę, biorąc pod uwagę, że namalował plażę, oraz prawdopodobieństwo, że namalował plażę, biorąc pod uwagę, że namalował chmurę. Dzielimy wspólne prawdopodobieństwo – 7 procent w tym przypadku – przez prawdopodobieństwo danego – 44 procent lub 9 procent, w zależności od tego, czy chcemy znać prawdopodobieństwo plaży danej chmurze, czy chmury danej plaży.
Największą pułapką, z jaką ludzie często się spotykają, jest założenie, że te dwa prawdopodobieństwa są takie same. Prawdopodobieństwo, że Ross namalował chmurę, biorąc pod uwagę, że namalował plażę – zasadniczo, ile obrazów plażowych ma chmury – wynosi (0,07)/(0,09), co stanowi 78 procent. Ogromna większość scen plażowych zawiera chmury. Jednakże prawdopodobieństwo, że Ross namalował plażę biorąc pod uwagę, że namalował chmurę – lub ile obrazów z chmurami zawiera plażę – jest (0.07)/(0.44), czyli 16 procent. Więc zdecydowana większość obrazów chmur nie ma plaż.
Wyliczyłem warunkowe prawdopodobieństwo każdego znacznika Boba Rossa względem każdego innego znacznika, aby odpowiedzieć na następujące pilne pytania.
Jakie jest prawdopodobieństwo, biorąc pod uwagę, że Ross namalował szczęśliwe drzewo, że następnie namalował przyjaciela dla tego drzewa?
Jest 93 procent szansy, że Ross namaluje drugie drzewo, jeśli namalował pierwsze.
Jaki procent obrazów Boba Rossa zawiera wszechmocną górę?
Około 39 procent z nich zawiera górę.
Jaki procent tych obrazów zawiera kilka wszechmocnych gór?
Ross był również skłonny namalować przyjaciół dla gór. Sześćdziesiąt procent obrazów z jedną górą ma co najmniej dwie góry.
Na jakim procencie tych obrazów góra jest pokryta śniegiem?
Przy założeniu, że Ross namalował górę, istnieje 66 procent szans, że jest na niej śnieg.
A co z małymi pagórkami?
Pagórki pojawiają się na 4 procentach obrazów Rossa. Wyraźnie wolał wszechmocne góry.
A co z radosnymi, małymi chmurkami?
Doskonałe pytanie, ponieważ 44 procent obrazów Rossa przedstawia co najmniej jedną chmurkę. Biorąc pod uwagę, że jest namalowana chmura, istnieje 47 procent szans, że jest to wyraźny cumulus. Jest tylko 14 procent szans na to, że namalowana chmura jest wyraźnie cirrusowa.
Co z uroczymi małymi domkami?
Około 18 procent jego obrazów przedstawia domek. Biorąc pod uwagę, że Ross namalował domek, istnieje 35% szans, że znajduje się on nad jeziorem, a 40% szans, że na ziemi leży śnieg. Podczas gdy 72 procent domków znajduje się na tym samym obrazie co drzewa iglaste, tylko 63 procent znajduje się w pobliżu drzew liściastych.
Jak często malował wodę?
Wszystko! Około 34 procent obrazów Rossa zawiera jezioro, 33 procent zawiera rzekę lub strumień, a 9 procent zawiera ocean.
Brzmi to tak, jakby nie lubił plaży.
Wręcz przeciwnie. Można zobaczyć plażę w 75% nadmorskich obrazów Rossa, ale słońce tylko w 31% z nich. Jeśli jest ocean, to prawdopodobnie jest roztrzęsiony: 97 procent obrazów oceanu ma fale. Na 36 obrazach oceanu Rossa częściej niż na przeciętnym obrazie pojawiały się również klify, chmury i skały.
Co ze Stevem Rossem?
Steve wydawał się preferować jeziora o wiele bardziej niż Bob. Podczas gdy tylko 34 procent obrazów Boba ma w sobie jezioro, 91 procent obrazów Steve’a je ma.
Jedną z użytecznych soczewek, którą możemy zastosować do tego rodzaju danych – gdzie porównujemy wektory informacji – jest narzędzie do grupowania. Idea klastrowania polega na określeniu, jak blisko pewnych grup danych znajdują się inne punkty w zbiorze danych. Naukowcy wykorzystują analizę skupień we wszystkich dziedzinach – od biologii po marketing konsumencki – jako sposób na segmentację populacji, np. roślin lub ludzi. Pozwala nam to znaleźć interesujące podzbiory danych na podstawie tego, jak podobne lub różne są pewne podgrupy od reszty zbioru.
Użyłem algorytmu do podzielenia całego zbioru 403 obrazów z „The Joy of Painting” na klastry podobnych obrazów. Chciałem się dowiedzieć, czy możliwe jest zidentyfikowanie 10 podstawowych obrazów występujących w serialu PBS. W tym celu przeprowadziłem analizę skupień obrazów metodą k-średnich.3 Wyniki były niejednoznaczne.
Po pierwsze, przyjrzyjmy się skupieniom, które mają intuicyjny sens. Wyraźnymi zwycięzcami są:
- Klaster 50 obrazów oznaczonych jako „śnieg” i „zima”
- Klaster 28 obrazów, z których każdy ma owalną ramę z białą przestrzenią
- Klaster 35 obrazów przedstawiających sceny oceaniczne.
To były rodzaje wyraźnych skupisk, które mieliśmy nadzieję znaleźć. Każdy ma wspólny temat i spada pod sztandarem ikonicznych obrazów Boba Rossa. Namalował około jednej sceny plaży i jeden owalny obraz na sezon, i około dwóch scen ze śniegiem na pierwszym planie na sezon. To ma sens.
Oto kilka skupisk, które również mają sens, ale nie mówią nam zbyt wiele o ulubionym rodzaju malarstwa Rossa:
- Klaster 13 obrazów gościnnego gospodarza Steve’a Rossa
- Klaster 7 obrazów zawierających most
- Klaster 11 obrazów zawierających kwiaty
- Klaster 30 obrazów zawierających płot lub stodołę
- Klaster 33 obrazów zawierających wodospad.
Te klastry zidentyfikować pewne znaczniki, które pojawiają się w tylko kilka obrazów, ale grupy nie są niezwykle pomocne w określaniu, co Ross malowane. Na przykład, kwiaty bardzo rzadko były głównym tematem obrazu, a my już wiedzieliśmy ile razy Steve Ross pojawił się w programie.
Dwa ostatnie skupiska były najszersze:
- Klaster 95 obrazów, które miały drzewa i co najmniej jedną górę
- Klaster 103 obrazów, które miały drzewa, ale nie miały gór.
Nie bardzo pomocne, ale wciąż całkiem interesujące. Analiza klastrowa jest atrakcyjnym narzędziem dla tego rodzaju danych, ale nie daje wszystkich odpowiedzi.
Aby dowiedzieć się więcej o Rossie i jego dziełach poza tym, co już wiedziałem z danych, zadzwoniłem do Annette Kowalski, która wraz z malarzem założyła Bob Ross Inc. i pozostaje strażniczką jego prac.4 Potwierdziła ona coś, co odkryłem w moim przeglądzie setek pejzaży Rossa: Jego praca nie jest definiowana przez to, co jest zawarte w jego obrazach, ale przez to, co jest wykluczone.
„Mogę sobie wyobrazić dwa razy, kiedy malował ludzi”, powiedział Kowalski. „Był tam człowiek przy ognisku,5 i dwóch ludzi idących przez las. „6 Rzeczywiście, nasze dane pokazują, że Ross tylko raz namalował człowieka – w sylwetce na tle drzewa w pobliżu ogniska.
Gdy przeanalizujemy struktury, które namalował, okazuje się, że Ross wolał proste od wyszukanych. Namalował 69 domków, 25 ogrodzeń w różnym stanie ruiny i 17 stodół. Bardziej złożone struktury stworzone przez człowieka są niezwykle rzadkie w jego pracach. Mosty pojawiają się tylko siedem razy. Łodzie i młyny – po dwa razy. Ross namalował jeden dok, jedną latarnię morską i jeden wiatrak w ciągu swoich 381 odcinków.
Jest coś w strukturach namalowanych przez Rossa, co pozostało prawie całkowicie niezauważone przez fanów, według Kowalskiego.
„Zdradzę wam największy sekret Boba. Jeśli zauważyliście, jego kabiny nigdy nie miały kominów na nich”, powiedziała. „To dlatego, że kominy symbolizowały ludzi, a on nie chciał żadnych oznak człowieka na swoich obrazach. Sprawdźcie te domki. Nie mają kominów.”
Od razu dodała: „Jestem pewna, że jutro zadzwonisz do mnie i powiesz, że znalazłeś komin.” I tak się stało! Ale wymagało to wielu polowań. W sezonie 7 odcinek 1, „Winter Cabin,” jest komin na kabinie (przedstawiony powyżej w trzecim rzędzie, kolumna środkowa). Ale fakt, że komin pojawił się raz na 381 obrazów nie zmniejsza punktu Kowalski.
Gdy przychodzi do niego, „The Joy of Painting” nigdy nie było naprawdę o malarstwo. Nawet Kowalski, który prowadzi firmę sprzedającą materiały malarskie pod marką Bob Ross, wierzy, że większość widzów nie jest w tym dla sztuki.
„Większość ludzi, którzy oglądają Boba Rossa nie ma żadnego interesu w malowaniu,” powiedziała. „Głównie jest to jego uspokajający głos.”
Z 403 całkowitych odcinków, nie byłem w stanie zobaczyć ukończonej pracy trzech obrazów: sezon 9 odcinek 10, „Country Charm”; sezon 15 odcinek 4, „Peaceful Reflections” i sezon 26 odcinek 10, „Purple Mountain Range.”
Spośród 403 odcinków ogółem nie udało mi się zobaczyć ukończonych prac trzech obrazów: sezon 9 odcinek 10, „Country Charm”; sezon 15 odcinek 4, „Peaceful Reflections” i sezon 26 odcinek 10, „Purple Mountain Range.”
Ten zestaw danych pozostaje pracą w toku – jest pierwszym tego rodzaju – i oczywiście istnieje możliwość pominięcia. Obejrzenie całego „The Joy Of Painting” zajęłoby nieco ponad osiem dni, więc jest to zadanie dla jednej osoby. Ale jestem przekonany, że dane, jak to stoi opisuje pracę w ciągu kariery Rossa dokładnie i konsekwentnie.
Z 403 całkowitych odcinków, nie byłem w stanie zobaczyć ukończonej pracy z trzech obrazów: sezon 9 odcinek 10, „Country Charm”; sezon 15 odcinek 4, „Peaceful Reflections” i sezon 26 odcinek 10, „Purple Mountain Range.”
Ten zestaw danych pozostaje pracą w toku – jest pierwszym tego rodzaju – i oczywiście istnieje możliwość pominięcia. Obejrzenie całego „The Joy Of Painting” zajęłoby nieco ponad osiem dni, więc jest to zadanie dla jednej osoby. Jestem jednak przekonany, że dane w obecnej postaci opisują pracę w trakcie kariery Rossa dokładnie i konsekwentnie.
Algorytm k-średnich jest tym, co nazywamy niedeterministycznym. Oznacza to, że za każdym razem otrzymasz nieco inny wynik z powodu losowości, którą algorytm uwzględnia przy określaniu punktów definiujących środki klastrów.
Z 403 całkowitych odcinków, nie byłem w stanie zobaczyć ukończonej pracy z trzech obrazów: sezon 9 epizod 10, „Country Charm”; sezon 15 epizod 4, „Peaceful Reflections” i sezon 26 epizod 10, „Purple Mountain Range.”
Ten zestaw danych pozostaje pracą w toku – jest pierwszym tego rodzaju – i oczywiście istnieje możliwość pominięcia. Obejrzenie całego „The Joy Of Painting” zajęłoby nieco ponad osiem dni, więc jest to zadanie dla jednej osoby. Jestem jednak przekonany, że dane w obecnej postaci opisują pracę w trakcie kariery Rossa dokładnie i konsekwentnie.
Algorytm k-średnich jest tym, co nazywamy niedeterministycznym. Oznacza to, że za każdym razem otrzymasz nieco inny wynik, ze względu na losowość, którą algorytm uwzględnia przy określaniu punktów definiujących środki skupisk.
Kowalski wystąpił również gościnnie w 29 odcinku 10 sezonu, „Pot o’ Posies”.���
Spośród 403 wszystkich odcinków nie udało mi się zobaczyć ukończonych prac nad trzema obrazami: sezon 9 odcinek 10, „Wiejski urok”; sezon 15 odcinek 4, „Spokojne refleksje” i sezon 26 odcinek 10, „Purpurowe pasmo górskie”.”
Ten zestaw danych pozostaje pracą w toku – jest pierwszym tego rodzaju – i istnieje oczywiście potencjał pominięć. Obejrzenie całego „The Joy Of Painting” zajęłoby nieco ponad osiem dni, więc jest to zadanie dla jednej osoby. Jestem jednak przekonany, że dane w obecnej postaci opisują pracę w trakcie kariery Rossa dokładnie i spójnie.
Algorytm k-średnich jest tym, co nazywamy niedeterministycznym. Oznacza to, że za każdym razem otrzymasz nieco inny wynik, ze względu na losowość, którą algorytm uwzględnia przy określaniu punktów definiujących środki skupisk.
Kowalski wystąpił również gościnnie w 29. odcinku 10. sezonu, „Pot o’ Posies”.���
Sezon 3, odcinek 10 „Campfire”
Z 403 wszystkich odcinków nie udało mi się zobaczyć ukończonych prac trzech obrazów: sezon 9 odcinek 10, „Country Charm”; sezon 15 odcinek 4, „Peaceful Reflections” i sezon 26 odcinek 10, „Purple Mountain Range.”
Ten zestaw danych pozostaje pracą w toku – jest pierwszym tego rodzaju – i oczywiście istnieje możliwość pominięcia. Obejrzenie całego „The Joy Of Painting” zajęłoby nieco ponad osiem dni, więc jest to zadanie dla jednej osoby. Jestem jednak przekonany, że dane w obecnej postaci opisują pracę w trakcie kariery Rossa dokładnie i konsekwentnie.
Algorytm k-średnich jest tym, co nazywamy niedeterministycznym. Oznacza to, że za każdym razem otrzymasz nieco inny wynik, ze względu na losowość, którą algorytm uwzględnia przy określaniu punktów definiujących środki skupisk.
Kowalski wystąpił również gościnnie w 29. odcinku 10. sezonu, „Pot o’ Posies”.���
Sezon 3, odcinek 10 „Campfire”
Ten drugi obraz nie pojawił się w moim zestawie danych, ale jest całkowicie możliwe, że przeoczyłem go podczas tagowania.
Najlepsze z FiveThirtyEight, dostarczone do Ciebie.
.