En statistisk analyse af Bob Ross’ værker
Bob Ross var en fuldkommen lærer. Han guidede fans med, mens han malede “glade træer”, “almægtige bjerge” og “fluffy skyer” i løbet af sin 11-årige tv-karriere i sit PBS-show “The Joy of Painting”. I alt malede Ross 381 værker i showet, idet han byggede på et klart sæt af elementer, scener og temaer og dermed leverede tusindvis af datapunkter. Jeg besluttede mig for at bruge disse data til at lære mig selv noget: de vigtige statistiske begreber betinget sandsynlighed og gruppering samt en lektion om begrænsningerne ved data.
Så lad os permanentere vores hår og gøre os klar til at skabe nogle glade regneark!
Det, jeg fandt – gennem dataanalyse og et interview med en af Ross’ nærmeste samarbejdspartnere – var et værk, der var defineret af konsistens og et grundlæggende personligt ideal. Ross blev født i Daytona, Fla. og meldte sig til luftvåbnet som 17-årig. Han blev udstationeret i Fairbanks og tilbragte de næste 20 år i Alaska. Hans tid der synes at have haft en betydelig indflydelse på hans foretrukne motiver af træer, bjerge, skyer, søer og sne.
Ud af de 403 episoder af “The Joy of Painting” – der første gang blev vist fra 1983 til 1994, og som fortsat sendes i genudsendelser på PBS-stationer over hele landet – malede Ross i 381, og i resten var der en gæst med, oftest hans søn Steve Ross. På grundlag af billeder af Bob Ross’ malerier, der er tilgængelige i Bob Ross Inc.’s butik, kodede jeg alle episoderne1 ved hjælp af 67 nøgleord, der beskriver indholdet (træer, vand, bjerge, vejrelementer og menneskeskabte strukturer), stilistiske valg i indramningen af malerierne og gæstekunstnere, hvilket giver i alt 3 224 tags.2
Jeg analyserede dataene for at finde ud af præcis, hvad Ross, der døde i 1995, malede i mere end et årti på tv. Top-line-resultaterne er som forventet – tænk engang, han malede faktisk en masse bjerge, træer og søer! – men så satte jeg nogle tal på Ross’ klassiske talemåder. Han malede ikke ege eller graner, han malede “glade træer”. Han foretrak “almægtige bjerge” frem for bjergtoppe. Når han havde malet et træ, malede han ikke et andet – han malede en “ven.”
Her er, hvor ofte hvert tag, der optrådte mere end fem gange, dukkede op i løbet af de 381 episoder:
Nu, hvor vi kender de grundlæggende sandsynligheder for de enkelte tags, kan vi også finde de fælles sandsynligheder for nogle af disse begivenheder. Hvor ofte optræder f.eks. et løvtræ og et nåletræ i det samme maleri? Vi ved, at 57 procent af malerierne indeholder et løvtræ og 53 procent af malerierne indeholder et nåletræ. Ifølge vores datasæt indeholder 20 procent af malerierne mindst ét af hvert af dem.
Hvad mere er, kan vi også finde sandsynligheden for, at Ross har malet noget, givet at han har malet noget andet, en statistik, der kaldes betinget sandsynlighed.
Betinget sandsynlighed kan være lidt tricky. Vi ved, at 44 procent af Ross’ malerier indeholder skyer, 9 procent indeholder stranden, og 7 procent indeholder både skyer og strand. Vi kan bruge disse oplysninger til at regne to ting ud: sandsynligheden for, at Ross har malet en sky, givet at han har malet en strand, og sandsynligheden for, at han har malet en strand, givet at han har malet en sky. Du dividerer den fælles sandsynlighed – 7 procent i dette tilfælde – med sandsynligheden for det givne – 44 procent eller 9 procent, afhængigt af om du vil kende sandsynligheden for en strand givet en sky eller en sky givet en strand.
Den største faldgrube, folk ofte støder på, er at antage, at de to sandsynligheder er de samme. Sandsynligheden for, at Ross har malet en sky, givet at han har malet stranden – i bund og grund hvor mange strandmalerier der har skyer – er (0,07)/(0,09), hvilket er 78 procent. Langt de fleste strandbilleder indeholder skyer. Sandsynligheden for, at Ross malede en strand, givet at han malede en sky – eller hvor mange skybilleder, der indeholder en strand – er imidlertid (0,07)/(0,44), dvs. 16 procent. Så langt de fleste sky-malerier indeholder ikke strande.
Jeg har regnet den betingede sandsynlighed for hvert Bob Ross-tag ud i forhold til hvert andet tag for at besvare følgende presserende spørgsmål.
Hvad er sandsynligheden for, givet at Ross malede et glad træ, at han derefter malede en ven til dette træ?
Der er 93 procent sandsynlighed for, at Ross maler et andet træ, givet at han har malet et første.
Hvilken procentdel af Bob Ross’ malerier indeholder et almægtigt bjerg?
Omkring 39 procent har et bjerg på en fremtrædende plads.
Hvilken procentdel af disse malerier indeholder flere almægtige bjerge?
Ross var også villig til at male venner til bjerge. Seks procent af malerierne med et bjerg har mindst to bjerge.
I hvor stor en procentdel af disse malerier er et bjerg dækket af sne?
Givet at Ross har malet et bjerg, er der 66 procent chance for, at der er sne på det.
Hvad med små fodformede bakker?
Høje bakker optræder i 4 procent af Ross’ malerier. Han foretrak tydeligvis almægtige bjerge.
Hvad med glade små skyer?
Udmærket spørgsmål, da 44 procent af Ross’ malerier viser mindst én sky på en fremtrædende plads. I betragtning af at der er en malet sky, er der 47 procent chance for, at det er en tydelig cumulus-sky. Der er kun 14 procent chance for, at en malet sky er en tydelig cirrussky.
Hvad med charmerende små hytter?
Omkring 18 procent af hans malerier viser en hytte. Hvis Ross har malet en hytte, er der 35 procent chance for, at den ligger ved en sø, og 40 procent chance for, at der er sne på jorden. Mens 72 procent af hytterne er i det samme maleri som nåletræer, er kun 63 procent i nærheden af løvtræer.
Hvor ofte malede han vand?
Altid! Omkring 34 procent af Ross’ malerier indeholder en sø, 33 procent indeholder en flod eller en bæk, og 9 procent indeholder havet.
Det lyder som om, han ikke kunne lide stranden.
Meget tværtimod. Man kan se stranden i 75 procent af Ross’ malerier ved havet, men solen kun i 31 procent af dem. Hvis der er et hav, er det sandsynligvis oprørt: 97 procent af havmalerierne har bølger. Ross’ 36 havmalerier var også mere tilbøjelige til at indeholde klipper, skyer og klipper end det gennemsnitlige maleri.
Hvad med Steve Ross?
Steve syntes at foretrække søer langt mere end Bob. Mens kun 34 procent af Bobs malerier har en sø i dem, har 91 procent af Steves malerier det.
En nyttig linse, som vi kan anvende på denne slags data – hvor vi sammenligner vektorer af information – er et klyngeværktøj. Idéen bag clustering er at bestemme, hvor tæt visse grupper af data er på andre punkter i datasættet. Forskere bruger klyngeanalyse inden for alle mulige områder – fra biologi til forbrugermarkedsføring – som en måde at segmentere en population af f.eks. planter eller mennesker på. Det giver os mulighed for at finde interessante delmængder af data baseret på, hvor ens eller forskellige visse undergrupper er fra resten af sættet.
Jeg brugte en algoritme til at opdele hele sættet af 403 malerier fra “The Joy of Painting” i klynger af lignende malerier. Jeg ønskede at vide, om det var muligt at identificere de 10 grundlæggende malerier, der blev vist i PBS-serien. For at gøre dette kørte jeg en k-means klyngeanalyse af malerierne.3 Resultaterne var blandede.
Først skal vi se på de klynger, der giver intuitiv mening. De klare vindere er:
- En klynge af 50 malerier mærket “sne” og “vinter”
- En klynge af 28 malerier med hver en oval ramme med hvidt rum
- En klynge af 35 malerier med havscener.
Det var den slags klare klynger, som vi håbede at finde. De har alle et fælles tema og falder ind under banneret af ikoniske Bob Ross-billeder. Han malede ca. én strandscene og ét ovalt indrammet billede pr. sæson og ca. to scener med sne i forgrunden pr. sæson. Det giver god mening.
Her er nogle klynger, der også giver mening, men som ikke fortæller os ret meget om Ross’ foretrukne slags malerier:
- En klynge af 13 malerier af gæstevært Steve Ross
- En klynge af 7 malerier, der indeholder en bro
- En klynge af 11 malerier, der indeholder blomster
- En klynge af 30 malerier, der indeholder et hegn eller en lade
- En klynge af 33 malerier, der indeholder et vandfald.
Disse klynger identificerer nogle tags, der kun optræder i nogle få malerier, men grupperingerne er ikke overordentligt nyttige til at definere, hvad Ross malede. For eksempel var blomster meget sjældent hovedfokus i et maleri, og vi vidste allerede, hvor mange gange Steve Ross optrådte i programmet.
De to sidste klynger var de mest omfattende:
- En klynge af 95 malerier, der havde træer og mindst ét bjerg
- En klynge af 103 malerier, der havde træer, men ingen bjerge.
Ikke overordentligt hjælpsomt, men stadig ganske interessant. Klyngeanalyse er et tiltalende værktøj til denne slags data, men har næppe alle svarene.
For at få mere at vide om Ross og hans arbejde ud over det, jeg allerede vidste fra dataene, ringede jeg til Annette Kowalski, som grundlagde Bob Ross Inc. sammen med maleren og fortsat er forvalter af hans arbejde.4 Hun bekræftede noget, som jeg havde opdaget i min gennemgang af hundredvis af Ross’ landskaber: Hans arbejde er ikke defineret af, hvad der er inkluderet i hans malerier, men af, hvad der er udelukket.
“Jeg kan komme i tanke om to gange, hvor han malede mennesker,” sagde Kowalski. “Der var en mand ved et lejrbål,5 og to mennesker, der gik gennem skoven. “6 Faktisk viser vores data, at Ross kun malede en person – i silhuet mod et træ nær et lejrbål – én gang.
Når vi analyserer de strukturer, han malede, ser det ud til, at Ross foretrak det enkle frem for det udspekulerede. Han malede 69 hytter, 25 hegn i forskellige forfaldstilstande og 17 lader. Mere komplekse menneskeskabte strukturer er bemærkelsesværdigt sjældne i hans værker. Broer optræder kun syv gange. Både og møller findes to gange hver. Ross malede én dok, ét fyrtårn og én vindmølle i løbet af sine 381 episoder.
Der er noget ved de strukturer, Ross malede, som ifølge Kowalski er gået næsten helt ubemærket hen af fans.
“Jeg vil fortælle dig Bobs største hemmelighed. Hvis du lægger mærke til det, har hans hytter aldrig haft skorstene på dem,” sagde hun. “Det er fordi skorstene repræsenterede mennesker, og han ville ikke have nogen tegn på en person i sine malerier. Tjek hytterne. De har ingen skorstene.”
Hun tilføjede straks: “Jeg er sikker på, at du vil ringe til mig i morgen og sige, at du har fundet en skorsten.” Og det gjorde jeg! Men det krævede en masse jagt. I sæson 7 afsnit 1, “Winter Cabin”, er der en skorsten på hytten (vist ovenfor i tredje række, midterste kolonne). Men det faktum, at en skorsten kun optrådte én gang i 381 malerier, mindsker ikke rigtig Kowalskis pointe.
Når det kommer til stykket, handlede “The Joy of Painting” aldrig rigtig om maleri. Selv Kowalski, der driver et firma, der sælger Bob Ross-malervarer, mener, at de fleste seere ikke er interesseret i kunsten.
“De fleste mennesker, der ser Bob Ross, har ingen interesse i at male”, siger hun. “Det er mest hans beroligende stemme.”
Ud af de i alt 403 afsnit kunne jeg ikke se det færdige arbejde af tre malerier: sæson 9 afsnit 10, “Country Charm”; sæson 15 afsnit 4, “Peaceful Reflections” og sæson 26 afsnit 10, “Purple Mountain Range”.”
I ud af de i alt 403 afsnit kunne jeg ikke se det færdige arbejde af tre malerier: sæson 9 afsnit 10, “Country Charm”; sæson 15 afsnit 4, “Peaceful Reflections” og sæson 26 afsnit 10, “Purple Mountain Range”.”
Dette datasæt er fortsat et igangværende arbejde – det er det første af sin art – og der er naturligvis mulighed for udeladelser. Det ville tage lidt over otte dage i træk at se hele “The Joy Of Painting”, så det er en opgave, der egner sig dårligt til én person. Men jeg er overbevist om, at dataene, som de foreligger, beskriver arbejdet i løbet af Ross’ karriere præcist og konsekvent.
Af de i alt 403 episoder var jeg ikke i stand til at se det færdige arbejde med tre malerier: sæson 9 episode 10, “Country Charm”; sæson 15 episode 4, “Peaceful Reflections” og sæson 26 episode 10, “Purple Mountain Range”.”
Dette datasæt er stadig et igangværende arbejde – det er det første af sin art – og der er naturligvis mulighed for udeladelser. Det ville tage lidt over otte dage i træk at se hele “The Joy Of Painting”, så det er en opgave, der egner sig dårligt til én person. Men jeg er overbevist om, at dataene, som de foreligger, beskriver arbejdet i løbet af Ross’ karriere præcist og konsekvent.
Den k-means-algoritme er det, vi kalder ikke-deterministisk. Det betyder, at du vil få et lidt forskelligt resultat hver gang på grund af den tilfældighed, som algoritmen tager højde for, når den bestemmer de punkter, der definerer klyngernes centre.
Ud af de i alt 403 afsnit kunne jeg ikke se det færdige arbejde af tre malerier: sæson 9 afsnit 10, “Country Charm”; sæson 15 afsnit 4, “Peaceful Reflections” og sæson 26 afsnit 10, “Purple Mountain Range”.”
Dette datasæt er stadig et igangværende arbejde – det er det første af sin art – og der er naturligvis mulighed for udeladelser. Det ville tage lidt over otte dage i træk at se hele “The Joy Of Painting”, så det er en opgave, der egner sig dårligt til én person. Men jeg er overbevist om, at dataene, som de foreligger, beskriver arbejdet i løbet af Ross’ karriere præcist og konsekvent.
Den k-means-algoritme er det, vi kalder ikke-deterministisk. Det betyder, at du får et lidt forskelligt resultat hver gang på grund af den tilfældighed, som algoritmen tager højde for, når den bestemmer de punkter, der definerer centrumene for klyngerne.
Kowalski var også gæsteartist i sæson 29, afsnit 10, “Pot o’ Posies”.����
Ud af de i alt 403 afsnit kunne jeg ikke se det færdige arbejde af tre malerier: sæson 9 afsnit 10, “Country Charm”; sæson 15 afsnit 4, “Peaceful Reflections” og sæson 26 afsnit 10, “Purple Mountain Range”.”
Dette datasæt er fortsat et igangværende arbejde – det er det første af sin art – og der er naturligvis mulighed for udeladelser. Det ville tage lidt over otte dage i træk at se hele “The Joy Of Painting”, så det er en opgave, der egner sig dårligt til én person. Men jeg er overbevist om, at dataene, som de foreligger, beskriver arbejdet i løbet af Ross’ karriere præcist og konsekvent.
Den k-means-algoritme er det, vi kalder ikke-deterministisk. Det betyder, at du får et lidt forskelligt resultat hver gang på grund af den tilfældighed, som algoritmen tager højde for, når den bestemmer de punkter, der definerer centrumene for klyngerne.
Kowalski var også gæsteartist i sæson 29, afsnit 10, “Pot o’ Posies”.����
Sæson 3, afsnit 10 “Campfire”
Ud af de i alt 403 afsnit kunne jeg ikke se det færdige arbejde af tre malerier: sæson 9 afsnit 10, “Country Charm”; sæson 15 afsnit 4, “Peaceful Reflections” og sæson 26 afsnit 10, “Purple Mountain Range”.”
Dette datasæt er stadig et igangværende arbejde – det er det første af sin art – og der er naturligvis mulighed for udeladelser. Det ville tage lidt over otte dage i træk at se hele “The Joy Of Painting”, så det er en opgave, der egner sig dårligt til én person. Men jeg er overbevist om, at dataene, som de foreligger, beskriver arbejdet i løbet af Ross’ karriere præcist og konsekvent.
Den k-means-algoritme er det, vi kalder ikke-deterministisk. Det betyder, at du får et lidt forskelligt resultat hver gang på grund af den tilfældighed, som algoritmen tager højde for, når den bestemmer de punkter, der definerer centrumene for klyngerne.
Kowalski var også gæsteartist i sæson 29, afsnit 10, “Pot o’ Posies”.����
Sæson 3, afsnit 10 “Campfire”
Dette andet maleri optrådte ikke i mit datasæt, men det er meget muligt, at jeg overså det, da jeg taggede det.
Det bedste fra FiveThirtyEight, leveret til dig.