Een statistische analyse van het werk van Bob Ross
Bob Ross was een uitmuntende leraar. Hij begeleidde zijn fans bij het schilderen van “vrolijke bomen”, “machtige bergen” en “pluizige wolken” in de loop van zijn 11-jarige televisiecarrière in zijn PBS-show “The Joy of Painting”. In totaal schilderde Ross 381 werken in de show, waarbij hij zich baseerde op een aantal verschillende elementen, scènes en thema’s, en zo duizenden datapunten verschafte. Ik besloot die gegevens te gebruiken om mezelf iets te leren: de belangrijke statistische concepten van voorwaardelijke waarschijnlijkheid en clustering, en ook een les over de beperkingen van data.
Dus laten we ons haar opsteken en ons klaarmaken om een aantal gelukkige spreadsheets te maken!
Wat ik vond – door middel van data-analyse en een interview met een van Ross’ naaste medewerkers – was een oeuvre dat werd gedefinieerd door consistentie en een fundamenteel persoonlijk ideaal. Ross werd geboren in Daytona, Fla., en ging op zijn 17e bij de luchtmacht. Hij werd gestationeerd in Fairbanks en bracht de volgende 20 jaar in Alaska door. Zijn tijd daar lijkt van grote invloed te zijn geweest op zijn voorkeursonderwerpen: bomen, bergen, wolken, meren en sneeuw.
Van de 403 afleveringen van “The Joy of Painting” – die van 1983 tot 1994 te zien waren en die nog steeds in herhalingen worden uitgezonden op PBS-stations in het hele land – schilderde Ross in 381 afleveringen, en in de rest was een gast te gast, meestal zijn zoon Steve Ross. Op basis van afbeeldingen van Bob Ross’ schilderijen in de Bob Ross Inc. winkel, heb ik alle afleveringen gecodeerd1 met behulp van 67 trefwoorden die de inhoud beschrijven (bomen, water, bergen, weerelementen en kunstmatige structuren), stilistische keuzes in de kadrering van de schilderijen, en gast-kunstenaars, voor een totaal van 3.224 tags.2
Ik heb de gegevens geanalyseerd om uit te vinden wat Ross, die in 1995 overleed, precies schilderde gedurende meer dan een decennium op TV. De top-line resultaten zijn te verwachten – zou je niet weten, hij schilderde een bos van bergen, bomen en meren! – maar toen zette ik wat cijfers bij Ross’ klassieke stijlfiguren. Hij schilderde geen eiken of sparren, hij schilderde “gelukkige bomen.” Hij gaf de voorkeur aan “almachtige bergen” boven pieken. Als hij eenmaal een boom had geschilderd, schilderde hij geen andere – hij schilderde een “vriend.”
Hier ziet u hoe vaak elke tag die meer dan vijf keer voorkwam, voorkwam in 381 afleveringen:
Nu we de basiswaarschijnlijkheid van individuele tags kennen, kunnen we ook de gezamenlijke waarschijnlijkheid van sommige van deze gebeurtenissen bepalen. Bijvoorbeeld, hoe vaak komen een loofboom en een naaldboom voor op hetzelfde schilderij? We weten dat 57 procent van de schilderijen een loofboom bevat en 53 procent van de schilderijen een naaldboom. Volgens onze dataset bevat 20 procent van de schilderijen ten minste één van elk.
Wat meer is, we kunnen ook de kans vinden dat Ross iets schilderde gegeven dat hij iets anders schilderde, een statistiek die voorwaardelijke kans wordt genoemd.
Voorwaardelijke kans kan een beetje lastig zijn. We weten dat 44 procent van Ross’ schilderijen wolken bevat, 9 procent het strand en 7 procent zowel wolken als het strand. We kunnen deze informatie gebruiken om twee dingen uit te rekenen: de kans dat Ross een wolk schilderde gegeven dat hij een strand schilderde, en de kans dat hij een strand schilderde gegeven dat hij een wolk schilderde. Je deelt de gezamenlijke waarschijnlijkheid – 7 procent in dit geval – door de waarschijnlijkheid van het gegeven – 44 procent of 9 procent, afhankelijk van of je de waarschijnlijkheid wilt weten van een strand gegeven een wolk of een wolk gegeven een strand.
De grootste valkuil waar mensen vaak tegenaan lopen is aan te nemen dat de twee waarschijnlijkheden gelijk zijn. De waarschijnlijkheid dat Ross een wolk schilderde gegeven dat hij het strand schilderde – in wezen, hoeveel strandschilderijen wolken hebben – is (0,07)/(0,09), dat is 78 procent. De overgrote meerderheid van de strandscènes bevat wolken. Echter, de kans dat Ross een strand schilderde gegeven dat hij een wolk schilderde – of, hoeveel wolkenschilderijen bevatten een strand – is (0.07)/(0.44), of 16 procent. Dus de overgrote meerderheid van de wolkenschilderijen bevat geen strand.
Ik heb de voorwaardelijke waarschijnlijkheid van elke Bob Ross-tag tegen elke andere tag uitgerekend om de volgende prangende vragen te beantwoorden.
Wat is de waarschijnlijkheid, gegeven dat Ross een vrolijke boom schilderde, dat hij daarna een vriend voor die boom schilderde?
Er is een kans van 93 procent dat Ross een tweede boom schildert, gegeven dat hij een eerste heeft geschilderd.
Welk percentage van Bob Ross-schilderijen bevat een almachtige berg?
Op ongeveer 39 procent staat prominent een berg.
Welk percentage van die schilderijen bevat meerdere almachtige bergen?
Ross was ook ontvankelijk voor het schilderen van vrienden voor bergen. Zestig procent van de schilderijen met één berg erop heeft minstens twee bergen.
In welk percentage van die schilderijen is een berg bedekt met sneeuw?
Gezien het feit dat Ross een berg schilderde, is er 66 procent kans dat er sneeuw op ligt.
En hoe zit het met heuveltjes?
Hilletjes komen in 4 procent van Ross’ schilderijen voor. Hij gaf duidelijk de voorkeur aan almachtige bergen.
Hoe zit het met vrolijke wolkjes?
Uitstekende vraag, want op 44 procent van Ross’ schilderijen komt ten minste één wolk prominent voor. Als er een wolk is geschilderd, is er 47 procent kans dat het een duidelijke cumulus is. Er is slechts 14 procent kans dat een geschilderde wolk een duidelijke cirruswolk is.
Hoe zit het met charmante hutjes?
Op ongeveer 18 procent van zijn schilderijen staat een hutje afgebeeld. Als Ross een hut heeft geschilderd, is er 35 procent kans dat die aan een meer staat, en 40 procent kans dat er sneeuw ligt. Terwijl 72 procent van de hutten op hetzelfde schilderij staat als naaldbomen, staat slechts 63 procent in de buurt van loofbomen.
Hoe vaak schilderde hij water?
De hele tijd! Ongeveer 34 procent van Ross’ schilderijen bevat een meer, 33 procent een rivier of beek, en 9 procent de oceaan.
Dat klinkt alsof hij niet van het strand hield.
Integendeel. Je ziet het strand in 75% van Ross’ schilderijen aan zee, maar de zon in slechts 31% ervan. Als er een oceaan is, is die waarschijnlijk woelig: 97 procent van de oceaanschilderijen heeft golven. Ross’ 36 oceaanschilderijen bevatten ook vaker kliffen, wolken en rotsen dan het gemiddelde schilderij.
En Steve Ross?
Steve leek veel meer van meren te houden dan Bob. Terwijl slechts 34 procent van Bob’s schilderijen een meer bevat, doet 91 procent van Steve’s schilderijen dat wel.
Een handige lens die we kunnen toepassen op dit soort gegevens – waar we vectoren van informatie vergelijken – is een clusteringstool. Het idee achter clusteren is te bepalen hoe dicht bepaalde groepen gegevens bij andere punten in de gegevensverzameling liggen. Onderzoekers gebruiken clusteringsanalyse op allerlei gebieden – van biologie tot consumentenmarketing – als een manier om een populatie van bijvoorbeeld planten of mensen te segmenteren. Het stelt ons in staat interessante deelverzamelingen van gegevens te vinden op basis van de mate waarin bepaalde subgroepen lijken op of verschillen van de rest van de verzameling.
Ik heb een algoritme gebruikt om de hele verzameling van 403 schilderijen uit “The Joy of Painting” te verdelen in clusters van vergelijkbare schilderijen. Ik wilde weten of het mogelijk was om de 10 basisschilderijen uit de PBS-serie te identificeren. Daartoe voerde ik een k-means clustering analyse van de schilderijen uit.3 De resultaten waren gemengd.
Laten we eerst eens kijken naar de clusters die intuïtief zinvol zijn. De duidelijke winnaars zijn:
- Een cluster van 50 schilderijen met de tags “sneeuw” en “winter”
- Een cluster van 28 schilderijen met elk een ovale witte-ruimte-kader
- Een cluster van 35 schilderijen met oceaanscènes.
Dit waren het soort duidelijke clusteringen die we hoopten te vinden. Elk heeft een gemeenschappelijk thema en valt onder de vlag van iconische Bob Ross beelden. Hij schilderde ongeveer één strandscène en één afbeelding met een ovaal frame per seizoen, en ongeveer twee scènes met sneeuw op de voorgrond per seizoen. Dat is logisch.
Hier zijn enkele clusters die ook logisch zijn, maar ons niet veel vertellen over Ross’ favoriete soort schilderij:
- Een cluster van 13 schilderijen van gastpresentator Steve Ross
- Een cluster van 7 schilderijen met een brug
- Een cluster van 11 schilderijen met bloemen
- Een cluster van 30 schilderijen met een hek of een schuur
- Een cluster van 33 schilderijen met een waterval.
Deze clusters identificeren enkele tags die slechts op enkele schilderijen voorkomen, maar de groeperingen zijn niet erg behulpzaam om te definiëren wat Ross schilderde. Bloemen waren bijvoorbeeld maar zelden het hoofdonderwerp van een schilderij, en we wisten al hoe vaak Steve Ross in het programma voorkwam.
De laatste twee clusters waren het breedst:
- Een cluster van 95 schilderijen met bomen en minstens één berg
- Een cluster van 103 schilderijen met bomen maar zonder bergen.
Niet bijzonder nuttig, maar toch heel interessant. Clusteringsanalyse is een aantrekkelijk instrument voor dit soort gegevens, maar biedt nauwelijks alle antwoorden.
Om meer over Ross en zijn werk te weten te komen dan wat ik al wist uit de gegevens, belde ik Annette Kowalski, die samen met de schilder Bob Ross Inc. oprichtte en de rentmeester van zijn werk blijft.4 Zij bevestigde iets wat ik had ontdekt bij het bekijken van honderden landschappen van Ross: zijn werk wordt niet bepaald door wat er in zijn schilderijen is opgenomen, maar door wat er buiten valt.
“Ik kan twee keer bedenken dat hij mensen heeft geschilderd,” zei Kowalski. “Er was een man bij een kampvuur,5 en twee mensen liepen door het bos. “6 Uit onze gegevens blijkt inderdaad dat Ross slechts één keer een persoon heeft geschilderd – in silhouet tegen een boom bij een kampvuur.
Wanneer we de structuren analyseren die hij schilderde, blijkt dat Ross de voorkeur gaf aan eenvoudig boven uitgebreid. Hij schilderde 69 hutten, 25 hekken in verschillende staat van verval en 17 schuren. Complexere kunstwerken zijn opmerkelijk zeldzaam in zijn werk. Bruggen komen slechts zeven keer voor. Boten en molens, elk twee keer. Ross schilderde één dok, één vuurtoren en één windmolen in zijn 381 afleveringen.
Er is iets aan de structuren die Ross schilderde dat bijna volledig onopgemerkt is gebleven door de fans, volgens Kowalski.
“Ik zal je Bob’s grootste geheim vertellen. Als je merkt dat zijn hutten nooit schoorstenen hadden,” zei ze. “Dat is omdat schoorstenen mensen voorstellen, en hij wilde geen teken van een persoon in zijn schilderijen. Controleer de hutten. Ze hebben geen schoorstenen.”
Ze voegde er meteen aan toe, “Ik weet zeker dat je me morgen gaat bellen en zeggen dat je een schoorsteen hebt gevonden.” En dat deed ik! Maar het kostte een hoop jachtwerk. In seizoen 7 aflevering 1, “Winter Cabin,” is er een schoorsteen op de cabine (hierboven afgebeeld in de derde rij, middelste kolom). Maar het feit dat er op 381 schilderijen maar één keer een schoorsteen voorkomt, doet niets af aan Kowalski’s punt.
Wanneer het er op aan komt, ging “The Joy of Painting” nooit echt over schilderen. Zelfs Kowalski, die een bedrijf runt dat Bob Ross-merkschilderbenodigdheden verkoopt, gelooft dat de meeste kijkers het niet voor de kunst doen.
“De meerderheid van de mensen die naar Bob Ross kijken, heeft geen interesse in schilderen,” zei ze. “Meestal is het zijn kalmerende stem.”
Van de in totaal 403 afleveringen heb ik het voltooide werk van drie schilderijen niet kunnen zien: seizoen 9 aflevering 10, “Country Charm”; seizoen 15 aflevering 4, “Peaceful Reflections” en seizoen 26 aflevering 10, “Purple Mountain Range.”
Van de in totaal 403 afleveringen heb ik het voltooide werk van drie schilderijen niet kunnen zien: seizoen 9 aflevering 10, “Country Charm”; seizoen 15 aflevering 4, “Peaceful Reflections” en seizoen 26 aflevering 10, “Purple Mountain Range.”
Deze dataset blijft een werk in uitvoering – het is de eerste in zijn soort – en er is natuurlijk de mogelijkheid van omissies. Het zou iets meer dan acht dagen duren om “The Joy Of Painting” volledig te bekijken, dus het is een taak die slecht geschikt is voor één persoon. Maar ik ben ervan overtuigd dat de gegevens zoals ze nu zijn, het werk tijdens Ross’ carrière nauwkeurig en consistent beschrijven.
Van de in totaal 403 afleveringen was ik niet in staat om het voltooide werk van drie schilderijen te zien: seizoen 9 aflevering 10, “Country Charm”; seizoen 15 aflevering 4, “Peaceful Reflections” en seizoen 26 aflevering 10, “Purple Mountain Range.”
Deze dataset blijft een werk in uitvoering – het is de eerste in zijn soort – en er is natuurlijk de mogelijkheid van omissies. Het zou iets meer dan acht dagen duren om “The Joy Of Painting” volledig te bekijken, dus het is een taak die slecht geschikt is voor één persoon. Maar ik ben ervan overtuigd dat de huidige gegevens het werk van Ross nauwkeurig en consistent beschrijven.
Het k-means algoritme is wat we noemen niet-deterministisch. Dit betekent dat je elke keer een iets ander resultaat krijgt, vanwege de willekeurigheid die het algoritme meeneemt bij het bepalen van de punten die de centra van de clusters bepalen.
Van de in totaal 403 afleveringen heb ik het voltooide werk van drie schilderijen niet kunnen zien: seizoen 9 aflevering 10, “Country Charm”; seizoen 15 aflevering 4, “Peaceful Reflections” en seizoen 26 aflevering 10, “Purple Mountain Range.”
Deze dataset blijft een werk in uitvoering – het is de eerste in zijn soort – en er is natuurlijk de mogelijkheid van omissies. Het zou iets meer dan acht dagen duren om “The Joy Of Painting” volledig te bekijken, dus het is een taak die slecht geschikt is voor één persoon. Maar ik ben ervan overtuigd dat de huidige gegevens het werk van Ross nauwkeurig en consistent beschrijven.
Het k-means algoritme is wat we noemen niet-deterministisch. Dit betekent dat je elke keer een iets ander resultaat krijgt, vanwege de willekeurigheid die het algoritme meeneemt bij het bepalen van de punten die de middelpunten van de clusters bepalen.
Kowalski was ook gastartiest in seizoen 29 aflevering 10, “Pot o’ Posies.����
Van de in totaal 403 afleveringen heb ik van drie schilderijen het voltooide werk niet kunnen zien: seizoen 9 aflevering 10, “Country Charm”; seizoen 15 aflevering 4, “Peaceful Reflections” en seizoen 26 aflevering 10, “Purple Mountain Range.”
Deze dataset blijft een werk in uitvoering – het is de eerste in zijn soort – en er is natuurlijk de mogelijkheid van omissies. Het zou iets meer dan acht dagen duren om “The Joy Of Painting” volledig te bekijken, dus het is een taak die slecht geschikt is voor één persoon. Maar ik ben ervan overtuigd dat de huidige gegevens het werk van Ross nauwkeurig en consistent beschrijven.
Het k-means algoritme is wat we noemen niet-deterministisch. Dit betekent dat je elke keer een iets ander resultaat krijgt, vanwege de willekeurigheid die het algoritme meeneemt bij het bepalen van de punten die de middelpunten van de clusters bepalen.
Kowalski was ook gastartiest in seizoen 29 aflevering 10, “Pot o’ Posies.����
Seizoen 3, aflevering 10 “Kampvuur”
Van de in totaal 403 afleveringen heb ik van drie schilderijen het voltooide werk niet kunnen zien: seizoen 9 aflevering 10, “Country Charm”; seizoen 15 aflevering 4, “Peaceful Reflections” en seizoen 26 aflevering 10, “Purple Mountain Range.”
Deze dataset blijft een werk in uitvoering – het is de eerste in zijn soort – en er is natuurlijk de mogelijkheid van omissies. Het zou iets meer dan acht dagen duren om “The Joy Of Painting” volledig te bekijken, dus het is een taak die slecht geschikt is voor één persoon. Maar ik ben ervan overtuigd dat de huidige gegevens het werk van Ross nauwkeurig en consistent beschrijven.
Het k-means algoritme is wat we noemen niet-deterministisch. Dit betekent dat je elke keer een iets ander resultaat krijgt, vanwege de willekeurigheid die het algoritme meeneemt bij het bepalen van de punten die de middelpunten van de clusters bepalen.
Kowalski was ook gastartiest in seizoen 29 aflevering 10, “Pot o’ Posies.
Seizoen 3, aflevering 10 “Kampvuur”
Dit tweede schilderij kwam niet voor in mijn dataset, maar het is goed mogelijk dat ik het gemist heb bij het taggen.
Het beste van FiveThirtyEight, bij u bezorgd.