Statistická analýza díla Boba Rosse
Bob Ross byl dokonalý učitel. Své fanoušky vedl při malování „šťastných stromů“, „všemocných hor“ a „nadýchaných mraků“ v průběhu své jedenáctileté televizní kariéry v pořadu „Radost z malování“ na stanici PBS. Celkem Ross v tomto pořadu namaloval 381 děl, přičemž se opíral o odlišný soubor prvků, scén a témat, a poskytl tak tisíce datových bodů. Rozhodl jsem se, že tato data využiji k tomu, abych sám něco naučil: důležité statistické koncepty podmíněné pravděpodobnosti a shlukování a také lekci o omezeních dat.
Takže si udělejme trvalou na vlasy a připravme se na vytváření veselých tabulek!“
Co jsem zjistil – díky analýze dat a rozhovoru s jedním z Rossových nejbližších spolupracovníků – byl soubor děl, který byl definován důsledností a zásadně osobním ideálem. Ross se narodil v Daytoně na Floridě a v sedmnácti letech vstoupil do letectva. Byl umístěn ve Fairbanksu a následujících 20 let strávil na Aljašce. Zdá se, že pobyt tam měl významný vliv na jeho oblíbené náměty – stromy, hory, mraky, jezera a sníh.
Z celkem 403 dílů pořadu „The Joy of Painting“ (Radost z malování), který se poprvé vysílal v letech 1983 až 1994 a který se v reprízách vysílá na stanicích PBS po celé zemi, maloval Ross v 381 dílech a ve zbylých vystupoval jako host, nejčastěji jeho syn Steve Ross. Na základě obrázků obrazů Boba Rosse dostupných v obchodě Bob Ross Inc. jsem všechny epizody1 kódoval pomocí 67 klíčových slov popisujících obsah (stromy, voda, hory, povětrnostní prvky a struktury vytvořené člověkem), stylistické volby při rámování obrazů a hostující umělce, celkem 3 224 tagů.2
Analyzoval jsem data, abych zjistil, co přesně Ross, který zemřel v roce 1995, více než deset let v televizi maloval. Špičkové výsledky se daly očekávat – nevěděli byste, že namaloval spoustu hor, stromů a jezer! – ale pak jsem k Rossovým klasickým řečnickým figurám přiřadil pár čísel. Nemaloval duby ani smrky, maloval „šťastné stromy“. Před vrcholy dával přednost „všemocným horám“. Když už namaloval jeden strom, nenamaloval další – namaloval „přítele“.
Tady je uvedeno, jak často se v průběhu 381 epizod objevily jednotlivé značky, které se objevily více než pětkrát:
Teď, když známe základní pravděpodobnosti jednotlivých značek, můžeme také zjistit společné pravděpodobnosti některých z těchto událostí. Například jak často se na jednom obraze vyskytuje listnatý a jehličnatý strom? Víme, že 57 % obrazů obsahuje listnatý strom a 53 % obrazů obsahuje jehličnatý strom. Podle našeho souboru dat obsahuje 20 procent obrazů alespoň jeden z nich.
Navíc můžeme také zjistit pravděpodobnost, že Ross namaloval něco za předpokladu, že namaloval něco jiného, což je statistika, která se nazývá podmíněná pravděpodobnost.
Podmíněná pravděpodobnost může být trochu ošemetná. Víme, že 44 % Rossových obrazů obsahuje mraky, 9 % obsahuje pláž a 7 % obsahuje jak mraky, tak pláž. Pomocí této informace můžeme zjistit dvě věci: pravděpodobnost, že Ross namaloval mrak, vzhledem k tomu, že namaloval pláž, a pravděpodobnost, že namaloval pláž, vzhledem k tomu, že namaloval mrak. Společnou pravděpodobnost – v tomto případě 7 % – vydělíte pravděpodobností daného – 44 % nebo 9 %, podle toho, zda chcete znát pravděpodobnost pláže vzhledem k mraku, nebo mraku vzhledem k pláži.
Největším úskalím, kterému lidé často čelí, je předpoklad, že obě pravděpodobnosti jsou stejné. Pravděpodobnost, že Ross namaloval mrak vzhledem k tomu, že namaloval pláž – v podstatě kolik obrazů pláže má mrak – je (0,07)/(0,09), což je 78 procent. Naprostá většina plážových výjevů obsahuje mraky. Nicméně pravděpodobnost, že Ross namaloval pláž vzhledem k tomu, že namaloval mrak – neboli kolik obrazů s mraky obsahuje pláž – je (0,07)/(0,44), tedy 16 procent. Naprostá většina obrazů mraků tedy neobsahuje pláže.
Vypočítal jsem podmíněnou pravděpodobnost každé značky Boba Rosse vůči každé jiné značce, abych odpověděl na následující naléhavé otázky.
Jaká je pravděpodobnost, že vzhledem k tomu, že Ross namaloval veselý strom, namaloval pak k tomuto stromu kamaráda?
Je 93% pravděpodobnost, že Ross namaluje druhý strom vzhledem k tomu, že namaloval první.
Jaké procento obrazů Boba Rosse obsahuje všemocnou horu?
Přibližně 39 % obrazů obsahuje horu.
Jaké procento těchto obrazů obsahuje několik všemocných hor?
Ross byl také ochoten namalovat k horám přátele. Na 60 procentech obrazů s jednou horou jsou alespoň dvě hory.
V jakém procentu těchto obrazů je hora pokryta sněhem?
Pokud Ross namaloval horu, je 66procentní pravděpodobnost, že je na ní sníh.
A co nohaté kopečky?
Kopce se objevují na 4 procentech Rossových obrazů. Zjevně dával přednost všemocným horám.
A co veselé mráčky?
Výborná otázka, protože na 44 procentech Rossových obrazů se výrazně objevuje alespoň jeden mráček. Vzhledem k tomu, že je namalován obláček, je 47procentní šance, že se jedná o výrazný kumulus. Existuje pouze 14procentní šance, že namalovaný mrak je výrazně cirrový.
A co půvabné chaloupky?
Přibližně na 18 procentech jeho obrazů je chaloupka. Vzhledem k tomu, že Ross namaloval chatu, je 35procentní šance, že je na jezeře, a 40procentní šance, že je na zemi sníh. Zatímco 72 procent srubů je na stejném obraze jako jehličnany, pouze 63 procent je v blízkosti listnatých stromů.
Jak často maloval vodu?
Vždy! Asi 34 procent Rossových obrazů obsahuje jezero, 33 procent řeku nebo potok a 9 procent oceán.
Zní to, jako by neměl rád pláže.
Mnoho naopak. Pláž je vidět na 75 procentech Rossových přímořských obrazů, ale slunce jen na 31 procentech z nich. Pokud je na obraze oceán, je pravděpodobně rozbouřený: na 97 procentech obrazů s oceánem jsou vlny. Na Rossových 36 oceánských obrazech se také častěji než na průměrném obraze vyskytovaly útesy, mraky a skály.
A co Steve Ross?
Steve zřejmě mnohem více než Bob preferoval jezera. Zatímco na pouze 34 procentech Bobových obrazů je jezero, na 91 procentech Stevových obrazů ano.
Jedním z užitečných nástrojů, který můžeme na tento druh dat – kde porovnáváme vektory informací – použít, je nástroj shlukování. Smyslem shlukování je určit, jak blízko mají určité skupiny dat k jiným bodům v souboru dat. Výzkumníci používají shlukovou analýzu v nejrůznějších oblastech – od biologie po spotřebitelský marketing – jako způsob segmentace populace například rostlin nebo lidí. Umožňuje najít zajímavé podskupiny dat na základě toho, jak podobné nebo odlišné jsou určité podskupiny od zbytku souboru.
Použil jsem algoritmus k rozdělení celého souboru 403 obrazů z knihy „Radost z malování“ do shluků podobných obrazů. Chtěl jsem zjistit, zda je možné identifikovat 10 základních obrazů uvedených v seriálu PBS. Za tímto účelem jsem provedl shlukovou analýzu obrazů metodou k-means.3 Výsledky byly smíšené.
Nejprve se podívejme na shluky, které dávají intuitivní smysl. Jasnými vítězi jsou:
- Shluk 50 obrazů označených jako „sníh“ a „zima“
- Shluk 28 obrazů, každý s oválným rámem bílého prostoru
- Shluk 35 obrazů oceánských scén.
Tyto druhy jasných shluků jsme doufali najít. Každý z nich má společné téma a spadá pod hlavičku ikonických obrazů Boba Rosse. V každém ročním období namaloval přibližně jednu plážovou scénu a jeden obraz v oválném rámu a přibližně dvě scény se sněhem v popředí v každém ročním období. To dává smysl.
Tady je několik shluků, které také dávají smysl, ale o Rossově oblíbeném druhu malby nám toho moc neřeknou:
- Shluk 13 obrazů hostujícího Steva Rosse
- Shluk 7 obrazů obsahujících most
- Shluk 11 obrazů obsahujících květiny
- Shluk 30 obrazů obsahujících plot nebo stodolu
- Shluk 33 obrazů obsahujících vodopád.
Tyto shluky identifikují některé značky, které se objevují pouze na několika obrazech, ale seskupení nejsou svrchovaně užitečná pro určení toho, co Ross maloval. Například květiny byly jen velmi zřídka hlavní náplní obrazu a my jsme již věděli, kolikrát se Steve Ross v programu objevil.
Závěrečné dva shluky byly nejširší:
- Shluk 95 obrazů, na kterých byly stromy a alespoň jedna hora
- Shluk 103 obrazů, na kterých byly stromy, ale žádné hory.
Nejsou sice mimořádně užitečné, ale přesto docela zajímavé. Analýza shluků je pro tento druh dat lákavým nástrojem, ale sotva dává všechny odpovědi.
Abych se o Rossovi a jeho díle dozvěděl více než to, co jsem již věděl z dat, zavolal jsem Annette Kowalski, která s malířem založila společnost Bob Ross Inc. a zůstává správkyní jeho díla.4 Potvrdila mi něco, co jsem zjistil při prohlídce stovek Rossových krajin: jeho dílo není definováno tím, co je na jeho obrazech obsaženo, ale tím, co je z nich vyloučeno.
„Napadají mě dva případy, kdy maloval lidi,“ řekla Kowalski. „Byl to člověk u táborového ohně5 a dva lidé jdoucí lesem. „6 Naše údaje skutečně ukazují, že Ross namaloval člověka – v siluetě na pozadí stromu u táborového ohně – pouze jednou.
Při analýze staveb, které maloval, se zdá, že Ross dával přednost jednoduchým před složitými. Namaloval 69 domků, 25 plotů v různém stavu rozpadu a 17 stodol. Složitější stavby vytvořené člověkem jsou v jeho díle pozoruhodně vzácné. Mosty se objevují pouze sedmkrát. Lodě a mlýny dvakrát. Ross během 381 epizod namaloval jeden přístav, jeden maják a jeden větrný mlýn.
Podle Kowalského je na Rossových stavbách něco, čeho si fanoušci téměř vůbec nevšimli.
„Prozradím vám Bobovo největší tajemství. Pokud jste si všimli, jeho domky na sobě nikdy neměly komíny,“ řekla. „To proto, že komíny představovaly lidi a on nechtěl, aby na jeho obrazech byl jakýkoli náznak člověka. Podívejte se na chaty. Nemají žádné komíny.“
Hned dodala: „Jsem si jistá, že mi zítra zavoláš a řekneš, že jsi našel komín.“
Podívala se na něj. A taky jsem to udělal! Ale chtělo to hodně lovení. V 1. epizodě 7. série, „Zimní chata“, je na chatě komín (zobrazený výše ve třetí řadě, prostřední sloupec). Ale to, že se komín objevil jednou na 381 obrazech, Kowalského pointu nijak nesnižuje.
Když na to přijde, „Radost z malování“ nikdy nebyla o malování. Dokonce i Kowalski, která vede společnost prodávající malířské potřeby se značkou Boba Rosse, se domnívá, že většina diváků se na něj nedívá kvůli umění.
„Většina lidí, kteří sledují Boba Rosse, nemá o malování zájem,“ řekla. „Většinou je to jeho uklidňující hlas.“
Z celkového počtu 403 epizod jsem neměl možnost vidět dokončené práce na třech obrazech: 10. epizoda 9. série „Country Charm“, 4. epizoda 15. série „Peaceful Reflections“ a 10. epizoda 26. série „Purple Mountain Range“.“
Z celkového počtu 403 epizod jsem nebyl schopen vidět dokončené dílo tří obrazů: 10. epizoda 9. série, „Country Charm“; 4. epizoda 15. série, „Peaceful Reflections“ a 10. epizoda 26. série, „Purple Mountain Range“.“
Tento soubor dat zůstává ve stádiu rozpracovanosti – je první svého druhu – a je zde samozřejmě možnost opomenutí. Zhlédnutí celého filmu „Radost z malování“ by trvalo něco přes osm dní v kuse, takže je to úkol nevhodný pro jednoho člověka. Jsem však přesvědčen, že údaje v této podobě popisují dílo v průběhu Rossovy kariéry přesně a důsledně.
Z celkového počtu 403 epizod se mi nepodařilo zhlédnout dokončené dílo u tří obrazů: 10. epizoda 9. série „Country Charm“; 4. epizoda 15. série „Peaceful Reflections“ a 10. epizoda 26. série „Purple Mountain Range“.“
Tento soubor dat zůstává ve stádiu rozpracovanosti – je první svého druhu – a je zde samozřejmě možnost opomenutí. Zhlédnutí celého filmu „Radost z malování“ by trvalo něco přes osm dní v kuse, takže je to úkol nevhodný pro jednoho člověka. Jsem však přesvědčen, že data v této podobě popisují dílo v průběhu Rossovy kariéry přesně a konzistentně.
Algoritmus k-means je to, čemu říkáme nedeterministický. To znamená, že pokaždé dostanete trochu jiný výsledek, protože algoritmus při určování bodů, které definují středy shluků, zohledňuje náhodnost.
Z celkového počtu 403 epizod se mi nepodařilo zobrazit dokončenou práci na třech obrazech: 10. epizoda 9. série, „Country Charm“; 4. epizoda 15. série, „Peaceful Reflections“ a 10. epizoda 26. série, „Purple Mountain Range“.“
Tento soubor dat zůstává ve stádiu rozpracovanosti – je první svého druhu – a je zde samozřejmě možnost opomenutí. Zhlédnutí celého filmu „Radost z malování“ by trvalo něco přes osm dní v kuse, takže je to úkol nevhodný pro jednoho člověka. Jsem však přesvědčen, že data v této podobě popisují dílo v průběhu Rossovy kariéry přesně a konzistentně.
Algoritmus k-means je to, čemu říkáme nedeterministický. To znamená, že pokaždé dostanete trochu jiný výsledek, protože algoritmus při určování bodů, které definují středy shluků, zohledňuje náhodnost.
Kowalski byl také hostujícím umělcem v 10. epizodě 29. série „Pot o‘ Posies.���
Z celkového počtu 403 epizod jsem neměl možnost vidět dokončenou práci na třech obrazech: 10. epizoda 9. série „Půvab venkova“; 4. epizoda 15. série „Klidné odrazy“ a 10. epizoda 26. série „Purpurové pohoří“.“
Tento soubor dat zůstává ve stádiu rozpracovanosti – je první svého druhu – a je zde samozřejmě možnost opomenutí. Zhlédnutí celého filmu „Radost z malování“ by trvalo něco přes osm dní v kuse, takže je to úkol nevhodný pro jednoho člověka. Jsem však přesvědčen, že data v této podobě popisují dílo v průběhu Rossovy kariéry přesně a konzistentně.
Algoritmus k-means je to, čemu říkáme nedeterministický. To znamená, že pokaždé dostanete trochu jiný výsledek, protože algoritmus při určování bodů, které definují středy shluků, zohledňuje náhodnost.
Kowalski byl také hostujícím umělcem v 10. epizodě 29. série „Pot o‘ Posies.���
Sezóna 3, epizoda 10 „Táborák“
Z celkového počtu 403 epizod se mi nepodařilo vidět dokončenou práci na třech obrazech: sezóna 9, epizoda 10, „Venkovský půvab“; sezóna 15, epizoda 4, „Klidné odrazy“ a sezóna 26, epizoda 10, „Purpurové pohoří“.“
Tento soubor dat zůstává ve stádiu rozpracovanosti – je první svého druhu – a je zde samozřejmě možnost opomenutí. Zhlédnutí celého filmu „Radost z malování“ by trvalo něco přes osm dní v kuse, takže je to úkol nevhodný pro jednoho člověka. Jsem však přesvědčen, že data v této podobě popisují dílo v průběhu Rossovy kariéry přesně a konzistentně.
Algoritmus k-means je to, čemu říkáme nedeterministický. To znamená, že pokaždé dostanete trochu jiný výsledek, protože algoritmus při určování bodů, které definují středy shluků, zohledňuje náhodnost.
Kowalski byl také hostujícím umělcem v 10. epizodě 29. série „Pot o‘ Posies.���
Tento druhý obraz se v mém souboru dat neobjevil, ale je docela možné, že jsem ho při označování přehlédl.
To nejlepší z FiveThirtyEight, co vám přinášíme
.