Az adatvizualizáció jelentősége – Anscombe kvartett útja.
DS A VALÓDI VILÁGBAN
Négy adatkészlet, amely becsapja a lineáris regressziós modellt, ha épül.
Anscombe kvartettje négy olyan adatsort tartalmaz, amelyek közel azonos egyszerű leíró statisztikával rendelkeznek, mégis nagyon különböző eloszlásokkal rendelkeznek és grafikonon nagyon különbözőnek tűnnek.
– Wikipedia
Anscombe kvartettje négy olyan adathalmazból álló csoportként definiálható, amelyek egyszerű leíró statisztikáikban közel azonosak, de van néhány olyan sajátosság az adathalmazban, amely becsapja a regressziós modellt, ha felépítik. Nagyon eltérő eloszlásuk van, és másképp jelennek meg, ha szórásdiagramon ábrázolják őket.
Ezt 1973-ban Francis Anscombe statisztikus alkotta meg, hogy szemléltesse a grafikonok ábrázolásának fontosságát az elemzés és a modellépítés előtt, valamint az egyéb megfigyelések hatását a statisztikai tulajdonságokra.Van ez a négy adatkészlet, amelyek közel azonos statisztikai megfigyelésekkel rendelkeznek, ami azonos statisztikai információt nyújt, amely magában foglalja a varianciát és az összes x,y pont átlagát mind a négy adatkészletben.
Ez elmondja nekünk az adatok vizualizálásának fontosságát, mielőtt különböző algoritmusokat alkalmaznánk odakint, hogy modelleket építsünk belőlük, ami azt sugallja, hogy az adatok jellemzőit ábrázolni kell annak érdekében, hogy láthassuk a minták eloszlását, amely segíthet azonosítani az adatokban jelen lévő különböző anomáliákat, mint például a kiugró értékek, az adatok sokfélesége, az adatok lineáris szeparálhatósága stb. Továbbá a lineáris regresszió csak a lineáris kapcsolatokkal rendelkező adatok illeszkedésének tekinthető, és nem képes más típusú adatkészletek kezelésére. Ez a négy diagram a következőképpen határozható meg:
Ha ezeket a modelleket egy szórásdiagramon ábrázoljuk, mindegyik adatsor másfajta ábrát generál, amely nem értelmezhető egyetlen regressziós algoritmus által sem, amelyet becsapnak ezek a sajátosságok, és az alábbiak szerint látható:
A négy adatsor a következőképpen írható le:
- 1. adatsor: ez elég jól illeszkedik a lineáris regressziós modellhez.
- 2. adatkészlet: ez nem tudta elég jól illeszteni a lineáris regressziós modellt az adatokra, mivel az adatok nem lineárisak.
- 3. adatkészlet: mutatja az adathalmazban szereplő kiugró értékeket, amelyeket a lineáris regressziós modell nem tud kezelni
- 4. adatkészlet: mutatja az adathalmazban szereplő kiugró értékeket, amelyeket a lineáris regressziós modell nem tud kezelni
A négy adatkészletet szándékosan azért hoztuk létre, hogy bemutassuk az adatok vizualizálásának fontosságát és azt, hogy bármely regressziós algoritmust hogyan lehet becsapni. Ezért az adatkészlet minden fontos jellemzőjét vizualizálni kell, mielőtt bármilyen gépi tanulási algoritmust végrehajtanánk rajtuk, ami segít a jól illeszkedő modell elkészítésében.