Důležitost vizualizace dat – Anscombův způsob kvarteta.

DS V REÁLNÉM SVĚTĚ

Čtyři datové soubory, které oklamou lineární regresní model, pokud je sestaven.

Obrázek od autora

Anscombovo kvarteto zahrnuje čtyři datové soubory, které mají téměř identickou jednoduchou popisnou statistiku, ale mají velmi odlišná rozdělení a při vykreslení do grafu vypadají velmi odlišně.
– Wikipedie

Anscombovo kvarteto lze definovat jako skupinu čtyř datových souborů, které mají téměř totožnou jednoduchou popisnou statistiku, ale v datovém souboru se vyskytují určité zvláštnosti, které při sestavení regresního modelu klamou. Mají velmi odlišná rozdělení a při vykreslení na grafech rozptylu se jeví odlišně.

Zkonstruoval ji v roce 1973 statistik Francis Anscombe, aby ilustroval důležitost vykreslení grafů před analýzou a sestavením modelu a vliv dalších pozorování na statistické vlastnosti. existují tyto čtyři grafy datových souborů, které mají téměř stejná statistická pozorování, což poskytuje stejné statistické informace, které zahrnují rozptyl a průměr všech bodů x,y ve všech čtyřech datových souborech.

To nám říká o důležitosti vizualizace dat před použitím různých algoritmů, které tam jsou, aby se z nich vytvořily modely, což naznačuje, že je třeba vykreslit vlastnosti dat, aby bylo vidět rozložení vzorků, které vám může pomoci identifikovat různé anomálie přítomné v datech, jako jsou odlehlé hodnoty, různorodost dat, lineární oddělitelnost dat atd. Rovněž lineární regresi lze považovat za fit pouze pro data s lineárními vztahy a není schopna zpracovat jakýkoli jiný druh datových souborů. Tyto čtyři grafy lze definovat takto:

Obrázek od autora

Statistické informace pro všechny tyto čtyři datové soubory jsou přibližně podobné a lze je vypočítat následovně:

Obrázek od autora

Pokud jsou tyto modely vyneseny do grafu rozptylu, všechny soubory dat generují jiný druh grafu, který není interpretovatelný žádným regresním algoritmem, který je těmito zvláštnostmi oklamán, a lze jej vidět takto:

Image by Author

Čtyři datové sady lze popsat takto:

  1. Datová sada 1: docela dobře odpovídá lineárnímu regresnímu modelu.
  2. Soubor dat 2: na tato data nemohl lineární regresní model celkem dobře pasovat, protože data jsou nelineární.
  3. Datová sada 3: ukazuje odlehlé hodnoty zahrnuté do datové sady, se kterými si lineární regresní model neporadí
  4. Datová sada 4: ukazuje odlehlé hodnoty zahrnuté do datové sady, se kterými si lineární regresní model neporadí

Popsali jsme čtyři datové sady, které byly záměrně vytvořeny, abychom popsali důležitost vizualizace dat a to, jak může být každý regresní algoritmus oklamán. Proto je třeba před implementací jakéhokoli algoritmu strojového učení na ně vizualizovat všechny důležité prvky v datové sadě, což pomůže vytvořit dobře padnoucí model

.