Vigtigheden af datavisualisering – Anscombe’s Quartet Way.

DS INTO THE REAL WORLD

Fire datasæt, der narrer den lineære regressionsmodel, hvis den er bygget.

Billede af forfatter

Anscombes kvartet består af fire datasæt, der har næsten identiske simple beskrivende statistikker, men som har meget forskellige fordelinger og fremstår meget forskellige, når de grafisk vises.
– Wikipedia

Anscombe’s Quartet kan defineres som en gruppe af fire datasæt, der er næsten identiske i simpel beskrivende statistik, men der er nogle særheder i datasættet, der narrer regressionsmodellen, hvis den opbygges. De har meget forskellige fordelinger og fremstår forskelligt, når de plottes på scatterplots.

Det blev konstrueret i 1973 af statistiker Francis Anscombe for at illustrere vigtigheden af at plotte graferne før analyse og modelopbygning og virkningen af andre observationer på statistiske egenskaber.

Der er disse fire datasætplots, som har næsten samme statistiske observationer, hvilket giver samme statistiske oplysninger, der omfatter varians, og middelværdi for alle x,y-punkter i alle fire datasæt.

Dette fortæller os om vigtigheden af at visualisere dataene, før man anvender forskellige algoritmer derude til at bygge modeller ud af dem, hvilket tyder på, at dataegenskaberne skal plottes for at se fordelingen af prøverne, der kan hjælpe dig med at identificere de forskellige anomalier, der er til stede i dataene som outliers, diversitet af dataene, lineær adskillelighed af dataene osv. Desuden kan den lineære regression kun betragtes som en tilpasning til data med lineære sammenhænge og er ikke i stand til at håndtere andre typer datasæt. Disse fire plot kan defineres som følger:

Image by Author

De statistiske oplysninger for alle disse fire datasæt er omtrent ens og kan beregnes på følgende måde:

Image by Author

Når disse modeller plottes på et scatter plot, genererer alle datasæt et anderledes plot, der ikke kan fortolkes af nogen regressionsalgoritme, som bliver snydt af disse særheder og kan ses som følger:

Billede af forfatter

De fire datasæt kan beskrives som:

  1. Datasæt 1: Dette passer ret godt til den lineære regressionsmodel.
  2. Datasæt 2: dette kunne ikke passe ret godt til den lineære regressionsmodel på dataene, da dataene er ikke-lineære.
  3. Datasæt 3: viser de outliers, der er involveret i datasættet, som ikke kan håndteres af den lineære regressionsmodel
  4. Datasæt 4: viser de outliers, der er involveret i datasættet, som ikke kan håndteres af den lineære regressionsmodel

Vi har beskrevet de fire datasæt, der med vilje blev oprettet for at beskrive vigtigheden af datavisualisering, og hvordan enhver regressionsalgoritme kan blive snydt af den samme. Derfor skal alle vigtige funktioner i datasættet visualiseres, før der implementeres en maskinlæringsalgoritme på dem, hvilket vil hjælpe med at lave en model, der passer godt.