Vigtigheden af datavisualisering – Anscombe’s Quartet Way.
DS INTO THE REAL WORLD
Fire datasæt, der narrer den lineære regressionsmodel, hvis den er bygget.
Anscombes kvartet består af fire datasæt, der har næsten identiske simple beskrivende statistikker, men som har meget forskellige fordelinger og fremstår meget forskellige, når de grafisk vises.
– Wikipedia
Anscombe’s Quartet kan defineres som en gruppe af fire datasæt, der er næsten identiske i simpel beskrivende statistik, men der er nogle særheder i datasættet, der narrer regressionsmodellen, hvis den opbygges. De har meget forskellige fordelinger og fremstår forskelligt, når de plottes på scatterplots.
Det blev konstrueret i 1973 af statistiker Francis Anscombe for at illustrere vigtigheden af at plotte graferne før analyse og modelopbygning og virkningen af andre observationer på statistiske egenskaber.
Der er disse fire datasætplots, som har næsten samme statistiske observationer, hvilket giver samme statistiske oplysninger, der omfatter varians, og middelværdi for alle x,y-punkter i alle fire datasæt.
Dette fortæller os om vigtigheden af at visualisere dataene, før man anvender forskellige algoritmer derude til at bygge modeller ud af dem, hvilket tyder på, at dataegenskaberne skal plottes for at se fordelingen af prøverne, der kan hjælpe dig med at identificere de forskellige anomalier, der er til stede i dataene som outliers, diversitet af dataene, lineær adskillelighed af dataene osv. Desuden kan den lineære regression kun betragtes som en tilpasning til data med lineære sammenhænge og er ikke i stand til at håndtere andre typer datasæt. Disse fire plot kan defineres som følger: