Belang van datavisualisatie – Anscombe’s Kwartet Way.

DS IN DE ECHTE WERELD

Vier datasets die het Lineaire Regressiemodel voor de gek houden als het gebouwd is.

Image by Author

Anscombe’s kwartet bestaat uit vier datasets die vrijwel identieke eenvoudige beschrijvende statistieken hebben, maar zeer verschillende verdelingen hebben en er zeer verschillend uitzien wanneer ze in een grafiek worden gezet.
– Wikipedia

Anscombe’s kwartet kan worden gedefinieerd als een groep van vier datasets die vrijwel identiek zijn in eenvoudige beschrijvende statistieken, maar er zijn enkele eigenaardigheden in de dataset die het regressiemodel voor de gek houden als het gebouwd is. Ze hebben zeer verschillende verdelingen en verschijnen anders wanneer uitgezet op scatter plots.

Het werd geconstrueerd in 1973 door de statisticus Francis Anscombe om het belang van het plotten van de grafieken vóór het analyseren en het bouwen van modellen te illustreren, en het effect van andere waarnemingen op statistische eigenschappen.Er zijn deze vier dataset plots die bijna dezelfde statistische waarnemingen hebben, die dezelfde statistische informatie die variantie, en gemiddelde van alle x,y punten in alle vier datasets betreft.

Dit vertelt ons over het belang van het visualiseren van de gegevens alvorens verschillende algoritmen toe te passen die er zijn om modellen van hen te bouwen die suggereren dat de gegevenskenmerken moeten worden uitgezet om de distributie van de steekproeven te zien die u kunnen helpen de verschillende anomalieën te identificeren die in de gegevens zoals uitbijters, diversiteit van de gegevens, lineaire scheidbaarheid van de gegevens, enz. aanwezig zijn. Bovendien kan de lineaire regressie alleen worden beschouwd als een methode voor gegevens met lineaire verbanden en is zij niet in staat andere soorten gegevensreeksen te verwerken. Deze vier plots kunnen als volgt worden gedefinieerd:

Image by Author

De statistische informatie voor al deze vier datasets is ongeveer gelijk en kan als volgt worden berekend:

Image by Author

Wanneer deze modellen op een scatterplot worden uitgezet, genereren alle datasets een ander soort plot dat door geen enkel regressiealgoritme kan worden geïnterpreteerd dat door deze eigenaardigheden voor de gek wordt gehouden en als volgt kan worden weergegeven:

Image by Author

De vier datasets kunnen worden beschreven als:

  1. Dataset 1: deze past vrij goed in het lineaire regressiemodel.
  2. Dataset 2: hier past het lineaire regressiemodel niet goed op de gegevens, omdat de gegevens niet-lineair zijn.
  3. Dataset 3: toont de uitschieters in de dataset die niet door het lineaire regressiemodel kunnen worden verwerkt
  4. Dataset 4: toont de uitschieters in de dataset die niet door het lineaire regressiemodel kunnen worden verwerkt

We hebben de vier datasets beschreven die opzettelijk zijn gemaakt om het belang van gegevensvisualisatie te beschrijven en hoe elk regressiealgoritme door hetzelfde kan worden misleid. Daarom moeten alle belangrijke kenmerken in de dataset worden gevisualiseerd voordat een algoritme voor machinaal leren erop wordt toegepast, wat zal helpen om een goed passend model te maken.