Importance of Data Visualization – Anscombe’s Quartet Way.

DS INTO THE REAL WORLD

Cztery zestawy danych, które oszukują model Regresji Liniowej, jeśli jest zbudowany.

Obraz autora

Kwartet Anscombe’a obejmuje cztery zbiory danych, które mają prawie identyczne proste statystyki opisowe, ale mają bardzo różne rozkłady i wyglądają bardzo różnie, gdy się je wykreśli na wykresie.
– Wikipedia

Kwartet Anscombe’a można zdefiniować jako grupę czterech zestawów danych, które są prawie identyczne w prostych statystykach opisowych, ale istnieją pewne osobliwości w zestawie danych, które oszukują model regresji, jeśli jest zbudowany. Mają one bardzo różne rozkłady i pojawiają się inaczej, gdy są wykreślone na wykresach scatter plots.

Został on skonstruowany w 1973 roku przez statystyka Francisa Anscombe’a, aby zilustrować znaczenie wykreślania wykresów przed analizą i budową modelu, a także wpływ innych obserwacji na właściwości statystyczne.There są te cztery działki zestawów danych, które mają prawie takie same obserwacje statystyczne, co zapewnia te same informacje statystyczne, które obejmują wariancję i średnią wszystkich punktów x,y we wszystkich czterech zestawach danych.

To mówi nam o znaczeniu wizualizacji danych przed zastosowaniem różnych algorytmów tam budować modele z nich, co sugeruje, że cechy danych muszą być wykreślone, aby zobaczyć rozkład próbek, które mogą pomóc zidentyfikować różne anomalie obecne w danych, takich jak wartości odstające, różnorodność danych, liniowej separacji danych, itp. Ponadto, Regresja liniowa może być tylko uważane za dopasowanie do danych z liniowych relacji i jest niezdolny do obsługi wszelkiego rodzaju innych zestawów danych. Te cztery wykresy można zdefiniować w następujący sposób:

Image by Author

Informacje statystyczne dla wszystkich tych czterech zestawów danych są w przybliżeniu podobne i można je obliczyć w następujący sposób:

Image by Author

Gdy te modele są wykreślane na wykresie rozrzutu, wszystkie zbiory danych generują inny rodzaj wykresu, który nie jest interpretowalny przez żaden algorytm regresji, który daje się nabrać na te osobliwości i można go zobaczyć następująco:

Image by Author

Cztery zbiory danych można opisać jako:

  1. Zbiór danych 1: całkiem dobrze pasuje do modelu regresji liniowej.
  2. Zbiór danych 2: to nie może dopasować modelu regresji liniowej na danych dość dobrze, ponieważ dane są nieliniowe.
  3. Zbiór danych 3: pokazuje wartości odstające w zbiorze danych, które nie mogą być obsługiwane przez model regresji liniowej
  4. Zbiór danych 4: pokazuje wartości odstające w zbiorze danych, które nie mogą być obsługiwane przez model regresji liniowej

Opisaliśmy cztery zbiory danych, które zostały celowo utworzone, aby opisać znaczenie wizualizacji danych i to, jak każdy algorytm regresji może zostać oszukany przez to samo. W związku z tym, wszystkie ważne cechy w zbiorze danych muszą być wizualizowane przed zaimplementowaniem na nich jakiegokolwiek algorytmu uczenia maszynowego, który pomoże stworzyć dobrze dopasowany model.

.