Bedeutung der Datenvisualisierung – Anscombe’s Quartet Way.
DS INTO THE REAL WORLD
Vier Datensätze, die das lineare Regressionsmodell täuschen, wenn es erstellt wird.
Anscombes Quartett umfasst vier Datensätze, die nahezu identische einfache beschreibende Statistiken aufweisen, jedoch sehr unterschiedliche Verteilungen haben und sehr unterschiedlich erscheinen, wenn sie grafisch dargestellt werden.
– Wikipedia
Anscombes Quartett kann als eine Gruppe von vier Datensätzen definiert werden, die in der einfachen deskriptiven Statistik fast identisch sind, aber es gibt einige Besonderheiten im Datensatz, die das Regressionsmodell täuschen, wenn es erstellt wird. Sie haben sehr unterschiedliche Verteilungen und erscheinen unterschiedlich, wenn sie in Streudiagrammen aufgetragen werden.
Es wurde 1973 von dem Statistiker Francis Anscombe konstruiert, um die Bedeutung des Auftragens von Diagrammen vor der Analyse und der Modellbildung sowie die Auswirkung anderer Beobachtungen auf die statistischen Eigenschaften zu veranschaulichen Es gibt diese vier Datensatzdiagramme, die fast die gleichen statistischen Beobachtungen haben, die die gleichen statistischen Informationen liefern, die die Varianz und den Mittelwert aller x,y-Punkte in allen vier Datensätzen beinhalten.
Dies zeigt uns, wie wichtig es ist, die Daten zu visualisieren, bevor man verschiedene Algorithmen anwendet, um daraus Modelle zu erstellen. Dies legt nahe, dass die Datenmerkmale aufgezeichnet werden müssen, um die Verteilung der Stichproben zu sehen, die Ihnen helfen können, die verschiedenen Anomalien in den Daten zu identifizieren, wie Ausreißer, Vielfalt der Daten, lineare Trennbarkeit der Daten usw. Außerdem kann die lineare Regression nur als Anpassung für Daten mit linearen Beziehungen betrachtet werden und ist nicht in der Lage, andere Arten von Datensätzen zu verarbeiten. Diese vier Diagramme können wie folgt definiert werden:
Die statistischen Informationen für alle diese vier Datensätze sind annähernd ähnlich und können wie folgt berechnet werden:
Wenn diese Modelle auf einem Streudiagramm aufgetragen werden, erzeugen alle Datensätze eine andere Art von Diagramm, das von keinem Regressionsalgorithmus interpretiert werden kann, der durch diese Besonderheiten getäuscht wird, und wie folgt zu sehen ist:
Die vier Datensätze können wie folgt beschrieben werden:
- Datensatz 1: Dieser passt ziemlich gut zum linearen Regressionsmodell.
- Datensatz 2: Hier konnte das lineare Regressionsmodell nicht gut an die Daten angepasst werden, da die Daten nichtlinear sind.
- Datensatz 3: zeigt die Ausreißer im Datensatz, die das lineare Regressionsmodell nicht bewältigen kann
- Datensatz 4: zeigt die Ausreißer im Datensatz, die das lineare Regressionsmodell nicht bewältigen kann
Wir haben die vier Datensätze beschrieben, die absichtlich erstellt wurden, um die Bedeutung der Datenvisualisierung zu beschreiben und um zu zeigen, wie jeder Regressionsalgorithmus durch diese getäuscht werden kann. Daher müssen alle wichtigen Merkmale des Datensatzes visualisiert werden, bevor ein Algorithmus für maschinelles Lernen darauf angewendet wird, um ein gut passendes Modell zu erstellen.