Importance de la visualisation des données – La voie du quatuor d’Anscombe.

Dans le monde réel

Quatre ensembles de données qui trompent le modèle de régression linéaire s’il est construit.

Image par l’auteur

Le quatuor d’Anscombe comprend quatre ensembles de données qui ont des statistiques descriptives simples presque identiques, mais qui ont des distributions très différentes et apparaissent très différentes lorsqu’elles sont représentées graphiquement.
– Wikipedia

Le quatuor d’Anscombe peut être défini comme un groupe de quatre ensembles de données qui sont presque identiques dans les statistiques descriptives simples, mais il y a quelques particularités dans l’ensemble de données qui trompent le modèle de régression s’il est construit. Ils ont des distributions très différentes et apparaissent différemment lorsqu’ils sont tracés sur des diagrammes de dispersion.

Il a été construit en 1973 par le statisticien Francis Anscombe pour illustrer l’importance de tracer les graphiques avant d’analyser et de construire un modèle, et l’effet d’autres observations sur les propriétés statistiques.Il y a ces quatre tracés d’ensembles de données qui ont presque les mêmes observations statistiques, qui fournit les mêmes informations statistiques qui impliquent la variance, et la moyenne de tous les points x,y dans les quatre ensembles de données.

Cela nous renseigne sur l’importance de la visualisation des données avant d’appliquer les différents algorithmes qui existent pour construire des modèles à partir d’eux, ce qui suggère que les caractéristiques des données doivent être tracées afin de voir la distribution des échantillons qui peuvent vous aider à identifier les différentes anomalies présentes dans les données comme les aberrations, la diversité des données, la séparabilité linéaire des données, etc. De même, la régression linéaire ne peut être considérée comme un ajustement pour les données présentant des relations linéaires et est incapable de traiter tout autre type d’ensemble de données. Ces quatre graphiques peuvent être définis comme suit :

Image de l’auteur

Les informations statistiques pour ces quatre ensembles de données sont approximativement similaires et peuvent être calculées comme suit :

Image de l’auteur

Lorsque ces modèles sont tracés sur un diagramme de dispersion, tous les ensembles de données génèrent un type de tracé différent qui n’est interprétable par aucun algorithme de régression qui est trompé par ces particularités et peut être vu comme suit :

Image de l’auteur

Les quatre ensembles de données peuvent être décrits comme:

  1. Ensemble de données 1 : il correspond assez bien au modèle de régression linéaire.
  2. Ensemble de données 2 : cela ne pourrait pas s’adapter assez bien au modèle de régression linéaire sur les données, car les données sont non linéaires.
  3. Dataset 3 : montre les valeurs aberrantes impliquées dans le jeu de données qui ne peuvent pas être traitées par le modèle de régression linéaire
  4. Dataset 4 : montre les valeurs aberrantes impliquées dans le jeu de données qui ne peuvent pas être traitées par le modèle de régression linéaire

Nous avons décrit les quatre jeux de données qui ont été créés intentionnellement pour décrire l’importance de la visualisation des données et comment n’importe quel algorithme de régression peut être trompé par le même. Par conséquent, toutes les caractéristiques importantes de l’ensemble de données doivent être visualisées avant de mettre en œuvre tout algorithme d’apprentissage automatique sur elles, ce qui aidera à faire un modèle bien ajusté.