Importanța vizualizării datelor – Calea cvartetului lui Anscombe.

DS ÎN LUMEA REALĂ

Patru seturi de date care păcălesc modelul de regresie liniară dacă este construit.

Imagine de autor

Cartetul lui Anncombe cuprinde patru seturi de date care au statistici descriptive simple aproape identice, dar care au distribuții foarte diferite și apar foarte diferite atunci când sunt reprezentate grafic.
– Wikipedia

Cvartetul lui Anscombe poate fi definit ca un grup de patru seturi de date care sunt aproape identice în statisticile descriptive simple, dar există unele particularități în setul de date care păcălesc modelul de regresie dacă este construit. Acestea au distribuții foarte diferite și apar diferit atunci când sunt reprezentate pe diagrame de dispersie.

Acesta a fost construit în 1973 de statisticianul Francis Anscombe pentru a ilustra importanța reprezentării grafice înainte de analiza și construirea modelului, precum și efectul altor observații asupra proprietăților statistice.Există aceste patru diagrame de seturi de date care au aproape aceleași observații statistice, care oferă aceleași informații statistice care implică varianța și media tuturor punctelor x,y din toate cele patru seturi de date.

Acest lucru ne vorbește despre importanța vizualizării datelor înainte de a aplica diverși algoritmi existenți pentru a construi modele din ele, ceea ce sugerează că caracteristicile datelor trebuie să fie reprezentate grafic pentru a vedea distribuția eșantioanelor care vă poate ajuta să identificați diferitele anomalii prezente în date, cum ar fi valorile aberante, diversitatea datelor, separabilitatea liniară a datelor etc. De asemenea, regresia liniară poate fi considerată o potrivire doar pentru datele cu relații liniare și este incapabilă să gestioneze orice alt tip de seturi de date. Aceste patru diagrame pot fi definite după cum urmează:

Imagine de autor

Informațiile statistice pentru toate aceste patru seturi de date sunt aproximativ similare și pot fi calculate după cum urmează:

Imagine de autor

Când aceste modele sunt reprezentate grafic pe un grafic de dispersie, toate seturile de date generează un tip diferit de grafic care nu poate fi interpretat de nici un algoritm de regresie care este păcălit de aceste particularități și care poate fi văzut după cum urmează:

Imagine de autor

Cele patru seturi de date pot fi descrise astfel:

  1. Setul de date 1: acesta se potrivește destul de bine modelului de regresie liniară.
  2. Setul de date 2: acesta nu s-a putut potrivi destul de bine modelului de regresie liniară pe date, deoarece datele sunt neliniare.
  3. Setul de date 3: arată valorile aberante implicate în setul de date care nu pot fi gestionate de modelul de regresie liniară
  4. Setul de date 4: arată valorile aberante implicate în setul de date care nu pot fi gestionate de modelul de regresie liniară

Am descris cele patru seturi de date care au fost create în mod intenționat pentru a descrie importanța vizualizării datelor și modul în care orice algoritm de regresie poate fi păcălit de acesta. Prin urmare, toate caracteristicile importante din setul de date trebuie să fie vizualizate înainte de a implementa orice algoritm de învățare automată pe acestea, ceea ce va ajuta la realizarea unui model bine adaptat.

.