Patru seturi de date care păcălesc modelul de regresie liniară dacă este construit.
Când aceste modele sunt reprezentate grafic pe un grafic de dispersie, toate seturile de date generează un tip diferit de grafic care nu poate fi interpretat de nici un algoritm de regresie care este păcălit de aceste particularități și care poate fi văzut după cum urmează:
Imagine de autor
Cele patru seturi de date pot fi descrise astfel:
Setul de date 1: acesta se potrivește destul de bine modelului de regresie liniară.
Setul de date 2: acesta nu s-a putut potrivi destul de bine modelului de regresie liniară pe date, deoarece datele sunt neliniare.
Setul de date 3: arată valorile aberante implicate în setul de date care nu pot fi gestionate de modelul de regresie liniară
Setul de date 4: arată valorile aberante implicate în setul de date care nu pot fi gestionate de modelul de regresie liniară
Am descris cele patru seturi de date care au fost create în mod intenționat pentru a descrie importanța vizualizării datelor și modul în care orice algoritm de regresie poate fi păcălit de acesta. Prin urmare, toate caracteristicile importante din setul de date trebuie să fie vizualizate înainte de a implementa orice algoritm de învățare automată pe acestea, ceea ce va ajuta la realizarea unui model bine adaptat.