Importanza della visualizzazione dei dati – La via del quartetto di Anscombe.
DS NEL MONDO REALE
Quattro serie di dati che ingannano il modello di regressione lineare se costruito.
Il quartetto di Anscombe comprende quattro serie di dati che hanno statistiche descrittive semplici quasi identiche, ma hanno distribuzioni molto diverse e appaiono molto diverse se graficate.
– Wikipedia
Il quartetto di Anscombe può essere definito come un gruppo di quattro insiemi di dati che sono quasi identici nelle statistiche descrittive semplici, ma ci sono alcune peculiarità nel set di dati che ingannano il modello di regressione se costruito. Hanno distribuzioni molto diverse e appaiono in modo diverso quando sono tracciati sui diagrammi di dispersione.
È stato costruito nel 1973 dallo statistico Francis Anscombe per illustrare l’importanza di tracciare i grafici prima di analizzare e costruire il modello, e l’effetto di altre osservazioni sulle proprietà statistiche.Ci sono questi quattro set di dati tracciati che hanno quasi le stesse osservazioni statistiche, che forniscono le stesse informazioni statistiche che coinvolgono la varianza e la media di tutti i punti x,y in tutti e quattro i set di dati.
Questo ci dice l’importanza di visualizzare i dati prima di applicare vari algoritmi per costruire modelli su di essi, il che suggerisce che le caratteristiche dei dati devono essere tracciate per vedere la distribuzione dei campioni che può aiutare a identificare le varie anomalie presenti nei dati come outlier, diversità dei dati, separabilità lineare dei dati, ecc. Inoltre, la Regressione Lineare può essere considerata solo per i dati con relazioni lineari ed è incapace di gestire qualsiasi altro tipo di serie di dati. Questi quattro grafici possono essere definiti come segue:
Le informazioni statistiche per tutti questi quattro set di dati sono circa simili e possono essere calcolate come segue:
Quando questi modelli sono tracciati su un plot di dispersione, tutti i set di dati generano un diverso tipo di trama che non è interpretabile da nessun algoritmo di regressione che è ingannato da queste peculiarità e può essere visto come segue:
I quattro dataset possono essere descritti come:
- Dataset 1: si adatta abbastanza bene al modello di regressione lineare.
- Dataset 2: non si adatta abbastanza bene al modello di regressione lineare sui dati perché i dati non sono lineari.
- Dataset 3: mostra gli outlier coinvolti nel dataset che non possono essere gestiti dal modello di regressione lineare
- Dataset 4: mostra gli outlier coinvolti nel dataset che non possono essere gestiti dal modello di regressione lineare
Abbiamo descritto i quattro dataset che sono stati creati intenzionalmente per descrivere l’importanza della visualizzazione dei dati e come qualsiasi algoritmo di regressione può essere ingannato dallo stesso. Quindi, tutte le caratteristiche importanti nel set di dati devono essere visualizzate prima di implementare qualsiasi algoritmo di apprendimento automatico su di esse, il che aiuterà a fare un buon modello.