Värdet av datavisualisering – Anscombe’s Quartet Way.
DS INTO THE REAL WORLD
Fyra dataset som lurar den linjära regressionsmodellen om den byggs.
Anscombes kvartett består av fyra datamängder som har nästan identisk enkel deskriptiv statistik, men som ändå har väldigt olika fördelningar och ser väldigt olika ut när de grafiskt visas.
– Wikipedia
Anscombe’s Quartet kan definieras som en grupp av fyra datamängder som är nästan identiska i enkel beskrivande statistik, men det finns några egenheter i datamängden som lurar regressionsmodellen om den byggs. De har mycket olika fördelningar och ser olika ut när de plottas på scatter plots.
Den konstruerades 1973 av statistikern Francis Anscombe för att illustrera vikten av att plotta graferna innan man analyserar och bygger en modell, och effekten av andra observationer på de statistiska egenskaperna.
Dessa fyra datamängder har nästan samma statistiska observationer, vilket ger samma statistiska information som omfattar varians och medelvärde för alla x,y-punkter i alla fyra datamängderna.
Detta talar om vikten av att visualisera data innan man tillämpar olika algoritmer för att bygga modeller av dem, vilket tyder på att dataegenskaperna måste plottas för att se fördelningen av proverna som kan hjälpa dig att identifiera olika anomalier som finns i data, som t.ex. outliers, diversitet i data, linjär separerbarhet av data osv. Dessutom kan den linjära regressionen endast anses passa data med linjära förhållanden och kan inte hantera andra typer av datamängder. Dessa fyra diagram kan definieras på följande sätt:
Den statistiska informationen för alla dessa fyra datamängder är ungefär likartad och kan beräknas på följande sätt:
När dessa modeller plottas på en spridningsritning genererar alla datamängder en annan typ av ritning som inte kan tolkas av någon regressionsalgoritm, som luras av dessa särdrag, och som kan ses enligt följande:
De fyra datamängderna kan beskrivas som:
- Datamängd 1: denna passar ganska bra in på den linjära regressionsmodellen.
- Dataset 2: Detta kunde inte passa den linjära regressionsmodellen på data ganska bra eftersom data är icke-linjära.
- Dataset 3: visar de outliers som ingår i datasetetet och som inte kan hanteras av den linjära regressionsmodellen
- Dataset 4: visar de outliers som ingår i datasetet och som inte kan hanteras av den linjära regressionsmodellen
Vi har beskrivit de fyra dataset som avsiktligt skapades för att beskriva betydelsen av datavisualisering och hur vilken regressionsalgoritm som helst kan luras av den samma. Därför måste alla viktiga funktioner i datamängden visualiseras innan en algoritm för maskininlärning implementeras på dem, vilket kommer att hjälpa till att skapa en välanpassad modell.