Datan visualisoinnin merkitys – Anscomben kvartettitapa.

DS TODELLISESSA MAAILMASSA

Neljä tietokokonaisuutta, jotka huijaavat lineaarista regressiomallia, jos se rakennetaan.

Image by Author

Anscomben kvartetti koostuu neljästä datajoukosta, joilla on lähes identtiset yksinkertaiset kuvailevat tilastotiedot, mutta joilla on kuitenkin hyvin erilaiset jakaumat ja jotka näkyvät hyvin erilaisina, kun ne piirretään.
– Wikipedia

Anscomben kvartetti voidaan määritellä neljän datajoukon ryhmäksi, jotka ovat yksinkertaisilta kuvailevilta tilastoiltaan lähes identtisiä, mutta datajoukoissa on joitain erityispiirteitä, jotka hämäävät regressiomallia, jos se rakennetaan. Niillä on hyvin erilaiset jakaumat, ja ne näyttävät erilaisilta, kun ne piirretään hajontakuvioihin.

Sen konstruoi vuonna 1973 tilastotieteilijä Francis Anscombe havainnollistamaan, kuinka tärkeää on piirtää kuvaajat ennen analysointia ja mallin rakentamista, sekä muiden havaintojen vaikutusta tilastollisiin ominaisuuksiin.On olemassa nämä neljä tietokokonaisuutta, joiden tilastolliset havainnot ovat melkein samoja, ja jotka tuottavat samoja tilastollisia tietoja, jotka käsittävät varianssin ja keskiarvon kaikista x,y-pisteiden pisteistä kaikissa neljässä tietokokonaisuudessa.

Tämä kertoo datan visualisoinnin tärkeydestä ennen kuin sovelletaan erilaisia algoritmeja, joita on olemassa mallien rakentamiseksi niistä, mikä viittaa siihen, että datan ominaisuudet on piirrettävä, jotta voidaan nähdä näytteiden jakauma, joka voi auttaa tunnistamaan erilaiset poikkeavuudet, joita datassa esiintyy, kuten poikkeavuudet, datan monimuotoisuus, datan lineaarinen erotettavuus jne. Lineaarista regressiota voidaan myös pitää sopivana vain lineaarisia suhteita omaaville tiedoille, eikä se pysty käsittelemään muunlaisia tietokokonaisuuksia. Nämä neljä kuvaajaa voidaan määritellä seuraavasti:

Image by Author

Tilastollinen informaatio kaikille näille neljälle tietokokonaisuudelle on likimain samanlaista, ja se voidaan laskea seuraavasti:

Image by Author

Kun nämä mallit piirretään hajontakuvioon, niin kaikki tietokokonaisuudet synnyttävät erityyppisen piirroksen, joka ei ole tulkinnanvarainen millään regressioalgoritmilla, joka hämärtyy näillä erityispiirteillä, ja se nähdään seuraavasti:

Image by Author

Neljä tietokokonaisuutta voidaan kuvata seuraavasti:

  1. Tietokokonaisuus 1: tämä sopii lineaariseen regressiomalliin melko hyvin.
  2. Dataset 2: tämä ei pystynyt sovittamaan lineaarista regressiomallia dataan melko hyvin, koska data on epälineaarista.
  3. Dataset 3: näyttää aineistossa mukana olevat poikkeamat, joita lineaarinen regressiomalli ei pysty käsittelemään
  4. Dataset 4: näyttää aineistossa mukana olevat poikkeamat, joita lineaarinen regressiomalli ei pysty käsittelemään

Olemme kuvanneet neljä tietosarjaa, jotka luotiin tarkoituksella kuvaamaan datan visualisoinnin tärkeyttä ja sitä, miten mikä tahansa regressioalgoritmi voi hämätä. Näin ollen kaikki aineiston tärkeät piirteet on visualisoitava ennen kuin niihin sovelletaan koneoppimisalgoritmia, joka auttaa tekemään hyvin sopivan mallin.