Binääritiedot
Tilastoissa binääritiedot ovat tilastollisia tietotyyppejä, jotka koostuvat kategorisista tiedoista, joilla voi olla täsmälleen kaksi mahdollista arvoa, kuten ”A” ja ”B” tai ”kruuna” ja ”klaava”. Kategorisen datan muotona binääridata on nominaalidataa, mikä tarkoittaa, että ne edustavat laadullisesti erilaisia arvoja, joita ei voida verrata numeerisesti. Binääritiedot muunnetaan kuitenkin usein laskentatiedoiksi pitämällä toista kahdesta arvosta ”menestyksenä” ja esittämällä tulokset 1:nä tai 0:na, mikä vastaa onnistumisten lukumäärän laskemista yhden kokeen aikana: 1 (onnistuminen) tai 0 (epäonnistuminen); katso § Laskenta.
Usein binääridataa käytetään edustamaan yhtä kahdesta käsitteellisesti vastakkaisesta arvosta, esim.g:
- kokeen lopputulosta (”onnistuminen” tai ”epäonnistuminen”)
- vastausta kyllä-ei-kysymykseen (”kyllä” tai ”ei”)
- jomman kumman ominaisuuden olemassaoloa tai puuttumista (”on läsnä” tai ”ei ole läsnä”)
- lauseen totuutta tai epätotuutta (”totta” tai ”epätosi”, ”oikein” tai ”väärin”)
Mutta sitä voidaan käyttää myös tietoihin, joilla oletetaan olevan vain kaksi mahdollista arvoa, vaikka ne eivät olisikaan käsitteellisesti vastakkaisia tai edustaisivat käsitteellisesti kaikkia mahdollisia arvoja avaruudessa. Esimerkiksi binääristä dataa käytetään usein edustamaan äänestäjien puoluevalintoja Yhdysvaltojen vaaleissa, eli republikaanien tai demokraattien puoluevalintoja. Tässä tapauksessa ei ole mitään luonnollista syytä, miksi vain kahden poliittisen puolueen pitäisi olla olemassa, ja Yhdysvalloissa on toki muitakin puolueita, mutta ne ovat niin vähäisiä, että ne jätetään yleensä yksinkertaisesti huomiotta. Jatkuvan datan (tai kategorisen datan, jossa on enemmän kuin kaksi luokkaa) mallintamista binäärimuuttujaksi analyysitarkoituksiin kutsutaan dikotomisoinniksi (dikotomian luomiseksi). Kuten kaikkeen diskretisointiin, siihen liittyy diskretointivirhe, mutta tavoitteena on oppia jotain arvokasta virheestä huolimatta: kohdella sitä merkityksettömänä kyseisessä tarkoituksessa, mutta muistaa, että sitä ei voi olettaa merkityksettömäksi yleisesti.
BinäärimuuttujatEdit
Binäärimuuttuja on satunnaismuuttuja, joka on binäärityyppinen, eli jolla on kaksi mahdollista arvoa. Riippumattomat ja identtisesti jakautuneet (i.i.d.) binäärimuuttujat noudattavat Bernoulli-jakaumaa, mutta yleensä binääridatan ei tarvitse olla peräisin i.i.d.-muuttujista. I.i.d. binäärimuuttujien kokonaislukumäärät (eli i.i.d. binäärimuuttujien summat, jotka on koodattu 1:ksi tai 0:ksi) noudattavat binomijakaumaa, mutta kun binäärimuuttujat eivät ole i.i.d., jakauman ei tarvitse olla binomijakauma.
CountingEdit
Kategoristen tietojen tapaan binääritiedot voidaan muuntaa laskentatietojen vektoriksi kirjoittamalla yksi koordinaatti kullekin mahdolliselle arvolle ja laskemalla 1 sille arvolle, joka esiintyy, ja 0 sille arvolle, jota ei esiinny. Jos esimerkiksi arvot ovat A ja B, tietojoukko A, A, B voidaan esittää lukumäärinä (1, 0), (1, 0), (0, 1). Kun binääritiedot on muunnettu lukumääriksi, ne voidaan ryhmitellä ja laskea yhteen. Jos esimerkiksi joukko A, A, B ryhmitellään, kokonaislukumäärät ovat (2, 1): 2 A:ta ja 1 B:tä (kolmesta kokeesta).
Koska mahdollisia arvoja on vain kaksi, tämä voidaan yksinkertaistaa yhdeksi lukumääräksi (skalaariseksi arvoksi) pitämällä toista arvoa ”onnistumisena” (success) ja toista arvoa ”epäonnistumisena” (failure) ja koodaamalla onnistumisen arvoksi 1 ja epäonnistumisen arvoksi 0. Jos esimerkiksi arvoa A pidetään ”onnistumisena” (ja näin ollen arvoa B pidetään ”epäonnistumisena”), tietokokonaisuus A, A, B esitetään muodossa 1, 1, 0. Kun tämä ryhmitellään, arvot lasketaan yhteen, kun taas kokeilujen lukumäärää seurataan yleensä implisiittisesti. Esimerkiksi A, A, B ryhmiteltäisiin 1 + 1 + 0 = 2 onnistumista (n = 3:sta {\displaystyle n=3}).
}} kokeista). Toiseen suuntaan laskemalla tiedot, joissa on n = 1 {\displaystyle n=1}
on binääridataa, jonka kaksi luokkaa ovat 0 (epäonnistuminen) tai 1 (onnistuminen).
I.i.d. binäärimuuttujien lukumäärät noudattavat binomijakaumaa, jossa n {\displaystyle n}
kokeiden (ryhmitellyn datan pisteiden) kokonaismäärä.
RegressionEdit
Regressioanalyysi ennustetuille lopputuloksille, jotka ovat binäärimuuttujia, tunnetaan nimellä binääriregressio; kun binääritiedot muunnetaan laskentatiedoiksi ja mallinnetaan i.i.d.-muuttujina (eli niillä on binomijakauma), voidaan käyttää binomiregressiota. Yleisimpiä binääridatan regressiomenetelmiä ovat logistinen regressio, probit-regressio tai niihin liittyvät binäärivalintamallit.
Vastaavasti i.i.d.-luokiteltujen kategoristen muuttujien lukumäärät, joissa on enemmän kuin kaksi luokkaa, voidaan mallintaa multinomiaaliregressiolla. Muiden kuin i.i.d. binääristen tietojen lukumäärät voidaan mallintaa monimutkaisemmilla jakaumilla, kuten beeta-binomijakaumalla (yhdistetty jakauma). Vaihtoehtoisesti suhdetta voidaan mallintaa ilman, että tulomuuttujan jakaumaa tarvitsee eksplisiittisesti mallintaa, käyttämällä yleistetyistä lineaarisista malleista (GLM) peräisin olevia tekniikoita, kuten kvasi-likelihoodia ja kvasibinomiaalimallia; ks. ylihajonta § Binomial.