Bináris adatok
A statisztikában a bináris adatok olyan kategorikus adatokból álló statisztikai adattípusok, amelyek pontosan két lehetséges értéket vehetnek fel, például “A” és “B” vagy “fej” és “írás”. A kategorikus adatok egyik formájaként a bináris adatok nominális adatok, ami azt jelenti, hogy minőségileg különböző értékeket képviselnek, amelyek számszerűen nem hasonlíthatók össze. A bináris adatokat azonban gyakran úgy alakítják át számláló adatokká, hogy a két érték közül az egyiket “sikernek” tekintik, és az eredményeket 1 vagy 0 értékkel ábrázolják, ami megfelel az egy próbában elért sikerek számának számlálásának: 1 (siker) vagy 0 (kudarc); lásd § Számolás.
A bináris adatokat gyakran használják két fogalmilag ellentétes érték egyikének ábrázolására, pl.g:
- egy kísérlet eredményét (“siker” vagy “kudarc”)
- egy igen-nem kérdésre adott választ (“igen” vagy “nem”)
- egy tulajdonság jelenlétét vagy hiányát (“jelen van” vagy “nincs jelen”)
- egy állítás igazságát vagy hamisságát (“igaz” vagy “hamis”, “helyes” vagy “helytelen”)
Mindemellett olyan adatokra is használható, amelyekről feltételezzük, hogy csak két lehetséges értékük van, még akkor is, ha ezek fogalmilag nem ellentétesek, vagy fogalmilag nem képviselik a tér összes lehetséges értékét. Például bináris adatokat gyakran használnak arra, hogy az Egyesült Államokban a választásokon a választók pártválasztását reprezentálják, azaz republikánus vagy demokrata. Ebben az esetben nincs eredendő oka annak, hogy csak két politikai párt létezzen, és valóban léteznek más pártok is az Egyesült Államokban, de ezek annyira jelentéktelenek, hogy általában egyszerűen figyelmen kívül hagyják őket. A folytonos adatok (vagy 2-nél több kategóriából álló kategorikus adatok) elemzés céljából bináris változóként való modellezését dichotomizálásnak (dichotómia létrehozásának) nevezzük. Mint minden diszkretizálás, ez is diszkretizációs hibával jár, de a cél az, hogy a hiba ellenére valami értékeset tanuljunk: a hibát az adott cél szempontjából elhanyagolhatónak tekintjük, de nem feledjük, hogy általában nem lehet elhanyagolhatónak feltételezni.
Bináris változókSzerkesztés
A bináris változó egy bináris típusú, azaz két lehetséges értékkel rendelkező véletlen változó. A független és azonos eloszlású (i.i.d.) bináris változók Bernoulli-eloszlást követnek, de általában a bináris adatoknak nem kell i.i.d. változókból származniuk. Az i.i.d. bináris változók összesített számai (ennek megfelelően az i.i.d. bináris változók 1 vagy 0 értékkel kódolt összegei) binomiális eloszlást követnek, de ha a bináris változók nem i.i.d., az eloszlásnak nem kell binomiálisnak lennie.
CountingEdit
A kategorikus adatokhoz hasonlóan a bináris adatok is átalakíthatók számlálási adatok vektorává úgy, hogy minden lehetséges értékhez egy koordinátát írunk, és az előforduló értéket 1-gyel, a nem előforduló értéket pedig 0-val számoljuk. Például, ha az értékek A és B, akkor az A, A, B adathalmaz számlálással ábrázolható: (1, 0), (1, 0), (0, 1). A számlálószámokká alakítás után a bináris adatok csoportosíthatók és a számlálószámok összeadhatók. Például, ha az A, A, B halmazt csoportosítjuk, akkor az összesített számlálás (2, 1): 2 A és 1 B (3 kísérletből).
Mivel csak két lehetséges érték van, ez egyszerűsíthető egyetlen számlálássá (skalárértékké), ha az egyik értéket “sikernek”, a másikat “kudarcnak” tekintjük, és a siker értékét 1-nek, a kudarcét pedig 0-nak kódoljuk. Például, ha az A értéket “sikernek” tekintjük (és így a B értéket “kudarcnak”), akkor az A, A, B adathalmaz 1, 1, 0-ként jelenik meg. Ha ezt csoportosítjuk, az értékek összeadódnak, míg a próbák számát általában implicit módon követjük. Például az A, A, B csoportosítása 1 + 1 + 0 = 2 siker (az n = 3 {\displaystyle n=3} közül)
}} próbákból). A másik irányba haladva, számoljuk meg az adatokat n = 1 {\displaystyle n=1}
bináris adat, amelynek két osztálya 0 (kudarc) vagy 1 (siker).
Az i.i.d. bináris változók számai binomiális eloszlást követnek, n {\displaystyle n}
a kísérletek (a csoportosított adatok pontjainak) teljes száma.
RegressionEdit
Bináris regressziónak nevezzük a bináris változókból álló előrejelzett kimenetekre vonatkozó regresszióelemzést; ha a bináris adatokat számadatokká alakítjuk és i.i.d. változóként modellezzük (tehát binomiális eloszlásúak), akkor binomiális regresszió alkalmazható. A bináris adatokra vonatkozó leggyakoribb regressziós módszerek a logisztikus regresszió, a probit-regresszió vagy a bináris választási modellek rokon típusai.
Hasonlóképpen, az i.i.d. kategorikus változók kétnál több kategóriával rendelkező számlálói is modellezhetők multinomiális regresszióval. A nem i.i.d. bináris adatok számlálásai bonyolultabb eloszlásokkal, például a béta-binomiális eloszlással (összetett eloszlás) modellezhetők. Alternatívaként a kapcsolat modellezhető anélkül, hogy a kimeneti változó eloszlását explicit módon modellezni kellene, az általánosított lineáris modellekből (GLM) származó technikákkal, például kvázi valószínűséggel és kvázibinomiális modellel; lásd Overdispersion § Binomial.
.