Binární data

Binární data jsou ve statistice statistický typ dat, který se skládá z kategoriálních dat, která mohou nabývat přesně dvou možných hodnot, například „A“ a „B“ nebo „hlava“ a „orel“. Jako forma kategoriálních dat jsou binární data nominálními daty, což znamená, že představují kvalitativně odlišné hodnoty, které nelze číselně porovnávat. Binární data se však často převádějí na počítaná data tak, že se jedna ze dvou hodnot považuje za „úspěch“ a výsledky se reprezentují jako 1 nebo 0, což odpovídá počítání počtu úspěchů v jednom pokusu:

Často se binární data používají k reprezentaci jedné ze dvou koncepčně protichůdných hodnot, např.g:

  • výsledek experimentu („úspěch“ nebo „neúspěch“)
  • odpověď na otázku typu ano-ne („ano“ nebo „ne“)
  • přítomnost nebo nepřítomnost nějakého znaku („je přítomen“ nebo „není přítomen“)
  • pravdivost nebo nepravdivost výroku („pravdivý“ nebo „nepravdivý“, „správná“ nebo „nesprávná“)

Může se však použít i pro údaje, u nichž se předpokládá, že mají pouze dvě možné hodnoty, i když nejsou pojmově protikladné nebo pojmově představují všechny možné hodnoty v prostoru. Například binární data se často používají k reprezentaci stranické volby voličů ve volbách ve Spojených státech, tj. republikáni nebo demokraté. V tomto případě neexistuje žádný vnitřní důvod, proč by měly existovat pouze dvě politické strany, a skutečně v USA existují i další strany, ale jsou natolik nevýznamné, že se obvykle jednoduše ignorují. Modelování spojitých dat (nebo kategoriálních dat o více než dvou kategoriích) jako binární proměnné pro účely analýzy se nazývá dichotomizace (vytváření dichotomie). Jako každá diskretizace zahrnuje diskretizační chybu, ale cílem je dozvědět se něco cenného navzdory chybě: považovat ji za zanedbatelnou pro daný účel, ale pamatovat, že ji nelze považovat za zanedbatelnou obecně.

Binární proměnnéEdit

Binární proměnná je náhodná proměnná binárního typu, tedy se dvěma možnými hodnotami. Nezávislé a identicky rozdělené (i.i.d.) binární proměnné se řídí Bernoulliho rozdělením, ale obecně binární data nemusí pocházet z i.i.d. proměnných. Celkové počty i.i.d. binárních proměnných (ekvivalentně součty i.i.d. binárních proměnných kódovaných jako 1 nebo 0) se řídí binomickým rozdělením, ale když binární proměnné nejsou i.i.d.,

CountingEdit

Stejně jako kategoriální data lze binární data převést na vektor počítaných dat tak, že pro každou možnou hodnotu zapíšeme jednu souřadnici a pro hodnotu, která se vyskytuje, zapíšeme 1 a pro hodnotu, která se nevyskytuje, zapíšeme 0. Jsou-li například hodnoty A a B, pak lze soubor dat A, A, B reprezentovat v počtech jako (1, 0), (1, 0), (0, 1). Po převodu na počty lze binární data seskupit a počty sečíst. Například pokud je množina A, A, B seskupena, celkové počty jsou (2, 1): 2 A a 1 B (ze 3 pokusů).

Protože existují pouze dvě možné hodnoty, lze to zjednodušit na jediný počet (skalární hodnotu) tak, že jednu hodnotu budeme považovat za „úspěch“ a druhou za „neúspěch“, přičemž hodnotu úspěchu zakódujeme jako 1 a neúspěchu jako 0.

. Například pokud je hodnota A považována za „úspěch“ (a tedy B za „neúspěch“), soubor dat A, A, B by byl reprezentován jako 1, 1, 0. Při seskupení se hodnoty sčítají, přičemž počet pokusů se zpravidla sleduje implicitně. Například A, A, B by byly seskupeny jako 1 + 1 + 0 = 2 úspěchy (z n = 3 {\displaystyle n=3}).

n = 3

}} pokusů). Jdeme-li opačným směrem, spočítáme data s n = 1 {\displaystyle n=1}.

n=1

jsou binární data, přičemž obě třídy jsou 0 (neúspěch) nebo 1 (úspěch).

Počty i.i.d. binárních proměnných se řídí binomickým rozdělením, přičemž n {\displaystyle n}

n

celkový počet pokusů (bodů ve skupinových datech).

RegressionEdit

Hlavní článek: Binární regrese

Regresní analýza na predikovaných výsledcích, které jsou binárními proměnnými, se nazývá binární regrese; pokud jsou binární data převedena na početní data a modelována jako i.i.d. proměnné (mají tedy binomické rozdělení), lze použít binomickou regresi. Nejběžnějšími regresními metodami pro binární data jsou logistická regrese, probitová regrese nebo příbuzné typy modelů binární volby.

Podobně lze počty i.i.d. kategoriálních proměnných s více než dvěma kategoriemi modelovat pomocí multinomické regrese. Počty binárních dat bez i.d. lze modelovat složitějšími rozděleními, jako je beta-binomické rozdělení (složené rozdělení). Alternativně lze vztah modelovat bez nutnosti explicitně modelovat rozdělení výstupní proměnné pomocí technik ze zobecněných lineárních modelů (GLM), jako je kvazi-věrohodnost a kvazibinomický model; viz Nadměrný rozptyl § Binomické.

.