Dane binarne

W statystyce dane binarne to typ danych statystycznych składający się z danych kategorycznych, które mogą przyjmować dokładnie dwie możliwe wartości, takie jak „A” i „B”, lub „głowy” i „ogony”. Jako forma danych kategorycznych, dane binarne są danymi nominalnymi, co oznacza, że reprezentują jakościowo różne wartości, które nie mogą być porównywane numerycznie. Jednak dane binarne są często przekształcane w dane liczbowe poprzez uznanie jednej z dwóch wartości za „sukces” i przedstawienie wyników jako 1 lub 0, co odpowiada liczeniu liczby sukcesów w pojedynczej próbie: 1 (sukces) lub 0 (porażka); patrz § Counting.

Często dane binarne są używane do reprezentowania jednej z dwóch pojęciowo przeciwstawnych wartości, np.g:

  • wynik eksperymentu („sukces” lub „porażka”)
  • odpowiedź na pytanie typu „tak-nie” („tak” lub „nie”)
  • obecność lub brak jakiejś cechy („jest obecna” lub „nie jest obecna”)
  • prawdziwość lub fałszywość jakiejś propozycji („prawda” lub „fałsz”, „poprawne” lub „niepoprawne”)

Jednakże, może być również używany dla danych, które zakłada się, że mają tylko dwie możliwe wartości, nawet jeśli nie są one konceptualnie przeciwstawne lub konceptualnie reprezentują wszystkie możliwe wartości w przestrzeni. Na przykład, dane binarne są często używane do reprezentowania wyborów partyjnych wyborców w wyborach w Stanach Zjednoczonych, tj. republikańskich lub demokratycznych. W tym przypadku nie istnieje żaden nieodłączny powód, dla którego powinny istnieć tylko dwie partie polityczne, i rzeczywiście, inne partie istnieją w USA, ale są one tak niewielkie, że zazwyczaj są po prostu ignorowane. Modelowanie danych ciągłych (lub danych kategorycznych składających się z więcej niż 2 kategorii) jako zmiennej binarnej do celów analizy nazywa się dychotomizacją (tworzeniem dychotomii). Jak każda dyskretyzacja, wiąże się z błędem dyskretyzacji, ale celem jest nauczenie się czegoś wartościowego pomimo błędu: traktując go jako nieistotny dla danego celu, ale pamiętając, że nie można założyć, że jest on nieistotny w ogóle.

Zmienne binarneEdit

Zmienna binarna to zmienna losowa typu binarnego, czyli z dwiema możliwymi wartościami. Niezależne i identycznie rozłożone (i.i.d.) zmienne binarne podążają za rozkładem Bernoulliego, ale w ogólności dane binarne nie muszą pochodzić od zmiennych i.i.d. Całkowite liczebności zmiennych binarnych i.i.d. (równoważnie, sumy zmiennych binarnych i.i.d. zakodowanych jako 1 lub 0) mają rozkład dwumianowy, ale gdy zmienne binarne nie są i.i.d., rozkład nie musi być dwumianowy.

CountingEdit

Jak dane kategoryczne, dane binarne mogą być przekształcone w wektor danych zliczeniowych przez zapisanie jednej współrzędnej dla każdej możliwej wartości i liczenie 1 dla wartości, która występuje i 0 dla wartości, która nie występuje. Na przykład, jeśli wartości są A i B, to zestaw danych A, A, B może być reprezentowany w liczbach jako (1, 0), (1, 0), (0, 1). Po przekształceniu na zliczenia, dane binarne mogą być grupowane, a zliczenia dodawane. Na przykład, jeśli zbiór A, A, B jest zgrupowany, całkowite zliczenia są (2, 1): 2 A i 1 B (z 3 prób).

Ponieważ istnieją tylko dwie możliwe wartości, można to uprościć do pojedynczego zliczenia (wartość skalarna), traktując jedną wartość jako „sukces”, a drugą jako „porażkę”, kodując wartość sukcesu jako 1, a porażki jako 0. Na przykład, jeśli wartość A jest uważana za „sukces” (a tym samym B jest uważana za „porażkę”), zestaw danych A, A, B byłby reprezentowany jako 1, 1, 0. Gdy jest to zgrupowane, wartości są dodawane, podczas gdy liczba prób jest zazwyczaj śledzona niejawnie. Na przykład A, A, B byłyby zgrupowane jako 1 + 1 + 0 = 2 sukcesy (z n = 3 {{displaystyle n=3}}

n = 3

}} prób). Idąc w drugą stronę, policz dane z n = 1 {displaystyle n=1}

n=1

to dane binarne, gdzie dwie klasy to 0 (porażka) lub 1 (sukces).

Liczby i.i.d. zmiennych binarnych mają rozkład dwumianowy, z n {{displaystyle n}

n

całkowita liczba prób (punktów w zgrupowanych danych).

RegressionEdit

Główny artykuł: Regresja binarna

Analiza regresji na przewidywanych wynikach, które są zmiennymi binarnymi, jest znana jako regresja binarna; kiedy dane binarne są przekształcane w dane liczone i modelowane jako zmienne i.i.d. (więc mają rozkład dwumianowy), można zastosować regresję dwumianową. Najbardziej powszechnymi metodami regresji dla danych binarnych są regresja logistyczna, regresja probitowa lub pokrewne typy modeli wyboru binarnego.

Podobnie, zliczenia zmiennych kategorycznych i.i.d. z więcej niż dwoma kategoriami można modelować za pomocą regresji wielomianowej. Liczby danych binarnych innych niż i.i.d. mogą być modelowane przez bardziej skomplikowane rozkłady, takie jak rozkład beta-binomialny (rozkład złożony). Alternatywnie, związek może być modelowany bez konieczności jawnego modelowania rozkładu zmiennej wyjściowej przy użyciu technik z uogólnionych modeli liniowych (GLM), takich jak quasi-prawdopodobieństwo i model quasibinomialny; zobacz Nadmierne rozproszenie § Dwumianowy.

.