Binäre Daten

In der Statistik sind binäre Daten ein statistischer Datentyp, der aus kategorialen Daten besteht, die genau zwei mögliche Werte annehmen können, wie „A“ und „B“ oder „Kopf“ und „Zahl“. Als eine Form von kategorialen Daten sind Binärdaten nominale Daten, d. h. sie stellen qualitativ unterschiedliche Werte dar, die nicht numerisch verglichen werden können. Binäre Daten werden jedoch häufig in Zähldaten umgewandelt, indem man einen der beiden Werte als „Erfolg“ betrachtet und die Ergebnisse als 1 oder 0 darstellt, was dem Zählen der Anzahl der Erfolge in einem einzigen Versuch entspricht: 1 (Erfolg) oder 0 (Misserfolg); siehe § Zählen.

Oft werden binäre Daten verwendet, um einen von zwei konzeptionell entgegengesetzten Werten darzustellen, z.g:

  • das Ergebnis eines Experiments („Erfolg“ oder „Misserfolg“)
  • die Antwort auf eine Ja-Nein-Frage („ja“ oder „nein“)
  • das Vorhandensein oder Nichtvorhandensein eines Merkmals („ist vorhanden“ oder „ist nicht vorhanden“)
  • die Wahrheit oder Falschheit eines Satzes („wahr“ oder „falsch“, „richtig“ oder „falsch“)

Es kann jedoch auch für Daten verwendet werden, bei denen davon ausgegangen wird, dass sie nur zwei mögliche Werte haben, selbst wenn sie nicht begrifflich entgegengesetzt sind oder begrifflich alle möglichen Werte im Raum repräsentieren. Beispielsweise werden binäre Daten häufig verwendet, um die Parteientscheidungen der Wähler bei Wahlen in den Vereinigten Staaten darzustellen, d. h. Republikaner oder Demokraten. In diesem Fall gibt es keinen inhärenten Grund, warum es nur zwei politische Parteien geben sollte, und tatsächlich gibt es in den USA noch andere Parteien, die jedoch so unbedeutend sind, dass sie im Allgemeinen einfach ignoriert werden. Die Modellierung kontinuierlicher Daten (oder kategorialer Daten mit mehr als 2 Kategorien) als binäre Variable zu Analysezwecken wird als Dichotomisierung (Erstellung einer Dichotomie) bezeichnet. Wie jede Diskretisierung beinhaltet sie einen Diskretisierungsfehler, aber das Ziel ist es, trotz des Fehlers etwas Wertvolles zu lernen: man behandelt ihn als vernachlässigbar für den vorliegenden Zweck, aber man erinnert sich daran, dass man nicht davon ausgehen kann, dass er im Allgemeinen vernachlässigbar ist.

Binäre VariablenBearbeiten

Eine binäre Variable ist eine Zufallsvariable vom binären Typ, d.h. mit zwei möglichen Werten. Unabhängige und identisch verteilte (i.i.d.) binäre Variablen folgen einer Bernoulli-Verteilung, aber im Allgemeinen müssen binäre Daten nicht von i.i.d. Variablen stammen. Die Gesamtzahl der i.i.d.-Binärvariablen (d.h. die Summe der i.i.d.-Binärvariablen, die als 1 oder 0 kodiert sind) folgt einer Binomialverteilung, aber wenn die Binärvariablen nicht i.i.d. sind,

CountingEdit

Wie kategorische Daten können binäre Daten in einen Vektor von Zähldaten umgewandelt werden, indem für jeden möglichen Wert eine Koordinate geschrieben wird und der Wert, der auftritt, mit 1 und der Wert, der nicht auftritt, mit 0 gezählt wird. Wenn die Werte beispielsweise A und B sind, kann der Datensatz A, A, B in Zählwerten als (1, 0), (1, 0), (0, 1) dargestellt werden. Nach der Umwandlung in Zählwerte können die Binärdaten gruppiert und die Zählwerte addiert werden. Wenn beispielsweise die Menge A, A, B gruppiert wird, ergibt sich die Gesamtzahl (2, 1): 2 A und 1 B (von 3 Versuchen).

Da es nur zwei mögliche Werte gibt, kann dies zu einer einzigen Zählung (einem skalaren Wert) vereinfacht werden, indem ein Wert als „Erfolg“ und der andere als „Misserfolg“ betrachtet wird, wobei ein Wert für den Erfolg als 1 und für den Misserfolg als 0 kodiert wird. Wenn beispielsweise der Wert A als „Erfolg“ (und B als „Misserfolg“) angesehen wird, wird der Datensatz A, A, B als 1, 1, 0 dargestellt. Bei der Gruppierung werden die Werte addiert, während die Anzahl der Versuche im Allgemeinen implizit verfolgt wird. Zum Beispiel würde A, A, B als 1 + 1 + 0 = 2 Erfolge gruppiert (von n = 3 {\displaystyle n=3}

n = 3

}} Versuchen). In umgekehrter Richtung zählen Daten mit n = 1 {\displaystyle n=1}

n=1

sind binäre Daten, wobei die beiden Klassen 0 (Misserfolg) oder 1 (Erfolg) sind.

Die Anzahl der i.i.d. binären Variablen folgt einer Binomialverteilung mit n {\displaystyle n}

n

die Gesamtzahl der Versuche (Punkte in den gruppierten Daten).

RegressionEdit

Hauptartikel: Binäre Regression

Die Regressionsanalyse auf vorhergesagte Ergebnisse, bei denen es sich um binäre Variablen handelt, wird als binäre Regression bezeichnet; wenn binäre Daten in Zähldaten umgewandelt und als i.i.d.-Variablen modelliert werden (sie haben also eine Binomialverteilung), kann die binomiale Regression verwendet werden. Die gebräuchlichsten Regressionsmethoden für binäre Daten sind die logistische Regression, die Probit-Regression oder verwandte Arten von binären Auswahlmodellen.

Auch Zählungen von i.i.d. kategorialen Variablen mit mehr als zwei Kategorien können mit einer multinomialen Regression modelliert werden. Zählungen von nicht i.e.d. binären Daten können durch kompliziertere Verteilungen modelliert werden, wie z.B. die Beta-Binomialverteilung (eine zusammengesetzte Verteilung). Alternativ kann die Beziehung auch modelliert werden, ohne dass die Verteilung der Ausgangsvariablen explizit modelliert werden muss, indem Techniken aus verallgemeinerten linearen Modellen (GLM) verwendet werden, wie z. B. Quasi-Likelihood und ein Quasibinomialmodell; siehe Überdispersion § Binomial.