Binaire gegevens

In de statistiek zijn binaire gegevens een statistisch gegevenstype dat bestaat uit categorische gegevens die precies twee mogelijke waarden kunnen aannemen, zoals “A” en “B”, of “heads” en “tails”. Als een vorm van categorische gegevens zijn binaire gegevens nominale gegevens, wat betekent dat zij kwalitatief verschillende waarden vertegenwoordigen die niet numeriek kunnen worden vergeleken. Binaire gegevens worden echter vaak omgezet in telgegevens door een van de twee waarden als “succes” te beschouwen en de uitkomsten als 1 of 0 weer te geven, wat overeenkomt met het tellen van het aantal successen in een enkele proef: 1 (succes) of 0 (mislukking); zie § Tellen.

Vaak worden binaire gegevens gebruikt om een van twee conceptueel tegengestelde waarden weer te geven, bijv.g:

  • de uitkomst van een experiment (“succes” of “mislukking”)
  • het antwoord op een ja-nee vraag (“ja” of “nee”)
  • aanwezigheid of afwezigheid van een of andere eigenschap (“is aanwezig” of “is niet aanwezig”)
  • de waarheid of onwaarheid van een propositie (“waar” of “onwaar”, “juist” of “onjuist”)

Het kan echter ook worden gebruikt voor gegevens waarvan wordt aangenomen dat ze slechts twee mogelijke waarden hebben, zelfs als deze niet conceptueel tegengesteld zijn of conceptueel alle mogelijke waarden in de ruimte vertegenwoordigen. Zo worden binaire gegevens vaak gebruikt om de partijkeuze van kiezers bij verkiezingen in de Verenigde Staten weer te geven, d.w.z. Republikeins of Democratisch. In dit geval is er geen inherente reden waarom er slechts twee politieke partijen zouden bestaan, en er bestaan inderdaad andere partijen in de V.S., maar die zijn zo klein dat zij over het algemeen eenvoudigweg worden genegeerd. Het modelleren van continue gegevens (of categorische gegevens van meer dan 2 categorieën) als een binaire variabele voor analysedoeleinden wordt dichotomisatie genoemd (het creëren van een dichotomie). Zoals alle discretisatie gaat dit gepaard met een discretisatiefout, maar het doel is om ondanks de fout iets waardevols te leren: de fout als verwaarloosbaar beschouwen voor het onderhavige doel, maar onthouden dat niet kan worden aangenomen dat hij in het algemeen verwaarloosbaar is.

Binaire variabelenEdit

Een binaire variabele is een willekeurige variabele van het binaire type, d.w.z. met twee mogelijke waarden. Onafhankelijk en identiek verdeelde (i.i.d.) binaire variabelen volgen een Bernoulli verdeling, maar in het algemeen hoeven binaire gegevens niet afkomstig te zijn van i.i.d. variabelen. Totale tellingen van i.i.d. binaire variabelen (d.w.z. sommen van i.i.d. binaire variabelen gecodeerd als 1 of 0) volgen een binomiale verdeling, maar wanneer binaire variabelen niet i.i.d. zijn hoeft de verdeling niet binomiaal te zijn.

CountingEdit

Zoals categorische gegevens kunnen binaire gegevens worden geconverteerd naar een vector van telgegevens door voor elke mogelijke waarde een coördinaat te schrijven, en 1 te tellen voor de waarde die voorkomt, en 0 voor de waarde die niet voorkomt. Bijvoorbeeld, als de waarden A en B zijn, dan kan de gegevensverzameling A, A, B in tellingen worden voorgesteld als (1, 0), (1, 0), (0, 1). Eenmaal omgezet in tellingen, kunnen binaire gegevens worden gegroepeerd en de tellingen worden opgeteld. Als bijvoorbeeld de verzameling A, A, B wordt gegroepeerd, zijn de totale tellingen (2, 1): 2 A’s en 1 B (van de 3 proeven).

Omdat er slechts twee mogelijke waarden zijn, kan dit worden vereenvoudigd tot een enkele telling (een scalaire waarde) door de ene waarde als “succes” en de andere als “mislukking” te beschouwen, waarbij een waarde van het succes als 1 en van de mislukking als 0 wordt gecodeerd. Indien bijvoorbeeld de waarde A als “succes” wordt beschouwd (en B dus als “mislukking”), zou de gegevensreeks A, A, B worden weergegeven als 1, 1, 0. Bij groepering worden de waarden opgeteld, terwijl het aantal proeven in het algemeen impliciet wordt bijgehouden. Bijvoorbeeld, A, A, B zou worden gegroepeerd als 1 + 1 + 0 = 2 successen (van n = 3 {\displaystyle n=3}

n = 3

}} proeven). De andere kant op, tel gegevens met n = 1 {\displaystyle n=1}

n=1

binaire gegevens, waarbij de twee klassen 0 (mislukking) of 1 (succes) zijn.

Tellingen van i.i.d. binaire variabelen volgen een binomiale verdeling, met n {\displaystyle n}

n

het totale aantal proeven (punten in de gegroepeerde gegevens).

RegressieEdit

Main article: Binaire regressie

Regressieanalyse op voorspelde uitkomsten die binaire variabelen zijn, staat bekend als binaire regressie; wanneer binaire gegevens worden omgezet in telgegevens en gemodelleerd als i.i.d.-variabelen (zodat ze een binomiale verdeling hebben), kan binomiale regressie worden gebruikt. De meest gebruikte regressiemethoden voor binaire gegevens zijn logistische regressie, probit regressie, of verwante soorten binaire keuzemodellen.

Op soortgelijke wijze kunnen tellingen van i.i.d. categorische variabelen met meer dan twee categorieën worden gemodelleerd met een multinomiale regressie. Tellingen van niet-i.i.d.-binaire gegevens kunnen worden gemodelleerd met meer gecompliceerde verdelingen, zoals de bèta-binomiale verdeling (een samengestelde verdeling). Als alternatief kan de relatie worden gemodelleerd zonder de verdeling van de uitgangsvariabele expliciet te modelleren met technieken uit gegeneraliseerde lineaire modellen (GLM), zoals quasi-likelihood en een quasibinomiaal model; zie Overdispersie § Binomiaal.