Binære data

I statistik er binære data en statistisk datatype, der består af kategoriske data, som kan antage præcis to mulige værdier, f.eks. “A” og “B” eller “hoveder” og “haler”. Som en form for kategoriske data er binære data nominelle data, hvilket betyder, at de repræsenterer kvalitativt forskellige værdier, som ikke kan sammenlignes numerisk. Binære data omdannes imidlertid ofte til tælledata ved at betragte en af de to værdier som “succes” og repræsentere resultaterne som 1 eller 0, hvilket svarer til at tælle antallet af succeser i et enkelt forsøg: 1 (succes) eller 0 (fiasko); se § Optælling.

Ofte anvendes binære data til at repræsentere en af to begrebsmæssigt modsatrettede værdier, f.eks.g:

  • resultatet af et forsøg (“succes” eller “fiasko”)
  • svaret på et ja-nej-spørgsmål (“ja” eller “nej”)
  • tilstedeværelse eller fravær af en bestemt egenskab (“er til stede” eller “er ikke til stede”)
  • sandheden eller falskheden af en sætning (“sandt” eller “falsk”, “korrekt” eller “ukorrekt”)

Det kan imidlertid også anvendes til data, som antages kun at have to mulige værdier, selv om de ikke er begrebsmæssigt modsatrettede eller begrebsmæssigt repræsenterer alle mulige værdier i rummet. F.eks. anvendes binære data ofte til at repræsentere vælgernes partivalg ved valg i USA, dvs. republikanere eller demokrater. I dette tilfælde er der ingen iboende grund til, at der kun skulle eksistere to politiske partier, og der findes faktisk andre partier i USA, men de er så ubetydelige, at de generelt blot ignoreres. Modellering af kontinuerlige data (eller kategoriske data med mere end 2 kategorier) som en binær variabel til analyseformål kaldes dikotomisering (oprettelse af en dikotomi). Som al diskretisering indebærer den diskretiseringsfejl, men målet er at lære noget værdifuldt på trods af fejlen: at behandle den som ubetydelig for det pågældende formål, men huske, at den ikke kan antages at være ubetydelig generelt.

Binære variablerRediger

En binær variabel er en tilfældig variabel af binær type, dvs. med to mulige værdier. Uafhængige og identisk distribuerede (i.i.d.) binære variabler følger en Bernoulli-fordeling, men generelt behøver binære data ikke at stamme fra i.i.d. variabler. Samlede tællinger af binære i.i.d.-variabler (tilsvarende summer af binære i.i.d.-variabler, der er kodet som 1 eller 0) følger en binomialfordeling, men når binære variabler ikke er i.i.d.-variabler, behøver fordelingen ikke at være binomial.

CountingEdit

Som kategoriske data kan binære data omdannes til en vektor af tælledata ved at skrive en koordinat for hver mulig værdi og tælle 1 for den værdi, der forekommer, og 0 for den værdi, der ikke forekommer. Hvis værdierne f.eks. er A og B, kan datasættet A, A, B repræsenteres i tællinger som (1, 0), (1, 0), (1, 0), (0, 1). Når de er konverteret til tælletal, kan binære data grupperes, og tællene kan lægges sammen. Hvis f.eks. sættet A, A, B grupperes, er de samlede tællinger (2, 1): 2 A’er og 1 B (ud af 3 forsøg).

Da der kun er to mulige værdier, kan dette forenkles til en enkelt tælling (en skalarværdi) ved at betragte den ene værdi som “succes” og den anden som “fiasko” og ved at kode en værdi for succes som 1 og en værdi for fiasko som 0. Hvis f.eks. værdien A betragtes som “succes” (og således B som “fiasko”), vil datasættet A, A, B blive repræsenteret som 1, 1, 0. Når dette grupperes, lægges værdierne sammen, mens antallet af forsøg generelt følges implicit. F.eks. ville A, A, B blive grupperet som 1 + 1 + 0 = 2 succeser (ud af n = 3 {\displaystyle n=3}

n = 3

}}forsøg). Hvis man går den anden vej, tæller data med n = 1 {\displaystyle n=1}

n=1

er binære data, hvor de to klasser er 0 (fiasko) eller 1 (succes).

Antal af i.i.d. binære variabler følger en binomialfordeling, med n {\displaystyle n}

n

det samlede antal forsøg (punkter i de grupperede data).

RegressionEdit

Hovedartikel: Binær regression

Regressionsanalyse på forudsagte udfald, der er binære variabler, kaldes binær regression; når binære data omdannes til tælledata og modelleres som i.i.d.-variabler (så de har en binomialfordeling), kan binomialregression anvendes. De mest almindelige regressionsmetoder for binære data er logistisk regression, probit-regression eller beslægtede typer af binære valgmodeller.

Sådan kan tællinger af i.i.d.-kategoriske variabler med mere end to kategorier modelleres med en multinomial regression. Tællinger af binære data, der ikke er i.i.d., kan modelleres ved hjælp af mere komplicerede fordelinger, f.eks. beta-binomialfordelingen (en sammensat fordeling). Alternativt kan forholdet modelleres uden at det er nødvendigt at modellere fordelingen af udgangsvariablen eksplicit ved hjælp af teknikker fra generaliserede lineære modeller (GLM), f.eks. quasi-likelihood og en kvasibinomialmodel; se Overdispersion § Binomial.