Binära data

I statistiken är binära data en statistisk datatyp som består av kategoriska data som kan anta exakt två möjliga värden, t.ex. ”A” och ”B” eller ”krona” och ”klave”. Som en form av kategoriska data är binära data nominella data, vilket innebär att de representerar kvalitativt olika värden som inte kan jämföras numeriskt. Binära data omvandlas dock ofta till räkneuppgifter genom att betrakta ett av de två värdena som ”framgång” och representera resultaten som 1 eller 0, vilket motsvarar att räkna antalet lyckade försök i ett enda försök: 1 (framgång) eller 0 (misslyckande); se § Räkna.

Ofta används binära data för att representera ett av två begreppsmässigt motsatta värden, t.ex.g:

  • utfallet av ett experiment (”framgång” eller ”misslyckande”)
  • svaret på en ja-nej-fråga (”ja” eller ”nej”)
  • närvaro eller frånvaro av en viss egenskap (”finns” eller ”finns inte”)
  • sannolikhet eller falskhet i ett påstående (”sant” eller ”falskt”, ”korrekt” eller ”inkorrekt”)

Det kan emellertid också användas för data som antas ha endast två möjliga värden, även om de inte är begreppsmässigt motsatta eller begreppsmässigt representerar alla möjliga värden i rummet. Exempelvis används binära data ofta för att representera väljarnas partival i val i USA, dvs. republikaner eller demokrater. I detta fall finns det ingen inneboende anledning till att det bara skulle finnas två politiska partier, och det finns faktiskt andra partier i USA, men de är så obetydliga att de i allmänhet helt enkelt ignoreras. Att modellera kontinuerliga data (eller kategoriska data med mer än två kategorier) som en binär variabel för analysändamål kallas dikotomisering (skapa en dikotomi). Liksom all diskretisering innebär det diskretiseringsfel, men målet är att lära sig något värdefullt trots felet: behandla det som försumbart för det aktuella syftet, men komma ihåg att det inte kan antas vara försumbart i allmänhet.

Binära variablerRedigera

En binär variabel är en slumpmässig variabel av binär typ, det vill säga med två möjliga värden. Oberoende och identiskt fördelade (i.i.d.) binära variabler följer en Bernoulli-fördelning, men i allmänhet behöver binära data inte komma från i.i.d. variabler. Totalräkningar av binära variabler med i.i.d. (motsvarande summor av binära variabler med i.i.d. som kodas som 1 eller 0) följer en binomialfördelning, men när binära variabler inte är i.i.d, behöver fördelningen inte vara binomial.

CountingEdit

Som kategoriska data kan binära data omvandlas till en vektor av räkneuppgifter genom att skriva en koordinat för varje möjligt värde och räkna 1 för det värde som förekommer och 0 för det värde som inte förekommer. Om värdena till exempel är A och B kan datamängden A, A, B representeras i räknesiffror som (1, 0), (1, 0), (0, 1), (0, 1). När binära data har omvandlats till antal kan de grupperas och antalen adderas. Om t.ex. mängden A, A, B grupperas blir den totala räkningen (2, 1): 2 A och 1 B (av 3 försök).

Då det bara finns två möjliga värden kan detta förenklas till en enda räkning (ett skalärt värde) genom att betrakta det ena värdet som ”framgång” och det andra som ”misslyckande”, och genom att kodifiera ett värde för framgång som 1 och ett värde för misslyckande som 0. Om t.ex. värdet A betraktas som ”framgång” (och därmed B som ”misslyckande”) skulle datamängden A, A, B representeras som 1, 1, 0. När detta grupperas adderas värdena, medan antalet försök i allmänhet följs implicit. Till exempel skulle A, A, B grupperas som 1 + 1 + 0 = 2 lyckade försök (av n = 3 {\displaystyle n=3}).

n = 3

}} försök). Om man går åt andra hållet, räknar man data med n = 1 {\displaystyle n=1}

n=1

är binära data, där de två klasserna är 0 (misslyckande) eller 1 (framgång).

Antalen av i.i.d. binära variabler följer en binomialfördelning, med n {\displaystyle n}

n

det totala antalet försök (punkter i de grupperade uppgifterna).

RegressionEdit

Huvudartikel: Binär regression

Regressionsanalys av förutsedda utfall som är binära variabler kallas binär regression; när binära data omvandlas till räkneuppgifter och modelleras som i.i.d.-variabler (så att de har en binomialfördelning) kan binomialregression användas. De vanligaste regressionsmetoderna för binära data är logistisk regression, probitregression eller relaterade typer av binära valmodeller.

På samma sätt kan räkningar av i.i.d. kategoriska variabler med fler än två kategorier modelleras med en multinomial regression. Antal binära data som inte är i.i.d. kan modelleras med mer komplicerade fördelningar, t.ex. beta-binomialfördelningen (en sammansatt fördelning). Alternativt kan förhållandet modelleras utan att man explicit behöver modellera fördelningen av utgångsvariabeln med hjälp av tekniker från generaliserade linjära modeller (GLM), t.ex. quasi-likelihood och en kvasibinomialmodell; se Overdispersion § Binomial.