Date binare
În statistică, datele binare sunt un tip de date statistice constând în date categorice care pot lua exact două valori posibile, cum ar fi „A” și „B”, sau „cap” și „pajură”. Ca formă de date categorice, datele binare sunt date nominale, ceea ce înseamnă că ele reprezintă valori calitativ diferite care nu pot fi comparate numeric. Cu toate acestea, datele binare sunt frecvent convertite în date de numărare prin considerarea uneia dintre cele două valori drept „succes” și prin reprezentarea rezultatelor ca fiind 1 sau 0, ceea ce corespunde numărării numărului de succese într-o singură încercare: 1 (succes) sau 0 (eșec); a se vedea § Numărarea.
De multe ori, datele binare sunt utilizate pentru a reprezenta una dintre cele două valori opuse din punct de vedere conceptual, de ex.g:
- rezultatul unui experiment („succes” sau „eșec”)
- răspunsul la o întrebare cu răspuns afirmativ sau negativ („da” sau „nu”)
- prezența sau absența unei anumite caracteristici („este prezentă” sau „nu este prezentă”)
- adevărul sau falsitatea unei propoziții („adevărat” sau „fals”, „corectă” sau „incorectă”)
Cu toate acestea, poate fi utilizată și pentru date despre care se presupune că au doar două valori posibile, chiar dacă acestea nu sunt opuse din punct de vedere conceptual sau nu reprezintă din punct de vedere conceptual toate valorile posibile din spațiu. De exemplu, datele binare sunt adesea utilizate pentru a reprezenta opțiunile de partid ale alegătorilor în alegerile din Statele Unite, adică republican sau democrat. În acest caz, nu există niciun motiv inerent pentru care ar trebui să existe doar două partide politice și, într-adevăr, există și alte partide în SUA, dar acestea sunt atât de minore încât, în general, sunt pur și simplu ignorate. Modelarea datelor continue (sau a datelor categorice cu mai mult de 2 categorii) ca o variabilă binară în scopul analizei se numește dicotomizare (crearea unei dihotomii). Ca orice discretizare, aceasta implică o eroare de discretizare, dar scopul este de a învăța ceva valoros în ciuda erorii: tratând-o ca fiind neglijabilă pentru scopul în cauză, dar amintindu-ne că nu se poate presupune că este neglijabilă în general.
Variabile binareEdit
O variabilă binară este o variabilă aleatoare de tip binar, adică cu două valori posibile. Variabilele binare independente și identic distribuite (i.i.d.) urmează o distribuție Bernoulli, dar în general datele binare nu trebuie să provină neapărat din variabile i.i.d.. Numerele totale ale variabilelor binare i.i.d. (în mod echivalent, sumele variabilelor binare i.i.d. codificate ca 1 sau 0) urmează o distribuție binomială, dar atunci când variabilele binare nu sunt i.i.d., distribuția nu trebuie neapărat să fie binomială.
CountingEdit
Ca și datele categoriale, datele binare pot fi convertite într-un vector de date de numărare prin scrierea unei coordonate pentru fiecare valoare posibilă și numărarea 1 pentru valoarea care apare și 0 pentru valoarea care nu apare. De exemplu, dacă valorile sunt A și B, atunci setul de date A, A, A, B poate fi reprezentat în numărători ca (1, 0), (1, 0), (0, 1), (0, 1). Odată convertite în numărători, datele binare pot fi grupate și numărătorile pot fi adunate. De exemplu, dacă setul A, A, B este grupat, numărătorile totale sunt (2, 1): 2 A și 1 B (din 3 încercări).
Din moment ce există doar două valori posibile, acest lucru poate fi simplificat la o singură numărătoare (o valoare scalară) prin considerarea unei valori ca „succes” și a celeilalte ca „eșec”, codificând o valoare a succesului ca 1 și a eșecului ca 0. De exemplu, dacă valoarea A este considerată „succes” (și, prin urmare, B este considerat „eșec”), setul de date A, A, B ar fi reprezentat ca 1, 1, 0. Atunci când acest lucru este grupat, valorile sunt adăugate, în timp ce numărul de încercări este, în general, urmărit în mod implicit. De exemplu, A, A, A, B ar fi grupate ca 1 + 1 + 0 = 2 succese (din n = 3 {\displaystyle n=3}
}} încercări). Mergând în sens invers, se numără datele cu n = 1 {\displaystyle n=1}
sunt date binare, cele două clase fiind 0 (eșec) sau 1 (succes).
Conturile de variabile binare i.i.d. urmează o distribuție binomială, cu n {\displaystyle n}
numărul total de încercări (puncte în datele grupate).
RegressionEdit
Analiza de regresie asupra rezultatelor prezise care sunt variabile binare este cunoscută sub numele de regresie binară; atunci când datele binare sunt convertite în date de numărare și modelate ca variabile i.i.d. (deci au o distribuție binomială), se poate folosi regresia binomială. Cele mai comune metode de regresie pentru datele binare sunt regresia logistică, regresia probit sau tipurile înrudite de modele de alegere binară.
În mod similar, numărătorile variabilelor categorice i.i.d. cu mai mult de două categorii pot fi modelate cu o regresie multinomială. Numărătorile de date binare non-i.i.d. pot fi modelate prin distribuții mai complicate, cum ar fi distribuția beta-binomială (o distribuție compusă). Alternativ, relația poate fi modelată fără a fi nevoie să se modeleze în mod explicit distribuția variabilei de ieșire, utilizând tehnici din modelele liniare generalizate (GLM), cum ar fi cvasi-lichiditatea și un model cvasi-binomial; a se vedea Supradispersie § Binomial.
.