Dati binari

In statistica, i dati binari sono un tipo di dati statistici che consiste in dati categorici che possono assumere esattamente due possibili valori, come “A” e “B”, o “testa” e “croce”. Come forma di dati categorici, i dati binari sono dati nominali, cioè rappresentano valori qualitativamente diversi che non possono essere confrontati numericamente. Tuttavia, i dati binari sono spesso convertiti in dati di conteggio considerando uno dei due valori come “successo” e rappresentando i risultati come 1 o 0, il che corrisponde a contare il numero di successi in una singola prova: 1 (successo) o 0 (fallimento); vedi § Conteggio.

Spesso, i dati binari sono usati per rappresentare uno dei due valori concettualmente opposti, ad es.g:

  • il risultato di un esperimento (“successo” o “fallimento”)
  • la risposta a una domanda sì-no (“sì” o “no”)
  • presenza o assenza di qualche caratteristica (“è presente” o “non è presente”)
  • la verità o falsità di una proposizione (“vero” o “falso”, “corretto” o “scorretto”)

Tuttavia, può essere usato anche per dati che si suppone abbiano solo due possibili valori, anche se non sono concettualmente opposti o rappresentano concettualmente tutti i possibili valori nello spazio. Per esempio, i dati binari sono spesso usati per rappresentare le scelte di partito degli elettori nelle elezioni negli Stati Uniti, cioè repubblicano o democratico. In questo caso, non c’è nessuna ragione intrinseca per cui debbano esistere solo due partiti politici, e in effetti, altri partiti esistono negli Stati Uniti, ma sono così minori che generalmente vengono semplicemente ignorati. Modellare dati continui (o dati categorici di più di 2 categorie) come una variabile binaria per scopi di analisi si chiama dicotomizzazione (creare una dicotomia). Come tutte le discretizzazioni, comporta un errore di discretizzazione, ma l’obiettivo è quello di imparare qualcosa di prezioso nonostante l’errore: trattandolo come trascurabile per lo scopo a portata di mano, ma ricordando che non si può assumere che sia trascurabile in generale.

Variabili binarieModifica

Una variabile binaria è una variabile casuale di tipo binario, cioè con due possibili valori. Le variabili binarie indipendenti e identicamente distribuite (i.i.d.) seguono una distribuzione di Bernoulli, ma in generale i dati binari non devono necessariamente provenire da variabili i.i.d. I conteggi totali di variabili binarie i.i.d. (equivalentemente, le somme di variabili binarie i.i.d. codificate come 1 o 0) seguono una distribuzione binomiale, ma quando le variabili binarie non sono i.i.d., la distribuzione non deve necessariamente essere binomiale.

CountingEdit

Come i dati categorici, i dati binari possono essere convertiti in un vettore di dati di conteggio scrivendo una coordinata per ogni possibile valore, e contando 1 per il valore che si verifica, e 0 per il valore che non si verifica. Per esempio, se i valori sono A e B, allora l’insieme di dati A, A, B può essere rappresentato in conteggi come (1, 0), (1, 0), (0, 1). Una volta convertiti in conteggi, i dati binari possono essere raggruppati e i conteggi aggiunti. Per esempio, se l’insieme A, A, B è raggruppato, i conteggi totali sono (2, 1): 2 A e 1 B (su 3 prove).

Siccome ci sono solo due valori possibili, questo può essere semplificato in un solo conteggio (un valore scalare) considerando un valore come “successo” e l’altro come “fallimento”, codificando un valore del successo come 1 e del fallimento come 0. Per esempio, se il valore A è considerato “successo” (e quindi B è considerato “fallimento”), l’insieme di dati A, A, B sarebbe rappresentato come 1, 1, 0. Quando questo viene raggruppato, i valori vengono aggiunti, mentre il numero di prova è generalmente tracciato implicitamente. Per esempio, A, A, B sarebbero raggruppati come 1 + 1 + 0 = 2 successi (su n = 3 {\displaystyle n=3}

n = 3

prove). Andando nella direzione opposta, contare i dati con n = 1 {\displaystyle n=1}

n=1

sono dati binari, con le due classi 0 (fallimento) o 1 (successo).

I conteggi delle variabili binarie i.i.d. seguono una distribuzione binomiale, con n {\displaystyle n}

n

il numero totale di prove (punti nei dati raggruppati).

RegressionEdit

Articolo principale: Regressione binaria

L’analisi di regressione sui risultati previsti che sono variabili binarie è nota come regressione binaria; quando i dati binari sono convertiti in dati di conteggio e modellati come variabili i.i.d. (quindi hanno una distribuzione binomiale), la regressione binomiale può essere utilizzata. I metodi di regressione più comuni per i dati binari sono la regressione logistica, la regressione probit, o tipi correlati di modelli di scelta binaria.

Similmente, i conteggi di variabili categoriche i.i.d. con più di due categorie possono essere modellati con una regressione multinomiale. I conteggi di dati binari non-i.i.d. possono essere modellati da distribuzioni più complicate, come la distribuzione beta-binomiale (una distribuzione composta). In alternativa, la relazione può essere modellata senza bisogno di modellare esplicitamente la distribuzione della variabile di uscita utilizzando tecniche di modelli lineari generalizzati (GLM), come la quasi-liquidità e un modello quasibinomiale; vedi Sovradispersione § Binomiale.