Datos binarios

En estadística, los datos binarios son un tipo de datos estadísticos que consisten en datos categóricos que pueden tomar exactamente dos valores posibles, como «A» y «B», o «cara» y «cruz». Como forma de datos categóricos, los datos binarios son datos nominales, lo que significa que representan valores cualitativamente diferentes que no se pueden comparar numéricamente. Sin embargo, los datos binarios se convierten con frecuencia en datos de recuento considerando uno de los dos valores como «éxito» y representando los resultados como 1 o 0, lo que corresponde a contar el número de éxitos en un solo ensayo: 1 (éxito) o 0 (fracaso); véase § Contar.

A menudo, los datos binarios se utilizan para representar uno de dos valores conceptualmente opuestos, por ejemplog:

  • el resultado de un experimento («éxito» o «fracaso»)
  • la respuesta a una pregunta sí-no («sí» o «no»)
  • la presencia o ausencia de alguna característica («está presente» o «no está presente»)
  • la verdad o falsedad de una proposición («verdadera» o «falsa», «correcto» o «incorrecto»)

Sin embargo, también se puede utilizar para los datos que se supone que tienen sólo dos valores posibles, incluso si no son conceptualmente opuestos o representan conceptualmente todos los valores posibles en el espacio. Por ejemplo, los datos binarios se utilizan a menudo para representar las opciones de partido de los votantes en las elecciones de Estados Unidos, es decir, republicano o demócrata. En este caso, no hay ninguna razón inherente para que sólo existan dos partidos políticos y, de hecho, existen otros partidos en EE.UU., pero son tan minoritarios que generalmente se ignoran. Modelar datos continuos (o datos categóricos de más de 2 categorías) como una variable binaria con fines de análisis se denomina dicotomización (crear una dicotomía). Como toda discretización, implica un error de discretización, pero el objetivo es aprender algo valioso a pesar del error: tratarlo como insignificante para el propósito en cuestión, pero recordando que no se puede suponer que sea insignificante en general.

Variables binariasEditar

Una variable binaria es una variable aleatoria de tipo binario, es decir, con dos valores posibles. Las variables binarias independientes e idénticamente distribuidas (i.i.d.) siguen una distribución Bernoulli, pero en general los datos binarios no tienen por qué proceder de variables i.i.d. Los recuentos totales de variables binarias i.i.d. (equivalentemente, las sumas de variables binarias i.i.d. codificadas como 1 o 0) siguen una distribución binomial, pero cuando las variables binarias no son i.i.d., la distribución no tiene por qué ser binomial.

CountingEdit

Al igual que los datos categóricos, los datos binarios se pueden convertir en un vector de datos de recuento escribiendo una coordenada para cada valor posible, y contando 1 para el valor que ocurre, y 0 para el valor que no ocurre. Por ejemplo, si los valores son A y B, entonces el conjunto de datos A, A, B puede representarse en cuentas como (1, 0), (1, 0), (0, 1). Una vez convertidos en recuentos, los datos binarios pueden agruparse y sumar los recuentos. Por ejemplo, si se agrupa el conjunto A, A, B, los recuentos totales son (2, 1): 2 A y 1 B (de 3 ensayos).

Como sólo hay dos valores posibles, esto se puede simplificar a un solo recuento (un valor escalar) considerando un valor como «éxito» y el otro como «fracaso», codificando un valor del éxito como 1 y del fracaso como 0. Por ejemplo, si el valor A se considera «éxito» (y, por tanto, B se considera «fracaso»), el conjunto de datos A, A, B se representaría como 1, 1, 0. Cuando se agrupa, los valores se suman, mientras que el número de intentos suele seguirse implícitamente. Por ejemplo, A, A, B se agruparía como 1 + 1 + 0 = 2 éxitos (de n = 3 {\displaystyle n=3}

n = 3

}} ensayos). Yendo en sentido contrario, contar los datos con n = 1 {\displaystyle n=1}

n=1

son datos binarios, siendo las dos clases 0 (fracaso) o 1 (éxito).

Los recuentos de las variables binarias i.i.d. siguen una distribución binomial, con n {\displaystyle n}

n

el número total de ensayos (puntos en los datos agrupados).

RegressionEdit

Artículo principal: Regresión binaria

El análisis de regresión sobre resultados predichos que son variables binarias se conoce como regresión binaria; cuando los datos binarios se convierten en datos de recuento y se modelan como variables i.i.d. (por lo que tienen una distribución binomial), se puede utilizar la regresión binomial. Los métodos de regresión más comunes para los datos binarios son la regresión logística, la regresión probit o los tipos relacionados de modelos de elección binaria.

De forma similar, los recuentos de variables categóricas i.i.d. con más de dos categorías pueden modelarse con una regresión multinomial. Los recuentos de datos binarios no i.d. pueden modelarse con distribuciones más complicadas, como la distribución beta-binomial (una distribución compuesta). Alternativamente, la relación puede modelarse sin necesidad de modelar explícitamente la distribución de la variable de salida utilizando técnicas de los modelos lineales generalizados (GLM), como la cuasi-verosimilitud y un modelo cuasibinomial; véase Sobredispersión § Binomial.