Dados binários

Em estatística, dados binários são um tipo de dados estatísticos que consistem em dados categóricos que podem assumir exatamente dois valores possíveis, como “A” e “B”, ou “cabeças” e “rabos”. Como forma de dados categóricos, dados binários são dados nominais, o que significa que eles representam valores qualitativamente diferentes que não podem ser comparados numericamente. No entanto, os dados binários são frequentemente convertidos em dados de contagem, considerando um dos dois valores como “sucesso” e representando os resultados como 1 ou 0, o que corresponde a contar o número de sucessos em uma única tentativa: 1 (sucesso) ou 0 (fracasso); ver § Contagem.

Muitas vezes, os dados binários são usados para representar um de dois valores conceitualmente opostos, e.g:

  • o resultado de uma experiência (“sucesso” ou “fracasso”)
  • a resposta a um sim – nenhuma pergunta (“sim” ou “não”)
  • a presença ou ausência de alguma característica (“está presente” ou “não está presente”)
  • a verdade ou falsidade de uma proposição (“verdadeiro” ou “falso”), “correcto” ou “incorrecto”)

No entanto, também pode ser usado para dados que se assume terem apenas dois valores possíveis, mesmo que não sejam conceptualmente opostos ou representem conceptualmente todos os valores possíveis no espaço. Por exemplo, os dados binários são frequentemente usados para representar as escolhas partidárias dos eleitores nas eleições nos Estados Unidos, ou seja, Republicano ou Democrata. Neste caso, não há nenhuma razão inerente para que apenas dois partidos políticos existam e, de fato, outros partidos existem nos Estados Unidos, mas eles são tão pequenos que geralmente são simplesmente ignorados. A modelagem de dados contínuos (ou dados categóricos de mais de 2 categorias) como variável binária para fins de análise é chamada de dicotomização (criando uma dicotomia). Como toda discretização, ela envolve erro de discretização, mas o objetivo é aprender algo valioso apesar do erro: tratá-la como insignificante para o propósito em questão, mas lembrando que ela não pode ser assumida como insignificante em geral.

Variáveis bináriasEditar

Uma variável binária é uma variável aleatória de tipo binário, ou seja, com dois valores possíveis. Variáveis binárias independentes e distribuídas de forma idêntica (i.i.d.) seguem uma distribuição Bernoulli, mas em geral os dados binários não precisam vir de variáveis i.i.d.. As contagens totais das variáveis binárias i.i.d. (equivalentes, somas de variáveis binárias i.i.d. codificadas como 1 ou 0) seguem uma distribuição binomial, mas quando as variáveis binárias não são i.i.d., a distribuição não precisa ser binomial.

CountingEdit

Dados categóricos, dados binários podem ser convertidos para um vetor de dados de contagem escrevendo uma coordenada para cada valor possível, e contando 1 para o valor que ocorre, e 0 para o valor que não ocorre. Por exemplo, se os valores são A e B, então o conjunto de dados A, A, B pode ser representado em contagens como (1, 0), (1, 0), (0, 1). Uma vez convertidos em contagens, os dados binários podem ser agrupados e as contagens podem ser adicionadas. Por exemplo, se o conjunto A, A, B for agrupado, as contagens totais são (2, 1): 2 A’s e 1 B (de 3 tentativas).

Desde que existam apenas dois valores possíveis, isto pode ser simplificado para uma única contagem (um valor escalar) considerando um valor como “sucesso” e o outro como “fracasso”, codificando um valor do sucesso como 1 e do fracasso como 0. Por exemplo, se o valor A é considerado “sucesso” (e assim B é considerado “fracasso”), o conjunto de dados A, A, B seria representado como 1, 1, 0. Quando este é agrupado, os valores são adicionados, enquanto o número de tentativas é geralmente rastreado implicitamente. Por exemplo, A, A, B seriam agrupados como 1 + 1 + 0 = 2 sucessos (de n = 3 {\displaystyle n=3}

n = 3

}} ensaios). Indo por outro caminho, conte os dados com n = 1 {\\i1} {\i1}.

n=1

são dados binários, sendo as duas classes 0 (falha) ou 1 (sucesso).

Contas de variáveis binomiais i.i.d. seguem uma distribuição binomial, com n {\i1}displaystyle n

n

o número total de ensaios (pontos nos dados agrupados).

RegressãoEditar

Artigo principal: Regressão binária

Análise de regressão sobre resultados previstos que são variáveis binárias é conhecida como regressão binária; quando dados binários são convertidos em dados de contagem e modelados como variáveis i.i.d. (para que tenham uma distribuição binomial), a regressão binomial pode ser usada. Os métodos mais comuns de regressão para dados binários são a regressão logística, a regressão probit, ou tipos relacionados de modelos de escolha binomial.

Simplesmente, contagens de variáveis categóricas i.i.d. com mais de duas categorias podem ser modeladas com uma regressão multinomial. Contagens de dados binários não-i.i.d. podem ser modeladas por distribuições mais complicadas, como a distribuição beta-binomial (uma distribuição composta). Alternativamente, a relação pode ser modelada sem a necessidade de modelar explicitamente a distribuição da variável de saída usando técnicas de modelos lineares generalizados (GLM), tais como a probabilidade quasi-likelihood e um modelo quasibinomial; veja Overdispersion § Binomial.