Données binaires

En statistique, les données binaires sont un type de données statistiques constitué de données catégorielles qui peuvent prendre exactement deux valeurs possibles, comme « A » et « B », ou « pile » et « face ». En tant que forme de données catégoriques, les données binaires sont des données nominales, ce qui signifie qu’elles représentent des valeurs qualitativement différentes qui ne peuvent être comparées numériquement. Cependant, les données binaires sont fréquemment converties en données de comptage en considérant l’une des deux valeurs comme un « succès » et en représentant les résultats par 1 ou 0, ce qui correspond à compter le nombre de succès dans un seul essai : 1 (réussite) ou 0 (échec) ; voir § Comptage.

Souvent, les données binaires sont utilisées pour représenter l’une de deux valeurs conceptuellement opposées, par ex.g :

  • le résultat d’une expérience (« succès » ou « échec »)
  • la réponse à une question oui/non (« oui » ou « non »)
  • la présence ou l’absence d’une caractéristique (« est présent » ou « n’est pas présent »)
  • la vérité ou la fausseté d’une proposition (« vrai » ou « faux », « correct » ou « incorrect »)

Cependant, il peut également être utilisé pour des données supposées n’avoir que deux valeurs possibles, même si elles ne sont pas conceptuellement opposées ou représentent conceptuellement toutes les valeurs possibles dans l’espace. Par exemple, les données binaires sont souvent utilisées pour représenter les choix de parti des électeurs lors des élections aux États-Unis, c’est-à-dire républicain ou démocrate. Dans ce cas, il n’y a pas de raison inhérente à l’existence de deux partis politiques seulement, et en effet, d’autres partis existent aux États-Unis, mais ils sont si mineurs qu’ils sont généralement simplement ignorés. La modélisation de données continues (ou de données catégorielles de plus de 2 catégories) en tant que variable binaire à des fins d’analyse est appelée dichotomisation (création d’une dichotomie). Comme toute discrétisation, elle implique une erreur de discrétisation, mais le but est d’apprendre quelque chose de valable malgré l’erreur : la traiter comme négligeable pour le but recherché, mais se rappeler qu’on ne peut pas la supposer négligeable en général.

Variables binairesEdit

Une variable binaire est une variable aléatoire de type binaire, c’est-à-dire avec deux valeurs possibles. Les variables binaires indépendantes et identiquement distribuées (i.i.d.) suivent une distribution de Bernoulli, mais en général les données binaires ne doivent pas nécessairement provenir de variables i.i.d.. Les nombres totaux de variables binaires i.i.d. (équivalents aux sommes de variables binaires i.i.d. codées comme 1 ou 0) suivent une distribution binomiale, mais lorsque les variables binaires ne sont pas i.i.d., la distribution ne doit pas nécessairement être binomiale.

ComptageEdit

Comme les données catégorielles, les données binaires peuvent être converties en un vecteur de données de comptage en écrivant une coordonnée pour chaque valeur possible, et en comptant 1 pour la valeur qui se produit, et 0 pour la valeur qui ne se produit pas. Par exemple, si les valeurs sont A et B, l’ensemble de données A, A, B peut être représenté sous forme de comptage par (1, 0), (1, 0), (0, 1). Une fois converties en nombres, les données binaires peuvent être regroupées et les nombres additionnés. Par exemple, si l’ensemble A, A, B est groupé, les comptes totaux sont (2, 1) : 2 A et 1 B (sur 3 essais).

Puisqu’il n’y a que deux valeurs possibles, cela peut être simplifié en un seul compte (une valeur scalaire) en considérant une valeur comme « succès » et l’autre comme « échec », en codant une valeur du succès comme 1 et de l’échec comme 0. Par exemple, si la valeur A est considérée comme un « succès » (et donc que B est considéré comme un « échec »), l’ensemble de données A, A, B serait représenté par 1, 1, 0. Lorsqu’il est regroupé, les valeurs sont additionnées, tandis que le nombre d’essais est généralement suivi de manière implicite. Par exemple, A, A, B serait groupé comme 1 + 1 + 0 = 2 succès (sur n = 3 {\displaystyle n=3}

n = 3

}} essais). Dans l’autre sens, compter les données avec n = 1 {\displaystyle n=1}

n=1

sont des données binaires, les deux classes étant 0 (échec) ou 1 (succès).

Les effectifs des variables binaires i.i.d. suivent une distribution binomiale, avec n {\displaystyle n}.

n

le nombre total d’essais (points dans les données groupées).

RégressionEdit

Article principal : Régression binaire

L’analyse de régression sur des résultats prédits qui sont des variables binaires est connue sous le nom de régression binaire ; lorsque les données binaires sont converties en données de comptage et modélisées comme des variables i.i.d. (elles ont donc une distribution binomiale), la régression binomiale peut être utilisée. Les méthodes de régression les plus courantes pour les données binaires sont la régression logistique, la régression probit ou les types connexes de modèles de choix binaires.

De même, les dénombrements de variables catégorielles i.i.d. avec plus de deux catégories peuvent être modélisés avec une régression multinomiale. Les comptages de données binaires non i.i.d. peuvent être modélisés par des distributions plus compliquées, telles que la distribution bêta-binomiale (une distribution composée). Il est également possible de modéliser la relation sans avoir besoin de modéliser explicitement la distribution de la variable de sortie en utilisant des techniques issues des modèles linéaires généralisés (GLM), telles que la quasi-vraisemblance et un modèle quasibinomial ; voir Surdispersion § Binomiale.