バイナリデータ

統計学において、バイナリデータとは、「A」と「B」、あるいは「頭」と「尾」のように、正確に二つの値を取りうるカテゴリーデータからなる統計データ型のことである。 バイナリデータは、カテゴリカルデータの一形態として、名目的なデータであり、数値的に比較することができない質的に異なる値を表している。 しかし、2値データをカウントデータに変換する際には、2つの値のうちどちらかを「成功」とみなし、結果を1か0で表現することが多く、これは1回の試行で成功した数を数えることに相当する。 1(成功)か0(失敗)か、§Counting.参照)

しばしば、2値データは概念的に対立する2つの値の一方を表すために用いられる。g:

  • 実験の結果 (「成功」または「失敗」)
  • 質問に対する回答 (「はい」または「いいえ」)
  • ある特徴の存在または不在 (「存在する」または「存在しない」)
  • 提案の真実または誤り (「真」または「偽」。 “correct” or “incorrect”)

しかし、概念的に対立していなくても、あるいは概念的に空間のすべての可能な値を表していなくても、2つの可能な値しかないと仮定されるデータにも使用されることがある。 例えば、アメリカの選挙における有権者の政党選択、すなわち共和党か民主党かを表すには、2値データがよく使われます。 この場合、2つの政党だけが存在すべき本質的な理由はなく、実際、アメリカには他の政党も存在するが、あまりにもマイナーなので、一般には単に無視されるだけである。 連続データ(または2つ以上のカテゴリーデータ)を分析のために2値変数としてモデル化することを2分法化(2分法を作ること)という。 すべての離散化と同様に、離散化誤差を伴うが、目標は誤差にもかかわらず価値あるものを学ぶことである:手元の目的には無視できるものとして扱うが、一般には無視できないと仮定することを忘れない。 独立同分布(i.i.d.)バイナリ変数はベルヌーイ分布に従うが、一般にバイナリデータはi.i.d.変数からである必要はない。 i.i.d.バイナリ変数の総カウント(等価に,1または0としてコード化されたi.i.d.バイナリ変数の合計)は,二項分布に従うが,バイナリ変数がi.i.d. ではなかった場合,二項分布は,1または0になる.

CountingEdit

カテゴリデータと同様に、2値データは、取り得る値ごとに1つの座標を書き、発生した値を1、発生しなかった値を0と数えることで、カウントデータのベクトルに変換することができる。 例えば、値がAとBの場合、データセットA, A, Bは、(1, 0), (1, 0), (0, 1)のようにカウントで表現できる。 カウントに変換すると、2値データをグループ化し、カウントを加算することができる。 例えば、集合A、A、Bをグループ化すると、総カウントは(2, 1): Aが2個、Bが1個(3回の試行のうち)となる。

取りうる値は2つだけなので、一方の値を「成功」、他方を「失敗」と考え、成功を1、失敗を0としてコーディングすれば、単一のカウント(スカラー値)に簡略化できる。 例えば、値Aを「成功」とし、Bを「失敗」とすると、データセットA、A、Bは1、1、0と表される。これをグループ化する場合、値は加算されるが、試行回数は暗黙に追跡されるのが一般的である。 例えば、A, A, Bは、1 + 1 + 0 = 2 成功(out of n = 3 {displaystyle n=3} )としてグループ化される。

n = 3

}}の試行)。 逆に、n = 1 {displaystyle n=1} のデータをカウントする。

n=1

は2値データで、0(失敗)か1(成功)の2クラスとなる。

i.i.d.二項変数の個数は二項分布に従うが、n {displaystyle n} である。

n

試行回数(グループ化されたデータの点)の総数です。

RegressionEdit

主な記事です。 二項回帰

二項変数である予測結果に対する回帰分析は二項回帰と呼ばれ、二項データをカウントデータに変換してi.i.d.変数としてモデル化すると(二項分布を持つように)、二項回帰が使用できるようになる。 バイナリ・データの最も一般的な回帰手法は,ロジスティック回帰,プロビット回帰,または関連するタイプのバイナリ選択モデルである.

同様に,2つ以上のカテゴリを持つ i.i.d. カテゴリ変数のカウントは,多項回帰でモデル化することができる. 非 i.i.d. バイナリデータのカウントは、ベータ二項分布(複合分布)などのより複雑な分布でモデル化することができる。 また、出力変数の分布を明示的にモデル化しなくても、準尤度や準二項モデルなどの一般化線形モデル(GLM)の手法を用いて、関係をモデル化することもできる; 過分散§二項を参照