データ可視化の重要性 – Anscombe’s Quartet Way.

DS INTO THE REAL WORLD

線形回帰モデルを構築すると騙される4種類のデータセット。

Image by Author

Anscombe のカルテットは、ほぼ同じ単純記述統計量を持ちながら非常に異なる分布を持ち、グラフにすると非常に異なって見える4つのデータセットから構成されています。
– Wikipedia

アンスコムの四重奏は、単純な記述統計ではほぼ同じだが、回帰モデルを構築すると騙されてしまうような特異性がある4つのデータセットで構成されていると定義することができる。 統計学者のFrancis Anscombeが1973年に作成したもので、解析やモデル構築の前にグラフをプロットすることの重要性と、統計的性質に他の観測値が影響することを説明するためのものです。

これは、データからモデルを構築するために、様々なアルゴリズムを適用する前にデータを視覚化することの重要性を教えてくれています。 また、線形回帰は、線形関係を持つデータにのみ適合すると考えられ、他の種類のデータセットを扱うことはできません。 これら4つのプロットは次のように定義できる:

Image by Author

これらの4つのデータセットに対する統計情報はほぼ同様で、以下のように計算される。

Image by Author

これらのモデルが散布図でプロットされていると、すべてのデータセットで異なる種類のプロットが生成され、これらの特殊性にだまされているどの回帰アルゴリズムによっても解釈できない、以下のように表示することができます。

Image by Author

The four datasets can be described as:

  1. データセット1:線形回帰モデルにはかなりフィットしていますね。
  2. データセット2: データが非線形であるため、線形回帰モデルをうまく当てはめることができませんでした。
  3. データセット3: 線形回帰モデルで処理できないデータセットに含まれる外れ値を示しています
  4. データセット4: 線形回帰モデルで処理できないデータセットに含まれる外れ値を示しています

我々は、データ可視化の重要性とどのように任意の回帰アルゴリズムが同じによって欺けるかを説明するために意図的に作成した4つのデータセットを説明しました。 したがって、データセット内の重要な特徴はすべて、機械学習アルゴリズムを実装する前に可視化する必要があり、これにより適合性の高いモデルを作成することができます