Importância da Visualização de Dados – Anscombe’s Quartet Way.

DS INTO THE REAL WORLD

Quatro conjuntos de dados que enganam o modelo de Regressão Linear se construídos.

Image by Author
O quarteto de Anscombe é composto por quatro conjuntos de dados que têm uma estatística descritiva simples quase idêntica, mas que têm distribuições muito diferentes e que aparecem muito diferentes quando grafados.
– Wikipedia

Anscombe’s Quartet pode ser definido como um grupo de quatro conjuntos de dados que são quase idênticos em estatística descritiva simples, mas há algumas peculiaridades no conjunto de dados que enganam o modelo de regressão se construído. Eles têm distribuições muito diferentes e aparecem de forma diferente quando plotados em gráficos de dispersão.

Foi construído em 1973 pelo estatístico Francis Anscombe para ilustrar a importância de plotar os gráficos antes de analisar e construir o modelo, e o efeito de outras observações sobre as propriedades estatísticas.

Isso nos diz sobre a importância de visualizar os dados antes de aplicar vários algoritmos para construir modelos a partir deles, o que sugere que as características dos dados devem ser plotadas a fim de ver a distribuição das amostras que podem ajudar a identificar as várias anomalias presentes nos dados, como outliers, diversidade dos dados, separabilidade linear dos dados, etc. Além disso, a Regressão Linear só pode ser considerada adequada para os dados com relações lineares e é incapaz de lidar com qualquer outro tipo de conjuntos de dados. Estes quatro gráficos podem ser definidos da seguinte forma:

Image by Author

As informações estatísticas para todos estes quatro conjuntos de dados são aproximadamente semelhantes e podem ser computadas da seguinte forma:

>

>

Image by Author
>

Quando esses modelos são plotados em um gráfico de dispersão, todos os conjuntos de dados geram um tipo diferente de gráfico que não é interpretável por nenhum algoritmo de regressão que é enganado por essas peculiaridades e pode ser visto da seguinte forma

Image by Author

Os quatro conjuntos de dados podem ser descritos como:

  1. Dataset 1: isto se encaixa muito bem no modelo de regressão linear.
  2. Conjunto de dados 2: isto não poderia se encaixar muito bem no modelo de regressão linear nos dados, já que os dados não são lineares.
  3. Dataset 3: mostra os outliers envolvidos no conjunto de dados que não podem ser tratados pelo modelo de regressão linear
  4. Dataset 4: mostra os outliers envolvidos no conjunto de dados que não podem ser tratados pelo modelo de regressão linear

Descrevemos os quatro conjuntos de dados que foram intencionalmente criados para descrever a importância da visualização dos dados e como qualquer algoritmo de regressão pode ser enganado pelo mesmo. Portanto, todas as características importantes do conjunto de dados devem ser visualizadas antes de implementar qualquer algoritmo de aprendizagem de máquina neles, o que ajudará a fazer um bom modelo de ajuste.