Importancia de la visualización de datos – El camino del cuarteto de Anscombe.
DESDE EL MUNDO REAL
Cuatro conjuntos de datos que engañan al modelo de Regresión Lineal si se construye.
El cuarteto de Anscombe comprende cuatro conjuntos de datos que tienen estadísticas descriptivas simples casi idénticas, pero que tienen distribuciones muy diferentes y parecen muy diferentes cuando se grafican.
– Wikipedia
El Cuarteto de Anscombe puede definirse como un grupo de cuatro conjuntos de datos que son casi idénticos en las estadísticas descriptivas simples, pero hay algunas peculiaridades en el conjunto de datos que engañan al modelo de regresión si se construye. Tienen distribuciones muy diferentes y aparecen de manera diferente cuando se trazan en gráficos de dispersión.
Fue construido en 1973 por el estadístico Francis Anscombe para ilustrar la importancia de trazar los gráficos antes de analizar y construir el modelo, y el efecto de otras observaciones en las propiedades estadísticas.Hay estas cuatro parcelas de conjuntos de datos que tienen casi las mismas observaciones estadísticas, que proporciona la misma información estadística que implica la varianza, y la media de todos los puntos x,y en los cuatro conjuntos de datos.
Esto nos habla de la importancia de visualizar los datos antes de aplicar varios algoritmos para construir modelos a partir de ellos, lo que sugiere que las características de los datos deben ser trazadas para ver la distribución de las muestras que pueden ayudar a identificar las diversas anomalías presentes en los datos como los valores atípicos, la diversidad de los datos, la separabilidad lineal de los datos, etc. Además, la regresión lineal sólo puede considerarse un ajuste para los datos con relaciones lineales y es incapaz de manejar cualquier otro tipo de conjuntos de datos. Estos cuatro gráficos pueden definirse como sigue:
La información estadística de estos cuatro conjuntos de datos es aproximadamente similar y puede calcularse como sigue:
Cuando se representan estos modelos en un gráfico de dispersión, todos los conjuntos de datos generan un tipo de gráfico diferente que no es interpretable por ningún algoritmo de regresión que se deje engañar por estas peculiaridades y que puede verse de la siguiente manera:
Los cuatro conjuntos de datos pueden describirse como:
- Conjunto de datos 1: se ajusta bastante bien al modelo de regresión lineal.
- Conjunto de datos 2: este no pudo ajustar el modelo de regresión lineal en los datos bastante bien ya que los datos son no lineales.
- Conjunto de datos 3: muestra los valores atípicos involucrados en el conjunto de datos que no pueden ser manejados por el modelo de regresión lineal
- Conjunto de datos 4: muestra los valores atípicos involucrados en el conjunto de datos que no pueden ser manejados por el modelo de regresión lineal
Hemos descrito los cuatro conjuntos de datos que fueron creados intencionalmente para describir la importancia de la visualización de datos y cómo cualquier algoritmo de regresión puede ser engañado por el mismo. Por lo tanto, todas las características importantes en el conjunto de datos deben ser visualizadas antes de implementar cualquier algoritmo de aprendizaje automático en ellos, lo que ayudará a hacer un modelo de buen ajuste.