El análisis exploratorio de datos (EDA, por sus siglas en inglés) es un proceso de investigación de los datos que se realiza antes del análisis formal. Su objetivo es entender la distribución y las relaciones entre las variables, así como identificar patrones, tendencias y outliers (valores atípicos) en los datos.
El EDA es una etapa importante en el proceso de análisis de datos, ya que permite tener una comprensión más profunda de los datos antes de realizar un análisis más formal. Algunos de los métodos comunes que se utilizan en el EDA incluyen la representación gráfica de los datos (como histogramas, gráficos de dispersión y box plots), la estimación de estadísticos básicos (como la media y la desviación estándar) y la identificación de relaciones entre las variables.
El EDA también es útil para identificar problemas en los datos, como valores faltantes, outliers y problemas de codificación, y para tomar decisiones sobre cómo manejar estos problemas antes de realizar un análisis más formal.
En resumen, el análisis exploratorio de datos es una herramienta valiosa para entender y visualizar los datos antes de realizar un análisis más complejo, y es un paso importante para garantizar una interpretación precisa y rigurosa de los resultados.
Organizar y entender las variables, establecer relaciones entre variables, encontrar patrones ocultos en los datos, ayuda a escoger el modelo correcto para la necidad correcta, ayudarte a tomar una desicion basada en datos.
- Hacer preguntas
- ¿Que te gustaria encontrar?
- ¿Que te gustaria saber?
- ¿Cual es la razon para realizar el analisi?
- Determinar el tamaño de los datos
- ¿Cuantas observaciones existen?
- ¿Cuantas variables existen?
- ¿Necisito todas las observaciones?
- ¿Necesito todas las variables?
- Categorizar las variables
- ¿Cuales son las variables numericas?
- ¿Cuales son las variables categoricas?
- ¿Cuales son las variables de texto?
- ¿Cuales son las variables de fecha?
- ¿Cuales son las variables de ubicacion?
- ¿ Como puedo explorar cada variable dependiendo de su categoria?
- Limpieza y validacion de datos.
- ¿Cuales son los valores faltantes?
- ¿Cuales son los valores atipicos?
- ¿Cual es la distribucion de los datos?
- Establecer relaciones
- Existe algun tipo de relacion entre las variables?
- Que significa el patron que se observa?