Skip to content

Análisis de dataset de Kaggle Telco-Customer-Churn con métodos de ML tradicional y Deep Learning.

Notifications You must be signed in to change notification settings

Adrok24/Telco-Customer-Churn

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

57 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Análisis de un data set de Telco Customer Churn y entrenamiento de un modelo predictivo por diferentes métodos

El dataset puede ser encontrado en el siguiente desafo de Kaggle: Telco-customer-churn

Motivación y dataset

La motivación es predecir el comportamiento para retener clientes. Poder analizar todos los datos relevantes de los clientes y desarrollar programas de retención de clientes.

  • Cada fila representa un cliente, cada columna contiene los atributos del cliente descritos en la columna Metadatos.
  • El conjunto de datos incluye información sobre:
  • Clientes que se fueron en el último mes: la columna se llama RenunciaServicios a los que cada cliente se ha suscrito: teléfono, varias líneas, Internet, seguridad en línea, respaldo en línea, protección de dispositivos, soporte técnico y transmisión de TV y películas.
  • Información de la cuenta del cliente: cuánto tiempo ha sido cliente, contrato, método de pago, facturación electrónica, cargos mensuales y cargos totales.
  • Información demográfica sobre los clientes: sexo, rango de edad y si tienen socios y dependientes

Análisis exploratorio y prueba con ML tradicional

Las notebooks que contienen toda la información del análisis exploratorio y entrenamiento de los modelos de machine learning se pueden encontrar en la siguiente carpeta

  • El dataset presenta como variable target el Churn Status cuya distribución se ve en el siguiente gráfico.

grafico

  • El dataset tiene una forma de (7043, 21), no presenta outliers en sus valores y presenta blancos solo en 11 identificados como missing values de los 7043.

  • Hay datos Sensibles los cuales se pueden o no tener en cuenta. Edad / Sexo en ocasiones no esta bien visto hacer recomendaciones utilizando esta informacion ya que puede ser visto como discriminación.

  • Variables más significativas según modelo Random Forest:

  1. Total Charges: El monto total cobrado al cliente
  2. Tenure: Número de meses que el cliente ha permanecido en la empresa.
  3. Monthly change: El monto cobrado al cliente mensualmente

grafico

  • Variables que más correlacionan con variable objetivo:
  1. Total Charges: El monto total cobrado al cliente
  2. Tenure: Número de meses que el cliente ha permanecido en la empresa.

grafico

  • Probando con ensambles de árboles, el modelo que mejor resultados obtuvo fue el clasificador AdaBoost:

grafico

  • Comparación de resultados de una regresión logistica con una red neuronal simple de una sola neurona, con activación sigmoidea:

grafico

Deep Learing (NN)

Los resultados obtenidos con redes neuronales se pueden hallar en la siguiente notebook, aunque también se realizaron diversas pruebas que se pueden encontrar en la siguiente carpeta.

neural networks

  • Matriz de confusión y métricas obtenida para los datos de test.

matriz de confusión obtenida

About

Análisis de dataset de Kaggle Telco-Customer-Churn con métodos de ML tradicional y Deep Learning.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •