Este proyecto tiene como objetivo predecir la cancelación de clientes utilizando diferentes algoritmos de Machine Learning.
Se realizó un análisis comparativo de modelos, evaluación de métricas y análisis de importancia de variables para identificar los factores más influyentes en la decisión de cancelar.
- Regresión Logística
- Random Forest
- XGBoost
Se evaluaron los modelos utilizando las siguientes métricas:
- Accuracy (Exactitud)
- Precision
- Recall
- F1-Score
- ROC-AUC
- Matriz de confusión
- Curvas ROC
Modelo | Accuracy | Precision | Recall | F1-score | ROC-AUC |
---|---|---|---|---|---|
LogReg | 0.8015 | 0.6345 | 0.5383 | 0.5824 | 0.8434 |
XGBoost | 0.8033 | 0.6454 | 0.5223 | 0.5773 | 0.8388 |
Random Forest | 0.7854 | 0.6022 | 0.4884 | 0.5394 | 0.8176 |
🔎 Conclusión:
- El mejor modelo según ROC-AUC fue Regresión Logística (0.8434).
- XGBoost ofrece un balance competitivo con buena precisión y recall.
- Random Forest tuvo menor desempeño relativo.
- Servicio de Internet (Fiber Optic / DSL / No)
- Tipo de contrato (Month-to-month, Two year)
- Gastos mensuales
- Gastos totales
- Los clientes con contrato mensual y Fibra Óptica tienen mayor probabilidad de cancelar.
- Los altos gastos mensuales son un predictor fuerte de cancelación.
- Métodos de pago y servicios adicionales influyen, pero con menor peso.
- Overfitting: Modelos como Random Forest y XGBoost pueden sobreajustar si no se regulan los hiperparámetros.
- Underfitting: Modelos demasiado simples no capturan las relaciones entre gasto y cancelación.
- El modelo más adecuado es la Regresión Logística, por su interpretabilidad y alto ROC-AUC.
- Los factores clave para cancelar son: contrato mensual, fibra óptica y gastos mensuales elevados.
- Para reducir cancelaciones se recomienda:
- Incentivar contratos de largo plazo.
- Ofrecer planes más accesibles para usuarios con gastos altos.
- Mejorar la experiencia de clientes con Fibra Óptica, que muestran mayor tendencia a cancelar.
- Python
- Scikit-learn
- XGBoost
- Pandas, Numpy
- Matplotlib, Seaborn