Telecom X es un proyecto/challenge dentro de la formación “Aprendiendo a hacer ETL G8 - ONE”. Consiste en extraer, transformar y analizar un conjunto de datos de clientes de una compañía de telecomunicaciones, aplicando buenas prácticas de Data Engineering.
- Aprender el flujo completo de un proceso ETL (Extract‑Transform‑Load).
- Practicar técnicas de limpieza, normalización y enriquecimiento de datos.
- Visualizar insights clave de negocio a través de gráficas.
- Documentar y estructurar el código para producción y aprendizaje.
- Lenguaje: Python 🐍
- Librerías:
- Notebook: Jupyter Notebook ☕
- Formato de datos: JSON, CSV
TelecomX_ETL_Challenge/
├── data/
│ ├── TelecomX_Data.json # Datos originales
│ └── TelecomX_Cleaned.csv # Datos transformados
├── notebooks/
│ └── TelecomX_ETL_Solution.ipynb
├── LICENSE
└── README.md
-
Clonar el repositorio
git https://github.com/sandovaldavid/TelecomX-ETL-Challenge.git cd TelecomX-ETL-Challenge -
Crear y activar un entorno virtual
python3 -m venv venv source venv/bin/activate # Linux/macOS venv\Scripts\activate # Windows
-
Instalar dependencias
pip install -r requirements.txt
-
Registrar environment como Kernel para Jupyter
python -m ipykernel install --user --name ETL-env --display-name "Python (ETL-env)"
5.Abrir el Notebook
# Version clásica de Jupyter
jupyter notebook
# O si prefieres la versión más moderna
jupyter lab-
✅ ETL Completo: extracción de JSON, transformación (flatten, limpieza, buckets), carga a CSV.
-
📈 Análisis Descriptivo:
describe(), detección de valores nulos y outliers. -
📉 Visualizaciones:
- Distribución de Churn
- Histograma de Tenure
- Boxplot de Monthly Charges vs. Churn
- Matriz de correlación de variables numéricas
Este proyecto está bajo la Licencia MIT. ¡Disfruta y aprende! 🎉
