Cuaderno 14 - Regresión logística
Datos
Para esto usaremos datos publicados por IBM de la compañía TELCO, en donde nos muestra clientes y sus características, lo importante es poder entender que es lo que hace que un cliente ya NO quiera el servicio, a esto se le llama CHURN. Publicados aquí: https://www.ibm.com/docs/en/cognos-analytics/11.1.0?topic=samples-telco-customer-churn. y los descargamos de aquí: https://www.kaggle.com/datasets/blastchar/telco-customer-churn Esto usando la metodología CRISP-DM: https://www.ibm.com/docs/es/spss-modeler/saas?topic=dm-crisp-help-overview
Importación
Run to view results
Run to view results
Manejo de datos
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Manejo de variables categóricas
Básicamente aquí pasamos los datos de tipo "texto" (character) a booleanos, ¿para qué? dado que el modelo no 'entiende' palabras, pero si entiende conteos de datos binarios, en este caso booleanos (true or false)
Run to view results
Análisis exploratorio de datos (EDA)
Run to view results
Muy bien, entonces hasta este punto solamente hemos hecho un par de cosas:
Puntos a considerar:
Escalabilidad de los datos
Ahora, tenemos varios tipo de datos y de diferentes naturalezas, es decir, aquí en un modelo
es importante cuidar las diferentes escalas, para poder compararlos, a continuación
Haremos un proceso llamado "escalabilidad", para de esta forma formatearlos y poder compararlos
Esto sucede en este caso en particular durante el análisis exploratorio de datos ¿por qué?
Dado que el proceso CRISP-DM que estamos usando es un proceso cíclico e iterativo
Run to view results
Run to view results
Este proceso es similar a por ejemplo:
Si la calificación de un estudiante es 8 y fue el más alto, eso se toma como 10
Y en base a eso se 'escalan' y estandarizan las demás calificaciones, para poder
entonces tener un marco común de comparación, este tipo de procesos se le conoce como
"data preprocessing" = cocinando los datos previamente para poder hacer algo con ellos
Run to view results
Run to view results
Y ahora pasamos a ver nuestros datos ya escalados
Run to view results
Run to view results
Entonces!
Ahora los datos están en un mismo marco común estandarizado
Ahora, pasamos de nuevo al análisis exploratorio de datos
Análisis exploratorio de datos
Torturando los datos hasta que confiesen
Esto, entendiendo los diferentes contrastes entre variables categ óricas
Run to view results
El género de las personas tiene algo que ver con el hecho de que dejen de ser clientes de la empresa?
Esta gráfica que nos dice? si o no ?
Run to view results
Ahora, haremos un BUCLE, con el cual en base a instrucciones básicas haremos todas estas gráficas
esto para no estar haciendo gráfica una por una
Run to view results
Run to view results
Run to view results
esto es importante para entender contrastes y saber que variables funcionan mejor para clasificar
Ahora, entendamos cómo se ve este contraste en 1 sola imagen
Entre más podamos sintetizar mejor
Run to view results
Que vemos aquí? las variables de churn y no churn están muy mezcladas, en pocas variables se ven separadas, lo cual dificulta hacer un modelo de clasificación
Entrenamiento de modelo
Ahora que ya tratamos y exploramos los datos, empezaremos a construir el modelo, este es un proceso iterativo también
Esta parte de construir el modelo lo veremos presencialmente para poder fusionar la parte matemática y la de sistemas
para al final entre todo el grupo pasar a las conclusiones y desplegar el modelo
Run to view results
Run to view results
Run to view results
Evaluación del modelo
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Matriz de confusión
Run to view results
Run to view results