Credit Card Dataset for Clustering
El presente dataset tiene como objetivo desarrollar una segmentación del consumidor para definir una estrategia de marketing. Cuenta con el comportamiento de 9,000 clientes de tarjeta de crédito de los últimos 6 meses. Adicionalmente, tiene 18 características (features) que definen tal comportamiento.
Fuente y diccionario de datos: https://www.kaggle.com/datasets/arjunbhasin2013/ccdata
Autor: Urdanegui Bisalaya, Sebastian Marat | Data Scientist | Data Analyst 📊
Librerías a importar
Cargar la información del dataset
Análisis Descriptivo de los Datos
Limpieza de los datos
Análisis de valores nulos en el dataframe
Solución a los valores nulos del dataframe
Análisis de distribución de los features que presentan valores nulos
Análisis de valores duplicados
He comprobado que no existen valores duplicados en el dataset. Continuamos con el procedimiento.
Análisis Exploratorio de Datos (EDA)
Sabemos que la variable "Balance" hace referencia al monto de saldo que queda en la cuenta de crédito para realizar compras. Observamos que la distribución de la variable presenta un sesgo hacia la izquierda de los datos indicando que gran parte de los saldos en las cuentas se encuentran en un rango de 0 y 7,500 unidades monetarias.
El violinplot es similar a un diagrama de cajas con el implemento de una densidad de kernel a cada lado. En este caso, tenemos que la variable "Balance frequency" es la frecuencia con la que se actualiza el saldo en las tarjetas de crédito. Cabe resaltar que esta puntuación se encuentra en el rango de 0 a 1, tomando como valor 0 si la frecuencia de actualización es poca o valor 1 si la frecuencia de actualización es alta. La información con respecto a la frecuencia con que se actualizan los saldos en las tarjetas de crédito se encuentran alrededor de 1, es decir, gran parte de los consumidores presentan una alta frecuencia de actualización.
La variable "Purchases" indica el monto de las compras realizadas. En este caso, mediante el violinplot se puede interpretar que el 75% de las compras realizadas se encuentran alrededor de las 1,000 unidades monetarias, según el resumen estadístico. Además, en función de la estadística descriptiva de la variable en cuestión se puede afirmar que existen valor atípicos que distan en gran medida de la media. Por ejemplo, se tiene un valor máximo de 50,000 unidades monetarias y el promedio de los datos es de 592 unidades monetarias, aproximadamente.
La variable "Credit limit" es el límite de crédito por usuario. En este caso, aproximadamente el 65% de los datos del feature en cuestión se encuentran en un rango de 0 y 5,000 unidades monetarias.
"Oneoff purchases" es la variable que indica el importe máximo de las compras realizadas de forma directa. En términos estadísticos, el 95% de los datos del feature en cuestión se encuentran en el rango de 0 y 5,000 unidades monetarias. Es decir, gran parte de los consumidores tienen un importe máximo de 5,000 unidades monetarias que realizan de forma directa al momento de comprar con sus tarjetas de crédito.
"Installment purchases" es el feature que hace referencia al importe de compra realizada a plazos con la tarjeta de crédito. Según el violinplot, el 75% de la información del feature en cuestión se encuentra alrededor de las 470 unidades monetarias, pero como es el caso, existen valores atípicos por encima de la media. Por ejemplo, el valor máximo del feature "Installment purchases" es de 22,500 unidades monetarias.
La variable "Payments" es la cantidad que paga el usuario por las compras que realiza. Aproximadamente, el 95% de los clientes realizan un pago máximo de 10,000 unidades monetarias.
La variable "Minimum Payments" es la cantidad mínima que paga el usuario por las compras que realiza. Aproximadamente, el 95% de los clientes cuenta con un rango de pago mínimo entre 0 y 10,000 unidades monetarias.
Análisis de outliers en los features del dataset
Luego de analizar la presencia de outliers en el dataset, concluyo que cada uno de los features numéricas presentan outliers, es decir, valores atípicos teniendo en cuenta su distribución. Existen algunos caminos para solucionar estos problemas: eliminar los datos atípicos en el caso de que la información incluida haya sido un error, no obstante, puede darse el caso que no sean valores erróneos, en este caso, si tomó la decisión de eliminarlo perderé información vital para el análisis. Por lo tanto, tomé la decisión de continuar el análisis tomando como supuesto que los valores atípicos son relevantes para el estudio. Cabe resaltar que las únicas variables que no presentan valores atípicos son PURCHASES_FREQUENCY y PURCHASES_INSTALLMENTS_FREQUENCY.
Análisis de correlaciones entre los features numéricos
Tras analizar la matriz de correlación entre los features numéricos, tengo tres casos entre los cuales las variables se encuentran altamente correlacionadas. El primer caso: existe una alta correlación de 0.92 entre ONEOFF_PURCHASES y PURCHASES. El segundo caso: una correlación de 0.86 entre PURCHASES_INSTALLMENTS_FREQUENCY y PURCHASES_FREQUENCY. El tercer caso: una correlación de 0.80 entre CASH_ADVANCE_TRX y CASH_ADVANCE_FREQUENCY.
Teniendo en cuenta la lógica de negocio y la interpretación de cada uno de los features del dataset, tenemos que ONEOFF_PURCHASES es el importe máximo de compras realizadas de forma directa, PURCHASES es el importe de compras realizadas, PURCHASES_INSTALLMENTS_FREQUENCY (1 = Frecuente y 0 = No frecuente) es la frecuencia de compras que se realizan a plazo, PURCHASES_FREQUENCY es la frecuencia que se realizan las compras (1 = Compra frecuente y 0 = Compra no frecuente), CASH_ADVANCE_TRX es el número de transacciones realizadas con "Anticipo de efectivo entregado por el cliente" y CASH_ADVANCE_FREQUENCY es la frecuencia con que se paga el anticipo.
En primer lugar, la alta correlación entre el importe máximo de compras realizadas de forma directa y el importe de compras realizadas es una relación esperada por la lógica de negocio. Por lo tanto, no debería eliminarse ambas variables por una correlación alta, ya que, puede afectar al modelo de aprendizaje no supervisado.
En segundo lugar, la relación entre la frecuencia de compras realizadas a plazo y la frecuencia que se realizan las compras se encuentran altamente correlacionados por la lógica de negocio porque al incrementar la frecuencia de compra por parte del consumidor puede impactar en el incremento de la frecuencia de uso de tarjetas de crédito con pagos a plazo. Por ello, no eliminaré ambas variables de mi análisis.
En tercer lugar, la correlación existente entre el número de transacciones realizadas mediante el anticipo de efectivo entregado por el cliente y la frecuencia con que se paga el anticipo es congruente con la lógica de negocio de las tarjetas de crédito.