Credit Card Dataset for Clustering

El presente dataset tiene como objetivo desarrollar una segmentación del consumidor para definir una estrategia de marketing. Cuenta con el comportamiento de 9,000 clientes de tarjeta de crédito de los últimos 6 meses. Adicionalmente, tiene 18 características (features) que definen tal comportamiento.

Fuente y diccionario de datos: https://www.kaggle.com/datasets/arjunbhasin2013/ccdata

Autor: Urdanegui Bisalaya, Sebastian Marat | Data Scientist | Data Analyst 📊

Librerías a importar

import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns

Cargar la información del dataset

data = pd.read_csv("data.csv") data.head()

print(f'El dataset cuenta con {data.shape[0]} filas y {data.shape[1]} columnas.')

data.columns

Análisis Descriptivo de los Datos

data.describe()

Limpieza de los datos

data.info()

Análisis de valores nulos en el dataframe

ratio_null_data = ((data.isnull().sum()/len(data))*100).sort_values(ascending = False) ratio_null_data

Solución a los valores nulos del dataframe

Análisis de distribución de los features que presentan valores nulos

fig, axs = plt.subplots(1, 2, figsize = (15,8)) plt.suptitle("Análisis de distribición de los features que presentan valores nulos para \nidentificar posibles outliers y definir la estrategia para tratarlos", size = 14) sns.boxplot(data = data, y = data["MINIMUM_PAYMENTS"], ax = axs[0]) sns.boxplot(data = data, y = data["CREDIT_LIMIT"], ax = axs[1], color = "r") for i in list(range(0,2)): for j in ['bottom', 'left']: axs[i].spines[j].set_color('black') axs[i].spines[j].set_linewidth(1.5) right_side = axs[i].spines["right"] right_side.set_visible(False) top_side = axs[i].spines["top"] top_side.set_visible(False) axs[i].set_axisbelow(True) axs[i].grid(color='gray', linewidth=1, axis='y', alpha=0.4) plt.show()

data.loc[(data["MINIMUM_PAYMENTS"].isnull()==True), "MINIMUM_PAYMENTS"]=data["MINIMUM_PAYMENTS"].median() data.loc[(data["CREDIT_LIMIT"].isnull()==True), "CREDIT_LIMIT"]=data["CREDIT_LIMIT"].median()

ratio_null_data = ((data.isnull().sum()/len(data))*100).sort_values(ascending = False) ratio_null_data

Análisis de valores duplicados

data[data.duplicated()]

He comprobado que no existen valores duplicados en el dataset. Continuamos con el procedimiento.

Análisis Exploratorio de Datos (EDA)

fig, axs = plt.subplots(4, 2, figsize = (14,10), dpi = 80) axs[0,0].hist(x=data["BALANCE"], color = "green", alpha = 0.8) axs[0,0].set_title("Fig 1. Histogram - Balance") axs[0,1].violinplot(data["BALANCE_FREQUENCY"]) axs[0,1].set_title("Fig 2. Violinplot - Balance frequency") axs[1,0].violinplot(data["PURCHASES"]) axs[1,0].set_title("Fig 3. Violinplot - Purchases") axs[1,1].hist(x=data["CREDIT_LIMIT"], color = "salmon") axs[1,1].set_title("Fig 4. Histogram - Credit limit") axs[2,0].hist(x=data["ONEOFF_PURCHASES"], color = "brown", alpha = 0.8) axs[2,0].set_title("Fig 5. Histogram - Oneoff purchases") axs[2,1].violinplot(data["INSTALLMENTS_PURCHASES"]) axs[2,1].set_title("Fig 6. Violinplot - Installment purchases") axs[3,0].hist(x=data["PAYMENTS"], color = "pink") axs[3,0].set_title("Fig 7. Histogram - Payments") axs[3,1].hist(x=data["MINIMUM_PAYMENTS"], color = "black", alpha = 0.7) axs[3,1].set_title("Fig 8. Histogram - Minimum payments") fig.subplots_adjust(hspace=0.3) plt.show()

Interpretación de la Figura 1:

Sabemos que la variable "Balance" hace referencia al monto de saldo que queda en la cuenta de crédito para realizar compras. Observamos que la distribución de la variable presenta un sesgo hacia la izquierda de los datos indicando que gran parte de los saldos en las cuentas se encuentran en un rango de 0 y 7,500 unidades monetarias.

Interpretación de la Figura 2:

El violinplot es similar a un diagrama de cajas con el implemento de una densidad de kernel a cada lado. En este caso, tenemos que la variable "Balance frequency" es la frecuencia con la que se actualiza el saldo en las tarjetas de crédito. Cabe resaltar que esta puntuación se encuentra en el rango de 0 a 1, tomando como valor 0 si la frecuencia de actualización es poca o valor 1 si la frecuencia de actualización es alta. La información con respecto a la frecuencia con que se actualizan los saldos en las tarjetas de crédito se encuentran alrededor de 1, es decir, gran parte de los consumidores presentan una alta frecuencia de actualización.

Interpretación de la Figura 3:

La variable "Purchases" indica el monto de las compras realizadas. En este caso, mediante el violinplot se puede interpretar que el 75% de las compras realizadas se encuentran alrededor de las 1,000 unidades monetarias, según el resumen estadístico. Además, en función de la estadística descriptiva de la variable en cuestión se puede afirmar que existen valor atípicos que distan en gran medida de la media. Por ejemplo, se tiene un valor máximo de 50,000 unidades monetarias y el promedio de los datos es de 592 unidades monetarias, aproximadamente.

Interpretación de la Figura 4:

La variable "Credit limit" es el límite de crédito por usuario. En este caso, aproximadamente el 65% de los datos del feature en cuestión se encuentran en un rango de 0 y 5,000 unidades monetarias.

Interpretación de la Figura 5:

"Oneoff purchases" es la variable que indica el importe máximo de las compras realizadas de forma directa. En términos estadísticos, el 95% de los datos del feature en cuestión se encuentran en el rango de 0 y 5,000 unidades monetarias. Es decir, gran parte de los consumidores tienen un importe máximo de 5,000 unidades monetarias que realizan de forma directa al momento de comprar con sus tarjetas de crédito.

Interpretación de la Figura 6:

"Installment purchases" es el feature que hace referencia al importe de compra realizada a plazos con la tarjeta de crédito. Según el violinplot, el 75% de la información del feature en cuestión se encuentra alrededor de las 470 unidades monetarias, pero como es el caso, existen valores atípicos por encima de la media. Por ejemplo, el valor máximo del feature "Installment purchases" es de 22,500 unidades monetarias.

Interpretación de la Figura 7:

La variable "Payments" es la cantidad que paga el usuario por las compras que realiza. Aproximadamente, el 95% de los clientes realizan un pago máximo de 10,000 unidades monetarias.

Interpretación de la Figura 8:

La variable "Minimum Payments" es la cantidad mínima que paga el usuario por las compras que realiza. Aproximadamente, el 95% de los clientes cuenta con un rango de pago mínimo entre 0 y 10,000 unidades monetarias.

Análisis de outliers en los features del dataset

fig, axs = plt.subplots(6, 3, figsize = (15,18)) sns.boxplot(data = data, y = data["BALANCE"], ax = axs[0,0], color = "b") sns.boxplot(data = data, y = data["BALANCE_FREQUENCY"], ax = axs[0,1], color = "r") sns.boxplot(data = data, y = data["PURCHASES"], ax = axs[0,2], color = "black") sns.boxplot(data = data, y = data["ONEOFF_PURCHASES"], ax = axs[1,0], color = "green") sns.boxplot(data = data, y = data["INSTALLMENTS_PURCHASES"], ax = axs[1,1], color = "brown") sns.boxplot(data = data, y = data["CASH_ADVANCE"], ax = axs[1,2], color = "orange") sns.boxplot(data = data, y = data["PURCHASES_FREQUENCY"], ax = axs[2,0], color = "gray") sns.boxplot(data = data, y = data["ONEOFF_PURCHASES_FREQUENCY"], ax = axs[2,1], color = "blue") sns.boxplot(data = data, y = data["PURCHASES_INSTALLMENTS_FREQUENCY"], ax = axs[2,2], color = "tan") sns.boxplot(data = data, y = data["CASH_ADVANCE_FREQUENCY"], ax = axs[3,0], color = "y") sns.boxplot(data = data, y = data["CASH_ADVANCE_TRX"], ax = axs[3,1], color = "pink") sns.boxplot(data = data, y = data["PURCHASES_TRX"], ax = axs[3,2], color = "navy") sns.boxplot(data = data, y = data["CREDIT_LIMIT"], ax = axs[4,0], color = "plum") sns.boxplot(data = data, y = data["PAYMENTS"], ax = axs[4,1], color = "gold") sns.boxplot(data = data, y = data["MINIMUM_PAYMENTS"], ax = axs[4,2], color = "darkorange") sns.boxplot(data = data, y = data["PRC_FULL_PAYMENT"], ax = axs[5,0], color = "darksalmon") sns.boxplot(data = data, y = data["TENURE"], ax = axs[5,1], color = "palegreen") sns.boxplot(data = data, y = data["PRC_FULL_PAYMENT"], ax = axs[5,2]) fig.subplots_adjust(wspace = 0.35) plt.show()

Luego de analizar la presencia de outliers en el dataset, concluyo que cada uno de los features numéricas presentan outliers, es decir, valores atípicos teniendo en cuenta su distribución. Existen algunos caminos para solucionar estos problemas: eliminar los datos atípicos en el caso de que la información incluida haya sido un error, no obstante, puede darse el caso que no sean valores erróneos, en este caso, si tomó la decisión de eliminarlo perderé información vital para el análisis. Por lo tanto, tomé la decisión de continuar el análisis tomando como supuesto que los valores atípicos son relevantes para el estudio. Cabe resaltar que las únicas variables que no presentan valores atípicos son PURCHASES_FREQUENCY y PURCHASES_INSTALLMENTS_FREQUENCY.

Análisis de correlaciones entre los features numéricos

data_features_int = data.drop("CUST_ID", axis = 1) data_features_int

fig = plt.figure(figsize = (12,8)) sns.heatmap(data_features_int.corr(), annot = True, cmap=sns.cubehelix_palette(as_cmap=True)) plt.plot() plt.show()

Tras analizar la matriz de correlación entre los features numéricos, tengo tres casos entre los cuales las variables se encuentran altamente correlacionadas. El primer caso: existe una alta correlación de 0.92 entre ONEOFF_PURCHASES y PURCHASES. El segundo caso: una correlación de 0.86 entre PURCHASES_INSTALLMENTS_FREQUENCY y PURCHASES_FREQUENCY. El tercer caso: una correlación de 0.80 entre CASH_ADVANCE_TRX y CASH_ADVANCE_FREQUENCY.

Teniendo en cuenta la lógica de negocio y la interpretación de cada uno de los features del dataset, tenemos que ONEOFF_PURCHASES es el importe máximo de compras realizadas de forma directa, PURCHASES es el importe de compras realizadas, PURCHASES_INSTALLMENTS_FREQUENCY (1 = Frecuente y 0 = No frecuente) es la frecuencia de compras que se realizan a plazo, PURCHASES_FREQUENCY es la frecuencia que se realizan las compras (1 = Compra frecuente y 0 = Compra no frecuente), CASH_ADVANCE_TRX es el número de transacciones realizadas con "Anticipo de efectivo entregado por el cliente" y CASH_ADVANCE_FREQUENCY es la frecuencia con que se paga el anticipo.

En primer lugar, la alta correlación entre el importe máximo de compras realizadas de forma directa y el importe de compras realizadas es una relación esperada por la lógica de negocio. Por lo tanto, no debería eliminarse ambas variables por una correlación alta, ya que, puede afectar al modelo de aprendizaje no supervisado.

En segundo lugar, la relación entre la frecuencia de compras realizadas a plazo y la frecuencia que se realizan las compras se encuentran altamente correlacionados por la lógica de negocio porque al incrementar la frecuencia de compra por parte del consumidor puede impactar en el incremento de la frecuencia de uso de tarjetas de crédito con pagos a plazo. Por ello, no eliminaré ambas variables de mi análisis.

En tercer lugar, la correlación existente entre el número de transacciones realizadas mediante el anticipo de efectivo entregado por el cliente y la frecuencia con que se paga el anticipo es congruente con la lógica de negocio de las tarjetas de crédito.

Escalamiento de los datos

from sklearn.preprocessing import StandardScaler scaler = StandardScaler() data_scaled = scaler.fit_transform(data.drop("CUST_ID", axis = 1)) data_scaled

data

data_scaled = pd.DataFrame(data_scaled, columns = data.drop("CUST_ID", axis = 1).columns) data_scaled

PCA (Principal Components Analysis) para clustering

from sklearn.decomposition import PCA pca = PCA() pca.fit_transform(data_scaled) data_scaled_pca = pca.transform(data_scaled) data_scaled_pca

var = pca.explained_variance_ratio_ print(var)

cum_var = np.cumsum(np.round(var, decimals=4)*100) fig, ax = plt.subplots(figsize=(8,6), dpi = 80) plt.title("Cumulative Variation Graph") plt.plot(cum_var, "b-*") plt.axvline(x=8, color = "r") for i in ['bottom', 'left']: ax.spines[i].set_color('black') ax.spines[i].set_linewidth(1.5) right_side = ax.spines["right"] right_side.set_visible(False) top_side = ax.spines["top"] top_side.set_visible(False) ax.set_axisbelow(True) ax.grid(color='gray', linewidth=1, axis='y', alpha=0.4) plt.show()

data_scaled_pca_st = pd.DataFrame(data_scaled_pca) data_scaled_pca_st.drop([9,10,11,12,13,14,15,16], axis = 1, inplace = True) data_scaled_pca_st

Librerías que se utilizarán para clustering

from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN from sklearn.metrics import silhouette_score from scipy.cluster.hierarchy import dendrogram, linkage

Primer modelo: K-means

Encontrar la cantidad de k grupos

from sklearn.metrics.cluster import silhouette_samples sum_of_squared_distances = [] silhouette_scores = [] K = range(2,15) for k in K: km = KMeans(n_clusters = k) y_predict = km.fit_predict(data_scaled_pca_st) sum_of_squared_distances.append(km.inertia_) silhouette_scores.append(silhouette_score(data_scaled_pca_st, y_predict))

fig, ax = plt.subplots(figsize = (8,8), dpi = 70) plt.plot(K, sum_of_squared_distances, "r-*") plt.xlabel("K") plt.ylabel("Inertia") plt.title("Elbow Method") plt.axvline(x = 4, color = "blue") for i in ['bottom', 'left']: ax.spines[i].set_color('black') ax.spines[i].set_linewidth(1.5) right_side = ax.spines["right"] right_side.set_visible(False) top_side = ax.spines["top"] top_side.set_visible(False) ax.set_axisbelow(True) ax.grid(color='gray', linewidth=1, axis='y', alpha=0.4) plt.show()

fig, ax = plt.subplots(figsize = (8,8), dpi = 70) plt.plot(K, silhouette_scores, "b-*") plt.xlabel("K") plt.ylabel("Silhouette scores") plt.title("Silhouette Scores") plt.axvline(x = 3, color = "r") for i in ['bottom', 'left']: ax.spines[i].set_color('black') ax.spines[i].set_linewidth(1.5) right_side = ax.spines["right"] right_side.set_visible(False) top_side = ax.spines["top"] top_side.set_visible(False) ax.set_axisbelow(True) ax.grid(color='gray', linewidth=1, axis='y', alpha=0.4) plt.show()

km = KMeans(n_clusters=3) y_predict = km.fit_predict(data_scaled_pca_st) print(f'Silhouette Score to KMeans with PCA : {round(silhouette_score(data_scaled_pca_st, y_predict),4)}') data["K_Means_PCA"] = y_predict

Segundo modelo: Agglomerative Hierarchical Clustering

fig, ax = plt.subplots(figsize = (10,10)) dendrogram(linkage(data_scaled_pca_st, method = "ward")) plt.title("Dendogram Credit Card") plt.xlabel("Clusters") plt.ylabel("Euclidean distances") for i in ['bottom', 'left']: ax.spines[i].set_color('black') ax.spines[i].set_linewidth(1.5) right_side = ax.spines["right"] right_side.set_visible(False) top_side = ax.spines["top"] top_side.set_visible(False) ax.set_axisbelow(True) ax.grid(color='gray', linewidth=1, axis='y', alpha=0.4) plt.show()

hc = AgglomerativeClustering(n_clusters = 2, affinity = "euclidean", linkage = "ward") y_hc = hc.fit_predict(data_scaled_pca_st) print(silhouette_score(data_scaled_pca_st, y_hc)) data["HC_PCA"] = y_hc

Tercer modelo: Density-Based Spatial Clustering of Applications with Noise (DBSCAN)

from sklearn.neighbors import NearestNeighbors neighbors = NearestNeighbors(n_neighbors = 3) neighbors_fit = neighbors.fit(data_scaled_pca_st) distances, indices = neighbors_fit.kneighbors(data_scaled_pca_st)

distances = np.sort(distances, axis = 0) distances = distances[:,1]

fig, ax = plt.subplots(figsize = (6,6)) plt.plot(distances, "r-*") plt.axhline(y = 2, color = "blue") plt.title("Knee Method") for i in ['bottom', 'left']: ax.spines[i].set_color('black') ax.spines[i].set_linewidth(1.5) right_side = ax.spines["right"] right_side.set_visible(False) top_side = ax.spines["top"] top_side.set_visible(False) ax.set_axisbelow(True) ax.grid(color='gray', linewidth=1, axis='y', alpha=0.4) plt.show()

eps_values = np.arange(0.5,3,0.20) min_samples = np.arange(4,12)

from itertools import product dbscan_paramns = list(product(eps_values, min_samples)) # List de ombinatoria cruzada n_of_clusters = [] sil_score = [] for p in dbscan_paramns: y_dbscan = DBSCAN(eps = p[0], min_samples = p[1]).fit_predict(data_scaled_pca_st) try: sil_score.append(silhouette_score(data_scaled_pca_st, y_dbscan)) except: sil_score.append(0) n_of_clusters.append(len(np.unique(y_dbscan)))

data_paramns_tunning = pd.DataFrame.from_records(dbscan_paramns, columns = ["Eps", "Min_samples"]) data_paramns_tunning["sil_score"] = sil_score data_paramns_tunning["n_clusters"] = n_of_clusters

pivot_1 = pd.pivot_table(data_paramns_tunning, values = "sil_score", columns = "Eps", index = "Min_samples") pivot_2 = pd.pivot_table(data_paramns_tunning, values = "n_clusters", columns = "Eps", index = "Min_samples")

fig, ax = plt.subplots(figsize = (18,6)) sns.heatmap(pivot_1, annot = True, annot_kws = {"size":10}, cmap = "coolwarm", ax = ax) plt.show()

fig, ax = plt.subplots(figsize = (18,6)) sns.heatmap(pivot_2, annot = True, annot_kws = {"size":10}, cmap = "coolwarm", ax = ax) plt.show()

dbscan_train = DBSCAN(eps = 2.099, min_samples = 4) y_dbscan = dbscan_train.fit_predict(data_scaled_pca_st) print(silhouette_score(data_scaled_pca_st, y_dbscan)) data["DBSCAN_PCA"] = y_dbscan

Evaluación de los modelos implementados

data.columns

data[['BALANCE', 'BALANCE_FREQUENCY', 'PURCHASES', 'ONEOFF_PURCHASES', 'INSTALLMENTS_PURCHASES', 'CASH_ADVANCE', 'PURCHASES_FREQUENCY', 'ONEOFF_PURCHASES_FREQUENCY', 'PURCHASES_INSTALLMENTS_FREQUENCY', 'CASH_ADVANCE_FREQUENCY', 'CASH_ADVANCE_TRX', 'PURCHASES_TRX', 'CREDIT_LIMIT', 'PAYMENTS', 'MINIMUM_PAYMENTS', 'PRC_FULL_PAYMENT', 'TENURE', 'K_Means_PCA', 'HC_PCA', 'DBSCAN_PCA']]

fig, ax = plt.subplots(figsize = (6,4)) sns.scatterplot(data = data, x = data["BALANCE"], y = data["PURCHASES"], hue = "K_Means_PCA", palette = "coolwarm") plt.title("Clustering between BALANCE and PURCHASES\nthrough K-means") for i in ['bottom', 'left']: ax.spines[i].set_color('black') ax.spines[i].set_linewidth(1.5) right_side = ax.spines["right"] right_side.set_visible(False) top_side = ax.spines["top"] top_side.set_visible(False) ax.set_axisbelow(True) ax.grid(color='gray', linewidth=1, axis='y', alpha=0.4) plt.show()

fig, ax = plt.subplots(figsize = (6,4)) sns.scatterplot(data = data, x = data["BALANCE"], y = data["PURCHASES"], hue = "HC_PCA", palette = "coolwarm") plt.title("Clustering between BALANCE and PURCHASES\nthrough Agglomerative Hierarchical Clustering") for i in ['bottom', 'left']: ax.spines[i].set_color('black') ax.spines[i].set_linewidth(1.5) right_side = ax.spines["right"] right_side.set_visible(False) top_side = ax.spines["top"] top_side.set_visible(False) ax.set_axisbelow(True) ax.grid(color='gray', linewidth=1, axis='y', alpha=0.4) plt.show()

fig, ax = plt.subplots(figsize = (6,4)) sns.scatterplot(data = data, x = data["BALANCE"], y = data["PURCHASES"], hue = "DBSCAN_PCA", palette = "coolwarm") plt.title("Clustering between BALANCE and PURCHASES\nthrough DBSCAN") for i in ['bottom', 'left']: ax.spines[i].set_color('black') ax.spines[i].set_linewidth(1.5) right_side = ax.spines["right"] right_side.set_visible(False) top_side = ax.spines["top"] top_side.set_visible(False) ax.set_axisbelow(True) ax.grid(color='gray', linewidth=1, axis='y', alpha=0.4) plt.show()

Elección del mejor modelo de clustering para el presente dataset

print(f'El mejor modelo de clustering para el presente dataset es DBSCAN con un silhouette score de {round(silhouette_score(data_scaled_pca_st, y_dbscan),4)}.')

.css-15w88e5{color:var(--chakra-colors-fg-neutral-primary);font-weight:inherit;letter-spacing:-0.09px;}Credit Card Dataset for Clustering

Librerías a importar

Cargar la información del dataset

Análisis Descriptivo de los Datos

Limpieza de los datos

Análisis de valores nulos en el dataframe

Solución a los valores nulos del dataframe

Análisis de distribución de los features que presentan valores nulos

Análisis de valores duplicados

Análisis Exploratorio de Datos (EDA)

Análisis de outliers en los features del dataset

Análisis de correlaciones entre los features numéricos

Escalamiento de los datos

PCA (Principal Components Analysis) para clustering

Librerías que se utilizarán para clustering

Primer modelo: K-means

Encontrar la cantidad de k grupos

Segundo modelo: Agglomerative Hierarchical Clustering

Tercer modelo: Density-Based Spatial Clustering of Applications with Noise (DBSCAN)

Evaluación de los modelos implementados

Elección del mejor modelo de clustering para el presente dataset

Credit Card Dataset for Clustering