Figura 1. Visualización de los datos
Dataset: CollegeScorecard
Nota: La Figura 1 representa las primeras 5 filas del dataset
Figura 2
Dataset: collegeDictionary
Nota: La Figura 2 representa las primera 5 filas del diccionario de datos
Figura 3
Gráfico de Boxplot
Nota. La Figura 3 representa un gráfico de Boxplot aplicado al precio medio de instituciones públicas y privadas
Figura 4
Gráfico de Boxplot
Nota: La Figura 4 representa un gráfico de Boxplot aplicado al número de estudiante de pregrado
Se observa en el boxplot la presencia de valores negativos en el promedio neto de los costos de las instituciones, algo que no tiene sentido alguno pues se está hablando de costos a pagar y estos no puede ser de carácter negativo. Por ende se realiza la eliminación de dichos datos
Se procede a analizar la correlación entre todas las variables seleccionadas anteriormente para determinar cuáles de estas variables presentan una correlación positiva fuerte, moderada, débil o negativa fuerte, moderada, débil. Cabe destacar que la correlación con un valor de 1 se presentará únicamente en variables que se correlacionan con ellas mismas.
La Figura 5 presenta la matriz de correlación entre variables.
Figura 5
Matriz de correlación
Nota: La Figura 5 representa la matriz de correlación que indica las distintas correlaciones por pares entre las variables de interés
Analizando el tipo de correlación que presentan las variables seleccionadas con anterioridad, destacando las que sean más importantes o significativas, se aprecia que CONTROL presenta una correlación positiva débil con las variables PCTPELL y PCTFLOAN, con las demás variables presenta una correlación negativa débil con UGDS; además se observa que una de las variables que presenta una correlación positiva moderada es SAT_AVG_ALL con C150_4.
Se procede a realizar la normalización de los datos, con el fin de que el peso de una variable no afecte en gran medida al clustering que se está desarrollando. La Figura 6 representa los datos luego de la normalización.
Figura 6
Tabla de datos normalizados
Nota: La Figura 6 representa la normalización de los datos relacionados con las variables de interés
A continuación se procederá a realizar un clustering con el objetivo de el agrupar las variables en grupos con características similares. Para ello primero se procede a realizar la curva de codo, con el fin de poder determinar el número optimo de clústers apropiados para tomar.
Según la Figura 7, el numero óptimo de clústers es 5, dado que en este punto la curva no presenta un cambio significativo en su pendiente.
Figura 7
Curva de codo
Nota: La Figura 7 representa el gráfico de curva de codo que permite escoger un número k de clusters para el modelo de agrupamiento
El dendrograma realizado en la Figura 8 es un tipo de representación gráfica en forma de árbol que organiza los datos permitiendo verlos en subcategorías hasta llegar a un nivel de detalle deseado.
Figura 8
Dendrograma
Nota: La Figura 8 representa la organización de los datos mediante un dendrograma
Como se comentó con anterioridad y corroborando con el dendrograma, el número optimo de clústers es de 5.
Se decide hacer uso del modelo kmeans con un número de 5 clúster, para luego realizar un procedimiento con el fin de determinar si el número de clústers es el indicado.
Se organiza la tabla (Figura 9) para luego poder asignar los niveles de los clústers y así poder tener una mejor visualización.
Figura 9
Datos etiquetados
Nota: La Figura 9 representa una tabla de los datos procesados con su respectiva etiqueta obtenida por el agrupamiento
Se obtuvieron 5 grupos que se pueden caracterizar de la siguiente manera:
Cabe recalcar que el análisis de los grupos se hizo teniendo en cuenta la Figura 10, el gráfico de barras permite analizar la relación entre los grupos y las variables del modelo.
Figura 10
Gráfico de barras
Nota: La Figura 10 representa un gráfico de barras de los datos relacionando los parámetros Labels y Average según una variable en específico de cada grupo
Conclusiones y resultados
Colombia se define a sí mismo como un país en desarrollo, lo que implica que sigue teniendo problemáticas preocupantes en lo que concierne a pobreza, educación, salud, industria, agricultura, etc. El desarrollo de este proyecto se centró en educación, en vista de que uno de los pilares más relevantes para el ejercicio de la ciudadanía es la educación. La educación colombiana es demasiado desigual, siendo crítica en la educación publica y en zonas rurales, llegando inclusive a poseer una de las tasas más altas de repetición escolar. El reporte del banco mundial es muy claro con ello, afirmando que: "Colombia tiene la segunda tasa de repetición más grande entre todos los países que participan en el examen del Programa de Evaluación Internacional de Estudiantes (PISA): el 41 % de los estudiantes de 15 años ha repetido, al menos un grado." (World Bank Group, 2021, p.22)
El objetivo del proyecto será analizar los diferentes grupos de estudiantes según la calidad educativa que reciben, siguiendo siempre la meta de proponer diferentes soluciones según el contexto en donde se ubica cada grupo. Uno de los pilares del proyecto es conocer el por qué del comportamiento de cada grupo, es decir, ¿Qué factores pueden afectar la calidad de educativa de un estudiante?