Objetivo: Ayudar a familias latinas en Estados Unidos a elegir una institución de educación superior que se adecúe a sus necesidades. Población objetivo: Población latina residentes en Estados Unidos interesados en ingresar a una institución de educación superior.
Como se puede observar en la tabla anterior, existen variables con el 100% de los datos nulos. En la gráfica siguiente, el eje y representa el porcentaje de valores NO nulos en una columna, donde 0 significa que el 100% de los datos son nulos y el 1 significa que esa columna no tiene datos faltantes.
Dado que entre las variables seleccionadas se presentan bastantes valores nulos, se procede a realizar una matriz de correlación de valores nulos para analizar dichas correlaciones y así poder tomar una decisión con respecto a estos valores.
A partir de la alta correlación de algunas variables con valores nulos y de la gran cantidad de variables que presentan muchos datos desconocidos, se decide seguir haciendo el análisis con aquellas variables que tienen menos del 50% de valores nulos, eliminando así 16 de las 33 variables planteadas inicialmente, quedando entonces con 17 variables para continuar, las cuales son:
Dentro de las instituciones analizadas el 48% son privadas y con ánimo de lucro, el 26% son de carácter público y el 25% restante son privadas sin ánimo de lucro.
La cantidad de universidades que no sólo aceptan hombres (puede aceptar sólo mujeres o ser mixtas), supera a las que sólo aceptan hombres en, aproximadamente, un 98%. De las 7804 instituciones registradas, solo 67 es de sólo hombres.
Esta variable puede tomar dos valores: 1, para aquellas instituciones que sólo admiten mujeres y 0 para aquellas que no es de sólo mujeres.
La cantidad de universidades que no sólo aceptan mujeres (puede aceptar sólo hombres o ser mixtas), supera a las que sólo aceptan mujeres en, aproximadamente, un 99%. De las 7804 instituciones registradas, solo 43 acepta sólo mujeres.
Esta variable representa la mediana de la deuda de préstamo acumulada en la institución por todos los estudiantes que se gradúan o se retiran.
En la gráfica se puede observar que las deudas acumuladas de los estudiantes varían, en general, entre $333 y $15462 dólares. Sin embargo se presentan algunos valores atípicos, los cuales se concentran especialmente en aproximadamente $23214 y $40000 dólares, alcanzando el máximo en $131335 dólares. La mediana de las deudas acumuladas por los estudiantes es de $9833 dólares, lo que quiere decir que el 50% de las deudas son inferiores a ese valor.
Con respecto a los estudiantes graduados, la mínima deuda acumulada es de $723.5 dólares, y la mayoría de los datos se concentran entre $9500 y $24546 dólares. El 50% de las deudas no superan $14144 dólares, sin embargo, hay algunos valores atípicos que están entre $47115 y $53831.
Al comparar los datos de estas variables, se puede observar que a medida que van pasando los años, los estudiantes que avanzan con sus pagos van aumentando de a poco, por ejemplo, en el año 3 en el 50% de las universidades, al menos del 57% de sus ex-estudiantes empezaron a pagar; en el año 5 ese porcentaje subió al 60%, y para el año 7 subió hasta el 70%. Es decir, para el año 7, en el 50% de las universidades, al menos el 70% de los estudiantes avanzan con el pago de sus deudas.
Entre los 3 y 5 años de haber dejado la universidad, no hay mucha variabilidad, lo que indica que en ese periodo, pocos estudiantes empiezan a pagar sus deudas. Entre 5 y 7 años se nota un cambio un poco más significativo.
La tasa de estudiantes que se gradúan dentro del 150% del tiempo esperado, se concentra entre 0.33 y 0.76 aproximadamente. En el 50% de las universidades reportadas, la tasa de graduación supera el 0.6, llegando a universidades en las que el 100% de estudiantes se gradúan dentro de este tiempo. En esta ocasión, no encontramos datos atípicos para ninguna de las dos variables y su distribución es muy similar.
En el mapa se puede observar la ubicación de las instituciones que participan en el estudio, la mayoría de ellas se encuentran en Estados Unidos, pero se pueden encontrar también algunas que están ubicadas en lugares cercanos, como Alaska. También se pueden observar unos valores atípicos, los cuales ubican universidades en el océano pacífico.
Solo el 1.79%, es decir, 132 de las 7383 instituciones que registran en esta variable, se identifican como instituciones al servicio de los hispanos.
Se realiza una gráfica de pares para mirar como están relacionadas las variables numéricas entre si. Nuevamente se nota una alta correlación entre las variables mencionadas anteriormente.
En general, los estudiantes de las universidades de tipo privada sin fines de lucro (2) adquieren una deuda significativamente mayor. Para las instituciones públicas (1), el 50% de los graduados acumularon una deuda de $12702 dólares o menos, mientras que para las instituciones privadas con ánimo de lucro (3) este valor es de $11541.75 dólares. La diferencia entre estos dos últimos tipos de universidad no es tan grande.
A partir del analisis univariado notamos los datos atípicos de las variables DEBT_MDN, GRAD_DEBT_MDN, NPT4_PRIV y RPY_7YR_RT. Se decide eliminar los datos atípicos que no estuvieran dentro del rango de percentil 1 y 99.
Las filas que presentan valores nulos, presenta información para el modelo. Para algunas variables no se encontraron datos, ya sea porque la universidad tiene el dato como restringido o no se ha terminado el año escolar, por lo tanto, por cada columna se crea una nueva variable que lleva un boolean (1.0 o 0.0), esto con el fin darle más información al modelo y que pueda encontrar patrones en los valores nulos.
Inicialmente, se requiere identificar qué hace el PCA, para lo cual se quiere que estos componentes sólo tengan 86% de la varianza.
En esta sección se realiza la inferencia del modelo para identificar características y tendencias en cada clúster.
This chart is empty
Chart was probably not set up properly in the notebook
Descripción clúster 0
En general el clúster tiene muchas localidades de los estados unidos. Viendo que excluye unas zonas centrales.
Todos las instituciones que pertenecen al grupo 0, aceptan tanto a hombres como a mujeres, y en su mayoría pertenecen al sector público.
Este clúster no tiene muchas universidades de ultramar, y la en la zona central de los estados unidos.
En el caso del clúster 1, se puede observar que si existen algunas instituciones (aunque muy pocas) que aceptan solo hombres o solo mujeres. También cabe resaltar que en este caso, la mayoría de universidades son de carácter privado sin ánimo de lucro (3), seguidas por las que son de carácter público y en menor cantidad las que pertenecen al sector privado con fines de lucro.
En el grupo 2, se agruparon en su mayoría a las instituciones que están ubicadas en la parte este de Estados Unidos.
En el clúster 3, están en mayor cantidad las instituciones que son de tipo privado con fines de lucro (3). También se presentan de los otros 2 tipos de universidades (público y privado sin ánimo de lucro), pero en menor cantidad.
Las universidades de este clúster también se ven agrupadas en la parte este de Estados Unidos, sin embargo, se presentan más observaciones, y en mayor cantidad que en el clúster anterior, en la parte oeste y la zona costeras.
En este último clúster también predominan las universidades privadas con fines de lucro (3), pero se pueden observar que poco más de 400 pertenecen al sector público y casi 600 al sector privado sin fines de lucro.