Trabajo Práctico Integrador
Análisis exploratorio
Resumen estadístico del dataframe:
A continuación se muestra la dispersión de las notas obtenidas en los exámenes de matemática, física, química y álgebra mediante diagramas de caja y bigotes. En los gráficos se hace explícito el intervalo intercuartil o IQR para cada variable (representado como "caja"), así como los valores anómalos que pudieran presentarse (puntos por fuera de los "bigotes").
En los histogramas siguientes se muestran las distribuciones de frecuencias de las notas obtenidas en cada examen (variables cuantitativas). Si bien todas difieren en su aspecto, una característica en común es que todas exhiben una leve asimetría hacia la derecha, es decir hacia las notas altas. Esto es esperable si se tiene en cuenta que existe una intención de que sea así: el objetivo de los alumnos es obtener las mejores calificaciones posibles.
Lo datos de correlación siguientes, graficados en un mapa de calor, muestran la relación lineal entre las notas. En el gráfico, el verde oscuro indica los valores más altos mientras que el marrón representa los más bajos. Todos los valores se encuentran entre 0.8 y 1, de manera que existe una relación lineal entre las notas que puede tener mayor o menor intensidad. Se observa, por ejemplo, que entre las notas de química y física o álgebra y física hay una relación muy fuerte, a la vez que esta es algo más débil entre las notas de matemática y física o matemática y química.
Representamos las variables cualitativas o categóricas mediante gráficos de torta para explicitar la proporcionalidad entre los datos.
Respondiendo preguntas
Ejemplo: ¿Hay alguna relación entre el promedio de notas obtenidas y el hecho haber realizado el curso preparatorio?
Conclusión: Si bien la cantidad de alumnos que no realizó el curso preparatorio casi duplica a la de quienes lo han completado, esta diferencia no se ve reflejada significativamente en el promedio de notas. Se recomienda auditar los contenidos del curso, a fines de lograr una mejora en el rendimiento académico y aumentar el interés del alumnado.
Pregunta 1. ¿Hay diferencias en el rendimiento académico de los estudiantes que trabajan respecto de los que no lo hacen?
Consideramos la media del promedio de las notas como un indicador del rendimiento académico global de cada alumno. Este valor para estudiantes que trabajan difiere en menos de dos décimas respecto de los que no están empleados.
Las gráficas de ambas variables se asemejan, salvo por algunos detalles: para estudiantes que no trabajan está apenas más sesgada hacia la derecha y la media tiende a coincidir con la moda. En la gráfica del desempeño de estudiantes que trabajan se observa una disminución hacia la media que se revierte a medida que se avanza en el eje horizontal. Se requeriría un análisis más profundo para explicar a qué se debe esa característica y si es deseable o no.
Conclusión: Contrariamente a lo que se podría intuir, no se observa una disminución considerable en el rendimiento académico de los estudiantes que trabajan. Teniendo en cuenta esto, la institución podría incentivar la realización de pasantías o prácticas profesionales supervisadas.
Pregunta 2. ¿Tienen influencia sobre el rendimiento académico el género y el nivel educativo de los padres?
Aquí también consideramos la media de los promedios de las notas como un indicador del rendimiento académico general de cada alumno. Nos proponemos emplearlo para evaluar si el género y el nivel educativo de los padres influyen de alguna manera sobre el mismo.
Conclusiones: Los resultados expuestos en los gráficos son reveladores. En relación al género, las mujeres superan a los varones ampliamente en física y química, en algunos casos con diferencias mayores a 10 puntos. En álgebra las diferencias son bastante menores pero siguen siendo a favor de las mujeres. Sólo en matemática varones adelantan a mujeres, pero con diferencias menores a los 10 puntos.
En relación al nivel educativo de los padres, se observa una relación clara entre esta variable y el desempeño académico de los estudiantes: en general, un mejor nivel educativo de los padres se corresponde con notas más altas. La diferencia en las notas entre el menor y el mayor nivel educativo pueden alcanzar los 15 puntos. No obstante, es posible reconocer una excepción en la que esta tendencia se invierte y vale para los datos de las cuatro materias: los varones cuyos padres tienen el nivel educativo más alto (master's degree) presentan un rendimiento menor que aquellos del nivel inmediato inferior (bachelor's degree).
Recomendación: Si bien es difícil tomar medidas frente a diferencias sociales tan marcadas, se pueden proponer clases de apoyo o tutorías para que estudiantes cuyos padres no tienen un alto nivel educativo puedan mejorar su rendimiento. Con respecto al grupo de varones hijos de padres con maestría (master's degree), su situación requiere un análisis más profundo que pueda reconocer y remediar los motivos por los que no están alcanzando su potencial.
Pregunta 3. ¿Hay relación entre la alimentación y el rendimiento académico?
Asumimos que la categoría "Lunch" hace referencia al tipo de beca alimentaria que recibe cada estudiante. Así, "free/reduced" indica que el costo del almuerzo está subsidiado total o parcialmente, mientras que "standard" se refiere a la ausencia de subsidio. De las categorías provistas en el data set es, junto con el nivel educativo de los padres, una de las que más claramente refleja el sector socioeconómico del que proviene cada alumno.
Conclusión: Es evidente la relación entre el sector socioeconómico de procedencia con el desempeño académico. Vemos que la recepción de la beca alimentaria, indicio de pertenencia a un grupo social más vulnerable, se corresponde con un desempeño académico más bajo. Esta diferencia se puede cuantificar como un deterioro de alrededor de 10 puntos en el promedio de aquellos estudiantes que reciben la beca alimentaria. Se recomienda considerar programas de apoyo focalizados en estos estudiantes.