Trabajo Práctico Integrador
Autora: María Gabriela Cáceres.
Curso: BIG DATA
Docente: Emiliano Zapata.
Comisión: C22620
Fecha: Enero-2023
👌 Se procede a realizar el siguiente notebook con el proposito de dar cumplimiento al trabajo integrador número dos del curso BIG DATA del programa CODO A CODO.
Consigna:
A partir de un archivo csv, generar una publicación en Deepnote que deberá contener: -Análisis exploratorio (analítico y visual). -Formular y responder las preguntas.
Requisito de datos
1.Importe de librerias
Obtención de datos
2.Cargar los datos en DataFrame
Por medio de la opción agregar files se carga el archivo CSV con el método read, que servirá de insumos para la exploración de datos y teniendo un panorama general del DataFrame.
Procesado de datos
Primeras exploraciones
👀 Consulta de primeras -útimas filas y columnas.
Resumen Estadístico del DataFrame
De acuerdo a la exploración preliminal📊 , se usa el método describe(), devolviendo información estadística de los datos del dataframe.
Limpieza de datos
Procedemos a la limpieza de datos, ya sea por columnas no relevantes, datos duplicados o nulos. Se tomará una muestra de los datos que este condensados en el rango intercuartil, evadiendo los outliers.
Como observamos existen 18 filas duplidas de 1018. Aplicamos el método duplicated() y elaboramos un borrado de esos datos, quedando en nuestro DataFrame 1000 filas en una primera instancia. Luego calculamos y eliminamos datos nulos, usando el método dropna , resultando un DF de 993 filas. Estos procedimientos se hacen con la finalidad de tener una data con entredas que generen resultados fiables y correctos.
Acondicionamiento del Dataframe
Detección de Outliers
Seguimos haciendo limpieza de los datos ✂️ , detectando los outliers, es decir datos que escapan al rango intercuartil en donde se concentran la mayoría de los datos. En este caso, lo haremos para las variables cuantitativas: Math score, Physics score, Chemistry score y Algebra score.
Lo primero que hicimos fue detectar los outliers, observamos que los rangos intercuatiles son semejantes para las variables cuantitativas. De esta manera, eliminamos los datos que estan fuera del rango, quedando luego de la depuración 984 filas.
Análisis exploratorio de datos
Comenzamos a ver la correlación de variables cuantitativas, de acuerdo a las frecuencias que tienen las calificaciones.
Coeficiente de correlación de Pearson
La matriz y el mapa de calor, muestran que las variables Álgebra y Psicología guarda una correlación alta de 96.8% y Matemática y Química una media-alta de 79.8%. En general todas las variaibles estan extrechamente correlacionadas de manera positiva.
Frecuencia de variables categóricas
Se visualiza los porcentajes de variables categóricas, por medio de gráficos de tortas con el método plot.pie().
Cuando exploramos las variables categóricas, nos encontramos que el 51.8% de los registros son de género maculino. Las etnias más predominantes son de los grupos C y D. La variable empleo tiene una brecha muy corta de 2.2 puntos , con respecto a los que trabajan o no. En cuanto al test de preparación de los curso solamente el 33.7 % lo completaron.
Respondemos preguntas:
1) ¿Existe relación entre el promedio de notas obtenidas y el hecho de haber realizado el curso preparatorio?
Conclusión:
De acuerdo a la frecuencia obtenida de la variable "Test preparation course", en los histogramas interpuestos. El rojo 🔴, representa a los que completaron el curso y el azul 🔵 a los que no . En consecuencia, los que completaron el curso no muestran una relación determinante en el promediode los estudiantes. Po otro lado, la cantidad de estudiantes que no hicieron el curso, representam el 66.26 % de los datos, dando esto suficiente información para asegurar que el curso no generó incrementos en los promedios de los cursos.
2) ¿El nivel de instrucción de los padres ofrece beneficios en el rendimiento académicos de los hijxs?
Conclusión:
Se observa una tendencia de crecimiento 📈 en el Average Score, a medida que aumenta el nivel de instrucción de los padres, a pesar que el primer nivel "high school", pareciera indiferente a esta tendencia. En esta misma idea, la variable Average Score se acerca a un promedio medio-alto de 75 puntos en el nivel de instrucción mayor que es Master's Degree.
3) ¿La condición laboral incide el promedio académico de los estudiantxs?
Conclusión:
Las cajas de bigotes arrojadas son muy similares para la variable "Employed"👩🏭 . Es decir, que los estudiantes que trabajan o no tienen rangos intercuartiles equivalentes, ubicandose con una mediana cercana a los 65 puntos para los géneros reportados. De este modo, se observa que la modalidad de la cursada para estos estudios se ajusta a horarios y métodos flexibles para lograr Averages medios-altos.
En el caso de la distribución por géneros, los "female" tienen un ligero incremento en sus promedios con respecto a los "male". Indistintamente de si trabajan o no.
4) ¿El Lunch favorece el redimiento académico del estudiantx?
Conclusión:
A pesar que la densidad de datos mayor se encuentran en los estudiantes que consumen una merienda estándar🍽️ . Se observa en el diagrama de enjambre que los que disponen Luch o merienda estándar alcanzan mejores promedios en los cursos. En cambio, los que tienen una merienda reducida, la densidad de datos se acentúan en la zonas inferiores, es decir a los promedios bajos. Esto confirma, que si el estudiante tiene disponible una merienda, obtiene mejores resultados académicos.
5) ¿Cuáles son las etnias que tiene mayor promedio en los cursos?
Conclusión:
Acudimos al diagrama de línea para representar los promedios de calificaciones de los estudiantes por cada etnia. Permiendo evidenciar que las etnias con mejores promedios en los cursos estan compuestas por los grupos D y E. Con mean(promedios) por encima de 70 puntos. Por otro lado, el grupo C, maneja un promedio menor con respecto a todos los grupos.
6) ¿Cuál es descripción estadística del Average Score?
Conclusión:
De 984 datos, la variable Average Score está distribuida acercandose a la simetría Gaussiana. Sin embargo, para que esto se cumpla, la media, mediana y moda deben ser iguales. La concentración de datos se encuentra entre un promedio de 60 a 80 puntos. Con una media aritmética⚖️ de 68.03 puntos y una desviación estándar de 14.09 puntos con valores que van desde 31 a 100 puntos.
Preguntas que se pueden plantear con la información estadística
7) ¿Cúal es el promedio de los cursos más frecuente?
Con la aplicación del parámetro mode(), se calcula la moda, que consiste en conseguir el valor más frecuente. Para este caso lo usamos para detectar cual es el promedio de cursos más frecuentes, arrojandonos 79 puntos.
8) ¿Cuál es el desempeño de los estudiantxs en los cursos?
Justificación:
Para dar mejor presentación en las visualizaciones🔎 , se procede a categorizar la variables Average Score en calificaciones con apreciaciones: Deficiente, regular, bueno y muy bueno. Tomando en cuenta, la división del DF en bins que se encuentre entre el mínimo y máximo de los Averag Score.
Conclusión:
En los gráficos circulares se observa que los estudiantes tienen calificaciones en los cursos entre Bueno y Regular. Siendo esto positivo al marcar una predominancia en calificaciones buenas y solo el 10% son deficientes. Cabe destacar que el curso Psicología tiene mayor porcentaje de Muy Bueno con respecto a los otros cursos y el curso que tiene más porcentaje de deficiencia es Matemática con un 11%, seguido Química con 10.9%. De manera general, de 984 estudiantes, aproximadamente 108 de ellos tienen deficiencia en matemática y 107 en Química.
Seria de mucha relevancia💡 saber si los estudiantes que tienen deficiencia en la Matemática son los mismos que las tienen en Química. En virtud de los datos anteriores obtenidos, el nivel de correlación en la Matriz Pearson, las variables Matematica y Química eran media-altas con un 79.9 % de correlación. Por consiguiente, es muy probable que el estudiante que tenga dificultades en la matemática tambien lo tenga en Química.
9)¿ Promedios más comúnes de los cursos?
Conclusión:
Como se muestra en la aplicación del parámetro mode(), las calificaciones frecuentes son por encima de los 63 puntos. En el análisis explorarorio general de la variable Average Score, se pudo aseverar que los promedios más frecuentes se encuentran en un rango de 60 a 80 puntos. Por consiguiente, podemos inferir tanto de manera categórica como numérica que los estudiantes tienen resultados acádemicos positivos.
10) ¿Cuál es Average Score del estudiantx, si tiene un Math Score de 60 puntos?
Justificación:
Usaremos una regresión lineal 🔗 simple para predecir el Average Score.
La regresión lineal, es una técnica de análisis de datos que predice valores de datos desconocidos sobre unos ya conocidos y relacionados. Como vimos anteriormente, la variable Math Score guarda una fuerte relación con las otras variables numéricas. Para este análisis, ejecutaremos una regresión lineal con variable objetivo dependiente "Average Score" e independiente predictota con Math Score. Precisa identificar cual en la calificación promedio de los cursos (Average Score) si la calificacion de Matemática es 60 puntos. Siendo datos númericos que de manera trivial se puede responder solo observando los resultados en las visualizaciones. Se pretende practicar los pasos para abordar una regresión lineal simple y plasmarlos posteriormente 🚀 en análisis más complejos. Cabe destacar que el DF, ya ha sido previamente normalizado, estandarizado y limpiado.
Se observa que las variables son aptas para la regresión lineal con buena correlación y concordancia.
Entrenamos el modelo
Con los datos obtenidos diseñamos la ecuación lineal, en donde el parámetro b1 es la pendiente (∼ 0.86) y el parámetro b0 el intercep (∼10.49). Ecuación lineal:
Predicciones:
Respuesta: Si Math Scores es 60 puntos, entonces Average Score es 62.24 puntos. Con esta codigo respondemos la pregunta inicial. Por el comportamiento del modelo al ser linealmente positivo, a medica que aumenta la varaible predictora x, aumenta tambien la variable objetivo y.
Insertamos al DF una columna pred (predicciones) con los valores y_pred
Visualizamos nuestro modelo
La línea roja🔴 es la regresión lineal y los puntos azules🔵 los datos de origen (puntos de entrenamientos).
Probamos la calidad de modelo
✔️El coeficiente de determinanción R^2, permite saber la calidad del modelo para replicar resultados y proporción de variación. Considerando, el modelo explica un 84% de los datos originales del total de promedio de calificaciones de los estudiantes.
Conclusiones Generales:
✨El trabajo práctico integrador se destina a relizar un análisis explorarorio, desde el análisis hasta la visualización de los datos para luego convertir la información en conocimiento y en este contexto particular abrir un abaníco de posibilidades en el modelado y entendimiento de las variables.
✨En la data recibida está contemplada información de estudiantes que tienen que ver con ciertas categorías descriptivas, como género, etnias, meriendas, nivel de instrucción de los padres, situación laboral y concretación de curso de preparación. Asi como también, variables numéricas de calificaciones de cursos (Matemática, Álgebra, Química y Psicologia).
Se procedió a reliazar los siguientes pasos:
✨Luego de haber culminado las etapas de exploración pudimos evidenciar que las variables guardan una extrecha relación. La condición laboral no influye directamente en los resultados académicos de los estudiantes ni el curso de preparación. Los promedios entre géneros son casi similes, sin embargo los "female" tienen ligeramente mejor promedio que los "males". En cuanto, los promedios categóricos la mayor concentración de datos estan vinculadas con apreciaciones: Buenos y regular. No odstante, los cursos Matemática y Química son los promedios más bajos. Por último, en la regresión lineal se pudo detectar una gran incidencia en las variables Math Score con respecto a Average Score, demostrando en nuestro modelo, predecir el puntaje de Average Score para una calificación de 60 puntos, logrando un coeficiente de calidad del modelo de regresión usado de 84%.
😋De esta manera, se recomienda:
✨Hacer un seguimiento del funcionamiento de los cursos de preparación. Que los mismos, se adecuén a fortalecer competencias que traen los estudiantes y las que van a desarrollar. Es oportuno hacer un diagnóstico para conocer en que nivel se encuentran para afrontar los cursos.
✨Focalizar los esfuerzos en los cursos con estudiantes con debilidades, como es el caso de Matmática y Química. Proponer cursos de nivelación de contenidos y espacios destinados a la resolución oportuna de dudas.
✨Se destaca que Lunch estándar genera buenos resultados en el rendimiento académico. Por tanto, debe ampliarse la cobertura a estudiantes que aun tienen Luch reducida.
🚀Como el lema de la ciencia de datos es que " una imágen habla más que mil palabras" con este trabajo cada una de las letras de esta frase tienen sentido. Con Python podemos ejecutar análisis exploratorios de una manera sencilla y con grandes cantidades de datos, que se llevan a cabo para transformarlos en conocimientos y conocimientos en ideas. 🙌