Librerías
Run to view results
Run to view results
Run to view results
ESTADISTICA DESCRIPTIVA
1. Realice un resumen de los datos, indicando para cada variable numérica su valor mínimo, máximo, promedio y desviación estándar y para cada variable categórica una tabla de frecuencias. (2 puntos)
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
2. Realice un histograma de frecuencias y un boxplot para la variable (wage). Interprete: ¿Qué puede decir de la distribución del salario?. ¿Qué puede decir sobre los valores atípicos? (3 puntos)
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
3. Repita el análisis solicitado en el punto 2 para la variable (exper). (3 puntos)
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
4. Haciendo un análisis gráfico ¿Qué tipos de industria presentan mayores salarios en promedio? No considere en su análisis las industrias no categorizadas. Compare con la realidad de Chile, ¿Qué podría concluir? (4 puntos)
Run to view results
Run to view results
Run to view results
ANALISIS DE CORRELACION
5. Realice una tabla de contingencia entre las variables (indus) y (position). Luego calcule el estadístico Chi cuadrado y el coeficiente V de Cramer y concluya sobre el grado de relación entre las variables. (2 puntos)
Run to view results
Run to view results
Run to view results
Run to view results
6. Realice una tabla de contingencia entre las variables (female) y (married). Luego calcule el estadístico Chi cuadrado y el coeficiente V de Cramer y concluya sobre el grado de relación entre las variables. (2 puntos)
Run to view results
Run to view results
Run to view results
7. Realice un diagrama de dispersión de la variable de interés (wage) en función de la variable (educ). Analice los hallazgos gráficamente, ¿Existe algún tipo de correlación entre ambas variables?, ¿Cree usted que los años de educación influyen en el ingreso? (2 puntos)
Run to view results
Run to view results
Run to view results
Run to view results
8. Repita los pasos y análisis solicitados en el punto anterior para la variable (exper). Compare ambos hallazgos y realice una hipótesis sobre cuál de las dos variables independientes (educ y exper) explica mejor el comportamiento de la variable dependiente (wage) (2 puntos)
Run to view results
Run to view results
Run to view results
Run to view results
9. Obtenga la matriz de correlación entre todas las variables numéricas del dataset (realice una gráfica de intensidad de colores eliminando las variables categóricas de los datos). Valide con esta información sus hipótesis de los puntos 7 y 8 en relación a la correlación entre las variables. (4 puntos)
Run to view results
Run to view results
ANALISIS DE REGRESION
10. Realice un análisis de regresión lineal simple entre la variable dependiente (wage) y la variable tenure (variable independiente). Entregue los resultados tabulados e interprételos. (2puntos)
Run to view results
Run to view results
Run to view results
11. Realice un diagrama de dispersión entre ambas variables que incluya la línea recta que mejor ajusta a los datos (puede guiarse por los ejemplos de clases). Gráficamente, ¿se observa una relación lineal? (2 puntos)
Run to view results
Run to view results
Run to view results
12. Realice un análisis de regresión múltiple entre la variable dependiente (wage) y todas las variables independientes del modelo simultáneamente. Entregue una tabla con los resultados de la regresión y analice la significancia estadística de los coeficientes de las variables independientes. (Para las variables categóricas utilice como nivel de referencia aquel con una mayor frecuencia en los datos.) (6puntos)
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
13. ¿Es el modelo anterior significativo estadísticamente? Justifique su respuesta analizando el estadístico F y explicando qué se mide esta prueba de hipótesis. (2puntos)
Run to view results
14. Analice la bondad de ajuste del modelo y concluya respecto de su capacidad predictiva. Compare R cuadrado y R cuadrado ajustado. ¿Qué diferencias existen entre ambos? Explique por qué se generan esas diferencias. (4puntos)
Run to view results
15. ¿Qué variables no son estadísticamente significativas?. Entregue su propia intuición de por qué estas variables podrían no explicar el comportamiento de la variable dependiente. (Indicación: Si hay variables categóricas donde una o más categorías resultan ser estadísticamente significativas en el modelo, entonces la variable completa es significativa.) (4puntos)
16. Elimine las variables que usted mencionó en el punto anterior y realice nuevamente un modelo de regresión lineal múltiple. ¿Qué ocurrió? ¿Mejoró el modelo? Explique. (Indicación: Sólo debe eliminar una variable categórica si todas sus categorías resultan ser estadísticamente no significativas) (4puntos)
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
17. Considerando este nuevo modelo. Interprete cada uno de los coeficientes de las variables independientes del modelo (Betas). Incluya también una interpretación para el coeficiente del intercepto. (4puntos)
Run to view results
18. Considerando este nuevo modelo. ¿Cuál cree usted que es la variable que más influye en el salario? Justifique. (Indicación: Para comparar coeficientes de variables que no tienen las mismas unidades de medidas, usted debe estandarizar las variables antes de realizar el análisis de regresión. La variable dependiente también debe ser estandarizada. Las variables categóricas no requieren ser estandarizadas.) (4puntos)
Run to view results
Run to view results
Run to view results
19. Calcule la matriz X’X considerando todas las variables independientes del modelo (sin eliminar ninguna), calcule el rango de esta matriz en Python y explique por qué es importante el valor de esta variable para la resolución del problema utilizando MCO. (Indicación: Las variables categóricas deben estar en formato dummy, es decir, valores 1 o 0. Si la variable categórica tiene más de 2 factores, cada factor debe ser descrito como dummy excepto el nivel base. Por ejemplo, la variable indus se debe transformar en 5 variables binarias, sin incluir “otros” y sin incluir el nivel base, por ejemplo: Construct: 1 si trabaja en construcción, 0 lo contrario) (4puntos).
Run to view results
Run to view results
Run to view results
20. Compare en términos de R2 ajustado, F-fisher, MSE, RMSE los modelos del punto 12 y el punto 16 y concluya sobre las mejoras en el ajuste y capacidad predictiva. (4puntos).
Run to view results
Run to view results
Run to view results
Run to view results