Considerando su conjunto de datos y la cuestión de investigación definidas en el taller anterior. Plantee la hipótesis nula y alternativa. La hipótesis nula (H0) debe representar la afirmación inicial que presupone la ausencia de un efecto o relación significativa en la población. Por otro lado, la hipótesis alternativa (H1) debe desafiar esta suposición al afirmar la existencia de un efecto o relación. Es crucial que ambas hipótesis sean verificables a través de métodos estadísticos.
H0 = No hay relación entre el sexo y educación de la persona en los ingresos
HA = Hay relación entre el sexo y educación de la persona en los ingresos
Seleccione una prueba estadística teniendo en cuenta los datos. La elección de la prueba estadística es crucial y debe basarse en la naturaleza de sus datos y las hipótesis formuladas. Por ejemplo, si está comparando medias de dos grupos, una prueba t podría ser apropiada. Si está analizando la asociación entre variables categóricas, una prueba chi-cuadrado podría ser la mejor opción. Justifique su elección explicando por qué la prueba seleccionada es la más adecuada para abordar su pregunta de investigación. Por ejemplo, si está utilizando una prueba t, explique que esta prueba es adecuada para comparar medias entre dos grupos independientes.
Justificación de la Prueba Chi-Cuadrado Naturaleza de las Variables:
Nuestro dataset incluye una variedad de variables categóricas, tales como nivel educativo y ocupación. La variable objetivo también está categorizada en dos grupos: aquellos con ingresos superiores a 50K y aquellos con ingresos inferiores a 50K. La prueba chi-cuadrado es especialmente adecuada para analizar la relación y la asociación entre variables categóricas. Objetivo del Análisis:
Queremos examinar si existe una asociación significativa entre las variables categóricas y la variable objetivo de ingresos. La prueba chi-cuadrado permite evaluar si las distribuciones observadas de estas categorías son independientes o están asociadas de alguna manera. Características de la Prueba Chi-Cuadrado:
La prueba chi-cuadrado es ideal para comparar la frecuencia observada con la frecuencia esperada en tablas de contingencia, lo cual es precisamente lo que necesitamos para evaluar la relación entre nuestras variables categóricas. Además Conclusión Dado que nuestro análisis se centra en variables categóricas y en determinar la relación entre estas variables y una variable objetivo categórica, la prueba chi-cuadrado es la herramienta más adecuada. Nos permitirá evaluar la independencia entre las categorías y proporcionar información valiosa sobre la influencia de diferentes características en la variable objetivo.
Utilice la biblioteca scipy.stats para llevar a cabo el contraste de hipótesis. Proporcione código que ejecute la prueba y justifique los parámetros utilizados. Por ejemplo, si está realizando una prueba t de dos muestras, incluya el código que cargue los datos, calcule la estadística de prueba y el p-valor, y explique la interpretación de estos resultados. Asegúrese de detallar cualquier configuración específica de la prueba, como la elección de prueba bilateral o unilateral.
Run to view results
Run to view results
Run to view results
Interpretación del Gráfico:
El gráfico nos sugiere que, en general, los hombres tienden a tener un nivel educativo más alto en comparación con las mujeres. Esta diferencia puede observarse a través de las categorías representadas, donde la proporción de hombres con mayor educación supera a la de las mujeres.
Run to view results
Interpretación del Gráfico:
Este gráfico también refleja una tendencia donde los hombres tienden a ganar más que las mujeres, lo que parece estar relacionado con su nivel educativo superior. A medida que los niveles de educación aumentan, se observa que los ingresos de los hombres son mayores en comparación con los de las mujeres, lo que sugiere que la educación podría estar influyendo en la disparidad salarial.
Después de realizar la prueba, interprete los resultados en el contexto de su investigación. Evalúe si puede rechazar la hipótesis nula o no, en función del nivel de significancia (alfa) que haya elegido (por ejemplo, alfa = 0.05). Reporte los valores obtenidos, como la estadística de prueba y el p-valor. Explique qué significan estos valores y cómo impactan en la evaluación de sus hipótesis. Por ejemplo, si el p-valor es menor que alfa, indique que tiene evidencia suficiente para rechazar la hipótesis nula
Dado que el valor p obtenido es 1.667778440920507e-54, y este es significativamente menor que 0.05, rechazamos la hipótesis nula. Esto nos permite afirmar que existe una relación estadísticamente significativa entre el nivel de educación, el sexo y el monto de los ingresos.
Redacte una conclusión basada en los resultados del contraste de hipótesis. Explique qué indican los hallazgos sobre los datos y cómo responden a la pregunta de investigación inicial. Por ejemplo, si rechaza la hipótesis nula, indique que hay evidencia estadística de que existe una relación significativa entre las variables en estudio. Asegúrese de ser claro y específico en su interpretación, y vincule los resultados de la prueba con el contexto de su investigación.
de acuerdo a los graficos anteriores donde se evidencia una mejor educacion en los hombres y que el ingreso es mayor para estos, podemos afirmar con certeza que entre mas nivel educativo haya mejora la cantidad de ingreso para ambos genero y como los hombres resultan tener mejor educacion estos tienden a ganar mucho mas que las mujeres
Divida los datos en un conjunto de entrenamiento y un conjunto de prueba utilizando la función train_test_split de scikit-learn. Asegúrese de que al menos el 70% de los datos se utilicen para entrenar el modelo, como es común en problemas de clasificación.
Run to view results
Utilice la clase LogisticRegression de scikit-learn para crear un modelo de regresión logística. Recuerde que la regresión logística es ideal para problemas de clasificación binaria
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Emplee la clase LinearRegression de scikit-learn para instanciar un modelo de regresión lineal multidimensional. Este modelo permitirá explorar y modelar las relaciones entre múltiples características de sus datos.
Run to view results
Utilice el método fit del modelo para llevar a cabo el ajuste a los datos de entrenamiento. Este paso es fundamental ya que el modelo aprenderá a representar la relación entre las características y la variable dependiente a partir de estos datos.
Run to view results
Run to view results
Run to view results
Utilice el atributo coef_ del modelo para obtener los coeficientes de regresión asociados a cada característica. Estos coeficientes representan la contribución de cada característica en la predicción de la variable dependiente. Es crucial analizar si los resultados obtenidos concuerdan con las expectativas previas. Si hay discrepancias, es posible que algunas características tengan un impacto inesperado o que se necesite un ajuste adicional del modelo.
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
En el análisis de la influencia de la educación sobre los ingresos, hemos observado que no solo el hecho de tener un título universitario impacta los ingresos, sino también el tipo específico de educación. En este caso, los datos muestran que un título de pregrado (o Bachiller) tiene un efecto más pronunciado en los ingresos comparado con un título de maestría.
Esto sugiere que, en el contexto de nuestro modelo, la obtención de un título de pregrado puede tener un impacto más significativo en los ingresos que un título de maestría. A pesar de esto, es importante destacar que la educación en general sigue siendo un factor crucial para la generación de ingresos. La presencia de un título, ya sea de pregrado o de maestría, contribuye significativamente a la capacidad de generar ingresos, aunque el tipo específico de título puede variar en su impacto.
En resumen, la educación continúa siendo un elemento clave para el aumento de los ingresos, pero el tipo de título educativo puede influir de manera diferente en los resultados financieros.
Obtenga los coeficientes de regresión para cada característica utilizando el atributo coef. ¿Cuál es la diferencia en cómo se utilizan estos coeficientes para realizar predicciones respecto o a los obtenidos mediante una regresión lineal?
Regresion Lineal:
Interpretación de Coeficientes: Un coeficiente positivo indica que un aumento en la característica correspondiente está asociado con un aumento en la variable objetivo, mientras que un coeficiente negativo indica una disminución. La magnitud del coeficiente refleja el tamaño del impacto.
Regresion Logistica:
Interpretación de Coeficientes: En la regresión logística, los coeficientes representan el cambio en el logaritmo de las probabilidades (log-odds) de la variable objetivo por cada unidad de cambio en las características. Un coeficiente positivo aumenta el log-odds, lo que incrementa la probabilidad del resultado positivo. Un coeficiente negativo disminuye el log-odds, reduciendo la probabilidad del resultado positivo.
Utilizando el conjunto de prueba, realiza predicciones utilizando el modelo ajustado con el método predict. Asegúrate de que las predicciones estén en el rango [0, 1] y establece un umbral adecuado para clasificarlas en las clases, justifique su elección.
Calcula la matriz de confusión del modelo en el conjunto de prueba. La matriz de confusión proporciona información detallada sobre los aciertos y los errores de clasificación.
Run to view results