Analisis de salarios SysArmy primer trimestre 2023
Conociendo el dataset: El objetivo en primera instancia es conocer con el dataset que nos encontramos para luego poder hacer un análisis
Vamos a hacer un análisis de datos a partir de la encuesta de salarios de Sysarmy del segundo trimestre de 2023.
Importamos las librerías que vamos a utilizar
Carga del dataset
Impresión de las ultimas 5 filas del dataset
El objetivo es conocer como esta estructurado nuestro dataset y que datos contiene
Resumen Estadístico del dataset
Verificación de Duplicados:
Revisamos el conjunto de datos para identificar cualquier fila que pueda estar duplicada. Detectar y manejar duplicados es crucial, ya que puede afectar la precisión de nuestros análisis.
Eliminación de Datos Duplicados:
Después de la revisión, confirmamos que no hay datos duplicados en el conjunto de datos. La ausencia de duplicados es una buena señal para la calidad de los datos, ya que evita posibles sesgos y asegura la integridad del análisis.
Imprimimos las columnas del Dataset
Visualización de Columnas:
Se visualizan las columnas disponibles en el conjunto de datos para comprender la estructura y la información contenida. Este paso es importante para identificar las variables relevantes y establecer las bases para el análisis
Comprobación de Valores Nulos:
Se revisan los posibles valores nulos en cada una de las columnas, ya que esta información nos proporciona mayor nivel de confiabilidad para el análisis
Comencemos por visualizar la columna 'me_identifico_genero' que contiene el genero con el que se identifica cada persona
Análisis exploratorio de datos
Grafico de torta sobre tipos de contratación
Gráfico que representa los diferentes tipos de contratación en porcentajes, ofreciendo una visualización clara de la distribución de contratos en el conjunto de datos. Se observa un claro predominio de la contratación tipo planta permanente (75.64%)
Grafico de torta sobre dedicación laboral Full-Time o Part-Time
Se destaca que el 94.78% de las personas en el conjunto de datos indican tener una dedicación Full-Time, mientras que el restante 5.22% está distribuido en contrataciones a tiempo parcial.
Grafico de torta estructura de sueldos
Estructura de Sueldos:
El análisis de la estructura salarial revela que el 41.84% de los sueldos se cobra parcialmente en dólares, el 38.25% está completamente en dólares, y el 19.91% está dolarizado pero se cobra en pesos.
Gráfico de Barras de Distribución de Géneros:
Se presenta un gráfico de barras que destaca la distribución de géneros en el conjunto de datos. Notablemente, el género "Hombre Cis" sobresale significativamente con 4088, estableciéndose como predominante. El segundo género en frecuencia sigue con 935 personas, subrayando la marcada disparidad en la representación de géneros en la muestra.
Boxplot de la variable edad
Se genera un boxplot para visualizar la distribución de la variable "Edad" en el conjunto de datos. La presencia de outliers se representa mediante puntos individuales fuera de los límites del boxplot. Por lo que requiere que lo filtremos ya que no suena lógico personas con mas de 85 años
Filtramos la edad para el rango de menores a 85
Repetimos la grafica
Boxplot edad con filtro para menores de 85 años
La línea central del box indica que la mediana se sitúa alrededor de 34 años. Este gráfico proporciona una visión detallada de la distribución de edades, donde la mayoría de los datos están ubicados entre los 28 y 39 años aproximadamente.
Imprimimos la media de la variable edad
Histograma de distribución de la variable edad
Se crea un histograma para visualizar la distribución de la variable "Edad" en el conjunto de datos. Este gráfico de barras ofrece una representación visual de la frecuencia de diferentes rangos de edades, proporcionando una comprensión intuitiva de la distribución general de la edad en la muestra.
Boxplots de la variable edad por géneros
Se generan boxplots separados por género para la variable "Edad". Estos gráficos permiten comparar visualmente la distribución de edades entre diferentes géneros. Cada boxplot muestra la mediana, los cuartiles y posibles valores atípicos, proporcionando una representación efectiva de la variabilidad en la edad según el género.
Boxplot Salario
En este boxplot se representa la distribución de salarios en el conjunto de datos. La caja del gráfico abarca el rango intercuartílico (IQR), mientras que la línea en su interior indica la mediana. La configuración showfliers=False se ha utilizado para excluir los valores atípicos este gráfico proporciona una visión rápida y clara de la distribución y dispersión salarial en la muestra.
Histograma Salarios
Dos Histogramas de Salarios en un Gráfico:
En este gráfico compuesto por dos subgráficos:
Histograma General:
Se muestra la distribución completa de los salarios en la muestra. La línea punteada roja indica la media del salario. La línea punteada verde representa la mediana del salario.
Histograma (Hasta $400,000):
Se concentra en la región de salarios hasta $400,000 para una visualización más detallada. Nuevamente, se incluyen líneas punteadas para la media y la mediana.
Boxplots de los salarios por géneros
En este grafico podemos identificar los distintos boxplots que presentan la distribución de salarios según diferentes géneros en el conjunto de datos. Cada boxplot proporciona información sobre la mediana, el rango intercuartílico (IQR) y posibles valores atípicos para cada categoría de género. La comparación entre los boxplots permite visualizar las diferencias en las distribuciones salariales entre los géneros.
Boxplots de los salarios respecto a nivel de estudios
En estos boxplots se analiza la distribución de salarios en relación con el nivel de estudios en el conjunto de datos. Cada boxplot representa una categoría de nivel de estudios, proporcionando información sobre la mediana, el rango intercuartílico (IQR) y posibles valores atípicos. La comparación entre los boxplots permite visualizar las diferencias en las distribuciones salariales según el nivel de estudios.
Boxplots de los salarios según seniority
En estos boxplots se presenta la distribución de los salarios según el seniority alcanzado. Se puede ver una clara elevación de la mediana en evolución al seniority conseguido
Boxenplot de salarios segun seniority en percentiles
En este gráfico, se examina la distribución de salarios según la categoría de seniority, y se divide en percentiles para ofrecer una visión más detallada de cómo se distribuyen los salarios en diferentes niveles de experiencia. Cada categoría de seniority se representa con un boxenplot, mostrando la mediana, el rango intercuartílico (IQR) y posibles valores atípicos.
Impresión percentiles de interés
Estos percentiles proporcionan puntos de referencia útiles para entender la distribución de los salarios y pueden ser utilizados para identificar valores atípicos o extremadamente altos en el conjunto de datos.
Boxenplot salarios por percentiles (98%)
En este boxenplot, se presenta la distribución de salarios después de haber ajustado el límite superior para incluir solo el 98% de los salarios más bajos. Este enfoque ayuda a enfocarse en la mayoría de los datos, excluyendo los valores atípicos más extremos.
Mapa de calor por géneros y seniority
Primero vamos a crear una tabla para luego graficarla en un mapa de calor que muestre la relación entre las variables 'genero' y 'seniority'
Barplot de salarios según los años de experiencia
En este gráfico de barras, se analiza la relación entre los años de experiencia y los salarios en el conjunto de datos. Cada barra representa una cantidad de años de experiencia, y la altura de la barra indica el valor medio del salario asociado a esa categoría.
Scatterplot distribucion edad en relación a años de experiencia
En este scatterplot, se explora la relación entre la edad y los años de experiencia. Cada punto en el gráfico representa un individuo, donde la posición en el eje X corresponde a los años de experiencia y el eje Y corresponde a la edad.
Grafico de barras según trabajo (10 principales)
Grafico de barras que permite visualizar las principales ocupaciones en el conjunto de datos
Formulación de hipótesis
En un principio realizamos un análisis preliminar del conjunto de los datos para conocerlos y luego los representamos gráficamente, en ellos hemos observado como el salario bruto se ve influenciado por el nivel de seniority o los niveles de estudios alcanzados.
Grafico de densidad de salarios según seniority
En el grafico podemos observar la asimetría que se genera entre los salarios de Junios, Semi-Seniors y Seniors, corriéndose mas hacia la derecha en tanto es mayor el nivel de seniority alcanzado
Grafico de densidad de los salarios según nivel educativo
Algo similar se puede ver en el grafico de densidad con los estudios alcanzados, siendo por ejemplo los estudios de doctorados, posdoctorados o maestrías las densidades que alcanzan la mayor remuneración bruta.
Intervalo de confianza
Tenemos un conjunto de datos, que estuvimos trabajando a lo largo del análisis, ahora nos toca trabajar específicamente con salarios, y quieres estimar el salario promedio de toda la población, pero no conocemos este promedio exacto. Para esto vamos a crear distintos intervalos de confianza.
Un intervalo de confianza es un rango de valores en el cual creemos que se encuentra el verdadero valor promedio de la población, con cierto nivel de confianza. Por ejemplo, podríamos decir que estamos 95% seguros de que el salario promedio está dentro de ciertos límites.
En términos sencillos, el intervalo de confianza nos da un "rango probable" donde pensamos que está el verdadero promedio de la población. La idea es que, si repitiéramos el proceso de muestreo muchas veces, esperaríamos que el valor real esté dentro de este intervalo la mayoría de las veces.
Vamos a estimar intervalos de confianza de nuestra muestra, empezando con un intervalo de 95%.
Calculo del intervalo de confianza
Con los números resultantes, podemos decir que el salario promedio de nuestro conjunto de datos esta entre [678.041 y 710.400] con un intervalo de confianza de 95%
Esto es, un salario bruto promedio para el conjunto de nuestra población, quiere decir que no estamos discriminando con otras variables como por ejemplo seniority, genero o estudios alcanzados
Sueldo medio según seniority
Vamos a crear intervalos de confianza para las distintas muestras que vamos a utilizar, en este caso vamos a dividir nuestro conjunto de datos por seniority.
En términos simples, estos resultados sugieren que:
Senior: Media del salario aproximada: 916.992 Intervalo de Confianza (95%): Entre [889.033 y 944.950] Semi-Senior: Media del salario aproximada: 669.920 Intervalo de Confianza (95%): Entre [643.239 y 696.602] Junior: Media del salario aproximada: 355.524 Intervalo de Confianza (95%): Entre [344.557 y 366.491]
Ampliación de intervalo de confianza a 99%
Al aumentar el nivel de confianza a un 99% los rangos de los intervalos son mas largos pero no se solapan, por lo tanto, no cambian las conclusiones.
Sueldo medio según seniority con niveles educativos universitarios completos.
Ahora vamos a realizar un análisis más detallado al diferenciar los datos según el nivel de seniority y luego observar cómo se comportan cuando solo consideramos aquellos casos en los que los individuos tienen niveles universitarios completos. El objetivo es discernir si el nivel de educación influye en los salarios, especialmente al considerar diferentes niveles de experiencia laboral.
Buscamos entender si, dentro de grupos específicos de experiencia laboral (Junior, Semi-Senior, Senior), hay alguna diferencia apreciable en los salarios cuando nos enfocamos solo en aquellos que han completado estudios universitarios. Esto podría ayudar a evaluar la influencia relativa de la educación en los salarios dentro de cada nivel de seniority.
Grafico de densidad del salario según seniority con nivel universitario completo
Repetimos los cálculos de intervalos de confianza, con el rango de datos acotados a trabadores que alcanzaron el nivel completo universitario
Conclusión
Podemos observar que si analizamos una muestra acotada a personas que alcanzaron niveles universitarios completos, las medias salariales aunque no se solapan crecen notablemente. Lo que indica que hay una clara relación entre aquellos que terminaron los estudios universitarios y quienes no.
Para Juniors con universitarios completos: La media salarial se eleva a 418.968 con un intervalo de confianza del 95% en el rango [380.195 y 457.740]
Para Semi-Seniors con universitarios completos: La media salarial se eleva a 668.219 con un intervalo de confianza del 95% en un rango de [627.777 y 748.661]
Para Seniors con universitarios completos: La media salarial se eleva a 1.089.735 con un intervalo de confianza del 95% en un rango de [1.006.982 y 1.172.448]