Encuesta Anual Manufacturera – EAM - 2020
Departamento Administrativo Nacional de Estadística - DANE
A continuación se resolver án las siguientes preguntas relacionadas con la base de datos que se puede encontrar en la pagina https://microdatos.dane.gov.co/index.php/catalog/724
El dataframe no contiene gran cantidad de datos nulos, pues las columnas con mayor cantidad de nulos tienen 3 que corresponde a un 0,04% de los datos
Establecimientos presentes en la base de datos
Empresas Presentes en la base de datos
Número de ocupados según sexo y actividad económica (CIIU4)
Grafica top 10 actividades económicas con mayor ocupación
Valor de la producción bruta, consumo intermedio y valor agregado por departamento
Departamentos
Valor de la producción bruta, consumo intermedio y valor agregado por departamento
Establecimientos que se encuentran por encima del percentil 98 en el valor de ventas
VALORVEN y el Percentil 98
Establecimientos por encima del percentil 98
Variable PRODBIND: Imputar valores = 99
Como podemos ver en el resumen de la columna PRODBIND, encontramos que la distribución de los datos esta sesgada hacia la izquierda a valores más bajos, concentrando más cantidad de registros, basándonos en la diferencia entre la media y la mediana,
Los valores iguales a 99 fueron remplazados por la mediana debido a que la muestra cuenta con gran varianza además de un sesgo importante que se pudo evidenciar en la grafica anterior, se elige la mediana ya que es una medida de tendencia central que no es susceptible a Outliers como si lo puede ser la media.
Además cabe aclarar que para el calculo de la media se excluyeron los valores iguales a 99 ya que se consideran valores atípicos.
Fuente: Departamento Administrativo Nacional de Estadística: www.dane.gov.co