Encuesta Anual Manufacturera – EAM - 2020
Departamento Administrativo Nacional de Estadística - DANE
A continuación se resolverán las siguientes preguntas relacionadas con la base de datos que se puede encontrar en la pagina https://microdatos.dane.gov.co/index.php/catalog/724
¿Cuántas establecimientos hay en la base de datos?
Calcular el número de ocupados según sexo y actividad económica (CIIU4)
Calcular el valor de la producción bruta, consumo intermedio y valor agregado por departamento
Identificar los establecimientos que se encuentran por encima del percentil 98 en el valor de ventas
Solo para el rol de estadístico o analista de datos: La variable PRODBIND tiene valores en 99 que deben ser imputados con algún método estadístico. ¿Cuál método utilizaría y justifique por qué es adecuado?
0
141299
140327
1
141302
140333
2
141305
140336
3
141308
140339
4
141309
140340
5
141311
140342
6
141312
140343
7
141313
140344
8
141315
140346
9
141318
140348
Atributo Tipo de dato Nulos Porcentaje Nulos
65 c3r2pt float64 2 0.03
147 c3r23c3 float64 2 0.03
146 c3r23c2 float64 2 0.03
145 c3r23c1 float64 2 0.03
144 C3R20C3 float64 2 0.03
.. ... ... ... ...
325 GASPAUTO float64 3 0.04
326 GASPCO float64 3 0.04
327 CARBONMC float64 3 0.04
313 GASOLAUTO float64 3 0.04
301 PETROAUTO float64 3 0.04
[175 rows x 4 columns]
El dataframe no contiene gran cantidad de datos nulos, pues las columnas con mayor cantidad de nulos tienen 3 que corresponde a un 0,04% de los datos
Establecimientos presentes en la base de datos
Empresas Presentes en la base de datos
Número de ocupados según sexo y actividad económica (CIIU4)
1011
22348
7700
1012
1449
1626
1020
2067
1733
1030
7233
2031
1040
13252
6234
1051
7702
3245
1061
1244
374
1062
712
560
1071
6408
1096
1072
692
71
Grafica top 10 actividades económicas con mayor ocupación
Valor de la producción bruta, consumo intermedio y valor agregado por departamento
Departamentos
0
11
33903776640
1
5
43777612648
2
76
40790438139
3
25
32779079449
4
68
22075372267
5
8
16917738914
6
66
4686496864
7
17
5739185553
8
13
22223135172
9
54
1117175301
10
73
4392640867
11
19
6919351481
12
15
3528610221
13
50
2650270464
14
41
2725224940
15
63
1219204945
16
47
1247544974
17
52
471090229
18
20
1024215636
19
23
2805413362
20
85
2019385825
21
70
272090337
22
99
217044053
Valor de la producción bruta, consumo intermedio y valor agregado por departamento
Establecimientos que se encuentran por encima del percentil 98 en el valor de ventas
VALORVEN y el Percentil 98
Percentil 98: 338380043.0
Establecimientos por encima del percentil 98
6101
981924
341316778
1726
144571
341316778
6728
984269
341316778
4827
975178
343783959
5543
978731
343783959
705
142338
343783959
7164
986601
345171518
4490
867189
345171518
2778
986586
345171518
6752
975145
345803951
Variable PRODBIND: Imputar valores = 99
El porcentaje de datos iguales a 99 en la columna 'PRODBIND' es: 5.00% con 367 datos
count 7343.00
mean 32218290.09
std 127022822.03
min 0.00
25% 842538.00
50% 3128141.00
75% 14963226.50
max 4143709011.00
Name: PRODBIND, dtype: float64
Como podemos ver en el resumen de la columna PRODBIND, encontramos que la distribución de los datos esta sesgada hacia la izquierda a valores más bajos, concentrando más cantidad de registros, basándonos en la diferencia entre la media y la mediana,
Los valores iguales a 99 fueron remplazados por la mediana debido a que la muestra cuenta con gran varianza además de un sesgo importante que se pudo evidenciar en la grafica anterior, se elige la mediana ya que es una medida de tendencia central que no es susceptible a Outliers como si lo puede ser la media.
Además cabe aclarar que para el calculo de la media se excluyeron los valores iguales a 99 ya que se consideran valores atípicos.
Fuente: Departamento Administrativo Nacional de Estadística: www.dane.gov.co