Análisis exploratorio de la producción de petróleo en Colombia entre el año 2017 al 2021.
Introducción.
En el proyecto se realiza un análisis exploratorio de los datos de 5 datasets diferentes que contienen información sobre la producción mensual de los principales pozos petroleros de Colombia entre los años 2017 al 2021.
Con el objetivo de responder como afecto la pandemia del covid-19 la producción general de petróleo.
Librerías.
Transformación y carga de datos.
Carga de la información.
Asignación del año de producción a cada conjunto de datos.
Se producirá un problema en la concatenación de los datos y lo esta causando el dataset del 2020. Básicamente se están creado nuevas columnas debido a que las columnas de los meses están escritas de forma diferente.
Se le asigna los nombres correspondientes.
Tipos de datos del datset.
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 467 entries, 0 to 466
Data columns (total 21 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Departamento 467 non-null object
1 Municipio 467 non-null object
2 Latitud 467 non-null float64
3 Longitud 467 non-null float64
4 Geolocalizacion 467 non-null object
5 Operadora 467 non-null object
6 Contrato 467 non-null object
7 Campo 467 non-null object
8 Enero 467 non-null object
9 Febrero 467 non-null object
10 Marzo 467 non-null object
11 Abril 467 non-null object
12 Mayo 467 non-null object
13 Junio 467 non-null object
14 Julio 467 non-null object
15 Agosto 467 non-null object
16 Septiembre 467 non-null object
17 Octubre 467 non-null object
18 Noviembre 467 non-null object
19 Diciembre 466 non-null object
20 Año 467 non-null int64
dtypes: float64(2), int64(1), object(18)
memory usage: 76.7+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 469 entries, 0 to 468
Data columns (total 21 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Departamento 469 non-null object
1 Municipio 469 non-null object
2 Latitud 469 non-null float64
3 Longitud 469 non-null float64
4 Geolocalizacion 469 non-null object
5 Operadora 469 non-null object
6 Contrato 469 non-null object
7 Campo 469 non-null object
8 Enero 469 non-null float64
9 Febrero 469 non-null float64
10 Marzo 469 non-null float64
11 Abril 469 non-null float64
12 Mayo 469 non-null float64
13 Junio 469 non-null float64
14 Julio 469 non-null float64
15 Agosto 469 non-null float64
16 Septiembre 469 non-null float64
17 Octubre 469 non-null float64
18 Noviembre 469 non-null float64
19 Diciembre 469 non-null float64
20 Año 469 non-null int64
dtypes: float64(14), int64(1), object(6)
memory usage: 77.1+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 456 entries, 0 to 455
Data columns (total 21 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Departamento 456 non-null object
1 Municipio 456 non-null object
2 Latitud 456 non-null float64
3 Longitud 456 non-null float64
4 Geolocalizacion 456 non-null object
5 Operadora 456 non-null object
6 Contrato 456 non-null object
7 Campo 456 non-null object
8 Enero 456 non-null float64
9 Febrero 456 non-null float64
10 Marzo 456 non-null float64
11 Abril 456 non-null float64
12 Mayo 456 non-null float64
13 Junio 456 non-null float64
14 Julio 456 non-null float64
15 Agosto 456 non-null float64
16 Septiembre 456 non-null float64
17 Octubre 456 non-null float64
18 Noviembre 456 non-null float64
19 Diciembre 456 non-null float64
20 Año 456 non-null int64
dtypes: float64(14), int64(1), object(6)
memory usage: 74.9+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 445 entries, 0 to 444
Data columns (total 21 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Departamento 445 non-null object
1 Municipio 445 non-null object
2 Latitud 445 non-null float64
3 Longitud 445 non-null float64
4 Geolocalizacion 445 non-null object
5 Operadora 445 non-null object
6 Contrato 445 non-null object
7 Campo 445 non-null object
8 enero 445 non-null float64
9 febrero 445 non-null float64
10 marzo 445 non-null float64
11 abril 445 non-null float64
12 mayo 445 non-null float64
13 junio 445 non-null float64
14 julio 445 non-null float64
15 agosto 445 non-null float64
16 septiembre 445 non-null float64
17 octubre 445 non-null float64
18 noviembre 445 non-null float64
19 diciembre 445 non-null float64
20 Año 445 non-null int64
dtypes: float64(14), int64(1), object(6)
memory usage: 73.1+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 389 entries, 0 to 388
Data columns (total 21 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Departamento 389 non-null object
1 Municipio 389 non-null object
2 Latitud 389 non-null float64
3 Longitud 389 non-null float64
4 Geolocalizacion 389 non-null object
5 Operadora 389 non-null object
6 Contrato 389 non-null object
7 Campo 389 non-null object
8 Enero 389 non-null float64
9 Febrero 389 non-null float64
10 Marzo 389 non-null float64
11 Abril 389 non-null float64
12 Mayo 389 non-null float64
13 Junio 389 non-null float64
14 Julio 389 non-null float64
15 Agosto 389 non-null float64
16 Septiembre 0 non-null float64
17 Octubre 0 non-null float64
18 Noviembre 0 non-null float64
19 Diciembre 0 non-null float64
20 Año 389 non-null int64
dtypes: float64(14), int64(1), object(6)
memory usage: 63.9+ KB
El dataset del 2021, no incluye los dato de los meses correspondientes a septiembre, octubre, noviembre y diciembre.
El año 2017 tiene diferentes tipos de datos a los otros datsets, por lo que se procese a transformarlos. todos los datos numéricos serán llevados a tipo Float.
0
ANTIOQUIA
PUERTO NARE
1
ANTIOQUIA
PUERTO NARE
2
ANTIOQUIA
PUERTO NARE
3
ANTIOQUIA
PUERTO TRIUNFO
4
ANTIOQUIA
YONDO
5
ANTIOQUIA
YONDO
6
ANTIOQUIA
YONDO
7
ARAUCA
ARAUCA
8
ARAUCA
ARAUCA
9
ARAUCA
ARAUCA
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 467 entries, 0 to 466
Data columns (total 21 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Departamento 467 non-null object
1 Municipio 467 non-null object
2 Latitud 467 non-null float64
3 Longitud 467 non-null float64
4 Geolocalizacion 467 non-null object
5 Operadora 467 non-null object
6 Contrato 467 non-null object
7 Campo 467 non-null object
8 Enero 356 non-null float32
9 Febrero 369 non-null float32
10 Marzo 372 non-null float32
11 Abril 379 non-null float32
12 Mayo 379 non-null float32
13 Junio 373 non-null float32
14 Julio 376 non-null float32
15 Agosto 381 non-null float32
16 Septiembre 376 non-null float32
17 Octubre 379 non-null float32
18 Noviembre 375 non-null float32
19 Diciembre 380 non-null float32
20 Año 467 non-null int64
dtypes: float32(12), float64(2), int64(1), object(6)
memory usage: 54.9+ KB
Concatenación de los datasets.
0
ANTIOQUIA
PUERTO NARE
1
ANTIOQUIA
PUERTO NARE
2
ANTIOQUIA
PUERTO NARE
3
ANTIOQUIA
PUERTO TRIUNFO
4
ANTIOQUIA
YONDO
5
ANTIOQUIA
YONDO
6
ANTIOQUIA
YONDO
7
ARAUCA
ARAUCA
8
ARAUCA
ARAUCA
9
ARAUCA
ARAUCA
Datos nulos.
Existen campos petroleros que no reportaron producción en diferentes meses, adicional a estos los datos del 2021 llegan hasta el mes de agosto. Por lo que no se puede simplemente eliminar esos campos por ser nulos.
Se procede llegar estos campos nulos con un valor de cero.
Los datos ya están listos para su análisis. se guardan en la carpeta data/ interim. Esto se hace con el fin de hacer un ultimo ajuste en los caracteres especiales.
Exploración y análisis de datos.
Carga del dataset y previsualización.
0
ANTIOQUIA
PUERTO NARE
1
ANTIOQUIA
PUERTO NARE
2
ANTIOQUIA
PUERTO NARE
3
ANTIOQUIA
PUERTO TRIUNFO
4
ANTIOQUIA
YONDO
5
ANTIOQUIA
YONDO
6
ANTIOQUIA
YONDO
7
ARAUCA
ARAUCA
8
ARAUCA
ARAUCA
9
ARAUCA
ARAUCA
Visión general del datset.
El dataset esta compuesto por 21 columnas y 2226 filas. Que contienen la información de la producción de petróleo en Colombia desde el año 2017 hasta agosto del 2021, la cantidad de petróleo producido esta dividido por meses, campo petrolero, empresa, municipio y departamento de producción.
count
2226
2226
mean
5.040682256
-73.10976621
std
1.925530457
1.654623457
min
0.272449048
-77.24047625
25%
4.005034467
-74.19746971
50%
4.915139133
-72.82314281
75%
5.953466654
-71.63157429
max
10.79894015
-70.50921153
Análisis unidimensional de las variables.
Departamentos con mas actividad en la producción de petróleo.
Municipios con mas actividad para la producción de petróleo.
Top 10 empresas con mas actividad para la producción de petróleo.
Existe 595 diferentes campos petroleros de los cuales en algún momento se ha extraído petróleo.
Se suman la cantidad de petróleo producida desde el 2017 al 2021 por meses.
Para expresar el total en barriles producidos diarios (BPD), como es la convención se usa la siguiente función.
Sumando toda la producción de petróleo desde el 2017 hasta el 2021 (teniendo en cuenta la falta de datos de septiembre a diciembre del 2021). Se puede observar una producción constante por encima de los 800.000 BPD (Barriles petróleo diario)
Análisis multidimensional de las variables.
Análisis de producción por año.
0
2017
860477
1
2018
860876
2
2019
898972.85
3
2020
883915.06
4
2021
745403
Se puede observar una producción constante de petróleo, incluso un aumento desde el 2017 hasta marzo del 2020, cuando empezó la cuarentena. Se observa claramente una disminución de la producción general de petróleo en todo Colombia, la cual hasta octubre del 2021 no ha podido volver a niveles pre-pandemia.
Se suma toda la producción de los meses, con el fin de obtener la producción total por cada uno de estos.
0
2017
860477
1
2018
860876
2
2019
898972.85
3
2020
883915.06
4
2021
745403
count
5
5
mean
2019
849928.782
std
1.58113883
60657.09622
min
2017
745403
25%
2018
860477
50%
2019
860876
75%
2020
883915.06
max
2021
898972.85
Análisis de producción por departamento.
Se agrupan y se suma todo lo producido por cada departamento en los diferentes meses y años. Después se agrupa por índice y se hace una suma del producido total por cada uno de estos.
El departamento en donde ha existido una mayor producción de petróleo en el periodo del 2017 al 2021, es el departamento del Meta, con una gran diferencia.
6
CASANARE
846
14
META
378
18
SANTANDER
162
17
PUTUMAYO
143
12
HUILA
139
1
ARAUCA
123
20
TOLIMA
103
8
CESAR
92
4
BOYACA
61
0
ANTIOQUIA
36
El departamento de Casanare tiene una mayor cantidad de pozos petroleros. Sin embargo, el departamento del Meta con muchos menos pozos genera una mayor cantidad de petróleo.
Análisis de producción de petróleo por municipio.
Se agrupan y se suma todo lo producido por cada municipio en los diferentes meses y años. Después se agrupa por índice y se hace una suma del producido total por cada uno de estos.
El municipio de Puerto Gaitán es donde ha existido una mayor producción de petróleo, en el periodo del 2017 al 2021.
Análisis de producción de petróleo por empresa.
Se agrupan y se suma todo lo producido por cada empresa en los diferentes meses y años. Después se agrupa por índice y se hace una suma del producido total por cada uno de estos.
18
ECOPETROL S.A.
562
22
Frontera Energy Colombia Corp Sucursal Colombia
244
53
PERENCO COLOMBIA LIMITED
173
32
HOCOL S.A.
137
24
GEOPARK COLOMBIA S.A.S.
89
27
GRAN TIERRA ENERGY COLOMBIA LTD
82
7
CEPSA COLOMBIA S.A.
69
46
OCCIDENTAL DE COLOMBIA LLC
68
52
PAREX RESOURCES COLOMBIA LTD. SUCURSAL
65
19
EMERALD ENERGY PLC SUCURSAL COLOMBIA
53
La empresa Ecopetrol S.A. es la que mas produce petróleo en Colombia y esto es consecuente al ser la empresa con mayor cantidad de pozos petroleros.
Análisis de producción de petróleo del año 2020.
Se analiza el año 2020, con el fin de observar como la pandemia afecto la producción general en toda Colombia.
0
ANTIOQUIA
17400
1
ARAUCA
53873
2
ATLANTICO
596
3
BOLIVAR
16338
4
BOYACA
30739
5
CASANARE
161780
6
CAUCA
761
7
CESAR
19570
8
CORDOBA
0
9
CUNDINAMARCA
180
Se observa claramente un descenso en la producción de petróleo, el cual llega a su punto mínimo en el mes de mayo. después de esto tiene una pequeña recuperación, sin embargo, no se acerca a niveles pre-pandemia.
En el caso de las dos empresas que mas producen petróleo en Colombia para el 2020. Si se puede observar como afecta la pandemia. sin embargo, para el caso de Ecopetrol en el mes de marzo donde se declaro la cuarentena, se produjo una mayor cantidad de petróleo que otros meses, para después mantener una producción constante.
La empresa Geopark también sufrió una caída en su producción de petróleo, sin embargo, no fue muy significativa.
Mapas.
En el mapa se puede observar como están distribuidos los diferentes pozos petroleros y se segmentan por color según el departamento al que pertenecen.
Ahora se usa como referencia el mes de enero del 2020 para observar cuales son los campos que tiene una mayor producción de petróleo.
Análisis y conclusiones.
El conjunto de datos tiene la información mensual de producción de petróleo entre los años del 2017 a agosto del 2021 en Colombia. Segmentada por departamento, municipio, empresa y campos petroleros.
Se analizo este conjunto de datos buscaba responder a la siguiente pregunta:
¿La producción de petróleo en Colombia se vio afectada por la pandemia del covid-19?
Conclusiones:
Después de realizar la transformación, limpieza, carga y el análisis exploratorio de nuestro conjunto de datos se llego a las siguientes conclusiones:
Año 2020.
Antes del año 2020 se observa una tendencia en aumento en la producción general de petróleo en Colombia y claramente se observa una disminución causada por la cuarentena obligatoria debido a la pandemia del covid-19.
Para cada año que integran el dataset, se tiene una producción anual de petróleo en BPD (Barriles petróleo diarios) de:
Se observa como la producción anual de petróleo en Colombia va incrementando hasta el 2020 donde se produjo una reducción de 104.515 BPD menos que el año anterior. Lo que equivale a una disminución del 12 % menos comparada con el año anterior.
Teniendo en cuenta que el petróleo es un motor para la economía colombiana, por ser el principal generador de renta externa por encima incluso del café y por ser la fuente principal de rentas para las regiones, bien a título de regalías por su explotación o por contribuciones fiscales en las distintas fases de su proceso. Lo que implica un fuerte golpe para la economía colombiana, el cual se se vera reflejado en los años siguientes a la pandemia.
En este mismo año, la producción mensual mas baja se dio en el mes de mayo para después de esto incrementar a un valor aproximado de 760.000 BPD. En el 2021, se produjo aproximadamente de forma mensual el mismo valor, estando muy lejos en el mes de agosto de alcanzar los valores de producción pre-pandemia.