Provincias Argentinas

Como ejercicio del Trabajo Práctico N°2 del curso de Data Science de Codo a Codo (comisión 22605), voy a hacer un análisis sobre un dataframe que colecta información variada sobre las provincias de nuestro país.

# 1er paso, importación de librerías import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sb

# 2do paso, importación del dataframe' dforig = pd.read_csv('/work/argentina.csv') dforig

# 3er paso, primer pantallazo de los datos. dforig.describe()

dforig.dtypes

print(f'Cantidad de registros: {dforig.province.count()}')

Al ser 22 registros, con una rápida verificación se puede observar que el dataset no contempla ni la Ciudad Autónoma ni las Islas Malvinas

# 4to paso, eliminar datos irrelevantes # En este caso, los cines per capita print(dforig.columns) dfmod = dforig.drop(['movie_theatres_per_cap'], axis=1) dfmod.columns

# 5to paso: Renombrado de columnas dfmod = dfmod.rename(columns={ 'province':'Provincia', 'gdp':'PBI', 'illiteracy':'Analfabetismo', 'poverty':'Pobreza', 'deficient_infra':'Infraestructura Deficiente', 'school_dropout':'Abandono de la Escuela', 'no_healthcare':'Falta de Cobertura Médica', 'birth_mortal':'Mortalidad Infantil', 'pop':'Población', 'doctors_per_cap':'Doctores per Capita', }) print(dfmod.columns)

# 6to paso, verifico que no haya columnas nulas que afecten el analisis de los datos print(dfmod.isnull().sum())

8vo Paso: Correlaciones. Este conjunto de datos podría separarse en subconjuntos íntimamente relacionados:

PBI - Población

Analfabetismo - Abandono de escuela

Falta de cobertura médica - Mortalidad infantil - Doctores per capita

Pero me resulta menos evidente la relación de la pobreza y la infraestructura deficiente con el resto, por lo que recurro a matrices de covarianza para evaluar esto último y verificar lo anterior

print('Matriz diagonal de covarianzas generales') matrix1 = dfmod.corr() # Mask es una herramienta para hacer una matriz diagonal, evitando repetir innecesariamente los valores mask = np.triu(np.ones_like(matrix1, dtype=bool)) sb.heatmap(matrix1,mask=mask,cmap='Greens',annot=True) plt.show()

Conclusiones:

Cuanto mayor sea la población de una provincia, más alto su PBI, independientemente de cualquier otra variable.

El analfabetismo va de la mano del abandono de la escuela, pero también de la pobreza y la infraestructura deficiente. También coincide casualmente con la falta de cobertura médica.

Doctores per cápita no parece tener relación estrecha con ninguna de las otras ponderaciones

La mortalidad infantil está moderadamente relacionada solamente con la pobreza y con el abandono de la escuela

.css-15w88e5{color:var(--chakra-colors-fg-neutral-primary);font-weight:inherit;letter-spacing:-0.09px;}Provincias Argentinas

Conclusiones:

Provincias Argentinas