Provincias Argentinas
Como ejercicio del Trabajo Práctico N°2 del curso de Data Science de Codo a Codo (comisión 22605), voy a hacer un análisis sobre un dataframe que colecta información variada sobre las provincias de nuestro país.
0
Buenos Aires
292689867.987582
1
Catamarca
6150949.15918587
2
Córdoba
69363739.1881543
3
Corrientes
7968012.98234275
4
Chaco
9832642.67153144
5
Chubut
17747854.2076598
6
Entre Ríos
20743409.0958049
7
Formosa
3807057.41864849
8
Jujuy
6484938.33369074
9
La Pampa
6990262.45761227
count
22.0
22.0
mean
30557027.883686412
3.2255411363636366
std
61830995.39723977
1.8514961271592096
min
3807057.41864849
0.791485
25%
8041586.87870049
1.9898099999999999
50%
10964161.2315008
2.743675
75%
19994520.373768624
3.6861900000000003
max
292689867.987582
7.51758
Cantidad de registros: 22
Al ser 22 registros, con una rápida verificación se puede observar que el dataset no contempla ni la Ciudad Autónoma ni las Islas Malvinas
Index(['province', 'gdp', 'illiteracy', 'poverty', 'deficient_infra',
'school_dropout', 'no_healthcare', 'birth_mortal', 'pop',
'movie_theatres_per_cap', 'doctors_per_cap'],
dtype='object')
Index(['Provincia', 'PBI', 'Analfabetismo', 'Pobreza',
'Infraestructura Deficiente', 'Abandono de la Escuela',
'Falta de Cobertura Médica', 'Mortalidad Infantil', 'Población',
'Doctores per Capita'],
dtype='object')
Provincia 0
PBI 0
Analfabetismo 0
Pobreza 0
Infraestructura Deficiente 0
Abandono de la Escuela 0
Falta de Cobertura Médica 0
Mortalidad Infantil 0
Población 0
Doctores per Capita 0
dtype: int64
8vo Paso: Correlaciones. Este conjunto de datos podría separarse en subconjuntos íntimamente relacionados:
Analfabetismo - Abandono de escuela
Pero me resulta menos evidente la relación de la pobreza y la infraestructura deficiente con el resto, por lo que recurro a matrices de covarianza para evaluar esto último y verificar lo anterior
Matriz diagonal de covarianzas generales