Untitled project

#from google.colab import drive #drive.mount('/content/drive')

import pandas as pd import numpy as np import seaborn as sbn import matplotlib as mp import requests import plotly.express as px import json as js import matplotlib.pyplot as plt

!pip install boto3

import boto3 from io import StringIO

#!pip install matplotlib-venn

#!apt-get -qq install -y libfluidsynth1

!pip install plotly

aws_id = "AKIA25VNXQJI2IYIQ552" aws_pwd = "4l7lCVhHlHXogJP4SWIioM97rhm4PqmH0zTGMeG+" client = boto3.client('s3', aws_access_key_id = aws_id, aws_secret_access_key = aws_pwd)

bucket_name = "bucket-test103" data_base1 = "data.csv"

db_object_1 = client.get_object(Bucket = bucket_name, Key = data_base1)

#db_object_1

db_1_decode = db_object_1['Body'].read().decode('utf-8') df_1 = pd.read_csv(StringIO(db_1_decode), sep = ";")

df_1.head()

df_1.groupby("Country").nunique()

df_1.info()

data_base2 = "Suicidios._Colombia__a_os_2016_a_2019.csv" db_object_2 = client.get_object(Bucket = bucket_name, Key = data_base2) db_2_decode = db_object_2['Body'].read().decode('utf-8') df_2 = pd.read_csv(StringIO(db_2_decode), sep = ";", index_col=0)

data_base2_original_malo = "Suicidios._Colombia__original_data.csv" db_object_2original_malo = client.get_object(Bucket = bucket_name, Key = data_base2_original_malo) db_2_decodeoriginal_malo = db_object_2original_malo['Body'].read().decode('utf-8') df_2original_esteNO = pd.read_csv(StringIO(db_2_decodeoriginal_malo), sep = ";", index_col=0)

df_2original_esteNO.head(10)

df_2original_esteNO.info()

df_2original_esteNO["Dia del hecho"].value_counts()

df_2original_esteNO.tail(10)

df_2.head(10)

df_2.info()

df_2.tail(5)

departamentos = df_2["Departamento del hecho DANE"].unique() departamentos

#df_2["numero de casos"] = df_2["Departamento del hecho DANE"].count()#.value_counts()#.groupby(["Departamento del hecho DANE"]) suicidios_dpto = df_2["Departamento del hecho DANE"].value_counts() suicidios_dpto

suicidios_dpto = df_2["Departamento del hecho DANE"].value_counts() #suicidios_dpto["Sexo"] = df_2["Sexo de la victima"] #suicidios_dpto_sex =

s_corregido = suicidios_dpto.to_frame() s_corregido = s_corregido.reset_index() s_corregido = s_corregido.rename(columns = {"index" :"Departamento", "Departamento del hecho DANE": "Numero de casos"}) s_corregido

# Se comenta esta parte porque se corrigio el csv y esta como df_3_corregida data_base3 = "API_COL_DS2_es_excel_v2_4148200.csv" db_object_3 = client.get_object(Bucket = bucket_name, Key = data_base3) db_3_decode = db_object_3['Body'].read().decode('utf-8') df_3 = pd.read_csv(StringIO(db_3_decode), sep = ",")

#df_3.head(10)

#df_3.info()

data_base3_corregida = "datos_economicos_col.csv" db_object_3_corregida = client.get_object(Bucket = bucket_name, Key = data_base3_corregida) db_3_decode_corregida = db_object_3_corregida['Body'].read().decode('utf-8') df_3_corregida = pd.read_csv(StringIO(db_3_decode_corregida), sep = ",", index_col = 0)

#df_3_corregida

df_3_clean = df_3_corregida.drop(["Tasa de incidencia de la pobreza, sobre la base de la línea de pobreza nacional (% de la población)", "Statistical performance indicators (SPI): Pillar 2 data services score (scale 0-100)", "PIB per cápita (US$ a precios constantes de 2010)","Desempleo, mujeres (% de participación femenina en la fuerza laboral) (estimación nacional)","Índice de Capital Humano, femenino, límite inferior (escala de 0 a 1)","Extracción anual de agua dulce, total (% de recursos internos)","Migración neta", "Remesas de trabajadores y compensación de empleados, recibidas (% del PIB)", "Acceso a la electricidad, sector rural (% de la población rural)"], axis=1) df_3_clean

df_3_clean.info()

items = df_3["Indicator Name"].unique() #Vale la pena transponer la tabla? terminariamos con 1444 columnas items.shape

df_3transp =df_3.transpose() # tabla transpuesta #df_3transp.shape

#pd.options.display.max_columns = 1444 #df_3["Indicator Name"].list()

pd.options.display.max_columns = 150 df_3transp.head(10)

df_3transp.info()

s_corregido["Departamento"] = s_corregido["Departamento"].str.upper().str.strip() rename_dict = {"BOYACÁ":"BOYACA", "BOGOTÁ, D.C.":"SANTAFE DE BOGOTA D.C", "ATLÁNTICO":"ATLATICO", "BOLÍVAR":"BOLIVAR", "QUINDÍO":"QUINDIO", "CÓRDOBA":"CORDOBA", "CAQUETÁ":"CAQUETA", "CHOCÓ":"CHOCO", "VAUPÉS":"VAUPES", "GUAINÍA":"GUAINIA", "ARCHIPIÉLAGO DE SAN ANDRÉS, PROVIDENCIA Y SANTA CATALINA":"ARCHIPIELAGO DE SAN ANDRES PROVIDENCIA Y SANTA CATALINA"} s_corregido["Departamento"] = s_corregido["Departamento"].replace(rename_dict)#.astype("category") #s_corregido["Departamento"] = s_corregido["Departamento"].str.replace("BOYACÁ", "BOYACA") s_corregido

df = s_corregido#pd.read_csv('Suicidios._Colombia__a_os_2016_a_2019.csv') repo_url = 'https://gist.githubusercontent.com/john-guerra/43c7656821069d00dcbc/raw/be6a6e239cd5b5b803c6e7c2ec405b793a9064dd/Colombia.geo.json' #Archivo GeoJSON col_regions_geo = requests.get(repo_url).json() fig = px.choropleth(data_frame=df, geojson = col_regions_geo, locations='Departamento', # nombre de la columna del Dataframe featureidkey='properties.NOMBRE_DPT', # ruta al campo del archivo GeoJSON con el que se hará la relación (nombre de los estados) color='Numero de casos', #El color depende de las cantidades color_continuous_scale="burg", #greens #scope="suramerica" ) fig.update_geos(showcountries=True, showcoastlines=True, showland=True, fitbounds="locations") fig.update_layout( title_text = 'Casos de suicidio en colombia', font=dict( family="Courier New, monospace", #family="Ubuntu", size=18, color="#7f7f7f" ), annotations = [dict( x=0.55, y=-0.1, xref='paper', yref='paper', text='Fuente: <a href="https://www.datos.gov.co/Justicia-y-Derecho/Suicidios-Colombia-a-os-2016-a-2019/f75u-mirk', showarrow = True )] ) fig.show()

import pandas as pd #import numpy as np import plotly.graph_objs as go import plotly.offline as pyo # para exportar en html """## Importar json con las ubicaciones por departamento""" import json from urllib.request import urlopen with urlopen('https://gist.githubusercontent.com/john-guerra/43c7656821069d00dcbc/raw/be6a6e239cd5b5b803c6e7c2ec405b793a9064dd/Colombia.geo.json') as response: counties = json.load(response) #counties """## Cargar base de datos""" # Conexión Google Drive #from google.colab import drive #drive.mount('/content/drive') df = s_corregido df """## Crear mapa""" locs = df['Departamento'] for loc in counties['features']: loc['id'] = loc['properties']['NOMBRE_DPT'] fig = go.Figure(go.Choroplethmapbox( geojson=counties, locations=locs, z=df['Numero de casos'], colorscale='Viridis', colorbar_title="Numero de casos")) fig.update_layout(mapbox_style="carto-positron", mapbox_zoom=3.4, mapbox_center = {"lat": 4.570868, "lon": -74.2973328}) fig.show()

mecanismo_suicidio = df_2["Lesion fatal de causa externa"].unique() list(mecanismo_suicidio) #El data set no proporciona la informacion de cual fue la causa de muerte ni el mecanismo empleado

suicidios_sexo = df_2#["Sexo de la victima"].value_counts() #suicidios_sexo = suicidios_sexo.groupby(["Departamento del hecho DANE","Sexo de la victima"],as_index=False).count() suicidios_sexo["Departamento del hecho DANE"] = suicidios_sexo["Departamento del hecho DANE"].str.upper().str.strip() rename_dict = {"BOYACÁ":"BOYACA", "BOGOTÁ, D.C.":"SANTAFE DE BOGOTA D.C", "ATLÁNTICO":"ATLATICO", "BOLÍVAR":"BOLIVAR", "QUINDÍO":"QUINDIO", "CÓRDOBA":"CORDOBA", "CAQUETÁ":"CAQUETA", "CHOCÓ":"CHOCO", "VAUPÉS":"VAUPES", "GUAINÍA":"GUAINIA", "ARCHIPIÉLAGO DE SAN ANDRÉS, PROVIDENCIA Y SANTA CATALINA":"ARCHIPIELAGO DE SAN ANDRES PROVIDENCIA Y SANTA CATALINA"} suicidios_sexo["Departamento del hecho DANE"] = suicidios_sexo["Departamento del hecho DANE"].replace(rename_dict) suicidios_sexo = suicidios_sexo.groupby("Departamento del hecho DANE")#.to_frame(name = 'count').reset_index() suicidios_sexo = suicidios_sexo["Sexo de la victima"].value_counts()#.reset_index(name = "Group_Count")) #suicidios_sexo = pd.dataframe(data=suicidios_sexo,columns = ["Departamento","sexo de la victima","casos por sexo"]) #suicidios_sexo = df_2[["Departamento del hecho DANE",]].groupby("Departamento del hecho DANE") suicidios_sexo = suicidios_sexo.to_frame() suicidios_sexo = suicidios_sexo.rename({'Sexo de la victima': 'casos por sexo'}, axis=1) #list(suicidios_sexo) suicidios_sexo = suicidios_sexo.reset_index() suicidios_sexo #grafica = suicidios_sexo.groupby("Departamento del hecho DANE")["Sexo de la victima"].plot(legend=True) plt.figure(figsize=(40,20)) #sbn.barplot(x="casos por sexo", y="Departamento del hecho DANE", hue="Sexo de la victima", data= suicidios_sexo, ci=None, orient = "h"); grafica_sex = sbn.barplot(x="Departamento del hecho DANE", y="casos por sexo", hue="Sexo de la victima", data= suicidios_sexo, ci=None ); grafica_sex.set_xlabel("casos por sexo", fontsize = 20) grafica_sex.set_ylabel(["Sexo de la victima"], fontsize = 20) grafica_sex.set_title("Plot", fontsize = 20) plt.legend(labels=["Departamento del hecho DANE"], fontsize = 20) grafica_sex.set_xticklabels(grafica_sex.get_xticklabels(),rotation = 90)

edades = df_2 edades["Grupo de edad de la victima"] = edades["Grupo de edad de la victima"].str.replace("más","99") edades["Grupo de edad de la victima"]

edades["limite_inferior_edad"] = edades["Grupo de edad de la victima"].str[1:3].astype("int64") edades["limite_inferior_edad"]

edades["limite_superior_edad"] = edades["Grupo de edad de la victima"].str[6:8].astype("int64") #edades1 = edades1["Grupo de edad de la victima"].unique() #edades["limite inferior"] = edades.str[1:3] edades["limite_superior_edad"]

año_del_suceso = df_2 año_del_suceso["Departamento del hecho DANE"] = año_del_suceso["Departamento del hecho DANE"].str.upper().str.strip() año_del_suceso["Departamento del hecho DANE"] = año_del_suceso["Departamento del hecho DANE"].replace(rename_dict) año_del_suceso["Año del hecho"] = año_del_suceso["Año del hecho"].astype('string').str.replace(",","") #año_del_suceso["Año del hecho"] = año_del_suceso["Año del hecho"].astype('date64') año_del_suceso["Año del hecho"] = pd.to_datetime(año_del_suceso["Año del hecho"]).dt.year #año_del_suceso["Año del hecho"] = pd.DatetimeIndex(año_del_suceso["Año del hecho"]).year año_del_suceso = año_del_suceso.groupby(["Año del hecho","Departamento del hecho DANE", "Sexo de la victima"]) año_del_suceso = año_del_suceso["Año del hecho"].value_counts().to_frame() año_del_suceso = año_del_suceso.rename({'Año del hecho': 'casos por año' }, axis=1) año_del_suceso = año_del_suceso.reset_index(level=0) año_del_suceso = año_del_suceso.drop(columns=["Año del hecho"]) año_del_suceso = año_del_suceso.reset_index() #año_del_suceso["Año del hecho"] = pd.to_datetime(año_del_suceso["Año del hecho"]) #año_del_suceso["Año del hecho"] = año_del_suceso["Año del hecho"].dt.year año_del_suceso.info()

plt.figure(figsize=(40,20)) sbn.lineplot(data=año_del_suceso, x="Año del hecho", y="casos por año", hue="Departamento del hecho DANE") #plt.legend(labels=["Legend, fontsize = 20)

edades = df_2 #Correcion de los departamentos edades["Departamento del hecho DANE"] = año_del_suceso["Departamento del hecho DANE"].str.upper().str.strip() edades["Departamento del hecho DANE"] = edades["Departamento del hecho DANE"].replace(rename_dict) #Correccion de la fecha edades["Año del hecho"] = edades["Año del hecho"].astype('string').str.replace(",","") edades["Año del hecho"] = pd.to_datetime(edades["Año del hecho"]).dt.year #agrupamiento edades = edades.groupby(["Departamento del hecho DANE","Año del hecho","Sexo de la victima", "Grupo de edad de la victima"]) edades = edades["Grupo de edad de la victima"].value_counts() #list(edades) edades

años = df_2["Año del hecho"].unique() años

from posixpath import join nuevo_data_set = df_2.copy() nuevo_data_set = join

df_2

data_base_join = "join_data_worldwide_economics_csv.csv" db_object_join = client.get_object(Bucket = bucket_name, Key = data_base_join) db_decode_join = db_object_join['Body'].read().decode('utf-8')

df_join_worl_econ = pd.read_csv(StringIO(db_decode_join), sep = ",", index_col=0) df_join_worl_econ.head(20)

df_join_worl_econ.columns

df_join_worl_econ.info()

df_join_worl_econ["gdp_per_capita ($)"] = df_join_worl_econ["gdp_per_capita ($)"].astype("int64") #df_join_worl_econ[" gdp_for_year ($) "] = df_join_worl_econ[" gdp_for_year ($) "].astype("int64")

df_join_worl_econ.info()

import statsmodels.formula.api as sm

formula1 = 'suicides_no ~ Q("gdp_per_capita ($)")' model1 = sm.ols(formula = formula1, data = df_join_worl_econ) reg1 = model1.fit() print(reg1.summary())

db_suicide_latam_pib = "suicide_latam_pib.csv" db_object_suicide_latam_pib = client.get_object(Bucket = bucket_name, Key = db_suicide_latam_pib) db_decode_suicide_latam_pib = db_object_suicide_latam_pib['Body'].read().decode('utf-8')

df_suicide_latam_pib = pd.read_csv(StringIO(db_decode_suicide_latam_pib), sep = ",") df_suicide_latam_pib.head(20)

df_suicide_latam_pib.info()

df_suicide_latam_pib["gdp_for_year(USD)"] = df_suicide_latam_pib["gdp_for_year(USD)"] .apply(lambda x: float(x.split()[0].replace(',', ''))) df_suicide_latam_pib["gdp_for_year(USD)"] = df_suicide_latam_pib["gdp_for_year(USD)"].astype("float64")

df_suicide_latam_pib.info()

df_suicide_latam_pib.columns

df_suicide_latam_pib.rename(columns = {'gdp_per_capita(USD)':'PIB capita', 'gdp_for_year(USD)':'PIB'}, inplace = True)

formula1_latam = 'total_suicide ~ Q("PIB capita")' model1_latam = sm.ols(formula = formula1_latam, data = df_suicide_latam_pib) reg1_latam = model1_latam.fit() print(reg1_latam.summary())

formula2_latam = 'total_suicide ~ PIB' model2_latam = sm.ols(formula = formula2_latam, data = df_suicide_latam_pib) reg2_latam = model2_latam.fit() print(reg2_latam.summary())

formula3_latam = 'female_suicide ~ PIB' model3_latam = sm.ols(formula = formula3_latam, data = df_suicide_latam_pib) reg3_latam = model3_latam.fit() print(reg3_latam.summary())

formula4_latam = 'male_suicide ~ PIB' model4_latam = sm.ols(formula = formula4_latam, data = df_suicide_latam_pib) reg4_latam = model4_latam.fit() print(reg4_latam.summary())

formula3_latam = 'total_suicide ~ Q("PIB capita") + PIB' model3_latam = sm.ols(formula = formula3_latam, data = df_suicide_latam_pib) reg3_latam = model3_latam.fit() print(reg3_latam.summary())

import seaborn as sns

sns.scatterplot(x = "PIB", y = "total_suicide", data=df_suicide_latam_pib, alpha=0.20, edgecolor=None, color='#0072BD')

formula6_latam = 'total_suicide ~ np.log(PIB)' model6_latam = sm.ols(formula = formula6_latam, data = df_suicide_latam_pib) reg6_latam = model6_latam.fit() print(reg6_latam.summary())

formula_latam_serie_time = 'total_suicide ~ year' model_latam_serie_time = sm.ols(formula = formula_latam_serie_time, data = df_suicide_latam_pib) reg_latam_serie_time = model_latam_serie_time.fit() print(reg_latam_serie_time.summary())

plt.figure(figsize=(30,10)) sns.scatterplot(x = "year", y = "total_suicide", data=df_suicide_latam_pib, hue="country",alpha=0.80, edgecolor=None, color='#0072BD') plt.show()

df_suicide_latam_pib[["PIB", "total_suicide"]].describe()

import plotly.express as px

px.scatter(df_suicide_latam_pib, x="PIB", y="total_suicide", animation_frame="year", animation_group="country", size="total_suicide", color="country", hover_name="country", log_x=True, size_max=55, range_x=[3.0e+08,2.7e+12], range_y=[0,12000])

df_suicide_col_pib = df_suicide_latam_pib[df_suicide_latam_pib["country"]=="Colombia"] plt.figure(figsize=(30,10)) sns.scatterplot(x = "year", y = "total_suicide", data=df_suicide_col_pib,alpha=0.80, edgecolor=None, color='#0072BD') plt.show()

db_suicide_latam_pib_100K = "suicide_latam_pib_100K.csv" db_object_suicide_latam_pib_100k = client.get_object(Bucket = bucket_name, Key = db_suicide_latam_pib_100K) db_decode_suicide_latam_pib_100k = db_object_suicide_latam_pib_100k['Body'].read().decode('utf-8')

df_suicide_latam_pib_100k = pd.read_csv(StringIO(db_decode_suicide_latam_pib_100k), sep = ",") df_suicide_latam_pib_100k.head(20)

df_suicide_latam_pib_100k["gdp_for_year(USD)"] = df_suicide_latam_pib_100k["gdp_for_year(USD)"] .apply(lambda x: float(x.split()[0].replace(',', ''))) df_suicide_latam_pib_100k["gdp_for_year(USD)"] = df_suicide_latam_pib_100k["gdp_for_year(USD)"].astype("float64")

df_suicide_latam_pib_100k.info()

df_suicide_latam_pib_100k.rename(columns = {'gdp_per_capita(USD)':'PIB capita', 'gdp_for_year(USD)':'PIB'}, inplace = True)

df_suicide_latam_pib_100k.columns

formula1_latam_100K = 'TasaSuicidios_100K ~ PIB' model1_latam_100k = sm.ols(formula = formula1_latam_100K, data = df_suicide_latam_pib_100k) reg1_latam_100k = model1_latam_100k.fit() print(reg1_latam_100k.summary())

sns.scatterplot(x = "PIB", y = "TasaSuicidios_100K", data=df_suicide_latam_pib_100k, alpha=0.20, edgecolor=None, color='#0072BD')

formula2_latam_100k = 'TasaSuicidios_100K ~ np.log(PIB)' model2_latam_100k = sm.ols(formula = formula2_latam_100k, data = df_suicide_latam_pib_100k) reg2_latam_100k = model2_latam_100k.fit() print(reg2_latam_100k.summary())

formula_latam_serie_time_100k = 'TasaSuicidios_100K ~ year' model_latam_serie_time_100k = sm.ols(formula = formula_latam_serie_time_100k, data = df_suicide_latam_pib_100k) reg_latam_serie_time_100k = model_latam_serie_time_100k.fit() print(reg_latam_serie_time_100k.summary())

plt.figure(figsize=(30,10)) sns.scatterplot(x = "year", y = "TasaSuicidios_100K", data=df_suicide_latam_pib_100k, hue="country",alpha=0.80, edgecolor=None, color='#0072BD') plt.show()

df_suicide_latam_pib_100k[["PIB", "TasaSuicidios_100K"]].describe()

px.scatter(df_suicide_latam_pib_100k, x="PIB", y="TasaSuicidios_100K", animation_frame="year", animation_group="country", size="total_suicide", color="country", hover_name="country", log_x=True, size_max=55, range_x=[3.0e+08,2.8e+12], range_y=[0,30])

df_suicide_col_pib_100k = df_suicide_latam_pib_100k[df_suicide_latam_pib_100k["country"]=="Colombia"] plt.figure(figsize=(30,10)) sns.scatterplot(x = "year", y = "TasaSuicidios_100K", data = df_suicide_col_pib_100k,alpha=0.80, edgecolor=None, color='#0072BD') plt.show()

formula4_latam_100K = 'TasaSuicidios_100K ~ Q("PIB capita")' model4_latam_100k = sm.ols(formula = formula4_latam_100K, data = df_suicide_latam_pib_100k) reg4_latam_100k = model4_latam_100k.fit() print(reg4_latam_100k.summary())

sns.scatterplot(x = "PIB", y = "TasaSuicidios_100K", data=df_suicide_latam_pib_100k, alpha=0.20, edgecolor=None, color='#0072BD')

Ancestro_Racial = pd.read_csv("Ancestro_Racial.csv", delimiter=',', encoding='latin-1') Ancestro_Racial.head(5) #Ancestro_Racial["Rango"].unique()

Ancestro_Racial["Total"] = Ancestro_Racial["Total"].str.replace(",","") Ancestro_Racial["Total"] = Ancestro_Racial["Total"].astype("int64") # # # Ancestro_Racial.info()

Ancestro_Racial["Hombre"] = Ancestro_Racial["Hombre"].str.replace(",","") Ancestro_Racial["Hombre"] = Ancestro_Racial["Hombre"].astype("int64")

Ancestro_Racial["Mujer"].unique()

#Ancestro_Racial["Mujer"] = Ancestro_Racial["Mujer"].str.replace(",","") #Ancestro_Racial["Mujer"] = Ancestro_Racial["Mujer"].str.replace("-","") #Ancestro_Racial["Mujer"] = Ancestro_Racial["Mujer"].dropna() Ancestro_Racial["Mujer"] = Ancestro_Racial["Mujer"].astype("int64")

plt.figure(figsize=(30,10)) sbn.set(style="whitegrid") sbn.lineplot(data=Ancestro_Racial, x="Ano", y="Total", hue="Rango")

plt.figure(figsize=(30,10)) sbn.lineplot(data=Ancestro_Racial, x="Ano", y="Hombre", hue="Rango")

plt.figure(figsize=(30,10)) sbn.lineplot(data=Ancestro_Racial, x="Ano", y="Mujer", hue="Rango")

Ciclo_Vital = pd.read_csv("Ciclo_Vital.csv", delimiter=',', encoding='latin-1') Ciclo_Vital.head(5)

Ciclo_Vital["Total"] = Ciclo_Vital["Total"].str.replace(",","") Ciclo_Vital["Total"] = Ciclo_Vital["Total"].astype("int64") Ciclo_Vital["Hombre"] = Ciclo_Vital["Hombre"].str.replace(",","") Ciclo_Vital["Hombre"] = Ciclo_Vital["Hombre"].astype("int64") Ciclo_Vital["Mujer"] = Ciclo_Vital["Mujer"].replace(",","") Ciclo_Vital.info()

plt.figure(figsize=(30,10)) sbn.set(style="whitegrid") sbn.lineplot(data=Ciclo_Vital, x="Ano", y="Total", hue="Rango")

GrupoEdad = pd.read_csv("GrupoEdad.csv", delimiter=',', encoding='latin-1') GrupoEdad.head(5)

GrupoEdad["Mujer"] = GrupoEdad["Mujer"].astype("int64") GrupoEdad.info()

GrupoEdad["Hombre"].unique()

plt.figure(figsize=(30,10)) sbn.set(style="whitegrid") sbn.lineplot(data=GrupoEdad, x="Ano", y="Total", hue="Rango")

Escolaridad = pd.read_csv("Escolaridad.csv", delimiter=',', encoding='latin-1') Escolaridad.head(5)

Escolaridad.info()

Escolaridad["Total"].unique()

#Escolaridad["Total"] = Escolaridad["Total"].str.contains(' - ') Escolaridad["Total"] = Escolaridad["Total"].str.replace(" - ","").dropna() Escolaridad["Total"] = Escolaridad["Total"].astype("int64") Escolaridad.info()

Estado_Conyugal = pd.read_csv("Estado_Conyugal.csv", delimiter=',', encoding='latin-1') Estado_Conyugal.head(40)

Estado_Conyugal["Rango"].unique()

Estado_Conyugal["Rango"]= Estado_Conyugal["Rango"].dropna()

Estado_Conyugal.head(40)

Estado_Conyugal["Rango"].str.contains("nan")

Mecanismo_Causal_General = pd.read_csv("Mecanismo Causal General.csv", delimiter=',', encoding='latin-1') Mecanismo_Causal_General= Mecanismo_Causal_General.drop([66, 68],axis=0) Mecanismo_Causal_General = Mecanismo_Causal_General.reset_index() Mecanismo_Causal_General[0:71]#.head(50)

Mecanismo_Causal_General.info()

Mecanismo_Causal_General["Total"] = Mecanismo_Causal_General["Total"].str.replace(",","") Mecanismo_Causal_General["Total"] = Mecanismo_Causal_General["Total"].astype("int64") Mecanismo_Causal_General["Hombre"] = Mecanismo_Causal_General["Hombre"].str.replace(",","") Mecanismo_Causal_General["Hombre"] = Mecanismo_Causal_General["Hombre"].astype("int64") Mecanismo_Causal_General["Mujer"] = Mecanismo_Causal_General["Mujer"].replace(",","") Mecanismo_Causal_General.info()

Mecanismo_Causal_General["Total"].unique()

plt.figure(figsize=(30,10)) sbn.set(style="whitegrid") sbn.lineplot(data=Mecanismo_Causal_General, x="Ano", y="Total", hue="Rango")

plt.figure(figsize=(30,10)) sbn.set(style="whitegrid") bar_graf = sns.barplot(x="Rango", y="Total", data= Mecanismo_Causal_General) bar_graf.set_xticklabels(bar_graf.get_xticklabels(),rotation = 90)