#from google.colab import drive
#drive.mount('/content/drive')
import pandas as pd
import numpy as np
import seaborn as sbn
import matplotlib as mp
import requests
import plotly.express as px
import json as js
import matplotlib.pyplot as plt
!pip install boto3
import boto3
from io import StringIO
#!pip install matplotlib-venn
#!apt-get -qq install -y libfluidsynth1
!pip install plotly
aws_id = "AKIA25VNXQJI2IYIQ552"
aws_pwd = "4l7lCVhHlHXogJP4SWIioM97rhm4PqmH0zTGMeG+"
client = boto3.client('s3', aws_access_key_id = aws_id, aws_secret_access_key = aws_pwd)
bucket_name = "bucket-test103"
data_base1 = "data.csv"
db_object_1 = client.get_object(Bucket = bucket_name, Key = data_base1)
#db_object_1
db_1_decode = db_object_1['Body'].read().decode('utf-8')
df_1 = pd.read_csv(StringIO(db_1_decode), sep = ";")
df_1.head()
df_1.groupby("Country").nunique()
df_1.info()
data_base2 = "Suicidios._Colombia__a_os_2016_a_2019.csv"
db_object_2 = client.get_object(Bucket = bucket_name, Key = data_base2)
db_2_decode = db_object_2['Body'].read().decode('utf-8')
df_2 = pd.read_csv(StringIO(db_2_decode), sep = ";", index_col=0)
data_base2_original_malo = "Suicidios._Colombia__original_data.csv"
db_object_2original_malo = client.get_object(Bucket = bucket_name, Key = data_base2_original_malo)
db_2_decodeoriginal_malo = db_object_2original_malo['Body'].read().decode('utf-8')
df_2original_esteNO = pd.read_csv(StringIO(db_2_decodeoriginal_malo), sep = ";", index_col=0)
df_2original_esteNO.head(10)
df_2original_esteNO.info()
df_2original_esteNO["Dia del hecho"].value_counts()
df_2original_esteNO.tail(10)
df_2.head(10)
df_2.info()
df_2.tail(5)
departamentos = df_2["Departamento del hecho DANE"].unique()
departamentos
#df_2["numero de casos"] = df_2["Departamento del hecho DANE"].count()#.value_counts()#.groupby(["Departamento del hecho DANE"])
suicidios_dpto = df_2["Departamento del hecho DANE"].value_counts()
suicidios_dpto
suicidios_dpto = df_2["Departamento del hecho DANE"].value_counts()
#suicidios_dpto["Sexo"] = df_2["Sexo de la victima"]
#suicidios_dpto_sex =
s_corregido = suicidios_dpto.to_frame()
s_corregido = s_corregido.reset_index()
s_corregido = s_corregido.rename(columns = {"index" :"Departamento", "Departamento del hecho DANE": "Numero de casos"})
s_corregido
# Se comenta esta parte porque se corrigio el csv y esta como df_3_corregida
data_base3 = "API_COL_DS2_es_excel_v2_4148200.csv"
db_object_3 = client.get_object(Bucket = bucket_name, Key = data_base3)
db_3_decode = db_object_3['Body'].read().decode('utf-8')
df_3 = pd.read_csv(StringIO(db_3_decode), sep = ",")
#df_3.head(10)
#df_3.info()
data_base3_corregida = "datos_economicos_col.csv"
db_object_3_corregida = client.get_object(Bucket = bucket_name, Key = data_base3_corregida)
db_3_decode_corregida = db_object_3_corregida['Body'].read().decode('utf-8')
df_3_corregida = pd.read_csv(StringIO(db_3_decode_corregida), sep = ",", index_col = 0)
#df_3_corregida
df_3_clean = df_3_corregida.drop(["Tasa de incidencia de la pobreza, sobre la base de la línea de pobreza nacional (% de la población)", "Statistical performance indicators (SPI): Pillar 2 data services score (scale 0-100)", "PIB per cápita (US$ a precios constantes de 2010)","Desempleo, mujeres (% de participación femenina en la fuerza laboral) (estimación nacional)","Índice de Capital Humano, femenino, límite inferior (escala de 0 a 1)","Extracción anual de agua dulce, total (% de recursos internos)","Migración neta", "Remesas de trabajadores y compensación de empleados, recibidas (% del PIB)", "Acceso a la electricidad, sector rural (% de la población rural)"], axis=1)
df_3_clean
df_3_clean.info()
items = df_3["Indicator Name"].unique() #Vale la pena transponer la tabla? terminariamos con 1444 columnas
items.shape
df_3transp =df_3.transpose() # tabla transpuesta
#df_3transp.shape
#pd.options.display.max_columns = 1444
#df_3["Indicator Name"].list()
pd.options.display.max_columns = 150
df_3transp.head(10)
df_3transp.info()
s_corregido["Departamento"] = s_corregido["Departamento"].str.upper().str.strip()
rename_dict = {"BOYACÁ":"BOYACA",
"BOGOTÁ, D.C.":"SANTAFE DE BOGOTA D.C",
"ATLÁNTICO":"ATLATICO",
"BOLÍVAR":"BOLIVAR",
"QUINDÍO":"QUINDIO",
"CÓRDOBA":"CORDOBA",
"CAQUETÁ":"CAQUETA",
"CHOCÓ":"CHOCO",
"VAUPÉS":"VAUPES",
"GUAINÍA":"GUAINIA",
"ARCHIPIÉLAGO DE SAN ANDRÉS, PROVIDENCIA Y SANTA CATALINA":"ARCHIPIELAGO DE SAN ANDRES PROVIDENCIA Y SANTA CATALINA"}
s_corregido["Departamento"] = s_corregido["Departamento"].replace(rename_dict)#.astype("category")
#s_corregido["Departamento"] = s_corregido["Departamento"].str.replace("BOYACÁ", "BOYACA")
s_corregido
df = s_corregido#pd.read_csv('Suicidios._Colombia__a_os_2016_a_2019.csv')
repo_url = 'https://gist.githubusercontent.com/john-guerra/43c7656821069d00dcbc/raw/be6a6e239cd5b5b803c6e7c2ec405b793a9064dd/Colombia.geo.json' #Archivo GeoJSON
col_regions_geo = requests.get(repo_url).json()
fig = px.choropleth(data_frame=df,
geojson = col_regions_geo,
locations='Departamento', # nombre de la columna del Dataframe
featureidkey='properties.NOMBRE_DPT', # ruta al campo del archivo GeoJSON con el que se hará la relación (nombre de los estados)
color='Numero de casos', #El color depende de las cantidades
color_continuous_scale="burg", #greens
#scope="suramerica"
)
fig.update_geos(showcountries=True, showcoastlines=True, showland=True, fitbounds="locations")
fig.update_layout(
title_text = 'Casos de suicidio en colombia',
font=dict(
family="Courier New, monospace",
#family="Ubuntu",
size=18,
color="#7f7f7f"
),
annotations = [dict(
x=0.55,
y=-0.1,
xref='paper',
yref='paper',
text='Fuente: <a href="https://www.datos.gov.co/Justicia-y-Derecho/Suicidios-Colombia-a-os-2016-a-2019/f75u-mirk',
showarrow = True
)]
)
fig.show()
import pandas as pd
#import numpy as np
import plotly.graph_objs as go
import plotly.offline as pyo # para exportar en html
"""## Importar json con las ubicaciones por departamento"""
import json
from urllib.request import urlopen
with urlopen('https://gist.githubusercontent.com/john-guerra/43c7656821069d00dcbc/raw/be6a6e239cd5b5b803c6e7c2ec405b793a9064dd/Colombia.geo.json') as response:
counties = json.load(response)
#counties
"""## Cargar base de datos"""
# Conexión Google Drive
#from google.colab import drive
#drive.mount('/content/drive')
df = s_corregido
df
"""## Crear mapa"""
locs = df['Departamento']
for loc in counties['features']:
loc['id'] = loc['properties']['NOMBRE_DPT']
fig = go.Figure(go.Choroplethmapbox(
geojson=counties,
locations=locs,
z=df['Numero de casos'],
colorscale='Viridis',
colorbar_title="Numero de casos"))
fig.update_layout(mapbox_style="carto-positron",
mapbox_zoom=3.4,
mapbox_center = {"lat": 4.570868, "lon": -74.2973328})
fig.show()
mecanismo_suicidio = df_2["Lesion fatal de causa externa"].unique()
list(mecanismo_suicidio)
#El data set no proporciona la informacion de cual fue la causa de muerte ni el mecanismo empleado
suicidios_sexo = df_2#["Sexo de la victima"].value_counts()
#suicidios_sexo = suicidios_sexo.groupby(["Departamento del hecho DANE","Sexo de la victima"],as_index=False).count()
suicidios_sexo["Departamento del hecho DANE"] = suicidios_sexo["Departamento del hecho DANE"].str.upper().str.strip()
rename_dict = {"BOYACÁ":"BOYACA",
"BOGOTÁ, D.C.":"SANTAFE DE BOGOTA D.C",
"ATLÁNTICO":"ATLATICO",
"BOLÍVAR":"BOLIVAR",
"QUINDÍO":"QUINDIO",
"CÓRDOBA":"CORDOBA",
"CAQUETÁ":"CAQUETA",
"CHOCÓ":"CHOCO",
"VAUPÉS":"VAUPES",
"GUAINÍA":"GUAINIA",
"ARCHIPIÉLAGO DE SAN ANDRÉS, PROVIDENCIA Y SANTA CATALINA":"ARCHIPIELAGO DE SAN ANDRES PROVIDENCIA Y SANTA CATALINA"}
suicidios_sexo["Departamento del hecho DANE"] = suicidios_sexo["Departamento del hecho DANE"].replace(rename_dict)
suicidios_sexo = suicidios_sexo.groupby("Departamento del hecho DANE")#.to_frame(name = 'count').reset_index()
suicidios_sexo = suicidios_sexo["Sexo de la victima"].value_counts()#.reset_index(name = "Group_Count"))
#suicidios_sexo = pd.dataframe(data=suicidios_sexo,columns = ["Departamento","sexo de la victima","casos por sexo"])
#suicidios_sexo = df_2[["Departamento del hecho DANE",]].groupby("Departamento del hecho DANE")
suicidios_sexo = suicidios_sexo.to_frame()
suicidios_sexo = suicidios_sexo.rename({'Sexo de la victima': 'casos por sexo'}, axis=1)
#list(suicidios_sexo)
suicidios_sexo = suicidios_sexo.reset_index()
suicidios_sexo
#grafica = suicidios_sexo.groupby("Departamento del hecho DANE")["Sexo de la victima"].plot(legend=True)
plt.figure(figsize=(40,20))
#sbn.barplot(x="casos por sexo", y="Departamento del hecho DANE", hue="Sexo de la victima", data= suicidios_sexo, ci=None, orient = "h");
grafica_sex = sbn.barplot(x="Departamento del hecho DANE", y="casos por sexo", hue="Sexo de la victima", data= suicidios_sexo, ci=None );
grafica_sex.set_xlabel("casos por sexo", fontsize = 20)
grafica_sex.set_ylabel(["Sexo de la victima"], fontsize = 20)
grafica_sex.set_title("Plot", fontsize = 20)
plt.legend(labels=["Departamento del hecho DANE"], fontsize = 20)
grafica_sex.set_xticklabels(grafica_sex.get_xticklabels(),rotation = 90)
edades = df_2
edades["Grupo de edad de la victima"] = edades["Grupo de edad de la victima"].str.replace("más","99")
edades["Grupo de edad de la victima"]
edades["limite_inferior_edad"] = edades["Grupo de edad de la victima"].str[1:3].astype("int64")
edades["limite_inferior_edad"]
edades["limite_superior_edad"] = edades["Grupo de edad de la victima"].str[6:8].astype("int64")
#edades1 = edades1["Grupo de edad de la victima"].unique()
#edades["limite inferior"] = edades.str[1:3]
edades["limite_superior_edad"]
año_del_suceso = df_2
año_del_suceso["Departamento del hecho DANE"] = año_del_suceso["Departamento del hecho DANE"].str.upper().str.strip()
año_del_suceso["Departamento del hecho DANE"] = año_del_suceso["Departamento del hecho DANE"].replace(rename_dict)
año_del_suceso["Año del hecho"] = año_del_suceso["Año del hecho"].astype('string').str.replace(",","")
#año_del_suceso["Año del hecho"] = año_del_suceso["Año del hecho"].astype('date64')
año_del_suceso["Año del hecho"] = pd.to_datetime(año_del_suceso["Año del hecho"]).dt.year
#año_del_suceso["Año del hecho"] = pd.DatetimeIndex(año_del_suceso["Año del hecho"]).year
año_del_suceso = año_del_suceso.groupby(["Año del hecho","Departamento del hecho DANE", "Sexo de la victima"])
año_del_suceso = año_del_suceso["Año del hecho"].value_counts().to_frame()
año_del_suceso = año_del_suceso.rename({'Año del hecho': 'casos por año' }, axis=1)
año_del_suceso = año_del_suceso.reset_index(level=0)
año_del_suceso = año_del_suceso.drop(columns=["Año del hecho"])
año_del_suceso = año_del_suceso.reset_index()
#año_del_suceso["Año del hecho"] = pd.to_datetime(año_del_suceso["Año del hecho"])
#año_del_suceso["Año del hecho"] = año_del_suceso["Año del hecho"].dt.year
año_del_suceso.info()
plt.figure(figsize=(40,20))
sbn.lineplot(data=año_del_suceso, x="Año del hecho", y="casos por año", hue="Departamento del hecho DANE")
#plt.legend(labels=["Legend, fontsize = 20)
edades = df_2
#Correcion de los departamentos
edades["Departamento del hecho DANE"] = año_del_suceso["Departamento del hecho DANE"].str.upper().str.strip()
edades["Departamento del hecho DANE"] = edades["Departamento del hecho DANE"].replace(rename_dict)
#Correccion de la fecha
edades["Año del hecho"] = edades["Año del hecho"].astype('string').str.replace(",","")
edades["Año del hecho"] = pd.to_datetime(edades["Año del hecho"]).dt.year
#agrupamiento
edades = edades.groupby(["Departamento del hecho DANE","Año del hecho","Sexo de la victima", "Grupo de edad de la victima"])
edades = edades["Grupo de edad de la victima"].value_counts()
#list(edades)
edades
años = df_2["Año del hecho"].unique()
años
from posixpath import join
nuevo_data_set = df_2.copy()
nuevo_data_set = join
df_2
data_base_join = "join_data_worldwide_economics_csv.csv"
db_object_join = client.get_object(Bucket = bucket_name, Key = data_base_join)
db_decode_join = db_object_join['Body'].read().decode('utf-8')
df_join_worl_econ = pd.read_csv(StringIO(db_decode_join), sep = ",", index_col=0)
df_join_worl_econ.head(20)
df_join_worl_econ.columns
df_join_worl_econ.info()
df_join_worl_econ["gdp_per_capita ($)"] = df_join_worl_econ["gdp_per_capita ($)"].astype("int64")
#df_join_worl_econ[" gdp_for_year ($) "] = df_join_worl_econ[" gdp_for_year ($) "].astype("int64")
df_join_worl_econ.info()
import statsmodels.formula.api as sm
formula1 = 'suicides_no ~ Q("gdp_per_capita ($)")'
model1 = sm.ols(formula = formula1, data = df_join_worl_econ)
reg1 = model1.fit()
print(reg1.summary())
db_suicide_latam_pib = "suicide_latam_pib.csv"
db_object_suicide_latam_pib = client.get_object(Bucket = bucket_name, Key = db_suicide_latam_pib)
db_decode_suicide_latam_pib = db_object_suicide_latam_pib['Body'].read().decode('utf-8')
df_suicide_latam_pib = pd.read_csv(StringIO(db_decode_suicide_latam_pib), sep = ",")
df_suicide_latam_pib.head(20)
df_suicide_latam_pib.info()
df_suicide_latam_pib["gdp_for_year(USD)"] = df_suicide_latam_pib["gdp_for_year(USD)"] .apply(lambda x: float(x.split()[0].replace(',', '')))
df_suicide_latam_pib["gdp_for_year(USD)"] = df_suicide_latam_pib["gdp_for_year(USD)"].astype("float64")
df_suicide_latam_pib.info()
df_suicide_latam_pib.columns
df_suicide_latam_pib.rename(columns = {'gdp_per_capita(USD)':'PIB capita', 'gdp_for_year(USD)':'PIB'}, inplace = True)
formula1_latam = 'total_suicide ~ Q("PIB capita")'
model1_latam = sm.ols(formula = formula1_latam, data = df_suicide_latam_pib)
reg1_latam = model1_latam.fit()
print(reg1_latam.summary())
formula2_latam = 'total_suicide ~ PIB'
model2_latam = sm.ols(formula = formula2_latam, data = df_suicide_latam_pib)
reg2_latam = model2_latam.fit()
print(reg2_latam.summary())
formula3_latam = 'female_suicide ~ PIB'
model3_latam = sm.ols(formula = formula3_latam, data = df_suicide_latam_pib)
reg3_latam = model3_latam.fit()
print(reg3_latam.summary())
formula4_latam = 'male_suicide ~ PIB'
model4_latam = sm.ols(formula = formula4_latam, data = df_suicide_latam_pib)
reg4_latam = model4_latam.fit()
print(reg4_latam.summary())
formula3_latam = 'total_suicide ~ Q("PIB capita") + PIB'
model3_latam = sm.ols(formula = formula3_latam, data = df_suicide_latam_pib)
reg3_latam = model3_latam.fit()
print(reg3_latam.summary())
import seaborn as sns
sns.scatterplot(x = "PIB", y = "total_suicide", data=df_suicide_latam_pib, alpha=0.20, edgecolor=None, color='#0072BD')
formula6_latam = 'total_suicide ~ np.log(PIB)'
model6_latam = sm.ols(formula = formula6_latam, data = df_suicide_latam_pib)
reg6_latam = model6_latam.fit()
print(reg6_latam.summary())
formula_latam_serie_time = 'total_suicide ~ year'
model_latam_serie_time = sm.ols(formula = formula_latam_serie_time, data = df_suicide_latam_pib)
reg_latam_serie_time = model_latam_serie_time.fit()
print(reg_latam_serie_time.summary())
plt.figure(figsize=(30,10))
sns.scatterplot(x = "year", y = "total_suicide", data=df_suicide_latam_pib, hue="country",alpha=0.80, edgecolor=None, color='#0072BD')
plt.show()
df_suicide_latam_pib[["PIB", "total_suicide"]].describe()
import plotly.express as px
px.scatter(df_suicide_latam_pib, x="PIB", y="total_suicide", animation_frame="year", animation_group="country",
size="total_suicide", color="country", hover_name="country",
log_x=True, size_max=55, range_x=[3.0e+08,2.7e+12], range_y=[0,12000])
df_suicide_col_pib = df_suicide_latam_pib[df_suicide_latam_pib["country"]=="Colombia"]
plt.figure(figsize=(30,10))
sns.scatterplot(x = "year", y = "total_suicide", data=df_suicide_col_pib,alpha=0.80, edgecolor=None, color='#0072BD')
plt.show()
db_suicide_latam_pib_100K = "suicide_latam_pib_100K.csv"
db_object_suicide_latam_pib_100k = client.get_object(Bucket = bucket_name, Key = db_suicide_latam_pib_100K)
db_decode_suicide_latam_pib_100k = db_object_suicide_latam_pib_100k['Body'].read().decode('utf-8')
df_suicide_latam_pib_100k = pd.read_csv(StringIO(db_decode_suicide_latam_pib_100k), sep = ",")
df_suicide_latam_pib_100k.head(20)
df_suicide_latam_pib_100k["gdp_for_year(USD)"] = df_suicide_latam_pib_100k["gdp_for_year(USD)"] .apply(lambda x: float(x.split()[0].replace(',', '')))
df_suicide_latam_pib_100k["gdp_for_year(USD)"] = df_suicide_latam_pib_100k["gdp_for_year(USD)"].astype("float64")
df_suicide_latam_pib_100k.info()
df_suicide_latam_pib_100k.rename(columns = {'gdp_per_capita(USD)':'PIB capita', 'gdp_for_year(USD)':'PIB'}, inplace = True)
df_suicide_latam_pib_100k.columns
formula1_latam_100K = 'TasaSuicidios_100K ~ PIB'
model1_latam_100k = sm.ols(formula = formula1_latam_100K, data = df_suicide_latam_pib_100k)
reg1_latam_100k = model1_latam_100k.fit()
print(reg1_latam_100k.summary())
sns.scatterplot(x = "PIB", y = "TasaSuicidios_100K", data=df_suicide_latam_pib_100k, alpha=0.20, edgecolor=None, color='#0072BD')
formula2_latam_100k = 'TasaSuicidios_100K ~ np.log(PIB)'
model2_latam_100k = sm.ols(formula = formula2_latam_100k, data = df_suicide_latam_pib_100k)
reg2_latam_100k = model2_latam_100k.fit()
print(reg2_latam_100k.summary())
formula_latam_serie_time_100k = 'TasaSuicidios_100K ~ year'
model_latam_serie_time_100k = sm.ols(formula = formula_latam_serie_time_100k, data = df_suicide_latam_pib_100k)
reg_latam_serie_time_100k = model_latam_serie_time_100k.fit()
print(reg_latam_serie_time_100k.summary())
plt.figure(figsize=(30,10))
sns.scatterplot(x = "year", y = "TasaSuicidios_100K", data=df_suicide_latam_pib_100k, hue="country",alpha=0.80, edgecolor=None, color='#0072BD')
plt.show()
df_suicide_latam_pib_100k[["PIB", "TasaSuicidios_100K"]].describe()
px.scatter(df_suicide_latam_pib_100k, x="PIB", y="TasaSuicidios_100K", animation_frame="year", animation_group="country",
size="total_suicide", color="country", hover_name="country",
log_x=True, size_max=55, range_x=[3.0e+08,2.8e+12], range_y=[0,30])
df_suicide_col_pib_100k = df_suicide_latam_pib_100k[df_suicide_latam_pib_100k["country"]=="Colombia"]
plt.figure(figsize=(30,10))
sns.scatterplot(x = "year", y = "TasaSuicidios_100K", data = df_suicide_col_pib_100k,alpha=0.80, edgecolor=None, color='#0072BD')
plt.show()
formula4_latam_100K = 'TasaSuicidios_100K ~ Q("PIB capita")'
model4_latam_100k = sm.ols(formula = formula4_latam_100K, data = df_suicide_latam_pib_100k)
reg4_latam_100k = model4_latam_100k.fit()
print(reg4_latam_100k.summary())
sns.scatterplot(x = "PIB", y = "TasaSuicidios_100K", data=df_suicide_latam_pib_100k, alpha=0.20, edgecolor=None, color='#0072BD')
Ancestro_Racial = pd.read_csv("Ancestro_Racial.csv",
delimiter=',',
encoding='latin-1')
Ancestro_Racial.head(5)
#Ancestro_Racial["Rango"].unique()
Ancestro_Racial["Total"] = Ancestro_Racial["Total"].str.replace(",","")
Ancestro_Racial["Total"] = Ancestro_Racial["Total"].astype("int64")
#
#
#
Ancestro_Racial.info()
Ancestro_Racial["Hombre"] = Ancestro_Racial["Hombre"].str.replace(",","")
Ancestro_Racial["Hombre"] = Ancestro_Racial["Hombre"].astype("int64")
Ancestro_Racial["Mujer"].unique()
#Ancestro_Racial["Mujer"] = Ancestro_Racial["Mujer"].str.replace(",","")
#Ancestro_Racial["Mujer"] = Ancestro_Racial["Mujer"].str.replace("-","")
#Ancestro_Racial["Mujer"] = Ancestro_Racial["Mujer"].dropna()
Ancestro_Racial["Mujer"] = Ancestro_Racial["Mujer"].astype("int64")
plt.figure(figsize=(30,10))
sbn.set(style="whitegrid")
sbn.lineplot(data=Ancestro_Racial, x="Ano", y="Total", hue="Rango")
plt.figure(figsize=(30,10))
sbn.lineplot(data=Ancestro_Racial, x="Ano", y="Hombre", hue="Rango")
plt.figure(figsize=(30,10))
sbn.lineplot(data=Ancestro_Racial, x="Ano", y="Mujer", hue="Rango")
Ciclo_Vital = pd.read_csv("Ciclo_Vital.csv",
delimiter=',',
encoding='latin-1')
Ciclo_Vital.head(5)
Ciclo_Vital["Total"] = Ciclo_Vital["Total"].str.replace(",","")
Ciclo_Vital["Total"] = Ciclo_Vital["Total"].astype("int64")
Ciclo_Vital["Hombre"] = Ciclo_Vital["Hombre"].str.replace(",","")
Ciclo_Vital["Hombre"] = Ciclo_Vital["Hombre"].astype("int64")
Ciclo_Vital["Mujer"] = Ciclo_Vital["Mujer"].replace(",","")
Ciclo_Vital.info()
plt.figure(figsize=(30,10))
sbn.set(style="whitegrid")
sbn.lineplot(data=Ciclo_Vital, x="Ano", y="Total", hue="Rango")
GrupoEdad = pd.read_csv("GrupoEdad.csv", delimiter=',', encoding='latin-1')
GrupoEdad.head(5)
GrupoEdad["Mujer"] = GrupoEdad["Mujer"].astype("int64")
GrupoEdad.info()
GrupoEdad["Hombre"].unique()
plt.figure(figsize=(30,10))
sbn.set(style="whitegrid")
sbn.lineplot(data=GrupoEdad, x="Ano", y="Total", hue="Rango")
Escolaridad = pd.read_csv("Escolaridad.csv", delimiter=',', encoding='latin-1')
Escolaridad.head(5)
Escolaridad.info()
Escolaridad["Total"].unique()
#Escolaridad["Total"] = Escolaridad["Total"].str.contains(' - ')
Escolaridad["Total"] = Escolaridad["Total"].str.replace(" - ","").dropna()
Escolaridad["Total"] = Escolaridad["Total"].astype("int64")
Escolaridad.info()
Estado_Conyugal = pd.read_csv("Estado_Conyugal.csv", delimiter=',', encoding='latin-1')
Estado_Conyugal.head(40)
Estado_Conyugal["Rango"].unique()
Estado_Conyugal["Rango"]= Estado_Conyugal["Rango"].dropna()
Estado_Conyugal.head(40)
Estado_Conyugal["Rango"].str.contains("nan")
Mecanismo_Causal_General = pd.read_csv("Mecanismo Causal General.csv", delimiter=',', encoding='latin-1')
Mecanismo_Causal_General= Mecanismo_Causal_General.drop([66, 68],axis=0)
Mecanismo_Causal_General = Mecanismo_Causal_General.reset_index()
Mecanismo_Causal_General[0:71]#.head(50)
Mecanismo_Causal_General.info()
Mecanismo_Causal_General["Total"] = Mecanismo_Causal_General["Total"].str.replace(",","")
Mecanismo_Causal_General["Total"] = Mecanismo_Causal_General["Total"].astype("int64")
Mecanismo_Causal_General["Hombre"] = Mecanismo_Causal_General["Hombre"].str.replace(",","")
Mecanismo_Causal_General["Hombre"] = Mecanismo_Causal_General["Hombre"].astype("int64")
Mecanismo_Causal_General["Mujer"] = Mecanismo_Causal_General["Mujer"].replace(",","")
Mecanismo_Causal_General.info()
Mecanismo_Causal_General["Total"].unique()
plt.figure(figsize=(30,10))
sbn.set(style="whitegrid")
sbn.lineplot(data=Mecanismo_Causal_General, x="Ano", y="Total", hue="Rango")
plt.figure(figsize=(30,10))
sbn.set(style="whitegrid")
bar_graf = sns.barplot(x="Rango", y="Total", data= Mecanismo_Causal_General)
bar_graf.set_xticklabels(bar_graf.get_xticklabels(),rotation = 90)