Accidentalidad en Barranquilla
Nombre: Mariana Arboleda
Vamos a continuar explorando nuestros datos, ahora directamente en Python, sin utilizar interfaces gráficas
Siempre importamos los paquetes que vamos a utilizar. En este caso utilizamos Pandas para el manejo de los datos y Plotly para graficar (existen muchas más librerías, pero esta es mi favorita)
Luego leemos los datos y exploramos sus características básicas
El resultado anterior significa que nuestros datos tienen 42178 filas y 11 columnas y lo podemos imprimir así:
Por último revisamos qué tan completos están los datos.
Hay muchos datos nulos en las variables CANT_MUERTOS_... y en CANT_HERIDOS_EN... veamos de qué se trata.
Preprocesamiento
A este paso de "dejar los datos listos" lo llamamos preprocesamiento de datos (data wrangling en los tutoriales de internet). Empecemos por entender qué son los datos nulos y cómo los podemos "rellenar"
¿Qué significan los datos nulos? (responde en wooclap)
"Rellenemos" los datos nulos con un valor más significativo
Ya sabemos qué datos tenemos. Ahora, a pensar como detectives
¿Qué nos podemos preguntar? (Responde en wooclap)
¿Qué día suelen suceder más accidentes?
Variable de interés: Cantidad TOTAL de accidentes
Respecto a: los días de la semana
Método de agrupación: suma
El código de abajo crea una tabla dinámica de los datos. En index va la variable que quiero en el eje X, en values va la variable que quiero en el eje Y
Pero no tiene sentido ordenar alfabéticamente los días. agregamos el argumento category_orders
¿Cómo ha cambiado la cantidad de accidentes según la gravedad, en los últimos años?
Variable de interés: Cantidad de accidentes
Respecto a: Año y gravedad
Agrupación: suma