Proyecto Limpieza de Datos con SQL 📊
Este proyecto tiene como objetivo destacar la importancia de la limpieza de datos en el mundo del análisis de datos y cómo esta fase crítica sienta las bases para la toma de decisiones informadas y resultados precisos en cualquier iniciativa de análisis. A lo largo del proyecto se usarán las mejores practicas y técnicas con el fin de identificar y transformar una fuente de datos con errores e inconsistencias en un dataset final apto para el analisis y con los requerimientos del cliente.
Herramientas 🛠️
Para realizar esta tarea se usó el gestor de datos MySQL
Contexto y Dataset del Proyecto.
Se toma el dataset de una empresa la cual organiza sus empleados por distintas areas, además especificando datos como el salario, fecha de cumpleaños y fecha de inicio con la compañia.
El Dataset del proyecto es tomado de la web Kaggle, donde se suministra un archivo .csv con datos de una compañia ficticia.
Requerimiento de Limpieza de Datos a Resolver 🧹
Ejecución Limpieza de Datos con MySQL
Run to view results
Resultados ✅
Con el fin de mostrar el cumplimiento de los requerimientos establecidos, a continuacion se muestran unas imagenes de la ejecución realizada en MySQL
1. Estado de la Tabla Inicial.
2. Cantidad de registros antes de la limpieza, cantidad de registros duplicados y cantidad de registros posterior a la limpieza.
3. Visualización espacios en blanco en las columnas y posterior eliminación de estos.
4. Traducción Columna gender.
5. Asignación tipo de contrato.
6. Correcto formato columna salary, start_date y finish_date.
7. Adición Columnas requeridas.
8. Tabla final, limpia y lista para el Analisis.
-----FIN LIMPIEZA DE DATOS----
Bonus 💡
Una vez realizado la limpieza de datos se puede proceder a realizar un analisis de los mismos con el fin de responder preguntas empresariales que permitan tomar decisiones basadas en hechos. Así, a continuación se presentan las siguientes 5 consultas de ejemplo, las cuales pueden tener relevancia para la compañia.
Run to view results
Resultados consultas ✅
¿Cuantos registros hay por cada valor distinto de la columna area?
¿Cuál es la proporción de género dependiendo el tipo de contrato?
¿Cuántos empleados se encuentran por encima de la edad promedio?
¿Cuáles son los dos empleados con el mayor salario en cada una de las areas?
¿Cualés son la cantidad de cumpleaños que ocurren en cada mes?
Conclusiones 📌
La limpieza de datos emerge como un pilar inquebrantable en el mundo del análisis de datos. A lo largo de este proyecto, hemos explorado su importancia crítica en la transformación de datos crudos en información valiosa. Este proceso minucioso no solo garantiza la confiabilidad de los resultados, sino que también habilita a los interesados a tomar decisiones más informadas y estratégicas. La detección y corrección de errores, valores atípicos y datos inconsistentes son pasos esenciales que allanan el camino para un análisis preciso y robusto. Los analistas de datos, al dominar esta fase inicial, pueden proporcionar insights confiables que respalden la toma de decisiones empresariales, promoviendo así un enfoque basado en datos en todas las facetas de la organización. En última instancia, la limpieza de datos no es solo una tarea, sino una inversión crucial para el éxito continuo en el emocionante mundo del análisis de datos.