El Inicio de mi viaje en Ciencia de Datos
Que hay mi querido ser del otro lado de la pantalla, el día de hoy vengo a contarles un poco de lo que ha sido mi viaje dentro del mundo de la Ciencia de Datos como un completo novicio que no tenía ni la más remota idea de lo que le deparaba al querer aprender sobre esta fascinante área de la programación.
Y claro, esto no es una master class sobre cómo iniciar en el Data Science, son más bien las anécdotas de un joven que se adentro con curiosidad en este mundillo y que ahora quiere compartir lo poco que ha aprendido con la intención de facilitar en algo, por lo menos, la llegada de nuevos curiosos.
Así que comencemos...
Lo único que sé, es que no sé nada
Esta de arriba es la mejor frase que puedo usar para definir la sensación que tenía cuando me propuse iniciar en el mundo de los datos, y dicho así podría parecer que llevo mucho en esto, la realidad es muy distinta. A fecha de hoy que escribo este notebook llevo alrededor de dos meses aprendiendo por cuenta propia sobre el tema y la verdad es que en comparación al inicio hoy sé mucho más que hace dos meses, pero también entiendo que apenas estoy rozando la superficie del tema.
Así que si tú que estás leyendo esto y te motiva a aprender, primero que nada un "Felicitaciones".
Segundo, un consejo, paciencia amigo mío, este es un camino largo en el que no gana el más rápido, sino el que más aguanta. Resiliencia ante todo.
Pero por dónde iniciar en este basto mundo repleto de datos de todo tipo, artículos que aconsejan lenguajes de programación, jerga un tanto extraña, muchos terminos en ingles, modelos de machine learning, matemáticas y por si esto fuera poco, todo lo anterior aplicado a otras áreas de industrias como la agricultura o los bienes raíces.
Empápate del tema
Pues primero que nada mi consejo es que empieces por empaparte del tema, llénate de conocimiento y lee todo articulo que te parezca interesante. Mira videos en youtube, actualmente no hay tantos canales de ciencia de datos en español pero hay algunos que valen mucho la pena para aprender sobre este mundo y motivarte aún más.
Aquí algunos canales muy recomendados:
Lo importante aquí no es memorizar todo lo que lees sino entender el contexto global del mundo de los datos, muchos términos se van a estar repitiendo de forma constante y entre más leas te darás cuenta de aquellos puntos importantes por los que podría ser bueno comenzar a investigar.
Así que empápate del tema. Anota lo que te parezca importante. E investiga.
Ahora que sé un poco más, ¿Que sigue?
Si indagas lo suficiente es más que probable que termines por encontrar este diagrama de Venn que explica cuales son las áreas que un Científico de Datos debe conocer y cómo se relacionan estas entre sí:
Entonces con este diagrama en mente podemos comenzar a desglosar un poco mejor de qué va todo este tema de la ciencia de datos. Ahora sabemos que tenemos que desarrollar nuestra parte informática, debemos entender las matemáticas detrás de todo este asunto y finalmente sería muy conveniente que nos familiarizaramos con el área en la que deseamos aplicar todos nuestros conocimientos.
Hacking Skills
Como ya mencionamos antes estas habilidades se enfocan en las destrezas informáticas, esto puede abarcar muchas áreas pero para dejarlo simple vamos a mencionar la decisión que probablemente más peso tendrá en un comienzo.
Esta decisión es el lenguaje de programación que usaremos. En la actualidad se puede hacer ciencia de datos con varios lenguajes de programación sin embargo si queremos ser prácticos la lista se reduce solo a dos: R y Python.
En mi caso personal elegí Python porque era un lenguaje que ya conocía y de esta forma no tenía que aprender desde cero uno nuevo, cosa que hubiera consumido una considerable cantidad de tiempo. Esto no quiere decir que R sea una mala elección, es más, un Data Science integral debería poder trabajar con ambos lenguajes (o es lo que he leído).
Pero conocer la sintaxis básica del lenguaje no lo es todo, es solo el principio. Ahora vienen las librerías dedicadas a la ciencia de datos, de las cuales Python cuenta con muchas en su rico ecosistema.
Las principales que se recomiendan aprender para comenzar a hacer nuestros primeros experimentos con datos reales son:
Numpy
Esta será la primera librería que aprenderemos ya que proporciona a los arrays normales de python superpoderes, esta estructura de datos nos servirá después para crear DataFrames pero es importante primero conocer cuál es su función y que nos permite hacer este gran herramienta.
Aquí un rápido ejemplo de como importar esta librería y algo de su uso:
Pandas
Ahora es el turno de Pandas, y no me refiero a la bonita especie de osos chinos, sino a la librería que nos permite crear la estructura de datos que predomina en el entorno de la Ciencia de Datos, el DataFrame.
Un DataFrame no es más que una tabla con filas y columnas donde se organizan los datos, muy similar a lo que hacen las bases de datos relacionales.
Y aunque existen otras estructuras usadas en este mundo de los datos como las series de tiempo, la realidad es que muy frecuentemente nos estaremos enfrentando con DataFrames por lo que es fundamental saber cómo crearlos y manipularlos a nuestro antojo y conveniencia.
Un pequeño ejemplo de como se ve un DataFrame de Pandas:
Matplotlib
Por ultimo tenemos a Matplotlib que estará a nuestro servicio a la hora de representar nuestros datos en gráficas, de esta forma podremos comparar unos datos con otros, presentarlos de una forma más limpia y clara, dar a conocer nuestros hallazgos y descubrir cosas que de otra forma hubieran sido muy difíciles de ver.
Claro, esta librería puede tomar algo de tiempo ser dominada por la variedad de gráficos que nos provee, hay que saber interpretar estos gráficos además de saber para qué sirve cada uno y en qué casos concretos nos benefician.
Además de lo anterior hay que resaltar que Matplotlib nos permite una edición milimétrica de cada una de nuestras gráficas.
Aquí un pequeño ejemplo:
Math & Statistics Knowledge
El conocimiento matematico y estadistico nos sera indispensable a la hora de desarrollarnos como Científicos de Datos, aun así, este también tiende a ser el área más intimidante para la mayoría de las personas pero no te asustes amigo mio, las matemáticas que veremos aquí son muy simples de entender.
Primero que nada hay que dividir los conocimientos básicos matemáticos de los conocimientos básicos estadísticos, los primeros son fundamentales para poder avanzar a los segundos.
Digo esto porque en mi caso personal tuve que regresar a lo más básico de la matemática y reforzar este conocimiento para sentirme cómodo al dar el siguiente paso, hoy por hoy ya tengo una mejor comprensión de esta área, que admito pensé sería puro sufrimiento. La realidad es muy diferente cuando estudias por gusto y con ánimos de mejorar, las matemáticas siguen reglas sencillas que debes conocer para poder sumar nuevos temas sobre los anteriores, es el desconocimiento de estos temas básicos lo que complejiza el aprendizaje posterior.
En cuanto a la estadística existen dos tipos importantes en Ciencia de Datos, la Estadística Descriptiva y la Estadística Inferencial.
La Estadística Descriptiva presenta resúmenes de un conjunto de datos y pone de manifiesto sus características, a través de una serie de valores, para de esta forma describir determinados aspectos de la serie.
La Estadística Inferencial trata de estimar las características del universo estadístico a través del estudio de una parte de este universo (muestra), para predecir su comportamiento a partir del resultado de la muestra.
Una vez tenemos una pequeña noción de estas dos áreas de la estadística toca elegir por dónde iniciar y no te rompas mucho la cabeza ya que yo te haré una recomendación acerca de esto, lo mejor es comenzar por la Estadística Descriptiva ya que nos facilitara nuestros primeros análisis de datos.
Pero en que debemos enfocarnos al aprender estadística, pues dejame decirte que para empezar a analizar datos e interpretar estos solo hacen falta unos pequeños conocimientos para entender cómo se comportan nuestros datos dentro del conjunto.
Medidas de Tendencia Central
Las Medidas de Tendencia Central nos permiten conocer la distribución de nuestros datos dentro del conjunto, entender cómo se repiten los datos y en donde se encuentra la mayor concentración de estos.
Aquí conviene conocer las medidas más comunes como lo son:
Tambien es conveniente ir familiarizandose con medidas derivadas de estas como lo pueden ser:
Medidas de Dispersión
Las Medidas de Dispersión son números que indican si una variable se mueve mucho, poco, más o menos que otra. La razón de ser de este tipo de medidas es conocer de manera resumida una característica de la variable estudiada. En este sentido, deben acompañar a las medidas de tendencia central. Juntas, ofrecen información de un sólo vistazo que luego podremos utilizar para comparar y, si fuera preciso, tomar decisiones.
(Medidas de dispersión, José Francisco López, https://economipedia.com/definiciones/medidas-de-dispersion.html)
Será muy interesante conocer entonces:
Visualización de Datos
De forma breve me gustaría mencionar una vez más a la Visualización de Datos ya que está fuertemente vinculada a la Ciencia Estadística debido a su utilidad al momento de representar datos de una manera clara y visual.
Y puede sonar sencillo el mero hecho de crear gráficos con los datos que tenemos, sin embargo esto no quiere decir que se deba descuidar el aprender más acerca de esta área ya que se debería cumplir con un conjunto de buenas prácticas a la hora de presentar datos.
Además de esto el universo de gráficos que tenemos a nuestra disposición hoy por hoy es inmenso, esto sin mencionar el increíble abanico de opciones que tenemos al momento de combinar gráficos para dar a entender algún punto.
Te aconsejo que juegues mucho con esto y empieces a ver diferentes estudios que presenten datos con gráficos, comienza a interpretar estas presentaciones y ve las ventajas y desventajas de cada una.
Substantive Expertise
Aquí descansa el conocimiento del negocio al que nos vamos a dedicar, la Ciencia de Datos engloba un conjunto de diferentes disciplinas como pudimos ver pero es el conocimiento del negocio la que siempre está variando ya que debido al masivo aumento de datos en casi todas las industrias la Ciencia de Datos puede ser aplicada a todas ellas de diferentes maneras.
Es por esto que un Data Science además de conocer bien sus herramientas informáticas y tener buenas nociones matemáticas, debe tener un gran dominio de su área de estudio, su negocio o la industria donde se va desarrollar.
Por este motivo en los últimos años se han visto doctores, psicólogos, marketers, financistas, sociólogos y otro varios profesionales que poco tenían que ver con el mundo informático haciendo esfuerzos para dominar la Ciencia de Datos. Esto es porque debido a su gran dominio del área de acción de los datos que manejan pueden conseguir resultados magníficos al trabajar con estos.
Saben exactamente lo que esperan conseguir y saben qué preguntas hacerle a sus datos para alcanzar objetivos.
Para un informático esta puede ser la parte más complicada ya que se escapa de nuestra zona de confort, los computadores, y nos obliga a prender asuntos relacionados con otras áreas del saber o industrias.
Pero recuerda que un buen Científico de Datos se caracteriza por tener una insaciable hambre de conocimientos, así que animo mi querido ser del otro lado de la pantalla.