Conociendo nuestros datos de pingüinos. 🗺🧭🐧
Instalar librerías necesarias
Importar librerías
Run to view results
Establecer apariencia general de los gráficos
Run to view results
Cargar los datos
Utilizando el paquete palmerpenguins
Datos crudos
Run to view results
Datos previamente procesados
Run to view results
Utilizando los conjuntos de datos de seaborn
Run to view results
Utilizando la interfaz de Deepnote importando con PANDAS
Links de importación de datos:
Run to view results
Colecta y validación de datos
¿Qué tipo de dato son las variables del conjunto de datos?
Run to view results
¿Cuántas variables de cada tipo de dato tenemos en el conjunto de datos?
Run to view results
¿Cuántas variables y observaciones tenemos en el conjunto de datos?
Run to view results
¿Existen valores nulos explicitos en el conjunto de datos?
Run to view results
De tener observaciones con valores nulos, ¿cuántas tenemos por cada variable?
Run to view results
¿Cuántos valores nulos tenemos en total en el conjunto de datos?
Run to view results
¿Cuál es la proporción de valores nulos por cada variable?
Run to view results
¿Cómo podemos visualizar los valores nulos en todo el conjunto de datos?
Run to view results
¿Cuántas observaciones perdemos si eliminamos los datos faltantes?
Run to view results
Conteos y proporciones
Preludio: ¿Qué estadísticos describen el conjunto de datos?
Todas las variables
Run to view results
Solo las numéricas
Run to view results
Solo categóricas - 1
Run to view results
Solo categóricas - 2
Run to view results
¿Cómo visualizar los conteos?
Pandas
Run to view results
¿Cómo visualizar las proporciones?
Run to view results
Medidas de tendencia central
Media o promedio
Run to view results
Mediana
Run to view results
Moda
Run to view results
Medidas de dispersión
¿Cuál es el valor máximo de las variables? rango
Run to view results
¿Cuál es la desviación estándar de las variables?
Run to view results
¿Cuál es el rango intercuartílico?
Run to view results
Run to view results
¿Cómo puedo visualizar la distribución de una variable?
Histograma
Run to view results
Diagrama de caja / boxplot
Run to view results
Distribuciones: PMFs, CDFs y PDFs
Funciones de probabilidad de masas (PMFs)
nos dice la probabilidad que una variable DISCRETA aleatoria tome un valor determinado. ej cual es la probabilidad que en mi salon haya personas con 23 años
Utilizando seaborn
Run to view results
Utilizando empiricaldist
Run to view results
Funciones empirícas de probabilidad acumulada (ECDFs)
probabilidad que una variable DISCTRETA igual o menor a un valor ej cual es la probabilidad que en mi salon haya personas con 23 años o menos
Utilizando seaborn
Run to view results
Utilizando empiricaldist
Run to view results
Comparando distribuciones
Run to view results
Funciones de densidad de probabilidad
nos dice la probabilidad que una variable CONTINUA aleatoria tome un valor determinado. ej cual es la probabilidad qUE UN pinguino mida 2.3445, CALCULA LA PROBAIBILIDAD DE MANERA CONTINUA NO COMO PMF QUE HABIAN LUGARES QUE NO TENIAN VALOR
Run to view results
Ley de los Grandes Números y Teorema del Límite Central
Ley de los Grandes Números
si voy incrementando el tamaño de la muestra va a tender a la probabilidad teórica eje lanzar dados
Run to view results
Teorema del límite central
Run to view results
Run to view results
Estableciendo relaciones: Gráfica de puntos
Run to view results
Estableciendo relaciones: Gráficos de violín y boxplots
Run to view results
Estableciendo relaciones: Matrices de correlación
¿Existe una correlación lineal entre alguna de nuestras variables?
¿Como puedo visualizar los coeficientes de correlación?
¿Cómo podría representar una variable categórica como numérica discreta?
¿Cuál es una límitante de los coeficientes de correlación lineal?
Sólo nos ayuda a determinar la posible existencia de una correlación lineal, sin embargo, su ausencia no significa que no exista otro tipo de correlación
El coeficiente de correlación no nos habla del impacto de la relación
Estableciendo relaciones: Análisis de regresión simple
Limitaciones del análisis de regresión simple
La regresión lineal simple no es simétrica
La regresión no nos dice nada sobre la causalidad, pero existen herramientas para separar las relaciones entre varias variables
La pendiente es -0.634905, lo que significa que cada milímetro adicional de profundidad del pico es asociado a un decremento de -0.634905 milímetros de la longitud del pico de un pingüino.