Conociendo nuestros datos de pingüinos. 🗺🧭🐧
Instalar librerías necesarias
Importar librerías
Run to view results
Establecer apariencia general de los gráficos
Run to view results
Cargar los datos
Utilizando el paquete palmerpenguins
Datos crudos:
Run to view results
Datos previamente procesados
Run to view results
Utilizando los conjuntos de datos de seaborn
Run to view results
Utilizando la interfaz de Deepnote
Links de importación de datos:
Run to view results
Run to view results
Colecta y validación de datos
¿Qué tipo de dato son las variables del conjunto de datos?
Run to view results
¿Cuántas variables de cada tipo de dato tenemos en el conjunto de datos?
Run to view results
¿Cuántas variables y observaciones tenemos en el conjunto de datos?
Run to view results
¿Existen valores nulos explicitos en el conjunto de datos?
Run to view results
De tener observaciones con valores nulos, ¿cuántas tenemos por cada variable?
Run to view results
¿Cuántos valores nulos tenemos en total en el conjunto de datos?
Run to view results
¿Cuál es la proporción de valores nulos por cada variable?
Run to view results
¿Cómo podemos visualizar los valores nulos en todo el conjunto de datos?
Run to view results
¿Cuántas observaciones perdemos si eliminamos los datos faltantes?
Run to view results
Conteos y proporciones
Preludio: ¿Qué estadísticos describen el conjunto de datos?
Todas las variables
Run to view results
Solo las numéricas
Run to view results
Solo categóricas - 1
Run to view results
Solo categóricas - 2
Run to view results
¿Cómo visualizar los conteos?
Pandas
Run to view results
Seaborn
Run to view results
Run to view results
¿Cómo visualizar las proporciones?
Run to view results
Run to view results
Medidas de tendencia central
Media o promedio
Run to view results
Run to view results
Run to view results
Mediana
Run to view results
Moda
Run to view results
Run to view results
Medidas de dispersión
¿Cuál es el valor máximo de las variables?
Run to view results
¿Cuál es el valor mínimo de las variables?
Run to view results
¿Cuál es el rango de las variables?
Run to view results
¿Cuál es la desviación estándar de las variables?
Run to view results
¿Cuál es el rango intercuartílico?
Run to view results
Run to view results
Run to view results
¿Cómo puedo visualizar la distribución de una variable?
Histograma
Run to view results
Run to view results
Diagrama de caja / boxplot
Run to view results
Limitaciones
Run to view results
Run to view results
Distribuciones: PMFs, CDFs y PDFs
Funciones de probabilidad de masas (PMFs)
Utilizando seaborn
Run to view results
Utilizando empiricaldist
Run to view results
Run to view results
Run to view results
Run to view results
Funciones empirícas de probabilidad acumulada (ECDFs)
Utilizando seaborn
Run to view results
Utilizando empiricaldist
Run to view results
Run to view results
Run to view results
Comparando distribuciones
Run to view results
Funciones de densidad de probabilidad
Run to view results
Run to view results
Run to view results
Run to view results
Ley de los Grandes Números y Teorema del Límite Central
Ley de los Grandes Números
Run to view results
Run to view results
Teorema del límite central
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Estableciendo relaciones: Gráfica de puntos
Run to view results
Run to view results
Run to view results
Run to view results
Estableciendo relaciones: Gráficos de violín y boxplots
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Estableciendo relaciones: Matrices de correlación
¿Existe una correlación lineal entre alguna de nuestras variables?
Run to view results
¿Como puedo visualizar los coeficientes de correlación?
Run to view results
Run to view results
¿Cómo podría representar una variable categórica como numérica discreta?
Run to view results
Run to view results
¿Cuál es una límitante de los coeficientes de correlación lineal?
Sólo nos ayuda a determinar la posible existencia de una correlación lineal, sin embargo, su ausencia no significa que no exista otro tipo de correlación
Run to view results
Run to view results
Run to view results
El coeficiente de correlación no nos habla del impacto de la relación
Run to view results
Estableciendo relaciones: Análisis de regresión simple
Run to view results
Run to view results
Run to view results
Run to view results
Limitaciones del análisis de regresión simple
La regresión lineal simple no es simétrica
Run to view results
Run to view results
Run to view results
La regresión no nos dice nada sobre la causalidad, pero existen herramientas para separar las relaciones entre varias variables
La pendiente es -0.634905, lo que significa que cada milímetro adicional de profundidad del pico es asociado a un decremento de -0.634905 milímetros de la longitud del pico de un pingüino.
Run to view results
Run to view results
Análisis de regresión múltiple
Olvidé mi báscula para pesar a los pingüinos, ¿Cuál sería la mejor forma de capturar ese dato?
Creando modelos
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Visualizando resultados
Run to view results
Run to view results
Run to view results
Run to view results
Análisis de regresión logística
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Run to view results
Paradoja de Simpson
Run to view results
Run to view results
Run to view results
Run to view results
Información de sesión
Run to view results