Ejercicios resueltos del capítulo 1, sección 1 del libro:
Jay L. Devore, Kenneth N. Berk, Matthew A. Carlton - Modern Mathematical Statistics with Applications (Springer Texts in Statistics)-Springer (2021)
Dé una posible muestra de tamaño 4 de cada una de las siguientes poblaciones:
En este caso las muestras provienen de poblaciones definidas. La selección es a criterio propio, no aleatoriamente.
Todos los diarios publicados en los EE.UU.
Houston Chronicle
DesMoines Register
Chicago Tribune
Washington Post
Todas las empresas que cotizan en la Bolsa de Valores de Nueva York.
Capital One
Campbell Soup
Merrill Lynch
Pulitzer
Todos los estudiantes de tu colegio o universidad.
Alberto Bautista
John Galvan
Jashir Canlla
Luis Enrique
Todos los promedios de calificaciones de los estudiantes en su colegio o universidad.
14.3
13.1
11.2
15.8
Para cada una de las siguientes poblaciones hipotéticas, dé una muestra plausible de tamaño 4:
Una población conceptual o hipotética es una población que actualmente no existe. La población podría derivarse de todos los posibles resultados que podrían observarse en condiciones experimentales similares.
Todas las distancias que pueden resultar cuando lanzas una pelota de fútbol.
29.1 yd.
28.3 yd.
24.7 yd.
31.0 yd.
Longitud de página de libros publicados dentro de 5 años.
432
196
184
321
Todas las medidas posibles de fuerza sísmica (escala de Richter) que podrían registrarse en California durante el próximo año.
2.1
4.0
3.2
6.3
Todos los rendimientos posibles (en gramos) de una determinada reacción química llevada a cabo en un laboratorio.
0.07 g
1.58 g
7.1 g
27.2 g
Considere la población que consiste en todos los teléfonos celulares de una determinada marca y modelo, y concéntrese en si un teléfono celular necesita servicio mientras está en garantía.
Aquí vemos que la población esta bien definida.
Plantee varias preguntas de probabilidad basadas en la selección de una muestra de 100 de estos teléfonos celulares.
En probabilidad conocemos o asumimos que conocemos las propiedades de la población de estudio para luego plantear y responder preguntas acerca de muestras.
¿Cuáles son las posibilidades de que más de 20 necesiten servicio mientras están en garantía?
¿Cuáles son las posibilidades de que ninguno necesite servicio mientras aún está en garantía?
¿Cuántos teléfonos podemos esperar que necesiten servicio mientras estén en garantía?
¿Qué pregunta de estadística inferencial podría responderse al determinar la cantidad de teléfonos celulares de este tipo en una muestra de tamaño 100 que necesitan servicio de garantía?
Se debe conocer la incertidumbre de tomar esta muestra de la población en estudio para que podamos entender que nos dice esta muestra sobre la población.
¿Qué proporción de todos los teléfonos de esta marca y modelo necesitará servicio dentro del período de garantía?
Dé tres ejemplos diferentes de poblaciones concretas y tres ejemplos diferentes de poblaciones hipotéticas. Para cada una de sus poblaciones concretas e hipotéticas, dé un ejemplo de una pregunta de probabilidad y un ejemplo de una pregunta de estadística inferencial.
Las poblaciones concretas incluyen: todos los ciudadanos estadounidenses vivos, todos los fondos mutuos comercializados en los EE. UU., todos los libros publicado en 2019. Para la población de todos los fondos mutuos, las posibles preguntas incluyen
Probabilidad: en una muestra de 5 fondos mutuos, ¿cuál es la posibilidad de que los 5 tengan tasas de rendimiento que superó el 10% el año pasado?
Inferencia estadística: si las tasas de rendimiento del año anterior para 5 fondos mutuos fueron 9.6, 14.5, 8.3, 9.9 y 10.2, ¿podemos concluir que la tasa promedio para todos los fondos estuvo por debajo del 10%?
Las poblaciones hipotéticas incluyen: todos los promedios de calificaciones de estudiantes universitarios de la Universidad de California durante el próximo año académico, la longitud de las páginas de todos los libros publicados durante el próximo año calendario, promedios de todos los jugadores de las Grandes Ligas durante la próxima temporada de béisbol. Para la población de longitud de página, posibles preguntas incluyen
Probabilidad: en una muestra de 10 libros que se publicarán el próximo año, ¿Qué probabilidad hay de que el número promedio de paginas para el 10 esta entre 200 y 250?
Inferencia estadística: si el promedio muestral de páginas de 10 libros es 227, ¿podemos estar muy seguros de que el promedio de todos los libros está entre 200 y 245?
Los autores del artículo “From Dark to Light: Skin Color and Wages between African Americans” (J. of Human Resources 2007: 701–738) investigaron la asociación entre la oscuridad de la piel y los salarios por hora. Para una muestra de 948 afroamericanos, el color de la piel se clasificó como negro oscuro, negro medio, negro claro o blanco.
¿Qué variables se registraron para cada miembro de la muestra?
Una variable es una característica que cambia de un sujeto a otro.
Se registraron (al menos) dos variables: color de piel y salario por hora.
Clasifique cada una de estas variables como cuantitativas o categóricas.
El color de la piel es categórico (con cuatro categorías), mientras que los salarios por hora son cuantitativos (unidades: $/hr)
Consumer Reports comparó los porcentajes reales de grasas poliinsaturadas para diferentes marcas de margarina “baja en grasa”. Se compraron veintiséis envases de margarina; para cada uno se anotó la marca y se determinó el porcentaje de grasa poliinsaturada.
¿Qué variables se registraron para cada envase de margarina en la muestra?
Se registraron dos variables: marca y porcentaje de grasa poliinsaturada.
Clasifique cada una de estas variables como cuantitativas o categóricas.
La marca es categórica (con tantas categorías como marcas había en la muestra), mientras que la grasa poliinsaturada es cuantitativa (unidades: porcentaje).
Dé algunos ejemplos de preguntas de estadísticas inferenciales que Consumer Reports podría tratar de responder con los datos de estos 26 envases de margarina.
¿Podemos concluir que el porcentaje medio de grasas poliinsaturadas en todos los envases de margarina "bajas en grasa" supera el 20%?
¿Podemos concluir que el porcentaje medio de grasas poliinsaturadas de la población difiere según la marca?
¿Qué proporción de todos los envases de margarina tienen un porcentaje de grasas poliinsaturadas entre 15% y 25%?
“El contenido promedio de grasas poliinsaturadas de los cinco envases de margarina Parkay de la muestra fue del 12,8 %”. ¿Es la oración anterior un ejemplo de estadística descriptiva o estadística inferencial?
Dado que esto solo describe las observaciones en la muestra y no saca una conclusión sobre todos los envases de margarina Parkay, este es un ejemplo de estadística descriptiva.
El artículo “¿Existe un mercado para los vinos funcionales? Preferencias del consumidor y disposición a pagar por el vino tinto enriquecido con resveratrol” (Food Quality and Preference 2008: 360–371) incluía la siguiente información para una variedad de vinos españoles: a. Región de origen b. Precio del vino, en euros C. Estilo de vino (joven o crianza) d. Método de producción (convencional u orgánico) e. Tipo de uva utilizada (regular o mejorada con resveratrol) Clasifique cada una de estas variables como cuantitativas o categóricas.
a. categórico
b. cuantitativo
c. categórico
d. categórico
e. categórico
Los autores del artículo citado en el ejercicio anterior encuestaron a 300 consumidores de vino, cada uno de los cuales probó dos vinos diferentes. Para cada individuo en el estudio, se registró la siguiente información: a. Género b. Edad en años C. Renta mensual, en euros d. Nivel educativo (primario, secundario o universitario) e. Disposición a pagar (DAP) por el primer vino catado, en euros F. DAP por el segundo vino catado, en euros. (La disposición a pagar es una medida muy común para los productos de consumo. Los investigadores preguntan: "¿Cuánto estaría dispuesto a pagar por este artículo?") Clasifique cada una de las variables (a)–(f) como cuantitativas o categóricas.
a. categórico
b. cuantitativo
c. cuantitativo
d. categórico
e. cuantitativo
f. cuantitativo
Muchas universidades y colegios han instituido programas de instrucción suplementaria (SI), en los que un facilitador de estudiantes se reúne regularmente con un pequeño grupo de estudiantes inscritos en el curso para promover la discusión del material del curso y mejorar el dominio de la materia. Suponga que los estudiantes en un curso grande de estadística (¿Qué más?) se dividen aleatoriamente en un grupo de control que no participará en SI y un grupo de tratamiento que sí participará. Al final del término, se determina el puntaje total de cada estudiante en el curso.
¿Son las puntuaciones del grupo SI una muestra de una población existente? Si es así, ¿Qué es? Si no, ¿Cuál es la población conceptual relevante?
No, la población conceptual relevante son todos los puntajes de todos los estudiantes que participan en el SI junto con este curso de estadística en particular.
¿Cuál crees que es la ventaja de dividir aleatoriamente a los estudiantes en dos grupos en lugar de dejar que cada estudiante elija a qué grupo unirse?
La ventaja de asignar aleatoriamente a los estudiantes a los dos grupos es que los dos grupos deberían ser bastante comparables antes del estudio. Si los dos grupos se desempeñan de manera diferente en la clase, podemos atribuirlo razonablemente a los tratamientos (SI y control). Si se dejara que los estudiantes eligieran, los estudiantes más fuertes o más dedicados podrían gravitar hacia SI, confundiendo los resultados.
¿Por qué los investigadores no pusieron a todos los estudiantes en el grupo de tratamiento?
Si todos los estudiantes se pusieran en el grupo de tratamiento, no habría resultados con los que comparar los tratamientos.
El sistema de la Universidad Estatal de California (CSU) consta de 23 campus, desde el estado de San Diego en el sur hasta el estado de Humboldt cerca de la frontera con Oregón. Un administrador de CSU desea hacer una inferencia sobre la distancia promedio entre las ciudades de origen de los estudiantes y sus campus. Describa y discuta varios métodos de muestreo diferentes que podrían emplearse.
Se podría tomar una muestra aleatoria simple de estudiantes de todos los estudiantes del sistema de la Universidad Estatal de California y pedirle a cada estudiante de la muestra que informe la distancia desde su ciudad natal hasta el campus.
Una muestra por conveniencia podría servir en el caso que el investigador piense que es la mejor manera de inferir a la población.
Cierta ciudad se divide naturalmente en diez barrios distritales. A un tasador de bienes raíces le gustaría desarrollar una ecuación para predecir el valor de tasación a partir de características como la antigüedad, el tamaño, la cantidad de baños, la distancia a la escuela más cercana, etc. ¿Cómo podría seleccionar una muestra de casas unifamiliares que podría usarse como base para este análisis?
Se podría generar una muestra aleatoria simple de todas las viviendas unifamiliares de la ciudad o una muestra aleatoria estratificada tomando una muestra aleatoria simple de cada uno de los 10 barrios del distrito. De cada una de las viviendas de la muestra se recogerían las variables necesarias. Este sería un estudio enumerativo porque existe una población finita e identificable de objetos de los cuales tomar muestras.
La cantidad de flujo a través de una válvula solenoide en el sistema de control de contaminación de un automóvil es una característica importante. Se llevó a cabo un experimento para estudiar cómo el caudal dependía de tres factores: longitud del inducido, carga del resorte y profundidad de la bobina. Se eligieron dos niveles diferentes (bajo y alto) de cada factor, y se realizó una sola observación de flujo para cada combinación de niveles.
¿El conjunto de datos resultante constaba de cuántas observaciones?
Número de observaciones igual a 2 x 2 x 2 = 8
¿Este estudio implica el muestreo de una población existente o de una población conceptual?
Esto podría llamarse una población conceptual porque los datos se recopilarían en un proceso existente. No hay marco muestral.
En un famoso experimento llevado a cabo en 1882, Michelson y Newcomb obtuvieron 66 observaciones sobre el tiempo que tardó la luz en viajar entre dos lugares en Washington, D.C. Algunas de las medidas (codificadas de cierta manera) fueron 31, 23, 32, 36, 22, 26, 27 y 31.
¿Por qué estas medidas no son idénticas?
Podría haber varias explicaciones para la variabilidad de las mediciones. Entre ellos podría estar el error de medición (debido a cambios mecánicos o técnicos en las mediciones), el error de registro, las diferencias en las condiciones climáticas en el momento de las mediciones, etc.
¿Este estudio implica el muestreo de una población existente o de una población conceptual?
Esto podría llamarse conceptual porque no hay un marco de muestreo.