Capítulo 9 Guía 6 - Test de hipótesis
9.1 Objetivos
- Que el alumno aplique la teoría de las pruebas de hipótesis de uno y 2 promedios para situaciones con muestras pequeñas y grandes
9.2 Problema 1
Ante una denuncia de los consumidores a la Dirección de Lealtad Comercial, una empresa quiere saber si puede garantizar que las cajas de un de un detergente en polvo que vende, contiene 500 gramos del producto. Por experiencia, la firma sabe que la cantidad de detergente que contienen las cajas tiene distribución normal, por lo que se toma una muestra aleatoria de 35 cajas y se calcula la media de detergente contenido en ellas, lo que da un valor de 480 gramos, con un desvío estándar de 75 gramos. Con esos datos, pruebe si el contenido no supera los 500 gramos con un nivel de significación del 5 %.
## [1] -1.577621
## [1] 0.05732632
## [1] 0.05732632
9.3 Ejercicio 2
Supongamos que una tienda de comestibles vende cajas de cereal Captain Crisp con un peso de 16 onzas. El departamento de control de calidad, requiere asegurarse que la media de las cajas de de cereal pesan al menos 16 onzas. Se tomó una muestra aleatoria de tamaño 9 (cajas) y se pesó. Trabaje con un nivel de significancia (alfa) de 0.05
Pesos | ||||
---|---|---|---|---|
15.5 | 16.2 | 16.1 | ||
15.8 | 15.6 | 16.0 | ||
15.8 | 15.9 | 16.2 |
La compañía asegura que la media de las cajas de cereal es al menos de 16 onzas.
- ¿Cuántas muestras involucra el problema?
- Plantee las hipótesis y realice el test. Trabaje con valor de significancia del alfa=0.05
9.3.1 En R
En primer lugar, ingreso los datos
En R, podemos hacerlo paso a paso de la siguiente manera:
- Realizo cálculos de media y desviación típica
- Cálculo de t de prueba
## [1] -1.2
- p-valor
## [1] 0.8677664
La otra forma es hacerlo con la funcion t.test, ingresando los valores apropiados:
##
## One Sample t-test
##
## data: caja_cereal
## t = -1.2, df = 8, p-value = 0.8678
## alternative hypothesis: true mean is greater than 16
## 95 percent confidence interval:
## 15.74504 Inf
## sample estimates:
## mean of x
## 15.9
- Concluir sobre los resultados obtenidos.
9.4 Ejercicio 3
9.4.1 Prueba t de muestras independientes
Se tienen 2 set de datos que corresponden a pesos de hombres y mujeres de dos muestras independientes. Queremos saber si existen diferencias significativos entre los dos grupos de estudio.
Muestra | Hombres | Mujeres | |||
---|---|---|---|---|---|
1 | 70 | 64 | |||
2 | 82 | 72 | |||
3 | 78 | 60 | |||
4 | 74 | 76 | |||
5 | 94 | 72 | |||
6 | 82 | 80 | |||
7 | - | 84 | |||
8 | - | 68 |
- ¿Cuántas muestras involucra el problema?
- Plantee las hipótesis del experimento y el estadístico de prueba.
- Realice la prueba de hipótesis con un intervalo de 95% de confianza.
9.4.2 En R
- Ingreso de datos y cálculo de n y m
## [1] 6
## [1] 8
- Cálculo de media y desviación típica
## [1] 80
## [1] 8.294577
## [1] 72
## [1] 8
- Cálculo de la desviación estándar agrupada
## [1] 8.124038
- Cálculo de t
## [1] 1.823369
- Cálculo de p-valor
## [1] 0.04661961
O podemos hacerlo mediante la función t.test()
##
## Two Sample t-test
##
## data: varones and mujeres
## t = 1.8234, df = 12, p-value = 0.04662
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 0.1802451 Inf
## sample estimates:
## mean of x mean of y
## 80 72
- ¿Existen diferencias significativas entre ambos grupos?
9.5 Ejercicio 4
9.5.1 Prueba t de muestras dependientes o prueba t-apareada
Una escuela de atletismo ha tomado un nuevo instructor, y quiere testear la efectividad del nuevo entrenamiento propuesto comparando las medias de 10 corredores en los 100 metros. Se presentan los tiempos antes y después del entrenamiento de cada atleta.
Tiempos | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Antes | 12.9 | 13.5 | 12.8 | 15.6 | 17.2 | 19.2 | 12.6 | 15.3 | 14.1 | 11.3 | |
Después | 12.0 | 12.2 | 11.2 | 13.0 | 15.0 | 15.8 | 12.2 | 13.4 | 12.9 | 11.0 |
- ¿Cuántas muestras involucra el problema?
- ¿Cómo plantearía las hipótesis y cuál es el estadístico de prueba?
- Realizar una prueba de hipótesis con un 95% de confianza.
9.5.2 En R
#Ingreso los datos
a<-c(12.9, 13.5, 12.8, 15.6, 17.2, 19.2, 12.6, 15.3, 14.4, 11.3)
b<-c(12.0, 12.2, 11.2, 13.0, 15.0, 15.8, 12.2, 13.4, 12.9, 11.0)
#Cálculo la diferencia y la media de esas diferencias con la función mean()
diferencia<-a-b
diferencia
## [1] 0.9 1.3 1.6 2.6 2.2 3.4 0.4 1.9 1.5 0.3
## [1] 1.61
## [1] 5.267141
## [1] 0.000257911
##
## Paired t-test
##
## data: a and b
## t = 5.2671, df = 9, p-value = 0.0002579
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 1.049675 Inf
## sample estimates:
## mean of the differences
## 1.61
9.6 Ejercicio 5
Una empresa necesita comprar engranajes plásticos para un tipo impresora láser; en la ciudad donde existen dos proveedores que fabrican este tipo de engranajes. Para decidir a cuáles de los proveedores comprarle, la empresa analiza una característica importante de los mismos que es la resistencia al impacto de esos engranajes (medida en pies/libra). Para ello, tomó una muestra aleatoria de engranajes de cada proveedor.
Proveedor | n | Media | Desviación estándar | |||
---|---|---|---|---|---|---|
1 | 10 | 290 | 12 | |||
2 | 16 | 321 | 22 |
Se desea estudiar si existe evidencia para apoyar la afirmación de que el proveedor 2 ofrece engranajes con mayor resistencia al impacto medio que el proveedor 1.
- Defina las hipótesis en este problema y escriba la expresión del estadístico de prueba.
- Verifique las hipótesis planteadas en b) utilizando alfa = 0.05. ¿Qué conclusión obtiene?
#Se desea estudiar si existe evidencia para apoyar la afirmación
#de que el proveedor 2 ofrece engranajes con
#mayor resistencia al impacto medio que el proveedor 1.
# Prueba t para muestras independientes
# n<30 utilizamos prueba t
x_bar<-290
y_bar<-321
s_x<-12
s_y<-22
n<-10
m<-16
## [1] 18.88121
## [1] -4.072914
## [1] 0.0002190867
9.7 Ejercicio 6
Una empresa de software está investigando la posibilidad de cambiar el lenguaje de programación usado comúnmente, de forma de sustituir el lenguaje C (Leng C) por Visual Basic (VBA), a fin de mejorar la rapidez de programación y aumentar así la productividad de la empresa. Para ello se pide a 12 programadores, todos familiarizados con ambos lenguajes, que programen un cierto algoritmo en ambos lenguajes. Se registró el tiempo que tardan en completar la tarea en cada caso, produciendo los siguientes datos medidos en minutos:
Programador | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Lenguaje | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | |
VBA | 17 | 16 | 21 | 14 | 18 | 24 | 16 | 14 | 21 | 23 | 13 | 18 | |
Leng C | 18 | 14 | 19 | 11 | 23 | 21 | 10 | 13 | 19 | 24 | 15 | 20 |
- Enuncie formalmente las hipótesis que le interesa testear a la empresa de software y calcule el estadístico de prueba.
- A partir de los dos puntos anteriores, ¿Qué lenguaje erigiría si usted fuese el dueño de la empresa?
#La diferencia de medias debería ser mayor a 0. Esto quiere decir que el tiempo disminuyó.
#La diferencia entre VBA y lenguaje C debería ser positiva,
#lo que quiere decir que en valor absoluto VBA es mayor que lenguaje C.
#En otras palabras, se tarda mas tiempo en programar VBA que en lenguaje C.
#Cálculo la diferencia y la media de esas diferencias con la función mean()
diferencia<-vba-lenguajec
diferencia
## [1] -1 2 2 3 -5 3 6 1 2 -1 -2 -2
## [1] 0.6666667
## [1] 0.7790357
## [1] 0.2261964
#todo lo anterior se puede calcular de 1 solo paso en este comando
t.test(vba, lenguajec, paired=TRUE, mu=0, alternative="greater")
##
## Paired t-test
##
## data: vba and lenguajec
## t = 0.77904, df = 11, p-value = 0.2262
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -0.8701777 Inf
## sample estimates:
## mean of the differences
## 0.6666667