La inferencia estadística es el conjunto de métodos y técnicas que permiten inducir, a partir de la información empírica proporcionada por una muestra, cuál es el comportamiento de una determinada población con un riesgo de error medible en términos de probabilidad. Es decir, estudia los métodos para sacar conclusiones generales de toda una población a partir del análisis de una muestra.
Algunos ejemplos donde encontramos el uso de la estadística inferencial es en
- Sondeos de tendencia de voto
- Análisis de mercado
- Epidemiología médica
- Climatología
Muestreo
1En cierta cadena de centros comerciales trabajan 150 personas en el departamento de personal, 450 en el departamento de ventas, 200 en el departamento de contabilidad y 100 en el departamento de atención al cliente. Con objeto de realizar una encuesta laboral, se quiere seleccionar una muestra de 180 trabajadores.
¿Qué tipo de muestreo deberíamos utilizar para la selección de la muestra si queremos que incluya a trabajadores de los cuatro departamentos mencionados?
¿Qué número de trabajadores tendríamos que seleccionar en cada departamento atendiendo a un criterio de proporcionalidad?
Utilizaremos un muestreo aleatorio estratificado, ya que queremos que haya representantes de cada uno de los departamentos, tomaremos una muestra significativa que represente la proporción de empleados que hay en cada departamento.
2¿Qué número de trabajadores tendríamos que seleccionar en cada departamento atendiendo a un criterio de proporcionalidad?
Para poder elegir una cantidad proporcional de cada departamento, primero debemos conocer la proporción que tendrá el tamaño de la muestra respecto a la totalidad de trabajadores, esto es:
donde
Ahora, la cantidad de trabajadores a seleccionar de cada departamento, debe conservar la proporción que hemos calculado, es decir, el número de trabajadores en cada departamento debe cumplir:
Entonces tenemos
Y además podemos corroborar que
que es justamente el tamaño de la muestra.
2 En cierto barrio se quiere hacer un estudio para conocer mejor el tipo de actividades de ocio que gustan más a sus habitantes. Para ello van a ser encuestados 100 individuos elegidos al azar.
Explicar qué procedimiento de selección sería más adecuado utilizar: muestreo con o sin reposición. ¿Por qué?
Como los gustos cambian con la edad y se sabe que en el barrio viven 2,500 niños, 7,000 adultos y 500 ancianos, posteriormente se decide elegir la muestra anterior utilizando un muestreo estratificado con asignación proporcional. Determinar el tamaño muestral correspondiente a cada estrato.
Como la población es finita, entonces hacer muestreo con reemplazo nos permitirá utilizar las fórmulas que hemos estudiado.
Sin embargo, es posible hacer muestreo sin reemplazo, con el único inconveniente que los cálculos serán un poco más complicados.
2 Como los gustos cambian con la edad y se sabe que en el barrio viven 2,500 niños, 7,000 adultos y 500 ancianos, posteriormente se decide elegir la muestra anterior utilizando un muestreo estratificado con asignación proporcional. Determinar el tamaño muestral correspondiente a cada estrato.
Sea el tamaño de la población y el tamaño de la muestra. Denotaremos como al tamaño del estrato y al tamaño de muestra que tomamos de . En el muestreo estratificado con asignación proporcional se cumple que
Por lo que debemos encontrar los valores para cada estrato. Notemos que los tamaños de cada estrato (niños), (adultos) y (ancianos).
Así, el tamaño de muestra de niños es:
El tamaño de muestra de adultos es:
Por último, el tamaño de muestra de ancianos es:
Observamos que los tamaños de muestra suman 100:
Nivel de confianza
3La cantidad de hemoglobina en sangre del hombre sigue una ley normal con una desviación típica de 2g/dl. Calcule el nivel de confianza de una muestra de 12 extracciones de sangre que indique que la media poblacional de hemoglobina en sangre está entre 13 y 15 g/dl.
Conociendo ya el valor de podemos calcular la probabilidad correspondiente. Esto se solía hacer mediante tablas, hoy en día tenemos herramientas más sencillas de utilizar, como lo es Wolfram. Entonces tenemos que la probabilidad es
Dado que hemos calculado , es necesario restar la probabilidad del extremo izquierdo de la distribución normal, para esto consideremos
entonces
Por lo tanto, el nivel de confianza de que la media de hemoglobina en sangre se encuentre entre 15 y 13 g/dl es del 91.62% para una muestra de 12 extracciones de sangre.
4 Las ventas mensuales de una tienda de electrodomésticos siguen una distribución normal, con desviación típica 900 €. En un estudio estadístico de las ventas realizadas en los últimos nueve meses, se ha encontrado un intervalo de confianza para la media mensual de las ventas, cuyos extremos son 4 663 € y 5 839 €.¿Cuál ha sido la media de las ventas en estos nueve meses?
¿Cuál es el nivel de confianza para este intervalo?
Cuando calculamos el intervalo de confianza de la media de una distribución normal, la media siempre se encontrará a la mitad del intervalo. Por lo tanto, la media es
Esto es, la media fue de 5 251 €.
2 ¿Cuál es el nivel de confianza para este intervalo?
Tenemos que , y . De aquí se sigue que el límite inferior se calculó utilizando
Es decir,
Por lo que
De aquí se sigue que , por lo que el nivel de confianza fue de 95%.
5 El tiempo que tardan las cajeras de un supermercado en cobrar a los clientes sigue una distribución normal con media desconocida y desviación típica 0,5 minutos. Para una muestra aleatoria de 25 clientes se obtuvo un tiempo medio de 5,2 minutos.
Calcula el intervalo de confianza al nivel del 95% para el tiempo medio que se tarda en cobrar a los clientes.Indica el tamaño muestral necesario para estimar dicho tiempo medio con un el error de minutos y un nivel de confianza del 95%.
Como la muestra consiste de 25 clientes, entonces para calcular el intervalo de confianza, utilizamos la fórmula:
donde es el valor crítico tal que donde es una variable aleatoria que sigue una distribución t-Student con 24 grados de libertad.
El valor de lo podemos obtener de una tabla de distribución t, o utilizando un software. El resultado es
Así, el intervalo de confianza es
2 Indica el tamaño muestral necesario para estimar dicho tiempo medio con un el error de minutos y un nivel de confianza del 95%.
Para encontrar el tamaño muestral reemplazaremos por , el cual proviene de una distribución normal estándar. Como el error debe ser , entonces se debe tener
donde . Así, al despejar tenemos
es decir, el tamaño de muestra debe ser al menos de .
Prueba de hipótesis a dos colas
6Un fabricante de lámparas eléctricas está ensayando un nuevo método de producción que se considerará aceptable si las lámparas obtenidas por este método dan lugar a una población normal de duración media 2400 horas, con una desviación típica igual a 300. Se toma una muestra de 100 lámparas producidas por este método y esta muestra tiene una duración media de 2320 horas. ¿Se puede aceptar la hipótesis de validez del nuevo proceso de fabricación con un riesgo igual o menor al 5%?
Para realizar la prueba de hipótesis necesitaremos calcular nuestro estadístico; dado que estamos suponiendo que el tiempo de duración se distribuye de acuerdo a una distribución normal y el tamaño de muestra es igual a 100, usaremos el estadístico Z (variable aleatoria de una Normal estándar), este esdonde es la media de la muestra, es la media de , es la desviación típica y es el tamaño de la muestra. Sustituyendo los valores tenemosAhora, calculemos el p-valor para , dado que la hipótesis alternativa es una negación () este es un análisis de dos colas, para este caso el p-valor se calcula como
La probabilidad de error es del 5%, lo que quiere decir que el nivel de significancia que se está considerando es del 0.05 y tenemos que p-valor=0.0078; la hipótesis nula se rechaza si p-valor es menor al valor de significancia, que es justamente lo que tenemos
Por lo tanto, hay evidencia suficiente para rechazar la hipótesis de que el nuevo método de producción dará lugar a lámparas con una duración media de 2400 horas y desviación típica de 300 con un 5% de probabilidad de equivocarnos.
7El control de calidad una fábrica de pilas y baterías sospecha que hubo defectos en la producción de un modelo de batería para teléfonos móviles, bajando su tiempo de duración. Hasta ahora el tiempo de duración en conversación seguía una distribución normal con media 300 minutos y desviación típica 30 minutos. Sin embargo, en la inspección del último lote producido, antes de enviarlo al mercado, se obtuvo que de una muestra de 60 baterías el tiempo medio de duración en conversación fue de 290 minutos. Suponiendo que ese tiempo sigue siendo Normal con la misma desviación típica: ¿Se puede concluir que las sospechas del control de calidad son ciertas a un nivel de significación del 1%?
Para realizar la prueba de hipótesis necesitaremos calcular nuestro estadístico; dado que estamos suponiendo que el tiempo de duración se distribuye de acuerdo a una distribución normal y el tamaño de muestra es igual a 60, usaremos el estadístico Z (variable aleatoria de una Normal estándar), este esdonde es la media de la muestra, es la media de , es la desviación típica y es el tamaño de la muestra. Sustituyendo los valores tenemosAhora, calculemos el p-valor para , dado que la hipótesis alternativa es una negación () este es un análisis de dos colas, para este caso el p-valor se calcula como
La probabilidad de error es del 1%, lo que quiere decir que el nivel de significancia que se está considerando es del 0.01 y tenemos que p-valor=0.0098; la hipótesis nula se rechaza si p-valor es menor al valor de significancia, que es justamente lo que tenemos
Por lo tanto, hay evidencia suficiente para rechazar la hipótesis de que la duración media de la batería es de 300 minutos con desviación típica de 30 minutos con un 1% de probabilidad a equivocarse con una muestra de tamaño 60, es decir, podemos concluir que las sospechas del equipo de control de calidad sí son ciertas.
8Se cree que el nivel medio de protombina en una población normal es de 20 mg/100 ml de plasma con una desviación típica de 4 miligramos/100 ml. Para comprobarlo, se toma una muestra de 40 individuos en los que la media es de 18.5 mg/100 ml. ¿Se puede aceptar la hipótesis, con un nivel de significación del 5%?
Para realizar la prueba de hipótesis necesitaremos calcular nuestro estadístico; dado que estamos suponiendo que la concentración de protombina se distribuye de acuerdo a una distribución normal y el tamaño de muestra es igual a 40, usaremos el estadístico Z (variable aleatoria de una Normal estándar), este esdonde es la media de la muestra, es la media de , es la desviación típica y es el tamaño de la muestra. Sustituyendo los valores tenemosAhora, calculemos el p-valor para , dado que la hipótesis alternativa es una negación () este es un análisis de dos colas, para este caso el p-valor se calcula como
La probabilidad de error es del 5%, lo que quiere decir que el nivel de significancia que se está considerando es del 0.05 y tenemos que p-valor=0.0177; la hipótesis nula se rechaza si p-valor es menor al valor de significancia, que es justamente lo que tenemos
Por lo tanto, hay evidencia suficiente para rechazar la hipótesis de que el el nivel medio de protombina es de 20 mg/100 ml de plasma con una desviación típica de 4 mg/100 ml, con un nivel de significancia del 5% con una muestra de tamaño 40.
Si necesitas apoyo adicional con los conceptos de estadística, no dudes en contactar un profesor de matematicas a través de nuestra plataforma.
Apuntes es una plataforma dirigida al estudio y la práctica de las matemáticas a través de la teoría y ejercicios interactivos que ponemos a vuestra disposición. Esta información está disponible para todo aquel/aquella que quiera profundizar en el aprendizaje de esta ciencia. Será un placer ayudaros en caso de que tengáis dudas frente algún problema, sin embargo, no realizamos un ejercicio que nos presentéis de 0 sin que hayáis si quiera intentado resolverlo. Ánimo, todo esfuerzo tiene su recompensa.
En la siguiente tabla se presentan las cantidades promedio de jugo de frutas que empacan, en bolsas de litro, tres máquinas empacadas de una agroindustria.
-MAQUINAS
A
B
C
-PROMEDIO EMPACADO POR BOLSA
1.039 LTS
0.989 LTS
1.090 LTS
-DESVIACIÓN ESTANDAR
0.332 LTS
0.350 LTS
0.371 LTS
¿Cuál de las 3 máquinas tiene la cantidad promedio de empacado por bolsa más confiable? ¿Por qué?
ejercicio. En una ciudad de 100.000 habitantes, se quiere estimar la proporción de personas que utilizan bicicleta como medio de transporte. ¿Cuántas personas deben incluirse en la muestra para obtener un margen de error del 5% con un nivel de confianza del 95%?
10.- Las estaturas de cierta población se distribuyen N(168,8). Calcula la probabilidad de que en una muestra de 36 personas la altura media no difiera de la de la población en más de 1 cm.
28 28 28 28 24 24 20 20 20 20 20 25 25 25 27 27 27 26 22 22 22
En una escuela de 150 estudiantes se requiere realizar una investigación sobre las preferencias de las áreas de los estudiantes y se debe calcular su muestra para conocer cuántos estudiantes se le debe aplicar la encuesta, determinando que el grado de confianza es del 95%, la probabilidad de éxito de 98% y el error de calculo del 6%.
Caso de estudio: En el Perú, el Ministerio de Salud (MINSA) está interesado en conocer la prevalencia de la depresión en los adolescentes de 12 a 17 años de edad en la ciudad de Lima. Para ello, el MINSA decide realizar una encuesta a una muestra de adolescentes de esta población.
Objetivo:
El objetivo del caso de estudio es que los estudiantes apliquen la fórmula para estimar una proporción poblacional para estimar la prevalencia de la depresión en los adolescentes de 12 a 17 años de edad en la ciudad de Lima. También, debe indicar el tipo de muestreo probabilístico que deberá emplear.
¿Cuál debe ser el tamaño de muestra para estimar la prevalencia de la depresión, con un nivel de confianza del 95%, margen de error de 4%, e indica el método de selección de la muestra
La experiencia con los trabajado indica que el tiempo requerido para que un trabajador cualquiera termine un trabajo, es una variable con distribución aproximada a la normal con una media de 145 minutos y una desviación estándar de 12 minutos. Se lleva a cabo un programa de capacitación con el propósito de mejorar la destreza de los trabajadores y disminuir así el tiempo medio. Para verificar los resultados de dicho programa se toma al azar una muestra de 16 trabajadores y si esta muestra arroja un tiempo medio mayor que 139 minutos se aceptará la hipótesis de que el tiempo medio sigue siendo de 145 minutos. Pruebe la hipótesis con un nivel de significancia del 5%.
Una empresa de seguros ha estado aplicando diferentes técnicas para incrementar sus ventas durante los últi mos 6 meses. El promedio de ventas por semestre es de 54 ventas diarias, con una muestra aleatoria de 60 días de los últimos 6 meses, se obtiene que en promedio hay 60 ventas diarias con una desviación estándar de 28 Con un nivel de significación de 5%, es posible asegu rar que el promedio de ventas aumento?
A una muestra aleatoria de 150 alumnos de la universidad, se le preguntó si había estudiado el idioma inglés. 75 respondieron Sí, 55 respondieron No y 20 no opinaron. a. ¿Cuál es el valor de la estimación puntual de la proporción de la población que responde Sí?. b. ¿Cuál es el valor de la estimación puntual de la proporción de la población que respondió No?. c. Encuentre el intervalo de confianza del 90% para la proporción poblacional que respondieron Sí. Fuente de ingresos Frecuencia Propina sólo domingos 149 Quehaceres, dádivas y domingos 219 Quehaceres y dádivas, no domingos 251 Nada 165 T o t a l 784
Se quiere hacer un estudio para conocer el número de mujeres casadas que van a consulta ginecológicas en una población, por estudios anteriores se sabe que la desviación estándar de 1 mujeres, el investigador considera que el margen de error es de 9% y el coeficiente de confianza es de 91%.