Table Of ContentIntroducción
a la inferencia
estadística
P01/81114/00247
ª FUOC • P01/81114/00247 Introducción a la inferencia estadística
Índice
1. Distribuciones muestrales (I): distribución
de la media y teorema central del límite....................................... 5
1.1. Tomar muestras repetidas de una población..................................... 6
1.2. La ilustración de la distribución muestral......................................... 6
1.3. La desviación estándar de la media aritmética.................................. 8
1.4. El teorema central del límite............................................................. 8
1.5. Una ilustración impresionante.......................................................... 9
1.6. Cuando no conocemos la varianza...................................................11
2. Distribuciones muestrales (II): introducción
al control de calidad............................................................................12
2.1. Control de calidad.............................................................................13
2.2. La distribución de la media aritmética..............................................13
2.3. Diagrama de control de calidad.........................................................14
3. Distribuciones muestrales (III): distribución
de una proporción................................................................................17
3.1. La media como una proporción........................................................17
3.2. Distribución muestral de una proporción.........................................18
4. Inferencia estadística (I): intervalo de confianza
para la media aritmética...................................................................20
4.1. La precisión de la estimación............................................................21
4.2. Los intervalos de confianza...............................................................21
4.3. El intervalo de confianza para la media de una distribución
normal................................................................................................22
4.4. El intercambio entre la precisión y el nivel de confianza.................23
4.5. El efecto del tamaño de la muestra....................................................24
5. Inferencia estadística (II): intervalo de confianza
para una proporción...........................................................................26
5.1. La distribución del porcentaje o proporción.....................................26
5.2. Los tamaños muestrales para un margen de error previamente
establecido.........................................................................................27
Solucionario................................................................................................31
ª FUOC • P01/81114/00247 5 Introducción a la inferencia estadística
1. Distribuciones muestrales (I): distribución
de la media y teorema central del límite
Hasta ahora hemos visto la distribución de un conjunto de datos para una va-
riable en particular. En este apartado veremos más de cerca la distribución de
la media aritmética de una variable que la distribución de los datos. Veremos
que la media aritmética de un conjunto de observaciones normalmente distri-
buidas también está distribuida de una manera normal, pero con una desvia-
ción estándar más pequeña.
También encontraremos uno de los famosos teoremas de la estadística, el teore-
ma central del límite. Este teorema dice que incluso cuando los datos no están
normalmente distribuidos, la media aritmética calculada sobre una muestra
aleatoria de estos datos tiende a estar normalmente distribuida.
En este apartado sobre distribuciones muestrales aprenderéis:
• que la media aritmética de un conjunto de variables normalmente distri-
buidas también tiene una distribución normal;
• la manera como la desviación estándar de la media aritmética está en rela-
ción con la de las observaciones originales;
• que para muestras amplias la media aritmética de una muestra aleatoria de
las observaciones sobre cualquier variable no necesariamente distribuida
normalmente está, de manera aproximada, normalmente distribuida (teo-
rema central del límite).
Resumen del CD
(Aquí resumimos únicamente la parte del CD que usamos en este apartado, trataremos el
resto en el apartado 2 de este módulo.) Consultad la unidad 19 del CD.
La primera parte del CD explica que, si repetimos una muestra aleatoria, no obtendremos
el mismo resultado que obteníamos en el primer intento. Después de muchas muestras
repetidas, con una media aritmética para cada una, tenemos una distribución de medias
aritméticas denominada distribución muestral de la media aritmética.
El CD nos muestra una fábrica industrial de conmutadores para centrales telefónicas.
Cada circuito impreso tiene alrededor de unas 2.000 conexiones eléctricas que se sueldan
en una sola operación. Para controlar esta operación crítica, los trabajadores inspeccio-
nan una muestra de 5 cuadros a intervalos regulares. Cada cuadro recibe una puntuación
por la calidad de la soldadura: el estándar es 100, por debajo de 100 es una calidad infe-
rior y por encima de 100 es mejor que la estándar. Una distribución normal describe el
patrón de variación en la puntuación de la media x en muestras repetidas.
Observamos que, si tomamos una muestra aleatoria simple de tamaño n de una pobla-
ción con una media aritmética m y una desviación estándar s , entonces la media aritmé-
tica de la muestra también tiene una distribución normal con una media aritmética de
m , pero con una desviación estándar más pequeña, s ⁄ n.
Si la población tiene una distribución normal, entonces la media aritmética de la muestra
también la tiene normal.
Hacia el final del CD también vemos una ilustración del teorema central del límite. Es
uno de los teoremas centrales en estadística y dice que, incluso si la población no es nor-
mal, entonces la distribución de la media aritmética x se acerca a una normal de forma
ª FUOC • P01/81114/00247 6 Introducción a la inferencia estadística
progresiva cuando se incrementa la medida de la muestra. Por ejemplo, una distribución
de ingresos es fuertemente asimétrica, pero, cuando tomamos un número de muestras de
esta distribución y observamos la distribución de la media aritmética, vemos que la me-
dia aritmética está, aproximadamente, normalmente distribuida.
1.1. Tomar muestras repetidas de una población
Cuando tenemos un conjunto de valores de datos, x , x , ..., x , muestreados
1 2 n
Pensad en ello
de una manera aleatoria dentro de una población, uno de los estadísticos más
importantes es la media aritmética x. La media aritmética resume el centro de Las distribuciones muestrales
se pueden calcular de las
la distribución. En la práctica sólo tenemos una muestra simple y sólo calcu- medias, de las varianzas, de
las desviaciones estándar,
lamos una media aritmética de esta muestra. No obstante, potencialmente hay
de las medianas...
muchas muestras de la población que podríamos haber tomado, y cada una de
estas muestras tiene una media aritmética diferente.
Esto sugiere que la media aritmética tiene una distribución, y nosotros la de-
nominaremos distribución muestral de la media aritmética.
Un conjunto de datos distribuidos normalmente
Para ilustrar estas ideas es preciso que tengamos una población de la que po-
damos tomar repetidas muestras. En el CD la población eran los cuadros de
circuitos impresos de la fábrica de electrónica, y las muestras repetidas eran las
partidas de 5 cuadros, elegidas por el inspector de calidad.
1.2. La ilustración de la distribución muestral
Consideremos ahora que tenemos un conjunto de 1.000 valores normalmente
distribuidos, que son nuestra población, con una media aritmética m igual a
100 y una desviación estándar s casi exactamente igual a 10. Ahora simulare-
mos que no tenemos esta población entera, sino que necesitamos hacer un
muestreo con el propósito de deducir sus características. En particular quere-
mos saber el comportamiento de la media aritmética en las muestras aleatorias
extraídas de la población.
Empezaremos examinando las muestras aleatorias de medida 4. La media arit-
mética cada vez será diferente. No obstante, ¿qué diferencias habrá entre sí?
Mediante una encuesta podemos
obtener datos de una muestra aleatoria
de la población.
Lo podemos estudiar generando muchas medias aritméticas diferentes basadas
en muestras aleatorias de medida 4 procedentes de la población. Imaginemos
que hemos repetido este ejercicio 400 veces y hemos almacenado los resulta-
dos en un fichero. De esta manera podemos ver estas medias aritméticas, su
distribución, su media aritmética y las desviaciones estándar de la manera si-
guiente; suponemos los resultados
x = 100,15
x
s x2 = 4,8137 Mean en inagriltéms ésitgicnai’f.ica ‘media
ª FUOC • P01/81114/00247 7 Introducción a la inferencia estadística
Tabla I. Histograma de las medias de las 400 muestras de tamaño 4
Recordad que lo que estudiamos aquí es un conjunto de medias aritméticas,
como si estas medias fuesen los datos. En primer lugar, observad que el valor
medio de 400 medias aritméticas es 100,15, que está cerca de la verdadera me-
dia aritmética 100 de la población. La desviación estándar de las 400 medias
aritméticas es 4,8137, que es aproximadamente la mitad de la desviación es-
tándar de la población.
Examinemos, ahora, muestras grandes de una población tomando una serie
de la misma de tamaño 64.
Observad estos “datos” de la misma manera que antes; suponemos los resultados
x = 100,07
x
s 2 = 1,1789
x
Tabla II. Histograma de las medias de las 400 muestras de tamaño 64
ª FUOC • P01/81114/00247 8 Introducción a la inferencia estadística
Ahora el valor medio de las medias aritméticas aún se acerca más a la verdade-
ra media aritmética, y vemos que la desviación estándar ha bajado a 1,1789,
alrededor de un cuarto de la desviación estándar de las medias aritméticas de
las muestras de tamaño 4.
1.3. La desviación estándar de la media aritmética
Hemos ilustrado un resultado muy conocido en estadística, es decir, la media
aritmética varía cada vez menos cuando la medida de la muestra aumenta.
Como puede verse en el CD, si s indica la desviación estándar de la población,
y si s indica la desviación estándar de la media aritmética basada en una mues-
x
tra de tamaño n, entonces la relación exacta entre s y s es la siguiente:
x
s
s = -------.
x
n
Por lo tanto, la desviación estándar disminuye en proporción inversa a la raíz
cuadrada de la medida de la muestra. Por este motivo, las medias aritméticas
de las muestras de medida 4 tenían unas desviaciones estándar aproximadas
de una mitad de la desviación estándar de la población, de 10, y por esta razón,
cuando multiplicábamos el tamaño de la muestra por 16 (de 4 a 64), la desvia-
ción estándar de la media se dividía por 4, es decir, la media aritmética de las
muestras de medida 64 tiene una desviación estándar aproximada de 1/8 de la
desviación estándar de la población.
Existe un término especial para designar la desviación estándar de la media
aritmética: el error estándar. El resultado que hemos obtenido, pues, nos
muestra que el error estándar de la media aritmética es la desviación estándar
de la población dividida por la raíz cuadrada del tamaño de la muestra.
1.4. El teorema central del límite
Todo lo que hemos hecho hasta ahora ha sido para una población normal, es
decir, cuando las observaciones están normalmente distribuidas.
El teorema central del límite dice que, incluso si la distribución de una
observación no es normal, la distribución de la media basada en una
muestra de medida n será aproximadamente normal, también con el
error estándar igual a la desviación estándar de población de una obser-
vación dividida por la raíz cuadrada de n.
El CD...
Este teorema se vuelve cada vez más y más cierto a medida que n aumenta; en
... muestra un ejemplo visual
otras palabras, para una n “pequeña” (por ejemplo, menos de 10), la distribu- del teorema central del límite
en la práctica, en el caso de
ción de la media aritmética sólo es aproximadamente normal, mientras que una distribución de ingresos
asimétrica.
para una n “grande” (por ejemplo, de 30), la distribución es casi normal.
ª FUOC • P01/81114/00247 9 Introducción a la inferencia estadística
1.5. Una ilustración impresionante
Consultad las explicaciones sobre el
programa DemoProb en el apartado 5
En una de las opciones del programa DemoProb se puede ver de una manera del módulo II.
muy sorprendente cómo funciona el teorema central del límite. Ejecutad el pro-
grama tal como lo hemos descrito antes, a continuación seleccionad la opción
Suma de uniformes y después Ver modelo. Ahora hay tres ventanas abiertas.
En la ventana de abajo, arrastrad el botón hacia la izquierda para llevar n al
valor 1, y después haced un clic en Ajustar gráficos. Veréis la distribución de
una variable aleatoria uniforme: a la izquierda, la función plana de probabili-
dad entre 0 y 1, y a la derecha, la distribución acumulada, que es simplemente
la recta F(x) = x.
ª FUOC • P01/81114/00247 10 Introducción a la inferencia estadística
Ahora haced un clic en la flecha para aumentar n al valor 2, de esta manera veréis
la distribución de la suma de dos variables uniformes independientes. La función
de probabilidad es un triángulo (función simétrica) centrado en el valor 1.
A continuación haced otro clic en la flecha para llevar el valor de n a 3, es de-
cir, la suma de tres variables uniformes independientes. Aquí deberéis hacer
clic en Ajustar gráficos otra vez porque, puesto que los valores de la suma au-
mentan, los gráficos empiezan a salir de las ventanas. Increíblemente, la forma
de la suma de sólo tres variables uniformes, en la que cada una tiene una dis-
tribución plana de probabilidad, se parece a una distribución en forma de
campana. Aumentad n aún más y confirmad que la distribución se parece cada
vez más a una distribución normal.