ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión...

23
ESTIMACIÓN DE PARÁMETRO HAMLET MATA MATA PROF. DE LA UNIVERSIDAD POLITÉCNICA DE EL TIGRE-VENEZUELA INTRODUCCIÓN Es muy interesante conocer las características de las muestras. El cálculo de los estadísticos o índices que las definen y describen son netos y muy rentable. Pero en ocasiones nos preguntamos por las características de la población de origen de donde proceden las muestras. El objetivo parece ambicioso: se trata de conocer lo que por definición es inalcanzable. Normalmente las poblaciones son inabarcables puesto que son infinitas, o en el mejor de los casos cuasi-infinitas, lo cual nos deja como estábamos. Los parámetros poblacionales caracterizan y describen las poblaciones. Son equivalentes a los estadísticos o estadígrafos en las muestras. Un estadístico es una función de la muestra, esto es, depende sola y exclusivamente de nuestra muestra. Varía y está sometido al error (variabilidad) del muestreo. Los parámetros no varían, son constantes y además desconocidos. Contienen las características de la población. En una población cuya distribución es conocida pero desconocemos algún parámetro, podemos estimar dicho parámetro a partir de una muestra representativa. La inferencia estadística se ocupa, entre otras cuestiones, de los procedimientos de estimación de parámetros desconocidos de la distribución de una variable aleatoria o de la población, a partir de la información suministrada por una muestra de tamaño reducido, extraída al azar. La estimación de parámetros por intervalos, permite construir un intervalo que contendrá el parámetro a estimar con una confianza fijada a priori por el experimentador. El objetivo más importante de la Estadística es obtener una inferencia con respecto a la población basándose en la información contenida en una muestra. Como las poblaciones se describen mediante medidas numéricas denominadas parámetros, el objetivo de la mayoría de las investigaciones estadísticas es deducir una inferencia con respecto a uno o más parámetros de la población. Se han estudiado, hasta el momento, las nociones fundamentales de distribución de probabilidades; se está en condiciones, entonces, de tratar los métodos de inferencia estadística, los cuales comprenden los procedimientos para estimar parámetros de poblaciones y probar (contrastar) si una afirmación provisional sobre un parámetro poblacional se ve apoyada o desaprobada ante la evidencia de la muestra. Hablando en general, hay dos tipos de inferencia: la deductiva y la inductiva. Una inferencia deductiva es un juicio o generalización que se basa en un razonamiento o proceso dialéctico a priori. Por ejemplo, se supone que dos monedas están perfectamente equilibradas y que entonces la probabilidad de cada una de caer "cara" es = 0,5 (premisa). La media o número esperado de "caras" en la jugada de las monedas deber ser 1 (conclusión). Si las premisas son ciertas, las conclusiones no pueden ser falsas. Una inferencia inductiva, por otra parte, es un juicio o generalización derivado de observaciones empíricas o experimentales; la conclusión sobre el número promedio de "caras" con base en los resultados de una muestra de prueba. Si los resultados de las pruebas son diferentes, la conclusión también será diferente. No se requiere una suposición a priori sobre la naturaleza de las monedas. La inferencia estadística es primordialmente de naturaleza inductiva y llega a generalizaciones respecto de las características de una población al valerse de observaciones empíricas de la muestra. Es muy probable que una estadística muestral sea diferente del parámetro de la población y sólo por coincidencia sería el uno exactamente igual al otro. La diferencia entre el valor de una estadística muestral y el correspondiente parámetro de la población se suele llamar error de estimación. Sólo se sabría cuál es el error si se conociera el parámetro poblacional, pero éste por lo general se desconoce. La única manera de tener alguna certeza al respecto es hacer todas las observaciones posibles del total de la población en la mayoría de las aplicaciones prácticas, lo cual, desde luego, es imposible o impracticable.

Transcript of ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión...

Page 1: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

ESTIMACIÓN DE PARÁMETRO

HAMLET MATA MATA PROF. DE LA UNIVERSIDAD

POLITÉCNICA DE EL TIGRE-VENEZUELA

INTRODUCCIÓN

Es muy interesante conocer las características de las muestras. El cálculo de los estadísticos o índices

que las definen y describen son netos y muy rentable. Pero en ocasiones nos preguntamos por las

características de la población de origen de donde proceden las muestras. El objetivo parece ambicioso:

se trata de conocer lo que por definición es inalcanzable. Normalmente las poblaciones son

inabarcables puesto que son infinitas, o en el mejor de los casos cuasi-infinitas, lo cual nos deja como

estábamos.

Los parámetros poblacionales caracterizan y describen las poblaciones. Son equivalentes a los

estadísticos o estadígrafos en las muestras. Un estadístico es una función de la muestra, esto es,

depende sola y exclusivamente de nuestra muestra. Varía y está sometido al error (variabilidad) del

muestreo. Los parámetros no varían, son constantes y además desconocidos. Contienen las

características de la población. En una población cuya distribución es conocida pero desconocemos

algún parámetro, podemos estimar dicho parámetro a partir de una muestra representativa.

La inferencia estadística se ocupa, entre otras cuestiones, de los procedimientos de estimación de

parámetros desconocidos de la distribución de una variable aleatoria o de la población, a partir de la

información suministrada por una muestra de tamaño reducido, extraída al azar. La estimación de

parámetros por intervalos, permite construir un intervalo que contendrá el parámetro a estimar con

una confianza fijada a priori por el experimentador.

El objetivo más importante de la Estadística es obtener una inferencia con respecto a la población

basándose en la información contenida en una muestra. Como las poblaciones se describen mediante

medidas numéricas denominadas parámetros, el objetivo de la mayoría de las investigaciones

estadísticas es deducir una inferencia con respecto a uno o más parámetros de la población.

Se han estudiado, hasta el momento, las nociones fundamentales de distribución de probabilidades; se

está en condiciones, entonces, de tratar los métodos de inferencia estadística, los cuales comprenden los

procedimientos para estimar parámetros de poblaciones y probar (contrastar) si una afirmación

provisional sobre un parámetro poblacional se ve apoyada o desaprobada ante la evidencia de la

muestra.

Hablando en general, hay dos tipos de inferencia: la deductiva y la inductiva. Una inferencia

deductiva es un juicio o generalización que se basa en un razonamiento o proceso dialéctico a priori.

Por ejemplo, se supone que dos monedas están perfectamente equilibradas y que entonces la

probabilidad de cada una de caer "cara" es = 0,5 (premisa). La media o número esperado de "caras" en

la jugada de las monedas deber ser 1 (conclusión). Si las premisas son ciertas, las conclusiones no

pueden ser falsas.

Una inferencia inductiva, por otra parte, es un juicio o generalización derivado de observaciones

empíricas o experimentales; la conclusión sobre el número promedio de "caras" con base en los

resultados de una muestra de prueba. Si los resultados de las pruebas son diferentes, la conclusión

también será diferente. No se requiere una suposición a priori sobre la naturaleza de las monedas. La

inferencia estadística es primordialmente de naturaleza inductiva y llega a generalizaciones respecto de

las características de una población al valerse de observaciones empíricas de la muestra.

Es muy probable que una estadística muestral sea diferente del parámetro de la población y sólo por

coincidencia sería el uno exactamente igual al otro. La diferencia entre el valor de una estadística

muestral y el correspondiente parámetro de la población se suele llamar error de estimación. Sólo se

sabría cuál es el error si se conociera el parámetro poblacional, pero éste por lo general se desconoce.

La única manera de tener alguna certeza al respecto es hacer todas las observaciones posibles del total

de la población en la mayoría de las aplicaciones prácticas, lo cual, desde luego, es imposible o

impracticable.

Page 2: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

2

Y en efecto, la razón de ser de la inferencia estadística es la falta de conocimientos acerca de las

características de la población. Pero que tales características se desconozcan no impide el que se actúe.

Las inferencias estadísticas se hacen por posibilidades o probabilidades. De la media de la muestra se

hacen inferencias sobre la media de la población. No se sabe exactamente cuál es la diferencia entre

estas dos medias, ya que la última es desconocida en la mayoría de los casos. No obstante, si se sabe

que es más bien poca la probabilidad de que esta diferencia sea mayor que, por ejemplo, tres a aún dos

errores estándares.

Los problemas que se tratan en la inferencia estadística se dividen generalmente en dos clases: los

problemas de estimación y los de prueba de hipótesis. Como al estimar un parámetro poblacional

desconocido se suele hacer una afirmación o juicio este último ofrece solamente una estimación. Es un

valor particular obtenido de observaciones de la muestra. No hay que confundir este concepto con el de

estimador, que se refiere a la regla o método de estimar un parámetro poblacional. Por ejemplo, se dice

que X es un estimador de porque la media muestral proporciona un método para estimar la media

de la población. Un estimador es por naturaleza un estadístico y como tal tiene una distribución. El

procedimiento mediante el cual se llega a la obtención y se analizan los estimadores se llama

estimación estadística, que a su vez se divide en estimación puntual y estimación por intervalos. En

una población cuya distribución es conocida pero desconocemos algún parámetro, podemos estimar

dicho parámetro a partir de una muestra representativa.

Uno de los principales objetivos de la estadística inferencial es estimar parámetros poblacionales.

Desde el punto de vista matemático, los parámetros son valores que definen la forma y localización de

un modelo probabilístico. Los parámetros poblacionales son constantes que caracterizan una

población. Estos parámetros pueden ser de ubicación (como la media, mediana, proporción) o de

dispersión (como la varianza o coeficiente de variación). Los parámetros se estiman mediante el

muestreo de la población. Los valores que se calculan a partir de muestras para estimar parametros se

llaman estimadores. Los estimadores se calculan mediante reglas matemáticas (fórmulas) a partir de los

elementos de la muestra. Por ejemplo, la media muestral, un estimador de la media poblacional se

calcula como:

La selección de elementos en una muestra se puede hacer de distintas formas, El muestreo aleatorio es

la selección al azar de los elementos que constituyen una población. El muestreo puede ser sin

reemplazo, en este caso, los elementos que se extraen no son devueltos. El muestreo con reemplazo

ocurre cuando el elemento extraído es devuelto a la población. En el caso de que el tamaño de la

población sea muy grande, el muestreo sin reemplazo no afecta las estimaciones, de lo contrario debe

considerarse el efecto de la extracción de los elementos de la población. La selección y extracción

aleatoria de los elementos de la población para realizar inferencias sobre atributos poblacionales es

necesaria para evitar sesgos, lograr independencia entre las observaciones y mantener objetividad en

las inferencias realizadas. Puesto que los elementos de la muestra varían de manera impredecible (si la

extracción es aleatoria), los estimadores también varían. Por lo tanto, los estimadores son variables

aleatorias.

Para la estimación de los estadísticos de posición se toma como base el cálculo combinatorio y

permutacional. Se utilizan fundamentalmente las técnicas de remuestreo, Bootstrap y Jackknife. Estas

técnicas no han sido suficientemente desarrolladas y utilizadas porque históricamente los economistas

(padres de los estadistas) empleaban las sumatorias y la medias y nunca las medidas de posición,

medianas o cuartiles. Esto es lógico cuando hablamos de dinero.

La estimación de parámetros puede ocurrir de dos formas: a) Estimación puntual, la cual es la

estimación del valor del parámetro y b) Estimación por intervalo, en este caso se construye un

intervalo probabilístico que expresa la probabilidad de que el parámetro se encuentre dentro de dicho

intervalo con cierto nivel de confiabilidad. Se recomienda que en la presentación de estimaciones

puntuales siempre se asocie su variabilidad, por ejemplo, en el caso de la media muestral, es

recomendable presentar también el error estándar y tamaño de muestra

Page 3: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

3

Un estimador es un valor que puede calcularse a partir de los datos muestrales y que proporciona

información sobre el valor del parámetro. Por ejemplo la media muestral es un estimador de la media

poblacional, la proporción observada en la muestra es un estimador de la proporción en la población.

Una estimación es puntual cuando se obtiene un sólo valor para el parámetro. Los estimadores más

probables en este caso son los estadísticos obtenidos en la muestra, aunque es necesario cuantificar el

riesgo que se asume al considerarlos. Recordemos que la distribución muestral indica la distribución

de los valores que tomará el estimador al seleccionar distintas muestras de la población. Las dos

medidas fundamentales de esta distribución son la media que indica el valor promedio del estimador y

la desviación típica, también denominada error típico de estimación, que indica la desviación

promedio que podemos esperar entre el estimador y el valor del parámetro.

Más útil es la estimación por intervalos en la que calculamos dos valores entre los que se encontrará

el parámetro, con un nivel de confianza fijado de antemano.

Llamamos Intervalo de confianza al intervalo que con un cierto nivel de confianza, contiene al

parámetro que se está estimando.

Nivel de confianza es la "probabilidad" de que el intervalo calculado contenga al verdadero valor del

parámetro. Se indica por 1 habitualmente se da en porcentaje (1- )100%. Hablamos de nivel de

confianza y no de probabilidad ya que una vez extraída la muestra, el intervalo de confianza contendrá

al verdadero valor del parámetro o no, lo que sabemos es que si repitiésemos el proceso con muchas

muestras podríamos afirmar que el (1- )% de los intervalos así construidos contendría al verdadero

valor del parámetro. Por lo general los nivele de confianza más utilizados son: 99, 95 y 90 %, a estos

se les denominan coeficientes de confianza: es el nivel de confianza que se tiene en el que el intervalo

contenga el valor desconocido del parámetro; estos son simplemente convencionales.

Un intervalo de confianza tiene un límite inferior de confianza (LIC) y un límite superior de confianza

(LSC). Esos limites se encuentran calculando primero la media muestral, X . Luego se suma una cierta

cantidad a X para obtener el LSC y la misma cantidad se resta a X para obtener el LIC, estos valores

que se suman y restan a la media muestral se les denominan errores de estimación.

Confianza e Intervalos de confianza

La estimación de parámetros mediante un solo valor se conoce como estimación puntual. Es bastante

arriesgada puesto que no conocemos ni la imprecisión ni se establece el grado de confianza que nos

merece el resultado. Estos dos inconvenientes se obvian con la estimación por intervalos

confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo

de confianza. Por otro proporcionan un valor de la fiabilidad que nos debería merecer nuestra

estimación, o nivel de confianza.

Afortunadamente algo tan sutil como la confianza se puede cuantificar, y no sólo eso sino que se

mueve en unos límites tan cómodos para el pensamiento como son entre el cero y el cien por ciento.

Por convenio, y nadie parece en desacuerdo, para la mayoría de las ocasiones una confianza del 95%

parece suficiente. Este es el valor que gobierna la longitud del intervalo de confianza.

¿Como se interpreta una confianza del 95%?. Si llevamos a cabo un experimento 100 veces

obtendríamos 100 distribuciones muestrales de datos y 100 intervalos de confianza. De estos 100

intervalos, 95 de ellos cubrirían el valor del verdadero parámetro poblacional. Desgraciada o

afortunadamente, nosotros solo realizamos el experimento una sola vez. Con lo que nunca sabremos si

nuestro intervalo es uno de esos 95 que contienen el parámetro de estudio.

Técnicamente, aunque esto suene a una sofisticación innecesaria, no podemos asociar el concepto de

nivel de confianza con el concepto de probabilidad. Así no se puede establecer que tenemos una

probabilidad del 95% de que el parámetro buscado este dentro de nuestro intervalo.

Las técnicas de estimación de parámetros poblacionales se incluyen dentro de la estadística inferencial.

Un Teorema Importante

Todos los parámetros poblacionales pueden ser estimados a partir de técnicas de estimación. La

mayoría de los estimadores se basan en la distribución de los estadísticos en el muestreo y toman como

base algunas propiedades deseables del teorema del límite central. Este teorema tiene unas propiedades

tan deseables que es la base de la estadística analítica. Viene a decir fundamentalmente dos cosas:

Page 4: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

4

1.- Que las muestras individualmente son diferentes de las poblaciones pero en conjunto son muy

parecidas

2. Que las muestras no son gobernadas por el azar, sino que en conjunto siguen, no importa de lo que

estemos tratando, las leyes universales de las funciones teóricas de probabilidad. La función de

probabilidad normal rige, en la mayoría de las ocasiones cuando las muestras son mayores de 30, estas

distribuciones muestrales.

Otro Enfoque

Para la estimación de los estadísticos de posición se toma como base el cálculo combinatorio y

permutacional. Se utilizan fundamentalmente las técnicas de remuestreo, Bootstrap y Jackknife. Estas

técnicas no han sido suficientemente desarrolladas y utilizadas porque históricamente los economistas

(padres de los estadistas) empleaban las sumatorias y la medias y nunca las medidas de posición,

medianas o cuartiles. Esto es lógico cuando hablamos de dinero.

La estimación de parámetros puede ocurrir de dos formas: a) Estimación puntual, la cual es la

estimación del valor del parámetro y b) Estimación por intervalo, en este caso se construye un

intervalo probabilístico que expresa la probabilidad de que el parámetro se encuentre dentro de dicho

intervalo con cierto nivel de confiabilidad. Se recomienda que en la presentación de estimaciones

puntuales siempre se asocie su variabilidad, por ejemplo, en el caso de la media muestral, es

recomendable presentar también el error estándar y tamaño de muestra.

ESTIMACIÓN DE PARÁMETROS

La teoría clásica de la Inferencia Estadística trata de los métodos por los cuales se selecciona una

muestra de una población y, basándose en las pruebas de las muestras, se trata de:

* Estimar el valor de un parámetro desconocido, por ejemplo θ.

* Verificar si θ es o no igual a cierto valor predeterminado, por ejemplo θ0.

El primero de estos dos procedimientos, de inferir de una muestra a una población, se llama estimación

de un parámetro; el segundo, prueba de una hipótesis acerca de un parámetro. Dentro del primer

procedimiento, la estimación de un parámetro puede tener por resultado un solo punto (estimación

puntual), o un intervalo dentro del cual exista cierta probabilidad de encontrarlo (estimación por

intervalos).

Un estimador puntual es un único punto o valor, el cual se considera va a estimar a un parámetro. La

expresión E( ) = sugiere que el único valor de es un estimador puntual insesgado o no viciado de

.

Un estimador por intervalo se construye sobre el concepto de un estimador puntual, pero además,

proporciona algún grado de exactitud del estimador. Como el término lo sugiere, un estimador por

intervalo es un rango o banda dentro de la cual el parámetro se supone va a caer.

Las técnicas estadísticas de estimación intentan conocer el valor de estos parámetros. La media de edad

de un conjunto de personas es fácilmente calculable y no está sometido a ninguna clase de imprecisión.

La media de edad de la población de donde proviene esa muestra es desconocida. Si la muestra cumple

la condición de ser aleatoria, es posible intentar calcular la media poblacional. El cálculo de los

parámetros se basa en la información suministrada por la muestra.

En el proceso de ir de la información de la muestra (estadísticos) al estimado de los parámetros

poblacionales ocurren dos cosas, una buena y otra mala:

a.- Ganamos en generalización. Esto es, pasamos de la parte al todo. De las muestras a las poblaciones

b.- Perdemos precisión o lo que es lo mismo, ganamos en imprecisión. La estimación de parámetros

poblacionales se realiza construyendo intervalos (segmentos) que suponemos cubren o contienen el

parámetro buscado.

Page 5: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

5

ESTIMACIÓN CON Y SIN SESGO

Si la media de las distribuciones de muestreo de un estadístico es igual que la del correspondiente

parámetro de la población, el estadístico se llama un estimador sin sesgo del parámetro; si no, se

denomina un estimador sesgado. Los correspondiente valores de tales estadísticos se llaman

estimaciones sin sesgo y sesgadas, respectivamente.

ESTIMACIÓN EFICIENTE

Si las distribuciones de muestreo de los estadísticos tienen las mismas medias (o esperanza

matemática), el de menor varianza se llama un estimador eficiente de la media, mientras que el otro se

llama un estimador ineficiente. Los valores correspondientes de esos estadísticos se llaman

estimación eficiente e estimación ineficiente, respectivamente. Si consideramos todos los posibles

estadísticos cuyas distribuciones de muestreo tienen la misma media, aquel de varianza mínima se

llama a veces el estimador de máxima eficiencia, o sea el mejor estimador.

ESTIMACIÓN - GENERALIDADES

El uso principal de la inferencia estadística en la investigación empírica, es lograr conocimiento de una

gran clase de unidades estadísticas (seres humanos, plantas, parcelas de tierra), de un número

relativamente pequeño de los mismos elementos.

Los métodos de inferencia estadística emplean el razonamiento inductivo, razonamiento de lo

particular a lo general y de lo observado a lo no observado.

Cualquier colección o agregación grande de cosas que deseamos estudiar o de las cuales deseamos

hacer inferencias, se llama población. El término población tiene más significado cuando se lo junta

con la definición de muestra de una población: una muestra es una parte o subconjunto de una

población. Una muestra de n elementos de la población de N elementos, debería ser seleccionada de

forma tal que las características de la población puedan ser estimadas con un margen de error conocido.

Los valores de varias medidas descriptivas calculadas para las poblaciones, se llaman parámetros.

Para las muestras, estas mismas medidas descriptivas se llaman estadísticos o estadígrafos.

Matemáticamente, podemos describir muestras y poblaciones al emplear mediciones como la media,

mediana, moda y desviación estándar. Cuando estos términos describen las características de una

muestra se denominan estadísticos o estadígrafos y cuando describen las de una población se

denominan parámetros, con lo que podemos decir que:" Un estadístico es una característica de una

muestra y un parámetro es una característica de una población." Un parámetro describe una población

de la misma manera que un estadígrafo describe a una muestra. Los investigadores de la estadística

usan la palabra población para referirse no sólo a personas sino a todo los elementos que han sido

escogidos para su estudio; mientras que emplean la palabra muestra par describir una porción escogida

de la población. La notación utilizada empleada para denotar estadísticos de muestra es de letras latinas

minúsculas y para representar parámetros de una población se utilizan letras griegas o latinas

mayúsculas.

MUESTRA POBLACIÓN

ESTADÍSTICO PARÁMETRO

Media Aritmética

Variancia S² 2

Desvío Estándar S

Coeficiente de

Correlación

r

Tamaño n

Un estadígrafo o estadístico calculado a partir de una muestra es un estimador del parámetro en la

población. Una estimación es alguna función de los resultados de una muestra que produce un valor,

llamado estimador. El estimador da alguna información respecto al parámetro. Por ejemplo, la media

de la muestra, , es un estimador de la media en la población. Las poblaciones pueden ser infinitas

o finitas. Para la mayoría de los propósitos de investigación, se supone que las poblaciones son

infinitas, no finitas, en tamaño, las cuales son algo artificial o imaginario. Una población finita puede

ser extremadamente grande. Es posible concebir un proceso de conteo de los elementos de la

Page 6: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

6

población, el cual puede ser computado; luego la población es técnicamente finita. Afortunadamente no

es necesario crear problemas en cuanto a la distinción entre poblaciones infinitas y finitas.

El método usado para seleccionar la muestra es muy importante al juzgar la validez de la inferencia que

se hace de la nuestra a la población. Para que una muestra sirva adecuadamente como base para obtener

estimadores de parámetros poblacionales, debe ser representativa de la población. El muestreo al azar

de una población producirá muestras que "a la larga" son representativas de la población. Si una

muestra se extrae aleatoriamente, es representativa de la población en todos los aspectos, esto es, el

estadígrafo diferirá del parámetro solo por azar. La habilidad para estimar el grado de error debido al

azar (error de muestreo), es un rasgo importante de una muestra al azar.

PROPIEDADES DE UN BUEN ESTIMADOR

Para poder utilizar la información que se tenga de la mejor manera posible, se necesita identificar los

estadígrafos que sean buenos estimadores, cuyas propiedades son:

Insesgabilidad:

, estimador de es una variable aleatoria y por lo tanto tiene una distribución de

probabilidad con una cierta media y variancia. Se puede definir estimador insesgado diciendo: Si se

utiliza un estadístico muestral

para estimar el parámetro de la población , se dice que

es un

estimador insesgado de , si la esperanza matemática de

coincide con el parámetro que desea

estimar.

En símbolos:

es insesgado )(E

O sea que es de esperar que si se toman muchas muestras de igual tamaño partiendo de la misma

distribución y si de cada una se obtiene un valor

, la media de todos los valores de

ha de estar

muy cerca de .

* La media muestral es un estimador insesgado de la media poblacional, o sea que E( ) =

* La variancia muestral, ¿es un estimador insesgado de la variancia poblacional?

La respuesta depende de como se defina la variancia muestral.

Si n

XxS

i

222 )(

, entonces S² es un estimador sesgado de 2 pues . Mas aún,

22 1)(

n

nSE

. Pero el sesgo se puede corregir alterando la definición de variancia muestral.

En efecto, si 1

)( 22*

n

XxS

i es la variancia muestral corregida, entonces

22*

)( SE y S² es un

estimador insesgado de 2 .

Eficiencia: si se utilizan dos estadísticos o estadígrafos como estimadores del mismo parámetro,

entonces aquel cuya distribución muestral tenga menor variancia, es un estimador más eficiente o más

eficaz que el otro. Es decir: es eficiente mínima.

Consistencia: Si es un estimador muestral calculado a partir de una muestra de tamaño n y si es el

parámetro de población que se va a estimar, entonces es un estimador consistente de si la

probabilidad de que el valor absoluto de la diferencia entre y su esperanza iguale o supere a e

(error admitido que tiende a cero, o sea que es tan pequeño como se quiera), tienda a cero cuando el

número de elementos de la muestra tienda a infinito. Es decir, la consistencia se refiere a que al

aumentar el tamaño de muestra, el estimador se aproxima al parámetro.

Suficiencia: La suficiencia se refiere a que el estimador haga uso de toda la información de la muestra

para estimar al parámetro. La media muestral hace uso de todas las observaciones. Un estimador

suficiente del parámetro es aquel que agota toda la información pertinente sobre que se puede

disponer en la muestra. Por ejemplo, si se toma una muestra de n = 30 valores con el fin de estimar ,

pueden utilizarse como estimadores la primera, la décimo quinta o la última observación, o el promedio

Page 7: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

7

entre la primera y la quinta observación. Pero estos estimadores no son suficientes pues no contienen

toda la información disponible de la muestra. La media aritmética calculada con las 30 observaciones

sí lo es pues tiene en cuenta todas las observaciones. En definitiva, por ejemplo la media aritmética

muestral y la forma corregida de la variancia muestral, son estadísticas que satisfacen los criterios o

propiedades de "buenos" estimadores.

Evaluación de la bondad de un Estimador

Para evaluar si un estadístico es mejor estimador que otro, se evalúan cuatro criterios:

Imparcialidad: Se dice que un estadístico es un estimador imparcial si, en promedio, tiende a tomar

valores que están por encima del parámetro de la población que se está estimando con la misma

frecuencia y la misma extensión con la que tiende a asumir valores por debajo del parámetro que se

está estimando. Se refiere al hecho de que una media de muestra es un estimador no sesgado de una

media de población, porque la media de distribución de muestreo de las medias de muestras tomadas de

la misma población es igual a la media de la población misma. Podemos decir que una estadística es un

estimador imparcial (o no sesgado) si, en promedio, tiende a tomar valores que están por encima del

parámetro de la población y la misma extensión con la que tiende a asumir valores por debajo del

parámetro de población que se está estimando.

Eficiencia: Esta característica se refiere al tamaño del error estándar del estadístico, mientras más

pequeño sea el error estándar, en más eficiente el estimador. Se refiere al tamaño del error estándar de

la estadística. Si comparamos dos estadísticas de una muestra del mismo tamaño y tratamos de decidir

cuál de ellas es un estimador más eficiente, escogeríamos la estadística que tuviera el menor error

estándar o la menor desviación estándar de la distribución de muestreo. Tiene sentido pensar que un

estimador con un error estándar menor (con menos desviación) tendrá una mayor oportunidad de

producir una estimación más cercana al parámetro de población que se está considerando.

Coherencia: Un estadístico es un estimador coherente de un parámetro de población si al aumentar el

tamaño de la muestra, se tiene casi la certeza de que el valor de la estadística se aproxima bastante al

valor del parámetro de la población. Si un estimador es coherente, se vuelve más confiable si tenemos

tamaños de muestras más grandes.

Suficiencia: Un estimador es suficiente si utiliza una cantidad de la información contenida en la

muestra que ningún otro estimador podría extraer información adicional de la muestra sobre el

parámetro de la población.

ESTIMACIÓN POR INTERVALOS DE CONFIANZA

Lo dicho hasta ahora se refiere a una estimación puntual, es decir, estimar un parámetro a través de un

único valor. Esta estimación no es muy conveniente pues con ella no se puede determinar el error de

muestreo, ni la precisión de la estimación, ni la confianza que merece tal estimación. Existen otros

métodos para estimar parámetros poblacionales que son mucho más precisos. Por ejemplo:

* Método de los mínimos cuadrados.

* Método de los momentos.

* Método de la máxima verosimilitud se basa en el principio de que generalmente ocurre lo más

probable.

* Método de estimación por intervalos de confianza, este será el que se desarrollara en este curso.

El procedimiento de determinar un intervalo (a, b) que comprenda un parámetro de población con

cierta probabilidad 1 , se llama estimación por intervalos. Se verán los casos paramétricos, es

decir, aquellos en los que se tiene conocimiento del tipo de distribución de la población (Binomial,

Normal, etc.).

DISTRIBUCIONES MUESTRALES

Este concepto se relaciona con la idea de variación o fluctuaciones al azar, para lo cual todas las

posibles muestras de un tamaño N en una población dada (con o sin reposición). Para cada muestra,

podemos calcular un estadístico (tal como la media o la desviación típica) que variará de muestra a

muestra. De esta manera obtendremos una distribución del estadístico que se llama su distribución de

Page 8: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

8

muestreo. Si, por ejemplo, el estadístico utilizado es la media muestral, entonces la distribución se

llama la distribución de muestreo de medias, o, distribución de muestreo de la media. Análogamente,

podríamos tener distribuciones de muestreo de la desviación típica, de la varianza, de la mediana, de

las proporciones, etc. Para cada distribución de muestreo podemos calcular la media, la desviación

típica, etc. Así pues, podremos hablar de la media y la desviación típica de la distribución de muestreo

de medias, etc.

DISTRIBUCIÓN DE MUESTREO DE MEDIAS

Es una distribución probabilística que consta de una lista de todas las medias muestrales posibles de un

tamaño dado de una población y la probabilidad de ocurrencia asociada con cada media muestral. Si

tomamos varias muestras de una población con el objetivo de obtener la media poblacional,

observaríamos que cada una de ellas posiblemente nos dan diferentes valores de dicha media. Si se

organizaran las medias de todas las muestras posibles de un tamaño específico tomadas de una

población se obtendría lo que se conoce como una distribución muestral de medias.

Para muestras de tamaño N, sin reposición, de una población finita de tamaño Np>N tenemos,

X y 1

P

PX N

NN

n

Si la población es infinita o si el muestreo es con reposición, los resultados anteriores se reducen a:

X y n

X

Para valores grandes de N (N30), la distribución de muestreo de medias, es aproximadamente normal

con media X y desviación típica X , independientemente de la población (en tanto en cuanto la

media poblacional y la varianza sean finitas y el tamaño de la población sea al menos doble que el de la

muestra). Este resultado para una población infinita es un caso especial del teorema del límite central

de teoría avanzada de probabilidades, que afirma que la precisión de la aproximación mejora al crecer

N. Esto se indica en ocasiones diciendo que la distribución de muestreo es asintóticamente normal.

Debemos anotar que las características de la población serán las mismas que tendrán las diferentes

muestras de la misma:

Si la población no tiene distribución normal, la distribución muestral de medias de cualquier manera

tenderá a aproximarse a la forma normal.

La dispersión en la distribución de las medias muestrales es siempre menor que la dispersión de la

población y será mucho más pequeña mientras más grande sea el tamaño de la muestra.

ESTIMACIONES DE INTERVALO DE CONFIANZA PARA PARÁMETROS DE

POBLACIÓN

Sean x la media y la desviación típica (error típico) de la distribución de muestreo de un estadístico S.

Entonces, si la distribución de S es aproximadamente normal (que como hemos visto es cierto para

mucho estadísticos si el tamaño de la muestra N30), podemos esperar hallar un estadístico real S que

esté en los intervalos s -s a s +s, s -2s a s+s, o s -s a s +3s alrededor del 68.27 %, 95,45

% y 99.73 % de la curva normal, respectivamente.

Equivalentemente, podemos esperar hallar (o sea, podemos estar confiados en encontrar)s en los

intervalos S - s a S + s, S - 2s a S + 2s, o S - 3s a S + 3s alrededor del 68.27%, 95.45% y

99.73% , de la curva normal, respectivamente. Por esta razón, llamamos a ese respectivos intervalos

los intervalos de confianza 68.27%, 95.45% y 99.73% para estimar s. Los números extremoso de estos

intervalos se llaman entonces los límites de confianza 68.27%, 95.45% y 99.73%.

Análogamente, S ± 1.96s. y S ± 2.58s son los límites de confianza 95% y 99% (o sea 0.95 y 0.99)

para S. El porcentaje de confianza se suele llamar nivel de confianza. Los números 1.96 y 2.58, etc. en

los límites de confianza se llaman coeficientes de confianza o valores críticos, y se denotan por zc. De

Page 9: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

9

los niveles de confianza que no aparecen en la tabla, los valores de zc se pueden encontrar gracias a las

tablas de áreas bajo la curva normal.

NIVELES DE CONFIANZA

NIVEL DE

CONFIANZA

99.73% 99% 98% 96% 95.45% 95% 90% 80% 68.27% 50%

ZC

3.00 2.58 2.33 2.05 2.00 1.96 1.645 1.28 1.00 0.6745

Una normal de media y desviación se transforma en una z. De acuerdo a las siguientes figuras.

Llamando z al valor de una variable normal tipificada que deja a su derecha un área bajo la curva de

, es decir, que la probabilidad que la variable sea mayor que ese valor es (estos son los valores que

ofrece la tabla de la normal). Podremos construir intervalos de la forma 221

Z

n

XZ

,

para los que la probabilidad es 1 - .

ERRORES TÍPICOS:

La desviación típica de una una distribución de muestreo de un estadístico se suele llamar su error

típico. En la siguiente tabla, se presentan errores típicos de distribución de muestreo para varios

estadísticos bajo las condiciones de muestreo aleatorio de una población infinita (o muy grande) o de

muestreo con reposición de una finita. También recoge observaciones particulares que garantizan la

validez de estos resultados y otras notas pertinentes.

Se debe tomar en cuenta que si el tamaño de la muestra es lo bastante grande, las distribuciones de

muestreo son normales o casi normales. Por ellos, los métodos se conocen como métodos de grandes

muestras. Cuando N30, las muestras se llaman pequeñas. Cuando los parámetros de la población, tales

comoro, son desconocidos, pueden ser estimados con precisión por sus correspondientes

estadísticos muestrales, a saber, s, X , y r, si las muestras son suficientemente grandes.

Page 10: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

10

DISTRIBUCIÓN

DE MUESTREO

ERROR TÍPICO OBSERVACIONES

Medias

Esto es cierto para muestras grandes y

pequeñas. La distribución muestral de medias

es casi normal para 30, incluso cuando la

población no es normal.

x , la media de la población, en todos

lo casos.

Proporciones

La nota precedente para las medias se aplica

aquí también

pp , en todos los casos.

Desviaciones Típicas (1)

Para 100, la distribución muestral de s es

casi normal.

s viene dada por (1) sólo si la población es

normal (o aproximadamente normal). Si la

población no es normal, se puede usar (2).

Note, que (2) se reduce a (1) cuando 2=2

y 4=4, lo cual es cierto para poblaciones

normales.

Para 100, s= muy aproximadamente

(2)

Varianzas (1)

Las observaciones hechas sobre la desviación

típica son aplicables también aquí. Debemos

notar que (2) da (1) en el caso de poblaciones

normales.

s2=2(N-1)/N, que es casi igual a 2

para N

grandes. (2)

Intervalo de Confianza para μ; con σ Conocida

Si X es la media de una muestra aleatoria de tamaño n de una población con varianza conocida 2 ,

un intervalo de confianza de %100)1( para esta dado por n

ZXn

ZX

22 ,

donde 2Z es el valor de z que delimita un area de 2 a su derecha. Este teorema se cumple en el

caso de muestras de tamaño n ≥ 30.

Es la probabilidad de que el intervalo no incluya al verdadero valor del parámetro. 1 es el nivel

de confianza, es una medida de la fiabilidad de la estimación. Por ejemplo, si se toma = 10%,

entonces 1 = 90% y se dice que se tiene un intervalo de confianza del 90% y que la probabilidad de

que el intervalo contenga al verdadero valor del parámetro es del 90%. Es decir, que si repetidamente

se muestra y se construye tal intervalo una y otra vez, 90 de cada 100 de estos intervalos, contendrá al

parámetro y 10 de ellos no. Se puede pensar que 1 significa certeza, seguridad y significa riesgo. La

seguridad menos el riesgo, es decir 1 da, por lo tanto, el coeficiente de confianza de nuestras

afirmaciones.

En general, es posible construir intervalos de confianza para cualquier coeficiente de confianza

%100)1( para basado en una muestra grande

nZX

2 , es decir:

Page 11: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

11

nZX

2 , es el límite inferior del intervalo de confianza y

nZX

2 , el límite superior del intervalo de confianza.

Una vez determinado el intervalo, es decir, una vez calculados numéricamente los limites inferiores y

superiores, ya no debe hablarse en términos de confiabilidad ni en términos probabilísticos, pues la

situación pasa a ser completamente determinística. De tal manera, asociado a un intervalo de confianza

ya calculado, se tiene una probabilidad 0 ó 1 de que contenga al parámetro a estimar y no hay otra

opción, ya que lo contiene o no lo contiene. Resumiendo, los extremos del intervalo son variables

aleatorias, mientras que el parámetro a determinar es constante.

Muestras diferentes originaran valores distintos de X

y, consecuentemente originaran diferentes

estimaciones por intervalos del parámetro . Mientras mayor sea el valor que se elija para 2Z ,

más amplio serán los intervalos y abra mayor confianza de que la muestra seleccionada en particular

dará un intervalo que contenga al parámetro desconocido .

Figura: Intervalo de confianza para la media.

En general, los pasos a seguir para estimar un parámetro por el método de los intervalos de confianza,

son:

* Fijar el coeficiente de confianza que se desea en la estimación.

* Extraer la muestra y calcular el o los estadísticos necesarios.

* Determinar la distribución en el muestreo que tiene el estadístico empleado.

CASO 1 Con conocido:

Sea ),(.., NX donde es desconocido y conocido.

Sea x1, x2, ... , xn una muestra aleatoria de la variable aleatoria X y sea la media muestral.

Se sabe que

nNX

,.., independientemente del valor de n, por el teorema central del límite.

Page 12: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

12

)1,0(, N

n

XZ

Luego, tipificando:

2

21

ZZ

Se plantea: entonces:

122

nZX

nZXP

Observaciones:

Si las muestras se toman sin reposición de una población finita de tamaño N, debe emplearse el factor

de corrección por finitud y el intervalo será:

1;

122

n

nN

nZX

n

nN

nZX

Si la población es sólo aproximadamente normal, la igualdad sigue siendo válida en forma aproximada.

Figura: La distribución N (0,1) y el intervalo más pequeño posible cuya probabilidad es 1 . Por

simetría, los cuartiles 2Z y 21Z sólo difieren en el signo.

Ejemplo 1: Un grupo de investigadores en Medicina desea estimar el cambio medio de presión

sanguínea por paciente en un sanatorio. Se ha seleccionado una muestra al azar de 30 pacientes y se

Page 13: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

13

halló que puls/seg. Los investigadores saben que la desviación estándar de los cambios de

presión sanguínea para todos los pacientes es σ = 3 puls/seg según estudios anteriores. Ellos desean

estimar el cambio medio de la presión sanguínea por paciente con un intervalo del 95% de confianza,

suponiendo que la variable aleatoria "cambios de presión sanguínea" tiene asociada una distribución

normal de probabilidad.

Respuesta:

X = cambio en la presión sanguínea por paciente del sanatorio (en pulsaciones por segundo)

n = 30, , = 3, 1 - = 0.95

Por tabla: 96.12 Z Entonces:

Límite inferior (LIC) = 9.3073,1530

396.15

Límite superior (LSC) = 1.6073,1530

396.15

Por lo tanto resulta el Intervalo del 95% de confianza para la media: (3,9; 6,1). Entonces, se puede

afirmar que el cambio medio en la presión sanguínea por paciente, pertenece al intervalo (3,9; 6,1)

pulsaciones, con un nivel de confianza del 95%.

En cuanto al tamaño óptimo de muestra, n

Ze

determina el error máximo admitido de muestreo

e indica la precisión de la estimación. Lógicamente se pretende que sea lo más pequeño posible. Por

otra parte, (1 - ) es el coeficiente de confianza y se pretende que sea lo más grande posible. Pero

2Z depende del valor de y al hacer mayor el coeficiente de confianza (1 - ), el valor 2Z será

mayor y por lo tanto el error aumentará. Esto se puede regular aumentando el tamaño de la muestra con

lo que el error disminuirá.

Para el ejemplo 1, segpulse /073,130

396.1 con un nivel de confianza del 95%.

Si se utiliza X como una estimación de , se puede tener una confianza de %100)1( de que el

error será menor que una cantidad especificada e cuando el tamaño de la muestra es

22

2

22222 ****

e

Zn

e

Zn

e

Zn

n

Ze

.

Si se desea elevar el nivel de confianza a 99% en el problema anterior, pero sin aumentar el error e de

estimación, el tamaño de la muestra debería ser:

22 *

e

Zn

0.528.51

)073,1(

3)575,2(

,..;073,1..;3..;575,2

2

22

2

nn

EntonceseZ

Es decir, que se debe tomar una muestra de aproximadamente 52 pacientes en lugar de 30.

Por el contrario, si el investigador deseara un error de estimación menor, por ejemplo 1 puls/seg,

manteniendo el nivel de confianza en 95%, el tamaño de la muestra requerido será:

Page 14: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

14

0.356.34)1(

)3()96,1(

2

22

n Pacientes.

EJEMPLO 1A.-Para una muestra de 81 habitantes de cierta población se obtuvo una estatura media de

167 cm. Por estudios anteriores se sabe que la desviación típica de la altura de la población es de 8 cm.

Construye un intervalo de confianza para la estatura media de la población al 95%.

Datos: 167%),...95(96.1,...81,....8 2 XZn

122

nZX

nZXP

)74,168;..26,165(74.116774.1167

89.096.116789.096.116781

896.1167

81

896.1167

xx

Entonces el intervalo de confianza buscado es: (165.26; 168.74)

Por lo tanto resulta el Intervalo del 95% de confianza para la media: (165.26, 168.74). Entonces, se

puede afirmar que el cambio medio en la estura de esa población, pertenece al intervalo (165.26,

168.74), con un nivel de confianza del 95%.

El estudiante debe calcular los intervalos para los niveles de confianza de 90% y de 99%.

EJEMPLO: La media y la desviación estándar para los promedios de puntuación de una muestra

aleatoria de 36 estudiantes de un Tecnológico son 2.6 y 0.3, respectivamente. ¿De qué tamaño debería

ser la muestra si se desea tener una confianza de 95 % de que la estimación de es menor que0.05?

SOLUCIÓN: Puesto que el tamaño de la muestra es grande, la desviación estándar puede

aproximarse mediante 3.0s , 96.12 Z y e = 0.05. Aplicando la siguiente formula se tiene:

13805.0

)3.0)(96.1(* 222

nn

e

Zn

Por lo tanto, se puede tener una confianza de 95 % de que una muestra aleatoria de tamaño 138

proporcionará una estimación de la media aritmética de la muestra que será diferente de la media

aritmética de la población en una cantidad menor que 0.05.

EJEMPLO: La desviación típica de la altura de los habitantes de un país es de 8 cm. Calcular el

tamaño mínimo que ha de tener una muestra de habitantes de dicho país para que el error cometido al

estimar la altura media sea inferior a 1 cm. con un nivel de confianza del 90%.

SOLUCIÓN: Se aplica la formula para calcular el tamaño de la muestra

22 *

e

Zn

, donde

645,12 Z de acuerdo con la tabla; e =1; 8 , entonces

.1731

)16.13(

1

)8)(645,1(

2

22

n

Por lo tanto, se puede tener una confianza de 90 % de que una muestra aleatoria de tamaño 173

proporcionará una estimación de la media aritmética de la muestra que será diferente de la media

aritmética de la población de ese país en una cantidad menor que 1 cm.

Page 15: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

15

Para estimar se debe utilizar el desvío estándar muestral corregido así:1

)( 2

n

XxS

i, ya que

según se ha visto, es un estimador insesgado del correspondiente parámetro poblacional .

Reemplazando en la variable tipificada por n

SS X resulta el siguiente teorema:

Intervalo de Confianza de Muestras Pequeñas para μ; con σ desconocida

Si X y S son la media y la desviación estándar de una muestra aleatoria de tamaño n < 30, tomada

de una población aproximadamente normal con varianza desconocida 2 , un intervalo de confianza

%100)1( para viene expresada por, n

StX

n

StX 22 , donde 2t es el valor

t con v = n – 1 grados de libertad, que delimitan un área de 2/x a su derecha.

Por lo tanto:

P [ n

StX

n

StX 22 ] 1

Dada la distribución del estadístico y el nivel de confianza, se tiene la siguiente igualdad probabilística:

122 t

nS

XtP , donde 2t es el valor critico dela variable T de Student

verificando .2)( 2 tTP

La expresión anterior es equivalente a: 1)( 22n

StX

n

StXP que hace referencia

a que con una probabilidad 1- el intervalo aleatorio ),( 22n

StX

n

StX contendrá el valor

medio . El intervalo es aleatorio ya que sus extremos se determinan a partir de los estimadores media

muestral y desviación típica muestral, tratándose de variables aleatorias. La probabilidad a que se

refiere dicho intervalo aleatorio, puede interpretarse de manera informal pero quizás más clara: "Si

Page 16: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

16

consideramos todas las muestras distintas de tamaño n que puedan ser extraídas de la población X, y

con las observaciones de cada una construimos los correspondientes intervalos, según la estructura

anterior, el (1- de estos intervalos contendrán el parámetro "

Por tanto, si extraemos una muestra de tamaño n y con los datos u observaciones, x1, x2 ,..., xn ,

calculamos los extremos del intervalo, dispondremos del concreto intervalo de confianza para el

parámetro ),( 22n

StX

n

StX que, en función de la interpretación informal anterior,

contendrá dicho parámetro con una confianza (1-

Observación: el nivel de confianza establece en alguna medida la longitud del correspondiente

intervalo de confianza. Aumentando el nivel de confianza (mayor certeza), aumenta la longitud

(menor precisión).

Figura: La distribución de Student tiene las mismas

propiedades de simetría que la normal tipificada

Ejemplo 2: Una muestra de 15 pollos tomadas al azar en un galpón con 5000 pollos, (que elabora

alimentos balanceados), permitió establecer un aumento de peso promedio de 90 g por semana y por

pollo, y un desvío típico de 10 g. Se busca estimar el incremento de peso promedio para los 5000 pollos

del establecimiento con un intervalo de confianza del 90%.

Respuesta:

X = aumento de peso por ave

n = 15; = 90g; S = 10 g.

Por tabla:

761,12 t y el intervalo resultante será:

)6,94;..5,85(55,49015

10761,1902

n

StX

Interpretando este resultado, se dice que el aumento de peso por ave por semana en el establecimiento

está entre 85,5 y 94,6 gramos, con un 90% de confianza.

INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS

ESTIMACIÓN DE LA DIFERENCIA DE DOS MEDIAS

CASO 1: Poblaciones normales y μ1 y μ

2 con σ

1 y σ

2 conocidos.

Si se tienen dos poblaciones con medias 1 y 2 y varianzas 21 y

22 respectivamente, un

estimador puntual de la diferencia entre 1 y 2 esta dado por el estadístico 21 XX . Por lo cual,

para obtener una estimación puntual de 21 , se seleccionaran dos muestras aleatorias

Page 17: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

17

independientes, una de cada población, de tamaño n1 y n2, y se calculara la diferencia 21 XX de las

medias maestrales.

Si la selección de las muestras se realizaron independientemente a partir de poblaciones normales o en

caso contrario, n1 y n2 son mayores que 30, se puede establecer un intervalo de confianza para

21 considerando la distribución muestral de 21 XX . De acuerdo con este planteamiento puede

esperarse que la distribución muestral de 21 XX tenga una distribución aparentemente normal con

media 2121 XX y desviación estándar

2

22

1

21

21 nnXX

. De acuerdo con

este planteamiento se puede afirmar con una probabilidad de 1 que la variable normal estándar es:

2

22

1

21

2121 )()(

nn

XXZ

y caerá entre 2Z y 2Z , entonces , 1)( 22 ZZZP

y ahora sustituyendo Z por su valor, se expresa en forma equivalente que

1

)()(

1

22

1

21

21212

nn

XXZP

Intervalo de Confianza para μ1 – μ2; con σ2

1 y σ2 2Conocidas

Si 1X y 2X son las medias de muestras aleatorias independientes del tamaño de n1 y n2 a partir de

poblaciones con varianzas conocidas 22

21 .... y , respectivamente, un intervalo de confianza de

%100)1( para 21 esta dada por la formula matemática siguiente:

2

22

1

21

221212

22

1

21

221 )()(nn

ZXXnn

ZXX

, donde 2Z es el valor Z

que delimita un área de 2 a su derecha.

En forma general se tiene:

2

22

1

21

221 )(nn

ZXX

.

Observación: En la fórmula también puede utilizarse 12 y en ese caso debe considerarse

12 XX en lugar de 21 XX .

El grado de confianza es exacto cuando se seleccionan muestras a partir de poblaciones normales.

Cuando las poblaciones no son normales, se obtienen un intervalo de confianza aproximado muy

aceptable cuando 302....1 nn y .Cuando se desconocen 21 y 2

2 y las muestras son suficientemente

grandes, se puede reemplazar 21 por 2

1S y 22

22 ...... Spor sin que se afecte en forma alguna el

intervalo de confianza.

Ejemplo 3: Al determinar la superficie en miles de hectáreas de las explotaciones agrícola-ganaderas de

cierta zona, una muestra de 40 explotaciones dio una superficie media de 900 ha, con una desviación

típica de 300 ha. En otra zona, al muestrear también 40 explotaciones, la superficie media fue de 600

ha con una desviación típica de 150 ha. Suponiendo que en ambas zonas la variable "superficie en ha

por explotación" se distribuye normalmente, estimar por un intervalo de confianza del 90%, la

diferencia entre las superficies medias de las explotaciones de ambas zonas.

Page 18: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

18

Respuesta:

X1 = superficie de cada explotación agropecuaria de la primera zona

X2 = superficie de cada explotación agropecuaria de la segunda zona

, , n = 40; 150..,300 22

21 SS , por ser una muestra grande se

puede remplazar 22 .... porS sin que se afecte el intervalo de confianza.

Por tabla: 645,12 Z Luego aplicando la formula se tiene:

.24.87300033,53645,130040

150

40

300645,1)600900( 90.090.0

22

90.0 ICxICIC

Entonces, IC0.90 = (212,8; 387,2)

Interpretando este resultado, se puede afirmar que la diferencia entre las superficies medias de las

explotaciones agrícola-ganaderas de ambas zonas, se encuentra entre 212,8 y 387,2 ha, con un 90% de

confianza.

EJEMPLO 4. Cincuenta alumnas y setenta y cinco alumnos del IUJAA presentan una prueba de

Estadística. Las muchachas obtuvieron una calificación promedio de 76 puntos, con una desviación

típica de 6, mientras que los muchachos lograron un promedio de 82, con una desviación estándar de

8. Encuentre el intervalo de confianza de 96 % para la diferencia de 21 , donde 1 es la

puntuación media de todos los alumnos y 2 es la puntuación promedio de todas las alumnas que

presentaron esa prueba.

SOLUCIÓN: La estimación puntual de 21 es .6768221 XX Puesto que 2......1 nn y

son grandes, se puede sustituir 6....8 2....21....1 SyS porpor . Por tabla 05.22 Z , por lo tanto,

sustituyendo en la formula estos datos, el intervalo de confianza de 96 % es:

2

22

1

21

221 )(nn

ZXX

, .50,..6,..75,..8..,6)( 2221

2121 nnXX .

)57.8,..43.3(57.26254,105.2650

36

75

6405.26 x , luego el intervalo buscado es:

(3.43; 8.57), o también,

57.82143.3

DISTRIBUCIÓN DEL MUESTREO DE PROPORCIONES

Supongamos que una población es infinita y que la probabilidad de ocurrencia de un suceso (su éxito)

es p, mientras la probabilidad de que no ocurra es q =1 – p. Por ejemplo, la población puede ser la de

todas las posibles tiradas de una moneda, en la que la probabilidad del suceso <<cara>> es p = ½.

Consideremos todas las posibles muestras de tamaño N de tal población, y para cada una de ellas

determinemos la proporción de éxitos P. En el caso de una moneda, P sería la proporción de caras en

N tiradas. Obtenemos así una distribución de muestreo de proporciones cuya media p y cuya

desviación típica p viene dada por

pp y n

pp

n

pqp

)1(

Para valores grandes de N (N30), la distribución de muestreo está, muy aproximadamente,

normalmente distribuida, Nótese que la población está binomialmente distribuida. Las ecuaciones

anteriores son válidas también para una población en la que se hace muestreo con reposición. Para

Page 19: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

19

poblaciones finitas en que se haga muestreo sin reposición, dichas ecuaciones quedan sustituidas por

y .

Intervalo de confianza para p, a partir de una muestra grande

Si p

Es la proporción de éxito en una muestra aleatoria de tamaño n, y pq 1

, un intervalo de

confianza aproximado de %100)1( para el parámetro binomial p esta dado por la siguiente

formula matemática:

n

qpZpp

n

qpZp

22 , donde 2Z es el valor de 2/x a su derecha. En forma

general la formula se puede expresar así:

n

qpZp

2 .

La proporción p

de la muestra se utiliza como estimación de

npq

enp ... porque se desconoce el

valor de p y se trata de la cantidad que se debe estimar. Para estar seguro de su confiabilidad, se

requiere que los productos qnypn

...... sean mayores o iguales a 5.

EJEMPLO: En una muestra aleatoria de n = 500 familias propietarias de equipos de televisión en la

ciudad de El Tigre se encontró que x = 340 se suscribieron a Cables El Tigre. Obtenga un intervalo de

confianza de 95 % para estimar la proporción real de familias en la ciudad mencionada que se

suscribieron a Cables El Tigre.

SOLUCIÓN: La estimación puntual de .68.0500/340.... pesp

Por tabla se sabe que

96.12 Z ; ,32.01;...68.0 pqp

luego el intervalo de confianza aplicando la formula general

será:

)72.064.0(

:......int..04.0068021.096.168.0500

)32.0)(68.0(96.168.0

p

esconfianzadeervaloElx

Ejemplo: En una muestra de 100 pacientes sometidos a un cierto tratamiento se obtienen 80

curaciones. Calcular el intervalo de confianza al 95% de la eficacia del tratamiento.

100;..96.1;..20.01;..80.0100

802 nZqpqp

.

Intervalo de confianza al 95 %: 0784.080.0)04.0(96.180.0100

)20.0)(80.0(96.180.0

Luego el intervalo de confianza al 95 % es:(0.72; 0.88)

¿Qué significa este intervalo? La verdadera proporción de curaciones está comprendida entre,

aproximadamente, 72% y 88% con un 95% de probabilidad.

¿Es suficientemente preciso? Habrá que juzgarlo con criterios clínicos.

EJEMPLO: Una máquina fabrica piezas de precisión y en una caja de 200 piezas, recibida por un

cliente han aparecido 7 piezas defectuosas, a un nivel de confianza del 99% ¿entre qué valores se puede

esperar que esté la verdadera proporción de piezas defectuosas fabricadas por la máquina?

Page 20: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

20

SOLUCIÓN: Se calcula la proporción de de piezas defectuosas en la muestra: 035.0200

7p

, luego

965.01 qpq

, por tabla 575,22 Z , ahora aplicando la formula general n

qpZp

2 ,

se tiene:

)033.0()035.0()013.0(575,2)035.0(200

)965.0)(035.0(575,2)035.0( , luego el intervalo

buscado es: (0.002; 0.068).

Se deja al estudiante que calcule los intervalos para los niveles de confianza de 90% y 95%

Si p es valor central de un intervalo de confianza de %100)1( , entonces p

estimará sin error el

valor de p. Sin embargo, la mayoría de las veces p

no será exactamente igual a p, y la estimación

puntual será errónea. El tamaño de ese error será la diferencia positiva que separa p y p

, y puede

tenerse una confianza de %100)1( de que esa diferencia no excederá de n

qpZ

2 . De acuerdo

con este planteamiento se afirma que:

Si p

se utiliza como una estimación de p, puede tenerse una confianza de %100)1( de que el error

no excederá de n

qpZ

2 . Por lo tanto, se puede afirmar que:

Si p

se utiliza como una estimación de p, puede tenerse una confianza de %100)1( de que el

error será menor que una cantidad especificada e cuando el tamaño de la muestra es

aproximadamente de 2

22

e

qpZn

.

EJEMPLO: En una muestra aleatoria de n = 500 familias propietarias de equipos de televisión en la

ciudad de El Tigre se encontró que x = 340 se suscribieron a Cables El Tigre. ¿De qué tamaño debe

ser la muestra necesaria, si se desea tener una confianza de 95 % de que la estimación de p este dentro

de 0.02?

SOLUCIÓN: Se tomarán las 500 familias como una muestra preliminar que proporcionará una

muestra 68.0500

340p

; por tabla 96.12 Z ; e = 0.02. Luego se aplica la formula

2

22

e

qpZn

.2090)02.0(

)32.0)(68.0()96.1(

2

2

n

Por lo tanto, si la estimación de p se basa en una muestra aleatoria de tamaño 2090, se puede tener una

confianza de 95 % de que la proporción de la muestra no será diferente de la proporción real en más de

0.02.

Algunas veces será poco práctico obtener una estimación de p que habrá de utilizarse al determinar el

tamaño de la muestra para un grado de confianza especificado. Si esto ocurre, se establece un límite

superior para n, observando que ),1( ppqp

lo cual debe ser por lo menos igual a ¼, ya que p

debe estar entre 0 y 1. De acuerdo con este planteamiento se puede enunciar lo siguiente:

Si p

se utiliza como una estimación de p, se puede tener por lo menos una confianza de %100)1(

de que el error no excederá de una cantidad especificada e cuando el tamaño de la muestra sea

22

2

22

24

e

Z

e

Zn

Page 21: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

21

EJEMPLO: En una muestra aleatoria de n = 500 familias propietarias de equipos de televisión en la

ciudad de El Tigre se encontró que x = 340 se suscribieron a Cables El Tigre. ¿De qué tamaño debe

ser la muestra necesaria, si se desea tener una confianza de 95 % de que la estimación de p este dentro

de un 2 %?

SOLUCIÓN: En este caso a diferencia del ejemplo anterior, se supondrá ahora que no se ha tomado

ninguna muestra preliminar para tener una estimación de p. Por lo tanto, puede tenerse por lo menos 95

% de confianza de que la proporción en la muestra no será diferente de la proporción verdadera en más

de 0.02 si se elige una muestra de tamaño aplicando la formula

22

2

e

Zn

así:

Datos: 02.0,..96.12 eZ y como se desconoce p esta se toma como p = 05.

.2401)02.0)(2(

96.12

n

EJEMPLO: Imagina que queremos estimar con un error máximo del 3%, el porcentaje de audiencia de

un programa de TV, y queremos un 95% de confianza para nuestros resultados. No disponemos de

información previa sobre el posible valor de p. ¿Cuántos teleespectadores deberán ser encuestados?

SOLUCIÓN: Puesto que desconocemos p, tomaremos p = 0,5. Para un nivel de confianza del 95%

deberemos tomar 2Z =1,96. Aplicando la formula

22

2

e

Zn

, entonces se tiene:

10670036.0

8416,3

)0009.0(4

8416,32

)03.0(2

96.1

2

n

Con lo que n =1067. Tenemos pues un 95% de confianza en que el porcentaje que encontremos se

halle a menos de tres puntos porcentuales de la proporción exacta.

Estimación de la diferencia entre dos proporciones

Considérese el problema en el que se desea estimar la diferencia entre dos parámetros binomiales, p1 y

p2. Por ejemplo, se puede considerar que p1 es la proporción de fumadores con cáncer pulmonar y p2 la

de los que no fuman y tienen también cáncer pulmonar. El problema, entonces, es estimar la diferencia

entre estas dos proporciones. En prímer lugar, se seleccionan muestras aleatorias independientes de

tamaño n1 y n2 a partir de las dos poblaciones binomiales con medías n1p1 y n2p2, y variancia n1p1q1 y

n2p2q2, respectivamente; luego se determinan los números x1 y x2 de personas de cada muestra con

padecimiento de cáncer pulmonar y se forman las proporciones 11 nxp

y 22 nxp

. Un

estimador puntual de la diferencia entre las dos proporciones 21 pp está dado por el estadístico

21 pp

. Así la diferencia de las proporciones de muestra, 21 pp

será utilizada como estimación

puntual de 21 pp

.

Un intervalo de confianza para 21 pp puede establecerse considerando la distribución muestral de

21 pp

. Se sabe que 1p

y 2p

están distribuidos aproximadamente en forma normal cada uno, con

medias p1 y p2 y variancias p1q1/n1 y p2q2 /n2, respectivamente. Eligiendo muestras independientes a

partir de las dos poblaciones, las variables 1p

y 2p

serán independientes; luego, por la propiedad de

la distribución normal, se concluye que 1p

y 2p

está distribuida de modo aproximadamente normal,

con media 2121pppp

y varianza 2

22

1

112

21 n

qp

n

qppp

, por lo tanto, se puede aseverar

Page 22: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

22

que 1)( 22 zZzP , donde

2

22

1

11

2121 )()(

n

qp

n

qp

ppppZ

después de realizar las

simplificaciones algebraicas usuales, se reemplazan 2,1,2,1 .. qyqpp en el radical por sus estimaciones

.2211222111 1...1,; pqypqnxpnxp

Siempre que 22.,.22,11,11 qnpnqnpn y

sean todos

mayores o iguales a 5, obteniéndose 2

22

1

11

n

qp

n

qp

.

Intervalo de Confianza para p1 – p

2, a Partir de Muestras Grandes

Si p1 y p2 son las proporciones de éxitos en muestras aleatorias de tamaño n1 y n2 respectivamente, y

además 11 1 pq

y 22 1 pq

, entonces un intervalo de confianza p1 – p2 , esta dado la

formula:

2

22

1

1122121

2

22

1

11221 )()(

n

qp

n

qpZpppp

n

qp

n

qpZpp xx

, donde 2xZ es el

valor que delimita un área de 2x a su derecha.

EJEMPLOS: Un fabricante de insecticida en presentación aerosol desea comparar desea comparar dos

productos nuevos, A y B. En el experimento se emplean dos habitaciones del mismo tamaño, cada una

con 1000 mosquitos. En uno de los cuartos se rocía el insecticida A y en el otro se rocía el insecticida

B en igual cantidad. Después del experimento se obtiene un total de 825 y 760 mosquitos muertos por

acción de los insecticidas A y B respectivamente. Se desea estimar la diferencia de la proporción de

éxito para los dos insecticidas cuando se usan en condiciones similares a las experimentadas. Resuelva

el caso.

SOLUCIÓN: El estimador puntual de (p1 – p2) es 065.01000

760

1000

825( 21 pp

. Por tabla

96.12 xZ , 1000;..24.0;..76.01000

760;..175.0,..825.0

1000

8252211 nqpqp

El intervalo de confianza del 95 % es:

)035.0()065.0()018.0(96.1)065.0(1000

)24.0)(76.0(

1000

)175.0)(825.0(96.1)( 21 pp

El intervalo resultante es: 1.003.0 21 pp .

Por lo tanto se estima que la diferencia )( 21 pp de proporciones de éxito esta entre 0.03 y 0.100. Es

decir, se estima que p1 excede de p2 por al menos 0.03 y a lo más por 0.100, entonces se puede tener

buena confianza en esta estimación.

CONCEPTOS BÁSICOS

Estimación: valor específico de un estimador, calculado en base a una muestra dada.

Estimación de intervalo: intervalo de valores utilizado para estimar un parámetro de población

desconocido.

Estimación de parámetros: Aproximación del valor de parámetros poblacionales

desconocidos mediante el empleo de estadísticos muestrales.

Estimación puntual: un solo número que se utiliza para estimar un parámetro de población

desconocido.

Estimador: estadístico de muestra utilizada para estimar un parámetro de población.

Conceptualmente es una variable aleatoria.

Page 23: ESTIMACIÓN DE PARÁMETRO · confidenciales. Por un lado proporcionan un valor de la imprecisión dado por la longitud del intervalo de confianza.

23

Estimador coherente: estimador que produce valores que se acercan más al parámetro de la

población conforme aumenta el tamaño de la muestra.

Estimador eficiente: estimador con un menor error estándar que algún otro estimador del

parámetro de la población, esto es, cuanto más pequeño sea el error estándar de un estimador,

más eficiente será ese estimador.

Estimador imparcial: estimador de un parámetro de población que, en promedio, asume

valores por encima del parámetro de la población con la misma frecuencia, y al mismo grado,

con que tiende a tomarlos por debajo del parámetro de la población.

Estimador suficiente: estimador que utiliza toda la información disponible en los datos

correspondientes a un parámetro.

Intervalo de confianza: intervalo de valores que tiene designada una probabilidad de que

incluya el valor real del parámetro de la población.

Límites de confianza: límites inferior y superior de un intervalo de confianza.

Nivel de confianza: probabilidad que los estadísticos asocian con una estimación de intervalo

de un parámetro de población, ésta indica qué tan seguros están de que la estimación de

intervalo incluirá el parámetro de la población. Probabilidad, designada de antemano, de que un

intervalo de confianza incluya al valor del parámetro desconocido.

Propiedades de un buen estimador: características deseables de un estimador, para lograr la

mejor aproximación posible de un parámetro poblacional.