Tema 2. Inferencia en poblaciones normales multivarian-...

23
Γ 2 X = X 1 X d

Transcript of Tema 2. Inferencia en poblaciones normales multivarian-...

Page 1: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

Máster en Técnicas EstadísticasAnálisis Multivariante. Año 2008 � 2009. Profesor: César Sánchez Sellero.

Tema 2. Inferencia en poblaciones normales multivarian-tes

2.1. Introducción.

En este tema realizaremos tareas de inferencia sobre el vector de medias y la matriz de covarianzas

de una población normal multivariante, en base a una muestra aleatoria simple extraída de ella.

También se tratarán poblemas que involucren a varias poblaciones. Muchos procedimientos

resultarán ser extensiones naturales de los métodos ya conocidos para poblaciones normales

univariantes, mientras que en algún caso surgirán problemas nuevos, por ejemplo, comparación

entre componentes del vector de medias o cuestiones de inferencia simultánea; en de�nitiva,

situaciones provocadas por la dimensión múltiple.

Pero para comenzar conviene recordar la situación univariante, en la cual la inferencia se apoya

en el teorema de Fisher que dice que la media tiene distribución normal (con cierta media y

varianza), la varianza muestral tiene distribución ji-cuadrado, y son independientes. De igual

modo, en el tema anterior se obtuvo un resultado que a�rma que el vector de medias muestral

es normal multivariante, la matriz de covarianzas muestral tiene distribución de Wishart, y son

independientes. Así, por ejemplo, en base a este resultado se puede hacer inferencia sobre el

vector de medias cuando la matriz de covarianzas es desconocida, recurriendo a la distribución

Γ2 de Hotelling.

Aunque el vector de medias muestral y la matriz de covarianzas muestral son estimadores na-

turales de sus análogos poblacionales, también vamos a ver que son los estimadores de máxi-

ma verosimilitud, y de paso, introducimos la función de verosimilitud y en general la idea de

verosimilitud, que será empleada en varias ocasiones a lo largo de este tema.

2.2. Vectores aleatorios.

En esta sección vamos a recordar los conceptos básicos relacionados con un vector aleatorio. Los

contenidos coinciden con la sección 3.1 de los apuntes de la asignatura "Modelos de regresión",

del primer cuatrimestre del máster. Se ha optado por reproducirlos de nuevo aquí. Un vector

aleatorio es una colección de variables aleatorias

X =

X1...

Xd

medidas simultáneamente sobre el mismo individuo o sobre el mismo resultado de un experimento

aleatorio. Cada una de las componentes de un vector aleatorio es una variable aleatoria, y por

tanto se puede calcular su media, su varianza y su distribución. Sin embargo, hay algunas

propiedades conjuntas dentro de un vector aleatorio, como son la covarianza (o la correlación) y

5

Page 2: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

6 Máster en Técnicas Estadísticas

la distribución conjunta. En concreto, se de�ne el vector de medias como

E(X) =

E (X1)...

E (Xd)

y la matriz de covarianzas como:

Σ = Cov(X,X) =

V ar (X1) Cov (X1, X2) · · · Cov (X1, Xd)

Cov (X2, X1) V ar (X2) · · · Cov (X2, Xd)...

.... . .

...

Cov (Xd, X1) Cov (Xd, X2) · · · V ar (Xd)

El vector de medias y la matriz de covarianzas se comportan de la siguiente manera ante trans-

formaciones lineales:

E(α+AX) = α+AE(X) Cov(α+AX, β +BY ) = ACov(X,Y )B′

siendo α y β vectores de dimensión q ≤ d, y A y B matrices q × d. Como caso particular de

transformaciones lineales, se encuentran los cambios de localización y escala. Así, ante un cambio

de localización, como el que representa sumar el vector α, el vector de medias queda desplazado

en la misma dirección α, para situarse de nuevo en el centro de la distribución. La matriz de

covarianzas, sin embargo, es invariante ante cambios de localización. Respecto de cambios de

escala, podemos decir que cada componente del vector de medias está medido en la misma escala

que la variable (por ejemplo, en centímetros o en metros si la variable representa una longitud),

mientras que cada varianza se mide en la escala de la variable elevada al cuadrado, y la covarianza

en el producto de las escalas de las dos variables involucradas.

Hay una transformación lineal que tiene un interés especial, que se conoce como estandarización.

La estandarización de una variable aleatoria se consigue restando la media y dividiendo por

la desviación típica (raíz cuadrada de la varianza). En el caso de un vector aleatorio, su es-

tandarización sería

Y = Σ−1/2(X − µ)

que así construido veri�ca E(Y ) = 0 y Cov(Y, Y ) = Id.

Puede surgir alguna duda sobre cómo obtener la matriz Σ−1/2. A este respecto es útil tener pre-

sente que toda matriz de covarianzas es una matriz simétrica y semide�nida positiva. Recordemos

ciertos resultados algebraicos para este tipo de matrices.

Si A es una matriz simétrica, entonces

A = (v1, . . . , vd)

λ1 0. . .

0 λd

v′1

...

v′d

siendo v1, . . . , vd una base ortonormal de autovectores de A y λ1, . . . , λd sus autovalores asociados.A se dice de�nida positiva si todos los autovalores de A son positivos. En ese caso se puede

emplear para de�nir una norma (y una distancia): ‖x‖2 = x′Ax.

Page 3: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

Análisis Multivariante 7

A se dice semide�nida positiva si todos los autovalores son no negativos. En ese caso los auto-

valores nulos provocan una reducción de dimensión.

Como ya se dijo, toda matriz de covarianzas es una matriz simétrica y semide�nida positiva.

Su rango, número de autovalores no nulos, coincide con la dimensión del espacio lineal en el

que se puede incluir el vector aleatorio. De hecho, dicho espacio lineal es el generado por los

autovectores asociados a los autovalores no nulos.

Las potencias de una matriz simétrica se pueden obtener, simplemente elevando a la potencia

correspondiente la matriz diagonal de los autovalores, esto es, si k ∈ R, entonces

Ak = (v1, . . . , vd)

λk1 0. . .

0 λkd

v′1

...

v′d

Por supuesto para las potencias negativas es necesario que todos los autovalores sean distintos

de cero, y en el caso de la matriz de covarianzas, que sea de�nida positiva.

2.3. Inferencia sobre el vector de medias, como extensión del univariante.

Supongamos una muestra aleatoria simple de un vector aleatorio normal multivariante. La

podemos denotar por X1, . . . , Xn ∈ Nd(µ,Σ) independientes. Entonces

X̄ =1n

n∑i=1

Xi ∈ Nd

(µ,

1n

Σ)

y este resultado es su�ciente para obtener un pivote para µ cuando la matriz de covarianzas es

conocida, el cual resulta de la estandarización de X̄. Así,

n(X̄ − µ

)′Σ−1(X̄ − µ

)∈ χ2

d

Por ejemplo, en base a este pivote se puede obtener una región de con�anza para el vector de

medias, con nivel de con�anza (1− α), de la forma:{µ ∈ Rd : n

(X̄ − µ

)′Σ−1(X̄ − µ

)< χ2

d,α

}Observamos que la región de con�anza que se encuentra dentro del corchete, es la región limi-

tada por una elipse en el plano (si d = 2), un balón de rugby en el espacio (si d = 3), y así

sucesivamente. Se trata de un elipsoide en Rd, centrado en X̄, cuyos ejes van en la dirección

de los autovectores de Σ y la longitud de los radios (semilongitud de los ejes) viene dada por√λj√χ2d,α/n con j ∈ {1, . . . , d}, siendo λ1, . . . , λd los autovalores de Σ.

En el caso bidimensional, d = 2, se puede representar la elipse, aplicando la siguiente expresión

para los puntos que la forman:

X̄ +√χ2d,α/n

[√λ1 v1 cos(θ) +

√λ2 v2 sen(θ)

]con θ ∈ [0, 2π)

siendo v1 y v2 los autovectores de Σ, y λ1 y λ2 sus autovalores respectivos.

Page 4: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

8 Máster en Técnicas Estadísticas

Al igual que ocurría en el caso univariante con la desviación típica, ahora si la matriz de co-

varianzas es desconocida, es necesario estimarla mediante su análogo muestral, lo cual conduce

a una distribución diferente, que se puede considerar una extensión de la T de Student. Es la

distribución de Hotelling, cuya de�nición y propiedades básicas se pueden encontrar en el tema

anterior. Todo ello nace de la extensión del Teorema de Fisher al caso multivariante, que dice lo

siguiente: Si X1, . . . , Xn ∈ Nd(µ,Σ) independientes, entonces

X̄ =1n

n∑i=1

Xi ∈ Nd

(µ,

1n

Σ)

nS =1n

n∑i=1

(Xi − X̄

) (Xi − X̄

)′ ∈Wd(Σ, n− 1)

y además son independientes. De ello y de la de�nición de la distribución Γ2 de Hotelling, se

obtiene el pivote siguiente:

(n− 1)(X̄ − µ

)′S−1

(X̄ − µ

)∈ Γ2(d, n− 1)

La distribución de Hotelling se puede transformar en una F de Snédecor, y en este caso resulta

n− dd

(X̄ − µ

)′S−1

(X̄ − µ

)∈ Fd,(n−d)

Ejemplo 2.1 Representa la región de con�anza, al nivel del 95%, para el vector de medias en

base a los siguientes datos de las extremidades de diez animales:

Longitud: 65, 46, 53, 57, 71, 49, 58, 68, 54, 53

Anchura: 21.5, 18.5, 20.6, 24.5, 26.3, 17.8, 22.2, 24.9, 21.2, 21.0

suponiendo que la distribución es normal con matriz de covarianzas

Σ =(

2.5 11 2

)Obtén y representa la región de con�anza en el caso de que la matriz de covarianzas sea descono-

cida.

2.4. Estimadores de máxima verosimilitud.

Consideremos disponible una muestra aleatoria simple

X1, . . . , Xn ∈ Nd(µ,Σ)

de vectores aleatorios independientes y con la misma distribución normal multivariante.

Vamos a obtener los estimadores de máxima verosimilitud del vector de medias, µ, y de la matriz

de covarianzas, Σ.

La función de verosimilitud sería:

L(x, µ,Σ) = (2π)−nd/2|Σ|−n/2 exp

{−1

2

n∑i=1

(xi − µ)′Σ−1 (xi − µ)

}

Page 5: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

Análisis Multivariante 9

Observamos que

n∑i=1

(xi − µ)′Σ−1 (xi − µ) =n∑i=1

[(xi − x̄)′Σ−1 (xi − x̄) + (x̄− µ)′Σ−1 (x̄− µ)

+2 (x̄− µ)′Σ−1 (xi − x̄)]

=n∑i=1

(xi − x̄)′Σ−1 (xi − x̄) + n (x̄− µ)′Σ−1 (x̄− µ)

ya que la suma de los dobles productos vale cero. Entonces la log�verosimilitud se puede expresar

así:

logL(x, µ,Σ) = c− n

2log |Σ| − 1

2

n∑i=1

(xi − µ)′Σ−1 (xi − µ)

= c− n

2log |Σ| − 1

2

n∑i=1

(xi − x̄)′Σ−1 (xi − x̄)− n

2(x̄− µ)′Σ−1 (x̄− µ)

siendo c = −nd2 log(2π).

Observamos que, por ser Σ de�nida positiva, (y en consecuencia, también lo será Σ−1), (x̄ −µ)′Σ−1(x̄ − µ) > 0, salvo que µ = x̄, en cuyo caso vale cero. Por tanto, la función de log�

verosimilitud alcanza su máximo en µ̂ = x̄, que de este modo se convierte en el estimador de

máxima verosimilitud del vector de medias. Además,

supµ

logL(x, µ,Σ) = c− n

2log |Σ| − 1

2

n∑i=1

(xi − x̄)′Σ−1 (xi − x̄) (2.1)

para cualquier matriz de covarianzas Σ.

A continuación calcularemos el máximo de aquella función respecto de Σ. Podemos expresar

supµ

logL(x, µ,Σ) = c− n

2log |Σ| − 1

2traza

[n∑i=1

(xi − x̄)′Σ−1 (xi − x̄)

]

= c− n

2log |Σ| − 1

2

n∑i=1

traza[(xi − x̄)′Σ−1 (xi − x̄)

]= c− n

2log |Σ| − 1

2

n∑i=1

traza[Σ−1 (xi − x̄) (xi − x̄)′

]= c− n

2(log |Σ|+ traza

(Σ−1S

))(2.2)

donde hemos aplicado que traza(A+B)=traza(A)+traza(B) y que traza(AB)=traza(BA). Ahora

debemos obtener el máximo de esta función respecto del argumento Σ. Para ello, apelamos al

resultado siguiente.

Lema Supongamos una matriz A de�nida positiva. La función

f(Σ) = log |Σ|+ traza(Σ−1A

),

restringida a las matrices Σ de�nidas positivas, alcanza su mínimo en Σ = A.

Page 6: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

10 Máster en Técnicas Estadísticas

Entonces, aplicando este lema llegamos a la conclusión de que los estimadores de máxima

verosimilitud del vector de medias y la matriz de covarianzas (sin restricciones) son X̄ y S,respectivamente. Asimismo, la función de verosimilitud tiene como máximo:

supΣ

supµ

logL(x, µ,Σ) = c− n

2(log |S|+ traza

(S−1S

))= c− n

2(log |S|+ d) (2.3)

2.5. Contraste sobre el vector de medias, mediante el test de razón deverosimilitudes.

A continuación veremos cómo se puede usar el test de razón de verosimilitudes para hacer infe-

rencia en poblaciones normales multivariantes. En esta sección ilustraremos el caso del problema

de inferencia sobre el vector de medias cuando la matriz de covarianzas es conocida, y también

cuando es desconocida.

Vector de medias con matriz de covarianzas conocida

Partimos como antes de una muestra aleatoria simple

X1, . . . , Xn ∈ Nd(µ,Σ)

de vectores aleatorios independientes y con la misma distribución normal multivariante.

Suponiendo que la matriz de covarianzas Σ es conocida, deseamos llevar a cabo tareas de infe-

rencia relativas al vector de medias µ. En concreto, podemos estar interesados en una región de

con�anza para µ, o podemos querer contrastar una hipótesis nula del tipo H0 : µ = µ0.

Centrándonos en el contraste de la hipótesis nula H0 : µ = µ0, vamos a abordar este problema

mediante el procedimiento de razón de verosimilitudes. En esta situación, el estadístico de

contraste sería:

−2 log λ(X) = −2 logL(X,µ0,Σ)

supµ L(X,µ,Σ)

donde la función de verosimilitud es la que se ha tratado en la sección anterior.

De lo allí expuesto extraemos que, bajo la hipótesis nula, H0 : µ = µ0, la función de log-

verosimilitud adopta la forma:

logL(x, µ0,Σ) = c− n

2log |Σ| − 1

2

n∑i=1

(xi − x̄)′Σ−1 (xi − x̄)− n

2(x̄− µ0)′Σ−1 (x̄− µ0)

mientras que bajo la alternativa,

supµ

logL(x, µ,Σ) = c− n

2log |Σ| − 1

2

n∑i=1

(xi − x̄)′Σ−1 (xi − x̄)

En de�nitiva, el estadístico de contraste resulta:

−2 log λ(X) = −2 logL(X,µ0,Σ)

supµ L(X,µ,Σ)= n

(X̄ − µ0

)′Σ−1(X̄ − µ0

)

Page 7: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

Análisis Multivariante 11

Observamos que si H0 : µ = µ0 es cierta,

X̄ ∈ Nd (µ0,Σ/n)

y, en consecuencia,

n(X̄ − µ0

)′Σ−1(X̄ − µ0

)∈ χ2

d

Así, rechazaremos la hipótesis nula H0 : µ = µ0 cuando

n(X̄ − µ0

)′Σ−1(X̄ − µ0

)> χ2

d,α

siendo χ2d,α el cuantil 1− α de la distribución χ2

d.

Vector de medias con matriz de covarianzas desconocida.

El problema de inferencia coincide con el anterior, esto es, disponemos de una muestra aleatoria

simple

X1, . . . , Xn ∈ Nd(µ,Σ)

y deseamos realizar tareas de inferencia relativas al vector de medias µ. La única diferencia

consiste en que ahora la matriz de covarianzas Σ es desconocida.

El estadístico de razón de verosimilitudes para el contraste de la hipótesis nula H0 : µ = µ0 sería:

−2 log λ(X) = −2 logsupΣ L(X,µ0,Σ)supµ,Σ L(X,µ,Σ)

Nótese que ahora, al ser Σ desconocida, se convierte en un parámetro tanto bajo la hipótesis

nula como bajo la alternativa, parámetro que será estimado por máxima verosimilitud.

Bajo la alternativa, hemos visto en la sección anterior que los estimadores de máxima verosimili-

tud del vector de medias y la matriz de covarianzas (sin restricciones) son X̄ y S, respectivamente.

Asimismo, la función de verosimilitud tiene como máximo:

supΣ

supµ

logL(x, µ,Σ) = c− n

2(log |S|+ traza

(S−1S

))= c− n

2(log |S|+ d)

A continuación maximizamos la verosimilitud bajo la hipótesis nula. Para ello basta con expresar

la verosimilitud en una forma similar a la anterior:

logL(x, µ0,Σ) = c− n

2log |Σ| − 1

2traza

[n∑i=1

(xi − µ0)′Σ−1 (xi − µ0)

]

= c− n

2log |Σ| − 1

2

n∑i=1

traza[Σ−1 (xi − µ0) (xi − µ0)′

]= c− n

2

(log |Σ|+ traza

(Σ−1Σ̂µ0

))siendo Σ̂µ0 = 1

n

∑ni=1 (xi − µ0) (xi − µ0)′, el cual resulta ser un estimador razonable de la matriz

de covarianzas bajo la hipótesis de que la media vale µ0. Por lo demás los pasos son idénticos

al caso anterior, salvo que se ha puesto µ0 allí donde se hallaba x̄. Aplicando de nuevo el lema,

Page 8: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

12 Máster en Técnicas Estadísticas

concluimos que Σ̂µ0 es el estimador de máxima verosimilitud de la matriz de covarianzas bajo la

hipótesis nula, y que la función de verosimilitud bajo dicha hipótesis alcanza el valor máximo:

supΣ

logL(x, µ0,Σ) = c− n

2

(log |Σ̂µ0 |+ d

)Entonces el estadístico de contraste mediante la razón de verosimilitudes resulta:

−2 log λ(X) = −2 logsupΣ L(X,µ0,Σ)supµ,Σ L(X,µ,Σ)

= n(

log |Σ̂µ0 | − log |S|)

Descomponemos

Σ̂µ0 =1n

n∑i=1

(Xi − µ0) (Xi − µ0)′

=1n

n∑i=1

[(Xi − X̄

) (Xi − X̄

)′ + (X̄ − µ0

) (X̄ − µ0

)′ + 2(X̄ − µ0

) (Xi − X̄

)′]= S + rr′

siendo r = X̄ − µ0. Sustituyendo en el estadístico de contraste obtenemos

−2 log λ(X) = n(log |S + rr′| − log |S|

)= n

(log(|S| ·

∣∣I + S−1rr′∣∣)− log |S|

)= n log

∣∣I + S−1rr′∣∣

Estudiemos, pues, el determinante que aparece en el último término. En (a) denotamos mediante

λ1, . . . , λd a los autovalores de S−1rr′, y observamos que 1 + λ1, . . . , 1 + λd son los autovalores

de I + S−1rr′. En (b) y (c) usamos que la matriz S−1rr′ es de rango uno.∣∣I + S−1rr′∣∣ (a)

=d∏j=1

(1 + λj)(b)= 1 + λ1

(c)= 1 + traza

(S−1rr′

)= 1 + traza

(r′S−1r

)= 1 + r′S−1r

Finalmente,

−2 log λ(X) = n log(1 + r′S−1r

)será el estadístico de contraste y rechazaremos la hipótesis nula si este estadístico toma un valor

demasiado grande.

Será equivalente si consideramos el estadístico

r′S−1r =(X̄ − µ0

)′S−1

(X̄ − µ0

)y rechazamos la hipótesis nula cuando este nuevo estadístico toma un valor demasiado grande.

Nótese que el estadístico anterior se obtiene tras aplicar una transformación creciente a este

último.

La distribución del estadístico ha sido obtenida en el tema anterior:

n− dd

(X̄ − µ0

)′S−1

(X̄ − µ0

)∈ Fd,n−d

En de�nitiva, rechazaremos la hipótesis nula H0 : µ = µ0 si

n− dd

(X̄ − µ0

)′S−1

(X̄ − µ0

)> fd,n−d,α

Page 9: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

Análisis Multivariante 13

2.6. Regiones de con�anza y comparaciones simultáneas.

A partir del estadístico Γ2 de Hotelling, podemos obtener una región de con�anza para el vector

de medias, de la forma:{µ ∈ Rd :

n− dd

(X̄ − µ

)′S−1

(X̄ − µ

)< fd,n−d,α

}

Esta región constituye un elipsoide en Rd, centrado en X̄, cuyos ejes van en la dirección de los

autovectores de S y la longitud de los radios (semilongitud de los ejes) viene dada por

√λj

√d

n− dfd,n−d,α j ∈ {1, . . . , d}

siendo λ1, . . . , λd los autovalores de S.

A continuación planteamos el problema de conseguir intervalos de con�anza para las componentes

del vector de medias, o más en general, para combinaciones lineales del tipo

l′µ = l1µ1 + · · ·+ ldµd

Observando que l′X1, . . . , l′Xn ∈ N(l′µ, l′Σl) y además son independientes, podemos abordar

este problema, que ya es univariante, mediante el procedimiento de la T de Student. Así, como

la media y la cuasivarianza muestrales calculadas sobre las observaciones l′X1, . . . , l′Xn resultan

ser l′X̄ y l′Scl, respectivamente, el intervalo de con�anza adopta la forma(l′X̄ − tn−1,α/2

√l′Scl√n

, l′X̄ + tn−1,α/2

√l′Scl√n

)siendo tn−1,α/2 el cuantil 1− α/2 de la distribución T de Student con n− 1 grados de libertad.

De este modo, para un l �jo, el intervalo anterior contiene a l′µ con una probabilidad 1 − α.En particular, podemos pensar en un vector de la forma l = (1, 0, . . . , 0)′ que serviría para

extraer la primera componente del vector aleatorio. Igual se haría con las demás componentes

mediante los vectores canónicos correspondientes. Así obtendríamos p intervalos de con�anza,

uno para cada componente del vector de medias. Sin embargo, el nivel de con�anza se re�ere

a la probabilidad individual de cada intervalo, de modo que la probabilidad de que todos los

intervalos simultáneamente contengan a la componente correspondiente del vector de medias

será en general inferior al nivel de con�anza �jado.

Para satisfacer un nivel de con�anza simultáneo, debemos modi�car la construcción de los inter-

valos haciéndolos más amplios. Vamos a plantear este objetivo de manera simultánea en todos

los vectores l. Si seguimos partiendo como pivote de la media estudentizada, la idea podría ser

cambiar el valor tn−1,α/2 por otra constante adecuada, previsiblemente más grande. Así, si

P

{∣∣∣∣∣√n(l′X̄ − l′µ

)√l′Scl

∣∣∣∣∣ < c ∀l ∈ Rp

}= 1− α

los intervalos de con�anza obtenidos al sustituir tn−1,α/2 por c cumplirán el nivel de con�anza

de manera simultánea. Enunciamos el lema siguiente.

Page 10: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

14 Máster en Técnicas Estadísticas

Lema Sea B una matriz d× d, simétrica y de�nida positiva, y r ∈ Rd. Entonces

maxx∈Rd\{0}

(x′r)2

x′Bx= r′B−1r

y este máximo se alcanza cuando x = cB−1r para cualquier c ∈ R\{0}.

Aplicando este lema obtenemos

maxl∈Rd

n(l′(X̄ − µ

))2l′Scl

= n(X̄ − µ

)′S−1c

(X̄ − µ

)∈ Γ2(d, n− 1)

De este resultado se puede extraer el valor de c y �nalmente resultan los intervalos de con�anza

simultáneos:(l′X̄ −

√d(n− 1)n− d

fd,n−d,α

√l′Scl√n

, l′X̄ +

√d(n− 1)n− d

fd,n−d,α

√l′Scl√n

)o equivalentemente(

l′X̄ −√

d

n− dfd,n−d,αl′Sl , l

′X̄ +

√d

n− dfd,n−d,αl′Sl

)Este método para obtener intervalos de con�anza siultáneos se suele conocer como método de

Sche�é.

La tabla siguiente permite comparar los valores de c para el cálculo de los intervalos de con�anza,extraídos de la T de Student frente a los que se obtienen mediante la Γ2 de Hotelling.

√d(n−1)n−d fd,n−d,0′05

n tn−1,0′025 d = 4 d = 1015 2'145 4'14 11'52

25 2'064 3'60 6'39

50 2'010 3'31 5'05

100 1'970 3'19 4'61

∞ 1'960 3'08 4'28

Otro método para obtener intervalos de con�anza simultáneos es el método de Bonferroni. Es

una alternativa válida en cualquier contexto en el que se requiera una cantidad �nita de intervalos

simultáneos, ya que no se basa en la naturaleza probabilística del problema en cuestión (como sí

lo hace el método de Sche�é), sino que su fundamento radica simplemente en la subaditividad

de la probabilidad.

Si C1, . . . , Cm consisten en los sucesos respectivos de que cada intervalo de con�anza contenga

al parámetro correspondiente,

P (Ci cierto ∀i) = 1− P (Ci falso para algún i)

≥ 1−m∑i=1

P (Ci falso) = 1− (α1 + · · ·+ αm)

Page 11: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

Análisis Multivariante 15

siendo 1−α1, . . . , 1−αm los niveles de con�anza individuales de cada intervalo. Así, para alcanzar

un nivel de con�anza simultáneo 1−α basta con tomar α1, . . . , αm de modo que α1+· · ·+αm = α,por ejemplo mediante α1 = · · · = αm = α/m.

La tabla siguiente muestra el cociente (para 1− α = 0′95)

Longitud del intervalo de Bonferroni

Longitud del intervalo de Sche�é=

tn−1,α/(2m)√d(n−1)n−d fd,n−d,α

m = dn 2 4 10

15 0'88 0'69 0'29

25 0'90 0'75 0'48

50 0'91 0'78 0'58

100 0'91 0'80 0'62

∞ 0'91 0'81 0'66

Ejemplo 2.2 Partiendo del ejemplo 2.1, calcularemos los intervalos de con�anza para la media

de la longitud y de la anchura, al nivel de con�anza del 95%, obtenidos de manera individual, y

simultáneos por el método de Sche�é y por el método de Bonferroni. Representaremos los tres

tipos de intervalo en los ejes vertical y horizontal, sobre el mismo grá�co donde se representó la

elipse de con�anza para el vector de medias.

2.7. Generalización del contraste sobre el vector de medias.

En esta sección veremos cómo se puede generalizar el contraste sobre el vector de medias, al caso

de restricciones más genéricas sobre µ, más generales que la hipótesis nula, H0 : µ = µ0. El

resultado básico lo enunciamos como un teorema. Después, como aplicación más común de este

resultado, veremos el contraste de restricciones lineales sobre µ, entre las cuales tiene un interés

especial el contraste de igualdad de las componentes del vector de medias.

Teorema 2.1 Sea X1, . . . , Xn una muestra aleatoria simple de Nd(µ,Σ). Si las hipótesis H0 y

Ha conducen a los estimadores de máxima verosimilitud µ̂ y X̄, respectivamente, y bajo niguna

de las dos hipótesis hay restricciones para Σ, entonces los estimadores de máxima verosimilitud

de Σ son S + rr′ y S, bajo H0 y Ha respectivamente, siendo r = X̄ − µ̂.

Además, el test de razón de verosimilitudes para contrastar H0 frente a Ha viene dado por

−2 log λ(X) = nr′Σ−1r si Σ es conocida (2.4)

y

−2 log λ(X) = n log(1 + r′S−1r

)si Σ es desconocida. (2.5)

Demostración

La demostración seguiría los mismos pasos que en los casos anteriores, donde contrastábamos una

hipótesis nula simple sobre el vector de medias con matriz de covarianzas conocida o desconocida.

Page 12: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

16 Máster en Técnicas Estadísticas

Contraste de restricciones lineales.

Supongamos que Σ es conocida y deseamos contrastar la hipótesis nula

H0 : Bµ = b

siendo B una matriz conocida de orden q × d y rango máximo q, y b un vector conocido.

A este problema de contraste le podemos aplicar el teorema anterior. Para ello, tenemos que

obtener el estimador de máxima verosimilitud bajo H0, que denotaremos mediante µ̂.

La función de log�verosimilitud se puede escribir así:

l(x, µ,Σ) = logL(x, µ,Σ) = c− n

2log |Σ| − 1

2

n∑i=1

(xi − x̄)′Σ−1 (xi − x̄)− n

2(x̄− µ)′Σ−1 (x̄− µ)

En tal caso, el problema consiste en:

Maximizar l(x, µ,Σ)sujeto a Bµ = b

Consideramos la función

l+ = l − nλ′(Bµ− b)

siendo λ un vector de multiplicadores de Lagrange. Derivando

∂l+

∂µ= n (x̄− µ)′Σ−1 − nλ′B = 0

De donde

x̄− µ = ΣB′λ (2.6)

ecuación que debemos añadir a la restricción Bµ = b, para obtener las soluciones para λ y µ.Multiplicando por B,

Bx̄−Bµ = Bx̄− b =(BΣB′

lo cual nos permite despejar λ = (BΣB′)−1 (Bx̄− b) que, sustituido en la ecuación (2.6), da

lugar al estimador de máxima verosimilitud

µ̂ = X̄ − ΣB′(BΣB′

)−1 (BX̄ − b

)El test de razón de verosimilitudes viene dado por (2.4), donde

r = X̄ − µ̂ = ΣB′(BΣB′

)−1 (BX̄ − b

)de modo que �nalmente adopta la forma

−2 log λ(X) = n(BX̄ − b

)′ (BΣB′

)−1 (BX̄ − b

)Bajo la hipótesis nula, H0, BX1, . . . , BXn ∈ Nq(b, BΣB′) y son independientes, siendo q la

dimensión de b, y por tanto la distribución del estadístico de contraste es χ2q .

Page 13: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

Análisis Multivariante 17

Si la matriz de covarianzas es desconocida, el estimador de máxima verosimilitud de µ bajo H0

es

µ̂ = X̄ − SB′(BSB′

)−1 (BX̄ − b

)El test de razón de verosimilitudes viene dado por (2.5), donde

r = X̄ − µ̂ = SB′(BSB′

)−1 (BX̄ − b

)de modo que �nalmente tomamos como estadístico de contraste

(n− 1)r′S−1r = (n− 1)(BX̄ − b

)′ (BSB′

)−1 (BX̄ − b

)cuya distribución es Γ2(q, n− 1).

Caso particular. Contraste de igualdad de las componentes del vector de medias. El

contraste de la hipótesis nula de que las d componentes del vector de medias, µ = (µ1, . . . , µd)′,son iguales, se puede ver como un caso particular del contraste de restricciones lineales. Para

ello, basta considerar la siguiente matriz

B =

1 −1 0 · · · 0

1 0 −1. . .

......

.... . .

. . . 01 0 · · · 0 −1

de modo que H0 : Bµ = 0 equivale a la igualdad de las d medias. Nótese que hay otras matrices

que también servirían para efectuar este contraste. En concreto, la matriz B que acabamos

de proponer, efectúa las diferencias entre la media de la primera componente y cada una de

las demás medias. En este sentido, además de servir para el contraste, permite estimar la

discrepancia entre las medias por comparación con la primera de ellas. Si se emplea otro tipo de

matriz, se obtendrían las posibles discrepancias entre las medias en una presentación diferente.

Ejemplo 2.3 En Mardia, Kent y Bibby (1979), página 12, se pueden encontrar los datos de

depósitos de corcho obtenidos en 28 árboles y extraídos en las cuatro direcciones, Norte, Sur,

Este y Oeste. Se está estudiando si la cantidad media de corcho que se llega a recoger, es similar

en las cuatro direcciones. Vamos a efectuar el contraste de esta hipótesis usando el test propuesto

en esta sección.

2.8. Inferencia sobre la matriz de covarianzas.

Suponemos que el vector de medias µ es desconocido y queremos contrastar una hipótesis nula

simple sobre la matriz de covarianzas

H0 : Σ = Σ0

frente a una alternativa en la que la matriz de covarianzas no está sujeta a restricciones. El

vector de medias carece de restricciones tanto bajo la hipótesis nula como bajo la alternativa.

Page 14: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

18 Máster en Técnicas Estadísticas

Aplicando el procedimiento de razón de verosimilitudes, resulta el estadístico de contraste:

−2 log λ(X) = −2 logsupµ L (X,µ,Σ0)supµ,Σ L (X,µ,Σ)

Al igual que en la expresión (2.2), tendremos

supµ

logL (X,µ,Σ0) = c− n

2(log |Σ0|+ traza

(Σ−1

0 S))

y, reproduciendo la expresión (2.3),

supΣ

supµ

logL(x, µ,Σ) = c− n

2(log |S|+ d)

de modo que el estadístico de contraste adopta la forma:

−2 log λ(X) = n(log |Σ0|+ traza

(Σ−1

0 S)− log |S| − d

)= n

(traza

(Σ−1

0 S)− log

∣∣Σ−10 S

∣∣− d)= n

d∑j=1

λj − log

d∏j=1

λj

− d = n

(da− log

(gd)− pd

)= nd (a− log g − 1)

siendo λ1, . . . , λd los autovalores de la matriz Σ−10 S, a la media aritmética de tales autovalores y

g su media geométrica.

La distribución exacta de este estadístico bajo la hipótesis nula no se encuentra disponible. En

su lugar, usaremos la distribución asintótica que presenta por ser un estadístico de razón de

verosimilitudes:

−2 log λ(X) = nd (a− log g − 1) ∼ χ2m

siendo el número de grados de libertad, la diferencia entre el número de parámetros independien-

tes bajo la hipótesis alternativa y bajo la hipótesis nula, que en este caso resulta, m = 12d(d+ 1),

pues es el número de parámetros independientes en una matriz de covarianzas.

Por haberse construido como cociente de verosimilitudes bajo la hipótesis nula y bajo la alter-

nativa, rechazaremos la hipótesis nula cuando este estadístico sea grande o, mejor dicho, cuando

supere el cuantil (1 − α) de la distribución χ2m, denotado por χ2

m,α, siendo α el nivel de signi�-

cación �jado de antemano.

Ejemplo 2.4 Sobre los datos del ejemplo 2.1, vamos a contrastar que la matriz de covarianzas

es

Σ =(

2.5 11 2

)

Por último, debemos observar que si se hubiera supuesto que el vector de medias es conocido,

siguiendo los mismos pasos habríamos llegado al estadístico de contraste

−2 log λ(X) = nd (a− log g − 1)

Page 15: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

Análisis Multivariante 19

siendo a y g las medias aritmética y geométrica, respectivamente, de los autovalores de la matriz

Σ−10 Σ̂µ. La única diferencia radica en la sustitución de S por el estimador

Σ̂µ =1n

n∑i=1

(Xi − µ) (Xi − µ)′

Nuevamente tenemos los mismos problemas con la distribución del estadístico de contraste y

apelamos a la distribución asintótica, que es χ2m con el mismo número de grados de libertad,

m = 12d(d+ 1).

2.9. Generalización del contraste sobre la matriz de covarianzas.

En esta sección se va a generalizar el test obtenido obtenido para el contraste de la matriz de

covarianzas. Primero se ofrece el enunciado de un teorema de generalización, cuya demostración

es innecesaria, pues consiste en la constatación de los mismos argumentos de máxima verosimi-

litud ya empleados, y de los desarrollos subsiguientes. Después se tratan diversas situaciones en

las cuales se puede aplicar este teorema.

Teorema 2.2 Sea X1, . . . , Xn una muestra aleatoria simple de Nd(µ,Σ). Si las hipótesis H0

y Ha conducen a los estimadores de máxima verosimilitud Σ̂ y S, respectivamente, y si X̄ es

el estimador de máxima verosimilitud para µ bajo cualquiera de las dos hipótesis, entonces el

estadístico de razón de verosimilitudes para contrastar H0 frente a Ha viene dado por

−2 log λ(X) = nd (a− log g − 1)

siendo a y g las medias aritmética y geométrica, respectivamente, de los autovalores de la matriz

Σ̂−1S.

Demostración

La demostración seguiría los mismos pasos que en la sección anterior. �

Contraste de la hipótesis nula H0 : Σ = kΣ0, k ∈ (0,+∞), con µ desconocido.

Supongamos que el vector de medias µ es desconocido y que queremos contrastar una hipótesis

nula compuesta sobre la matriz de covarianzas

H0 : Σ = kΣ0 k ∈ (0,+∞)

siendo Σ0 una matriz de covarianzas �jada, frente a una alternativa en la que la matriz de

covarianzas no está sujeta a restricciones. El vector de medias carece de restricciones tanto bajo

la hipótesis nula como bajo la alternativa.

Estamos en las condiciones del teorema anterior, por lo que sólo nos falta calcular el estimador

de la matriz de covarianzas bajo la hipótesis nula, Σ̂ = k̂Σ0.

Empezamos calculando el supremo en µ, siguiendo los mismos pasos que condujeron a la expresión

(2.2), tras lo cual efectuamos ciertas operaciones elementales:

supµ

logL (X,µ, kΣ0) = c− n

2

(log |kΣ0|+ traza

((kΣ0)−1 S

))

Page 16: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

20 Máster en Técnicas Estadísticas

= c− n

2

(log(kd |Σ0|

)+ traza

(1k

Σ−10 S

))= c− n

2

(d log k + log |Σ0|+

1ktraza

(Σ−1

0 S))

A continuación buscamos el supremo respecto de k, para lo cual efectuamos la derivada corres-

pondiente:∂ supµ logL (X,µ, kΣ0)

∂k= −n

2

(d

1k− 1k2

traza(Σ−1

0 S))

Esta derivada se anula en

k̂ =1dtraza

(Σ−1

0 S)

= a0

siendo a0 la media aritmética de los autovalores de Σ−10 S. Calculando la derivada segunda

podríamos comprobar que se trata de un máximo de la función de log�verosimilitud y, en conse-

cuencia, que k̂ = a0 es el estimador de máxima verosimilitud de k.

Entonces, aplicando la expresión que �gura en el teorema anterior, el estadístico de razón de

verosimilitudes adopta la forma:

−2 log λ(X) = nd (a− log g − 1)

siendo a y g las medias aritmética y geométrica, respectivamente, de los autovalores de la matriz

Σ̂−1S = 1a0

Σ−10 S. En consecuencia, a = 1 y g = 1

a0g0, siendo g0 la media geométrica de los

autovalores de Σ−10 S. Sustituyendo los valores de a y g obtenemos

−2 log λ(X) = nd

(1− log

(1a0g0

)− 1)

= nd loga0

g0

Por último, no estando disponible la distribución exacta de este estadístico, la aproximamos por

una χ2m, siendo el número de grados de libertad m = 1

2d(d+ 1)− 1 = 12(d− 1)(d+ 2).

Test de esfericidad. Hay un caso particular de este tipo de contraste que tiene un interés

especial. Es el test de esfericidad, que consiste en contrastar la hipótesis nula

H0 : Σ = k · I

que viene a decir que las variables tienen la misma varianza y son incorrelacionadas. Nótese que

la incorrelación equivale a independencia cuando se trata de variables normales.

Es inmediato que estamos ante un caso particular del test anterior. Para verlo basta con tomar

Σ0 = I. Por tanto, el estadístico de contraste sería:

−2 log λ(X) = nd loga0

g0∼ χ2

m

siendo a0 y g0 las medias aritmética y geométrica, respectivamente, de los autovalores de la

matriz Σ−10 S = S, y m = 1

2(d− 1)(d+ 2).

Page 17: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

Análisis Multivariante 21

Ejemplo 2.5 Se ha medido la longitud y la anchura de la cabeza de los hijos primero y segundo,

en 25 familias. Los datos �guran en la tabla siguiente.

Primer hijo Segundo hijo

Longitud Anchura Longitud Anchura

191 155 179 145

195 149 201 152

181 148 185 149

183 153 188 149

176 144 171 142

208 157 192 152

189 150 190 149

197 159 189 152

188 152 197 159

192 150 187 151

179 158 186 148

183 147 174 147

174 150 185 152

190 159 195 157

188 151 187 158

163 137 161 130

195 155 183 158

186 153 173 148

181 145 182 146

175 140 165 137

192 154 185 152

174 143 178 147

176 139 176 143

197 167 200 158

190 163 187 150

Suponiendo normalidad, vamos a contrastar la esfericidad de este vector de cuatro variables.

Contraste de la hipótesis nula H0 : Σ12 = 0, con µ desconocido.

Separemos las variables en dos conjuntos con d1 y d2 variables, respectivamente. Por supuesto,

d1 + d2 = d. Entonces la matriz de covarianzas se puede expresar

Σ =(

Σ11 Σ12

Σ21 Σ22

)Queremos contrastar la hipótesis de que los dos conjuntos de variables son independientes entre

sí, lo cual, en esta situación donde se supone normalidad, equivale a incorrelación, esto es, a que

Σ12 = 0.

Bajo la hipótesis nula H0 : Σ12 = 0, la verosimilitud se descompone en el producto de dos

factores correspondientes a las verosimilitudes que provienen de cada conjunto de variables. De

Page 18: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

22 Máster en Técnicas Estadísticas

este modo, bajo la hipótesis nula, los estimadores de µ1 y Σ11 por un lado, y de µ2 y Σ22

por otro, se obtienen maximizando la verosimilitud de cada conjunto de variables por separado.

Así, suponiendo que el vector de medias µ = (µ1, µ2)′ es desconocido, su estimador de máxima

verosimilitud será µ̂ = (X̄1, X̄2)′ = X̄, mientras que

Σ̂ =(S11 00 S22

)Bajo la alternativa, no hay restricciones ni para el vector de medias ni para la matriz de cova-

rianzas, de modo que los estimadores de máxima verosimilitud serán X̄ y S, respectivamente.

Entonces el estadístico de razón de verosimilitudes adopta la forma que �gura en la expresión

del teorema anterior, donde

Σ̂−1S =(S11 00 S22

)−1(S11 S12

S21 S22

)=(

I S−111 S12

S−122 S21 I

)

En tal caso, a = 1dtraza

(Σ̂−1S

)= 1

dd = 1. Por otro lado,

gd =∣∣∣Σ̂−1S

∣∣∣ =|S|

|S11| · |S22|=|S22 − S21S

−111 S12|

|S22|=∣∣I − S−1

22 S21S−111 S12

∣∣ =∣∣I −R−1

22 R21R−111 R12

∣∣En el último paso hemos sustituido las matrices de covarianzas por matrices de correlaciones, que

se construyen a partir de las anteriores así: R = D−1/2SD−1/2, siendo D una matriz diagonal

que contiene las varianzas.

Entonces, el estadístico de contraste será:

−2 log λ(X) = −nd log g = −n log∣∣I − S−1

22 S21S−111 S12

∣∣Ahora podemos apelar a la distribución asintótica, pero en su lugar vamos a obtener la distribu-

ción exacta

λ(X)2/n =∣∣I − S−1

22 S21S−111 S12

∣∣ ∈ Λ (d2, d1, n− 1− d1)

si H0 : Σ12 = 0 es cierta.

De la teoría de matrices Wishart particionadas (véase Mardia, Kent y Bibby (1979), página 70),

tenemos que

M11 = nS11 ∈ Wishartd1 (Σ11, n− 1)M22 = nS22 ∈ Wishartd2 (Σ22, n− 1)

M22·1 = n(S22 − S21S

−111 S12

)= M22 −M21M

−111 M12 ∈ Wishartd2 (Σ22·1, n− 1− d1)

y M22·1 es independiente de (M11,M22).

Además, si H0 : Σ12 = 0 es cierta, entonces Σ22·1 = Σ22 y

M22·1 ∈Wishartd2 (Σ22·1, n− 1− d1)M22 −M22·1 ∈Wishartd2 (Σ22·1, d1)y son independientes

=⇒ |M22·1||M22·1 + (M22 −M22·1)|

∈ Λ (d2, d1, n− 1− d1)

Page 19: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

Análisis Multivariante 23

Por último, observamos que

λ(X)2/n =∣∣I − S−1

22 S21S−111 S12

∣∣ =|S22 − S21S

−111 S12|

|S22|=

|M22·1||M22·1 + (M22 −M22·1)|

Como corresponde a un test de razón de verosimilitudes, se rechazará la hipótesis nula H0 :Σ12 = 0 cuando λ(X) sea pequeño, o equivalentemente, cuando |I−S−1

22 S21S−111 S12| sea pequeño,

o equivalentemente, cuando su transformación en una F de Snédecor sea grande.

Ejemplo 2.6 Sobre los datos del ejemplo 2.5, vamos a contrastar si existe correlación entre las

medidas del primer hijo y las del segundo.

Caso particular. Coe�ciente de correlación múltiple. Consideremos que uno de los

conjuntos de variables tenga un único elemento, por ejemplo, d1 = 1 y d2 = d − 1. En esta

situación, R11 = 1, y si denotamos α = R21, éste será un vector (d − 1)�dimensional. De este

modo, el estadístico de contraste resulta:

λ(X)2/n =∣∣I −R−1

22 αα′∣∣ (a)

= 1− α′R−122 α = 1−R12R

−122 R21 = 1−R2 ∈ Λ (d2, 1, n− 2)

siendo R el coe�ciente de correlación múltiple entre la primera variable y las restantes. En el

paso (a) se aplica la misma argumentación que ya fue usada en la página 12.

Usando que en general1− Λ(d, 1,m)

Λ(d, 1,m)=

d

m− d+ 1Fd,m−d+1,

tenemos queR2

1−R2∈ d− 1n− d

Fd−1,n−d

Finalmente, el coe�ciente de correlación múltiple sea considerará signi�cativo cuando el estadís-

tico anterior R2/(1−R2) sea grande, comparado con la distribución F de Snédecor.

Contraste de la hipótesis nula H0 : Σ es diagonal, con µ desconocido.

La hipótesis nula consiste en suponer que las variables son incorrelacionadas, pero, a diferencia

del test de esfericidad no exigimos que tengan la misma varianza. De nuevo, la incorrelación

equivale a independencia en un contexto de normalidad. Así, bajo la hipótesis nula, se maximiza

la verosimilitud separadamente para cada variable, dando lugar a los estimadores de la media y

la varianza de dichas variables y en consecuencia a los estimadores del vector de medias y matriz

de covarianzas:

X̄ y Σ̂ =

S21

. . .

S2d

Bajo la alternativa, no hay ninguna clase de restricciones sobre los parámetros µ y Σ que, por

tanto, admiten como estimadores de máxima verosimilitud X̄ y S.

Page 20: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

24 Máster en Técnicas Estadísticas

Entonces, aplicando el teorema general, el estadístico de contraste será:

−2 log λ(X) = nd (a− log g − 1) = −n log |R|

siendo a y g las medias aritmética y geométrica, respectivamente, de los autovalores de la matriz

Σ̂−1S, y R la matriz de correlaciones.

El último paso de la expresión anterior se debe a que R = Σ̂−1/2SΣ̂−1/2 y esta matriz, aún

siendo distinta de Σ̂−1S, tiene los mismos autovalores que élla. Además, como la diagonal de

una matriz de correlaciones está formada por unos, la traza vale d y, en consecuencia, la media

de los autovalores vale uno, a = 1.

Por último, aproximamos la distribución del estadístico así:

−n log |R| ∼ χ212d(d−1)

donde el número de grados de libertad resulta de la diferencia del número de parámetros inde-

pendientes bajo la hipótesis nula y bajo la alternativa: d+ 12d(d+ 1)− (d+ d) = 1

2d(d− 1).

2.10. Comparación de poblaciones normales multivariantes.

En esta sección vamos a considerar varias poblaciones normales multivariantes, de las cuales

extraemos muestras de manera independiente. En base a estas muestras contrastaremos hipótesis

de igualdad o comparación entre los parámetros de las diferentes poblaciones.

Consideremos pues

X11, . . . , X1n1 ∈ Nd(µ1,Σ1) independientes

. . . . . .

Xk1, . . . , Xknk∈ Nd(µk,Σk) independientes

siendo a su vez las k muestras independientes entre sí.

El abanico de posibles problemas de comparación de estas k poblaciones es muy amplio. En lo

que sigue hemos seleccionado algunos casos que nos parecen más interesantes.

2.10.1. Contraste de igualdad de medias de dos poblaciones normales multivariantes

con matrices de covarianzas iguales.

Restringimos la situación anterior al caso de dos poblaciones y por tanto suponemos

X11, . . . , X1n1 ∈ Nd(µ1,Σ1) independientes

X21, . . . , X2n2 ∈ Nd(µ2,Σ2) independientes

siendo a su vez las dos muestras independientes entre sí. Además supondremos que las dos

matrices de covarianzas son iguales, Σ1 = Σ2.

En estas condiciones pretendemos contrastar la hipótesis nula

H0 : µ1 = µ2

Page 21: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

Análisis Multivariante 25

Parece razonable basar el procedimiento de contraste en una medida de discrepancia o distancia

entre estimadores de µ1 y de µ2.

De cada una de las dos poblaciones se pueden obtener estimadores de los parámetros correspon-

dientes a cada población,

X̄1 =1n1

n1∑j=1

X1j Sc1 =1

n1 − 1

n1∑j=1

(X1j − X̄1

) (X1j − X̄1

)′X̄2 =

1n2

n2∑j=1

X2j Sc2 =1

n2 − 1

n2∑j=1

(X2j − X̄2

) (X2j − X̄2

)′Por ser las dos muestras independientes entre sí, también lo son los estadísticos procedentes de

cada una de ellas. Además, un teorema del primer tema (extensión del teorema de Fisher al caso

multivariante) garantiza que

X̄1 ∈ Nd (µ1,Σ/n1) (n1 − 1)Sc1 ∈Wishartd (Σ, n1 − 1) y son independientes

X̄2 ∈ Nd (µ2,Σ/n2) (n2 − 1)Sc2 ∈Wishartd (Σ, n2 − 1) y son independientes

Además, como las dos muestras son independientes entre sí, también lo son los estadísticos

obtenidos en base a cada una de ellas.

Por tanto,

X̄1 − X̄2 ∈ Nd

(µ1 − µ2,

(1n1

+1n2

)Σ),

(n1 − 1)Sc1 + (n2 − 1)Sc2 ∈Wishartd (Σ, n1 + n2 − 2)

y además son independientes. Denotemos mediante

Sc =(n1 − 1)Sc1 + (n2 − 1)Sc2

n1 + n2 − 2

una media ponderada de Sc1 y Sc2, que servirá como estimador de la matriz de covarianzas

común Σ.

Entonces, bajo la hipótesis nula H0 : µ1 = µ2,

n1n2

n1 + n2

(X̄1 − X̄2

)′S−1c

(X̄1 − X̄2

)∈ Γ2 (d, n1 + n2 − 2)

lo cual lo convierte en un estadístico adecuado para el contraste de dicha hipótesis.

2.10.2. Contraste de igualdad de matrices de covarianzas de poblaciones normales

multivariantes.

Recordemos el modelo inicial de esta sección

X11, . . . , X1n1 ∈ Nd(µ1,Σ1) independientes

. . . . . .

Xk1, . . . , Xknk∈ Nd(µk,Σk) independientes

Page 22: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

26 Máster en Técnicas Estadísticas

siendo a su vez las k muestras independientes entre sí. Nos planteamos el contraste de la hipótesis

nula H0 : Σ1 = · · · = Σk. Los vectores de medias están exentos de restricciones tanto bajo la

hipótesis nula como bajo la alternativa.

Vamos a obtener el test de razón de verosimilitudes. Lo primero que observamos es que, como

las muestras son independientes entre sí, la función de verosimilitud se puede expresar como

producto de las funciones de verosimilitud de cada una de las k poblaciones. Bajo la alternativa,

supµ1,Σ1,...,µk,Σk

logk∏i=1

L (µi,Σi) =k∑i=1

supµi,Σi

logL (µi,Σi) =k∑i=1

logL(X̄i, Si

)=

k∑i=1

[−nid

2log(2π)− 1

2ni log |Si| −

nid

2

]= −nd

2log(2π)− 1

2

k∑i=1

ni log |Si| −nd

2

Bajo la hipótesis nula, denotemos Σ = Σ1 = · · · = Σk a la matriz de covarianzas común,

supµ1,...,µk,Σ

logk∏i=1

L (µi,Σ) = supΣ

k∑i=1

supµi

logL (µi,Σ) = supΣ

k∑i=1

logL(X̄i,Σ

)= sup

Σ

k∑i=1

[−nid

2log(2π)− ni

2(log |Σ|+ traza

(Σ−1Si

))]= sup

Σ

[−nd

2log(2π)− n

2

(log |Σ|+ traza

(Σ−1Q

n

))]= −nd

2log(2π)− n

2log∣∣∣∣Qn∣∣∣∣− nd

2

siendo Q =∑k

i=1 niSi. Nótese que Q/n es el estimador de máxima verosimilitud de la matriz

de covarianzas común, Σ, y resulta ser una media ponderada de las matrices de covarianzas

muestrales provenientes de cada población.

Finalmente, el estadístico de razón de verosimilitudes adopta la forma:

−2 logsupµ1,...,µk,Σ

∏ki=1 L (µi,Σ)

supµ1,Σ1,...,µk,Σk

∏ki=1 L (µi,Σi)

= n log∣∣∣∣Qn∣∣∣∣− k∑

i=1

ni log |Si|

=k∑i=1

ni log∣∣∣∣Qn S−1

i

∣∣∣∣ ∼ χ212d(d+1)(k−1)

cuya distribución hemos aproximado por una ji-cuadrado cuyos grados de libertad resultan de la

diferencia de parámetros independientes entre la hipótesis nula y la alternativa.

Ejemplo 2.7 Se ha medido la longitud, la anchura y la altura del caparazón de 48 tortugas, 24

hembras y 24 machos. Los vectores de medias y matrices de covarianzas respectivos son:

x̄1 =

136.00102.5851.96

S1 =

432.58 259.87 161.67164.57 98.99

63.87

x̄2 =

113.3888.2940.71

S2 =

132.99 75.85 35.8247.96 20.75

10.79

Page 23: Tema 2. Inferencia en poblaciones normales multivarian- teseio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP/MATERIALESMASTE… · arianza),v la arianzav muestral tiene distribución

Análisis Multivariante 27

Suponiendo normalidad en cada sexo,

(a) Vamos a contrastar que los vectores de medias son iguales en ambos sexos, suponiendo que

las matrices de covarianzas son iguales.

(b) Vamos a contrastar que las matrices de covarianzas son iguales en ambos sexos.

Bibliografía.

Anderson, T.W. (2003). An introduction to multivariate statistical analysis. Wiley.

Johnson, R.A. y Wichern, D.W. (1982). Applied multivariate statistical analysis. Prentice-Hall.

Mardia, K.V., Kent, J.T. y Bibby, J.M. (1979). Multivariate analysis. Academic Press.

Seber, G.A.F. (1984). Multivariate observations. Wiley.