Diseño experimental

6
Dise˜ no Experimental de un Factor Completamente Aleatorio Juan Carlos Figueroa-Garc´ ıa Estad´ ıstica Inferencial - Ingenier´ ıa Industrial Universidad Distrital 14/05/2015 Los Dise˜ nos de experimentos son modelos estad´ ısticos cl´ asicos cuyo objetivo es averiguar si unos determinados factores influyen en una variable de inter´ es, y si existe influencia de alg´ un factor, cuantificarla. Ejemplos donde habr´ ıa que utilizar estos modelos son los siguientes: En el rendimientode un determinado tipo de m´aquinas(unidades produci- das por d´ ıa) se desea estudiar la influencia del trabajador que la maneja y la marca de la m´aquina. Se quiere estudiar la influencia del tipo de pila el´ ectrica y de la marca en la duraci´ on de las pilas. Se quiere estudiar el rendimiento de los alumnos en una asignatura y, para ello se desean controlar diferentes factores: mtodo de enseanza; sexo del alumno, etc. Siempre se deben considerar los siguientes aspectos clave: Se define una Variable de Inter´ es a medir, que denotamos por y. Esa variable es la que se mide y tabula con el fin de analizar los hallazgos. Se establece un Factor o fuente de variaci´ on que denotaremos pot τ . Consideraremos un modelo que s´olamente considera un factor que tiene diferentes niveles denotados por el sub´ ındice i a, donde cada uno de los niveles del factor τ se conoce como Tratamiento. As´ ı pues, se tienen τ i niveles del factor τ o a tratamientos. Se deben definir una serie de Unidades Observacionales a las cuales se les mide el efecto de uno de los tratamientos previamente establecidos. En general se deben asignar el mismo nmero de unidades observacionales a cada tratamiento con el fin de tener uniformidad en los grados de libertad. De esta manera se tendr´ ıan j n observaciones para cada tratamiento i, en total tenemos a tratamientos y n observaciones por tratamiento, un total de N = n · a observaciones. 1

description

diseño experimental de un factor completamente aleatorio.

Transcript of Diseño experimental

Page 1: Diseño  experimental

Diseno Experimental de un Factor

Completamente Aleatorio

Juan Carlos Figueroa-GarcıaEstadıstica Inferencial - Ingenierıa Industrial

Universidad Distrital

14/05/2015

Los Disenos de experimentos son modelos estadısticos clasicos cuyo objetivoes averiguar si unos determinados factores influyen en una variable de interes,y si existe influencia de algun factor, cuantificarla. Ejemplos donde habrıa queutilizar estos modelos son los siguientes:

• En el rendimiento de un determinado tipo de maquinas (unidades produci-das por dıa) se desea estudiar la influencia del trabajador que la manejay la marca de la maquina.

• Se quiere estudiar la influencia del tipo de pila electrica y de la marca enla duracion de las pilas.

• Se quiere estudiar el rendimiento de los alumnos en una asignatura y, paraello se desean controlar diferentes factores: mtodo de enseanza; sexo delalumno, etc.

Siempre se deben considerar los siguientes aspectos clave:

• Se define una Variable de Interes a medir, que denotamos por y. Esavariable es la que se mide y tabula con el fin de analizar los hallazgos.

• Se establece un Factor o fuente de variacion que denotaremos pot τ .Consideraremos un modelo que solamente considera un factor que tienediferentes niveles denotados por el subındice i ∈ a, donde cada uno de losniveles del factor τ se conoce como Tratamiento. Ası pues, se tienen τiniveles del factor τ o a tratamientos.

• Se deben definir una serie de Unidades Observacionales a las cuales seles mide el efecto de uno de los tratamientos previamente establecidos. Engeneral se deben asignar el mismo nmero de unidades observacionales acada tratamiento con el fin de tener uniformidad en los grados de libertad.De esta manera se tendrıan j ∈ n observaciones para cada tratamiento i,en total tenemos a tratamientos y n observaciones por tratamiento, untotal de N = n · a observaciones.

1

Page 2: Diseño  experimental

En general, nos referiremos a in diseno de un solo factor a una estrategia queintencionalmente tiene una unica fuente variacion o factor en la cual intentare-mos contrastar el efecto que tienen diferentes tratamientos. Las unidades obser-vacionales se asignan de manera aleatoria a cada nivel del factor que queremosmedir.

Ejemplo de eso es un experimento en el cual se planea evaluar el efecto quetiene hacer 3 diferentes setups a un tipo de maquina determinado, y se realizan15 pruebas de desempeno por cada una de las configuraciones que se deseanevaluar, con lo cual se deben asignar aleatoriamente 45 unidades observacionalesa los 3 tratamiento.

Mas formalmente, se trata de un problema de a tratamientos o niveles del fac-tor que denotaremos por i, en donde se realizan n observaciones por tratamiento,cuyo resultado es una variable aleatoria o variable respuesta que se denota poryij . Ası pues habran n observaciones para el i-esimo tratamiento o nivel delfactor. Matricialmente se tiene:

Tratamiento Observaciones Total Promedio1 y11 y11 · · · y1n y1. y1.2 y21 y21 · · · y2n y2. y2....

...... · · ·

......

...a ya1 ya1 · · · yan ya. ya.

y.. y..

Table 1: Tabulacion de datos

Recordemos que en total tendrıamos N = a ∗ n observaciones, donde cadaobservacion yij se puede descomponer en 2 componentes: Un efecto del factori denotado por µi y un error asociado a la observacion j denotado por ξij quecorresponde a todo efecto no controlado u oscilacion aleatoria, de esta maneratenemos:

yij = µi + ξij , ∀ i = 1, 2, · · · , a; j = 1, 2, · · · , n

Tambien se puede descomponer la media µi en dos componentes: el efectode la media general de los datos µ y el efecto palpable del tratamiento τi, porlo cual tenemos

µi = µ+ τi, ∀ i = 1, 2, · · · , a

Finalmente tendrıamos:

yij = µ+ τi + ξij , ∀ i = 1, 2, · · · , a; j = 1, 2, · · · , n

Si asumimos que los efectos son fijos, es decir conocidos desde el inicio delexperimento, podemos reescribir las siguientes estadısticas:

yi. =∑

j

yij , yi. =yi.

n

2

Page 3: Diseño  experimental

y.. =∑

i

j

yij , y.. =y..

N

La idea principal del Analisis de Varianza se centra en evaluar si los tratamien-tos tienen efectos diferentes o no, lo cual implica que haya una diferencia entrelas medias de los tratamientos. Si las i medias son iguales, entonces no existevariabilidad en la respuesta medida debido a los tratamientos, mientras que sihay alguna media diferente a las demas, entonces existe un efecto debido a unode los tratamientos. Esto lo podemos expresar como la siguiente prueba dehipotesis:

H0 : µ1 = µ2 = · · · = µa

H1 : µi 6= µj por lo menos para un par (i,j)

Si la hipotesis nula se cumple, tenemos que la media global µ es igual a lade los tratamientos µi ya que no habrıa efecto alguno, se puede expresar como:

µ =

∑i µi

a

Y adicionalmente se supone que bajo la hipotesis nula no existirıa efecto delos tratamientos es cero: ∑

i

τi = 0

Lo cual equivale a la suguiente hipotesis nula:

H0 : τ1 = τ2 = · · · = τa = 0

H1 : τi 6= 0 por lo menos para un i

Desde el punto de vista constructivista de la hipotesis H0 basada en lasmedias, no tiene sentido hacer comparaciones multiples exhaustivas con el finde evaluar si existe algun tratamiento diferente o si por lo contrario todos soniguales, por lo que recurrimos a construiır una prueba f basada en estadısticascuadraticas conocidas como Sumas de Cuadrados. Ası pues, podemos reescribirnuestras fuentes de variacion de la siguiente manera:

SST = SStr + SSE

donde SST es la suma de cuadrados total de los datos que se puede descomponeren SStr que es la suma de cuadrados de los tratamientos (tambien conocida comoentre tratamientos) y SSE que es la suma de cuadrados del error aleatorio o nocontrolable (tambien conocida como dentro de tratamientos).

De esta manera el Analisis de Varianza se centra en descomponer SST

en sus fuentes de variacion, que en este caso serıa el efecto de los tratamientosconocidos de un solo factor. Realmente SST es la suma de las deviacionescuadraticas de yij respecto a la media global y.., mas formalmente:

SST =∑

i

j

(yij − y..)2

3

Page 4: Diseño  experimental

Si sumamos y restamos (para no modificar el resultado) la media de cadatratamiento yi. tenemos

SST =∑

i

j

(yij − y..)2 =

i

j

(yi. − yi. + yij − y..)2 (1)

=∑

i

j

[(yi. − y..) + (yij − yi.)]2

=∑

i

j

[(yi. − y..)2 + 2

i

j

(yi. − y..)(yij − yi.) +∑

i

j

(yij − yi.)2]

n∑

i

(yi. − y..)2 +

i

j

(yij − yi.)2 + 2

i

j

(yi. − y..)(yij − yi.)

Notese que:

2∑

i

j

(yi. − y..)(yij − yi.) = 0

Ya que∑

j(yij − yi.) = 0 (Por favor descomponer y demostrarlo).Tenemos finalmente que:

SST =∑

i

j

(yij − y..)2 = n

i

(yi. − y..)2 +

i

j

(yij − yi.)2

Ası pues, la suma de cuadrados de los tratamientos SSTr es:

SSTr = n∑

i

(yi. − y..)2 (2)

Y la suma de cuadrados del error SSE es:

SSE =∑

i

j

(yij − yi.)2 (3)

Grados de libertad Los grados de libertad se calculan de manera directade la siguiente manera: Para SSTr tenemos a observaciones disponibles (los a

promedios de cada tratamiento) y tenemos que calcular y.. (la media global),por lo tanto se tienen a− 1 grados de libertad de a valores disponibles donde sepierde un grado debido a que hay que calcular y...

Dentro de SSE tenemos N = a ∗ n observaciones disponibles y tenemos quecalcular a promedios de los tratamientos yi., por lo tanto perdemos a grados delibertad y en total tenemos N − a grados de libertad del error.

Finalmente la suma de los grados de libertad total de todos los efectos con-juntos conforman los grados de libertad de SST , ası pues a− 1+N −a = N − 1grados de libertad totales.

4

Page 5: Diseño  experimental

Cuadrados Medios Si nos damos cuenta, tenemos en general 3 cantidadescuadraticas que estan definidas por promedios de variables aleatorias, lo cual nosconduce a pensar que dichas cantidades divididas por sus grados de libertad sedistribuyen Chi-Cuadrado . Dichas variables las denominaremos CuadradosMedios denotados por MS; de la siguiente manera:

MSTr =SSTr

a− 1(4)

MSE =SSE

N − a(5)

MST =SST

N − 1(6)

En terminos generales, si no existe efecto alguno de los tratamientos en-tonces las fluctuaciones que tienen los tratamientos respecto a sus grados delibertad deberıan ser similares a las del error respecto a sus grados de libertad.En otras palabras, las medias de los tratamientos deberıan tener las misma var-

ianza respecto a la media global que la varianza de las observaciones respecto a

las medias de los tratamientos. Ası pues, lo que podemos hacer para verificarnuestra hipootesis nula es cons truır una prueba f con el fin de contrastar SSTr

y SSE ; si ambas son iguales es porque no hay efecto de ningun tratamientodentro de la media global, por ende todas las medias de los tratamientos serıaniguales, y su varianza corresponderıa a la de las observaciones frente a las mediasde los tratamientos.

Por otra parte si existe algun tratamiento significativamente diferente, en-tonces esto afectara la media de el/los tratamiento/s diferente/s e incrementaraSSTr respecto a SSE . Esto finalmente implicarıa rechazar la Hipotesis Nula.

Nuestra prueba f se construye entonces a partir de los cuadrados medios atraves del siguiente estadıstico muestral:

f0 =MSTr

MSE

Y se contrasta contra el estadıstico de prueba f1−α,a−1,N−a ya que es unaprueba unilateral (note que no existe manera alguna que los tratamientos tenganmenor varianza que las observaciones).

Para resumir el analisis, lo mas comun es utilizar una tabla resumen llamadaTabla ANOVA, la cual presentamos a continuacion:

Fuente de Suma de Grados de CuadradoVariacion Cuadrados Libertad Medio f0

Tratamientos SSTr = n∑

i(yi. − y..)

2 a − 1 MSTr = SSTr/a − 1 f0 = MSTr/MSE

Error SSE =∑

i

∑j(yij − yi.)

2 N − a MSE = SSE/N − a

Total SST =∑

i

∑j(yij − y..)

2 N − 1

Table 2: Tabla ANOVA para el modelo de un solo factor completamente aleato-rio

De esta manera se contrasta f0 contra f1−α,a−1,N−a para verificar H0 orechazarla.

5

Page 6: Diseño  experimental

Ejercicio de aplicacion.

La idea central del ejercicio es ver si existe alguna diferencia entre el numerode llamadas abandonadas por hora a un Call center de acuerdo a alguna de 5estrategias de enrutamiento que se probaron. Ası pues tenemos un unico factorque es la estrategia de enrutamiento con 5 tratamientos que son cada una delas estrategias adoptadas, donde se miden las llamadas perdidas por hora a 12diferentes operadores por cada estrategia. Nuestra variable yij es en numero dellamadas abandonadas y se asignaron 60 operadores (unidades observacionales)en total, 12 por cada tratamiento.

Los datos se encuentran en el archivo anexo Call Center.txt. La primerahiptesis que planteamos refiere a la idea que no existe efecto de las estrategias deasignacion de llamadas a los operadores, es decir que en promedio las llamadasperdidas son iguales para todos los tratamientos:

H0 : µ1 = µ2 = µ3 = µ4 = µ5

H1 : µi 6= µj por lo menos para un par (i,j)

Dicha hipotesis se constrasta con una Tabla ANOVA, cuyos resultados semuestran a continuacion:

Fuente de Suma de Grados de CuadradoVariacion Cuadrados Libertad Medio f0

Tratamientos 47.43 4 11.86 7.52Error 86.75 55 1.58Total 134.18 59

Table 3: Tabla ANOVA para el ejemplo del Call Center

Para probar H0 contrastamos f0 contra f1−α,a−1,N−a = f0.95,4,50 = 2.54para verificar H0 o rechazarla. Dado que 7.52 > 2.54 no existe evidencia es-tadstica suficiente para aceptar H0 a un nivel de confianza del 0.05, por tantoexiste un efecto de las estrategias de asignacion de llamadas en el Call Center.

Por favor verificar todos los calculos realizados.

6