Estadistica y diseños experimentales

119
UNIVERSIDAD AUTONOMA “GABRIEL RENE MORENO” FACULTAD DE CIENCIAS DE LA SALUD UNIDAD DE POSTGRADO Santa Cruz, Bolivia Septiembre 2011 Estadística y Principales Diseños Experimentales Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

description

Documento de Estadística hasta probabilidades pasando por los métodos tabulares, métodos gráficos y numéricos. Deformación de curvas, regresió y correlación lineal simple, probabilidades y principales diseños experientales

Transcript of Estadistica y diseños experimentales

Page 1: Estadistica y diseños experimentales

UNIVERSIDAD AUTONOMA

“GABRIEL RENE MORENO”

FACULTAD DE CIENCIAS DE LA

SALUD UNIDAD DE POSTGRADO

Santa Cruz, Bolivia

Septiembre 2011

Estadística y Principales Diseños

Experimentales Por: Ing. M.Sc. Francisco Martínez Solaris

Mgs. En Educación Superior

Page 2: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

INTRODUCCION

El crecimiento constante de la población ha traído como consecuencia más requerimientos de

alimentos, servicios, espacio, etc., y paralelo a ello una serie de alteraciones que están repercutiendo de

forma negativa en la población y otras, en sí, en la vida misma en el planeta.

Entre otras, lo anterior conlleva a la búsqueda de nuevas alternativas, al planteamiento de diferentes

estrategias de manera que se busca darle respuestas a las progresivas necesidades de la sociedad.,

es decir, existe una búsqueda constante de nuevas verdades, mediante métodos claros y

específicos, con el fin de crear nuevos hechos y principios en cualquier campo del conocimiento

humano. A esto se le denomina INVESTIGACIÓN.

La investigación comienza con la observación de un fenómeno que captura la atención

del investigador (Todo investigador debe conocer el problema, enamorarse de problema y casarse

con el problema), al cual el investigador trata de dar una explicación lo más acertada posible,

determinar las relaciones con otros fenómenos, etc.

El hecho de buscar explicaciones, relaciones de causalidad que existen entre los fenómenos en la

naturaleza, en muchos casos es difícil lograrlo si no se está en condiciones que pueden ser

controladas por el investigador. Lo anterior conlleva a tratar de simular el fenómeno en

condiciones adecuadas, lo cual se logra mediante la EXPERIMENTACIÓN.

La experimentación es instrumento de vital importancia pa ra l a i n ve s t i gac ión ya q u e

p o r me di o d e e l l a , e l investigador es capaz de simular un fenómeno de interés, lo que

conduce a una investigación más rápida, efectiva, de menor riesgo, menor costo y con un rigor

científico, siempre y cuando exista una previa y exhaustiva planificación de la misma.

Existen diferentes tipos de investigaciones que pueden generar conocimientos ya sean éstas

básicas, aplicadas o bien de innovación tecnológica; independientemente del conocimiento

que genere una investigación o del problema que ésta resuelva, ésta tiene que someterse

a una valoración científica. Para esto la estadística ofrece herramientas como los DISEÑOS

EXPERIMENTALES de los cuales el investigador se vale para demostrar sus

conjeturas, aceptar o no una hipótesis, comparar resultados, emitir conclusiones etc.,

acerca del problema o fenómeno en estudio.

Page 3: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Previo a la aplicación de los diseños experimentales, el investigador debe tener una base

estadística que le permita o facilite la aplicación e interpretación de resultados al aplicar los

diseños experimentales en la investigación. Es por ello que antes de desarrollar la parte de diseños,

se exponen lo básico de Estadística Descriptiva y una parte de Estadística Inferencial como es

hipótesis.

"Las teorías basadas en ideologías carecen de experimentación, y por ello, no son ciencia, lo que

no se demuestra con experimento es política. Lo que se demuestra con experimentación, es

ciencia” (Robert Laughlin, Premio Nobel de Física 1998).

"La verdadera ignorancia no es la ausencia de conocimientos, sino el hecho de rehusarse a

adquirirlos" (Karl Popper)

Ing. M.Sc. Francisco Martínez Solaris

Page 4: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

APUNTES SOBRE MÉTODOS ESTADISTICOS

Page 5: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Generalmente cuando se escucha la palabra Estadística inmediatamente se piensa en datos,

cuadros, gráficos, etc. En verdad no es una idea equivocada, sino más bien, una idea popular

de ésta, pero no es lo único y en la concepción de la Estadística Moderna tampoco el más

importante.

Las primeras técnicas estadísticas consistían principalmente en la organización, presentación

gráfica y el cálculo de ciertas cantidades "sobresalientes de un grupo de datos. Esta parte de la

disciplina es lo que, en la terminología moderna, se conoce como Estadística Descriptiva.

La Estadística Descriptiva es la rama más antigua de la Estadística y tiene por objetivo,

presentar información de una manera sencilla y estética y que al mismo tiempo, sea

aprehensible al ojo humano, es decir, fácil de entender. Aunque su campo de acción se ha

visto reducido, es indudable su utilidad. Para que la Estadística Descriptiva cumpla su

cometido utiliza tres métodos, Métodos Tabulares, Métodos Gráficos y Métodos Numéricos.

Supóngase ahora, que se está interesado en saber cuál es el ingreso promedio de las personas

que tienen pensión en el mercado los Pozos, de Santa de la Sierra, Bolivia. Supóngase además,

que este sector ha crecido de tal forma que se hace imposible estudiarlas en su totalidad. Por

tal razón se deduce una muestra de esta población por cualquier mecanismo aleatorio y se

realiza la toma de la información deseada y se obtiene un dato promedio cualquiera, por

ejemplo, Bs 550. A través del método de razonamiento que conduce a una extensión de este

resultado a la población de interés, se podría concluir que las personas que tiene pensiones en

dicho mercado, tiene un ingreso promedio de Bs 550.

El mismo hecho de que se está estudiando una fracción de la población, indica que se tiene

una información incompleta y que es, lo comúnmente que pasa en la realidad; pero, ¿qué pasa

si el azar proporcionó las personas con pensiones que venden más o bien que venden menos?.

Si se da el primer caso se estaría sobreestimando y en el caso contrario subestimando el

ingreso promedio de estas personas. En este momento surge una duda sobre la información

que en Estadística Moderna se la conoce generalmente como Incertidumbre y que siempre

estará presente en conclusiones que se deriven por medio del método inductivo.

Ahora la pregunta que surge es la siguiente, ¿qué papel juega la Estadística en esto?. El papel

de la Estadística en este proceso es cuantificar la incertidumbre y la rama de la estadística que

se encarga de ello se le llama Estadística Inferencial que utiliza el método Probabilístico.

Page 6: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

En conclusión ya sea porque la se dispone de información incompleta, o debido a la propia

variabilidad de la información (naturaleza), es muy común que se arribe a conclusiones a

través del método inductivo, en el cual las mismas son inciertas. El conjunto de técnicas que

permite realizar inducciones en las que el grado de incertidumbre es cuantificable, integran la

rama de la Estadística conocida como Inferencia Estadística o Estadística Inductiva o

Inferencial.

POBLACIÓN, ATRIBUTOS Y VARIABLES

Se dice que los estadísticos extraen datos de las muestras y que esta información les sirve para

hacer inferencia sobre la población que la muestra representa. Es así que, los términos,

muestra y población se consideran relativos.

El concepto de población va a variar de acuerdo al campo de la ciencia donde se aplique.

Desde un punto de vista estadístico, población; es el conjunto de resultados potenciales de un

experimento aleatorio, es decir, todos los valores que puede tomar una característica

(variable).

En palabras más sencillas se puede decir que población, es un conjunto de entes con

características propias que los diferencian de otras. Con este concepto se puede tener una

población de árboles, de sillas, de tizas, etc. Un aspecto importante a retomar es que desde el

punto de vista estadístico una población es importante cuando se requiere verificar (medir)

una característica (variable) en ella.

Atributos

Supóngase el siguiente ejemplo. Se tiene en un aula de clase un grupo de 20 estudiantes y

suponga además, que el estudiante de la primera fila es alto, color de piel blanca, cabello

castaño, ojos claros, etc. Si a los 20 estudiantes se les considera como una población, se puede

decir que los detalles antes mencionados corresponden a características propias de un

miembro de esa población, o sea, son atribuciones propias del estudiante en particular.

Con el ejemplo antes citado, se puede tratar de deducir un concepto de Atributo, diciendo que

es una característica propia de cada elemento de una población.

Variable

Page 7: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Retomando el ejemplo anterior, supóngase ahora, que se les pregunta a los cinco primeros

estudiante su estatura los cuales responden de la siguiente manera:

1.76, 1.69, 1.83, 1.72, 1.77

De hecho estas alturas corresponde a atributos de los cinco primeros estudiante. Si se observan

los datos anteriores, se puede constatar que el atributo estatura cambia de un estudiante a otro.

Con esta idea se puede plantear un concepto de variable.

Variable es un atributo medible que cambia de un elemento a otro de la población, es decir, es

toda característica que cambia y que está sujeta a medida o cuenta.

Supóngase ahora, que los cincos primeros estudiantes poseen la misma altura, ejemplo, 1.73.

Dado que el atributo altura en este caso no cambia, no se puede considerar como una variable,

pero sí, es un atributo. De lo anterior se puede concluir, que una variable siempre será un

atributo, pero un atributo no siempre es una variable.

Las variables siempre se denotan por la letras mayúsculas del alfabeto y los valores que toman

(observaciones) con letras minúsculas.

ELEMENTOS DE LAS VARIABLES

Siempre que se desee constatar una variable en un elemento de la población de interés, ésta

debe de poseer cuatro elementos:

a.- Nombre

b.- Definición

c.- Conjunto de categorías o valores que puede tomar la variable

d.- Procedimiento que permita clasificarla

Nombre

Cuando un investigador toma los datos correspondiente a una variable, éste tiene que saber el

nombre de la variable, de lo contrario cómo va a tomar información de una variable si no sabe

el nombre de ésta. En si el nombre está referido a cómo se conoce o se nombra la variable en

el campo del conocimiento que corresponde.

Page 8: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Definición

Viene a ser la esencia de la variable. Todo investigador tiene que definir la (s) variable (s) que

va a estudiar. Este nombre es cómo se concibe la variable en el campo de la ciencia

correspondiente, es decir, cómo se define. Si el concepto no existe, se debe construir el

constructo por parte de investigador.

Por ejemplo, supóngase que un investigador está tomando el peso a un grupo de niños, él toma

los datos cuando los niños no han desayunado y sin ropa alguna. Este investigador tiene que

reportar al momento de dar a conocer la información cómo lo hizo porque quizás otro

investigador lo puede haber tomado con ropa y después de desayunar. Inclusive debe de

especificar el equipo con el cual verificó el valor de la variable en los elementos de la

población estudiados dado que pueden variar en precisión.

Conjunto de categorías o valores que puede tomar la variable

No es más que el ser de la variable. Esta se refiere a las categorías convencionalmente

admitida por la sociedad. Por ejemplo; si en un grupo de personas se mide la variable sexo, de

hecho se refiere al sexo anatómico y no al comportamiento sexual, por lo tanto las categorías

que puede tomar son masculino ó femenino o bien macho ó hembra.

Si la variable es edad, entonces según el estadío donde se mida puede ser días, semanas,

meses, años.

Procedimiento que permita clasificarla

Este elemento de las variables en muchos casos es muy complejo, pero se soluciona en parte si

existe una adecuada definición de la variable que el investigador desee medir. Si se retoma el

ejemplo anterior donde se quiere medir la variable sexo en un grupo de personas. En este caso

la variable se define como sexo anatómico de cada persona que componen al grupo. Ahora

bien, el hecho de que una persona diga que es de sexo masculino no implica que no sea

homosexual, pero no es la conducta sexual la que se está midiendo, sino el sexo anatómico.

Por tal razón, aunque este elemento de la variable es complejo, con una definición clara de lo

que se desea medir se resuelve.

De acuerdo a los valores que puede tomar una variable, ésta se puede clasificar en:

Variables cualitativas: no se pueden medir numéricamente, representan características de las

variables (categorías, por ejemplo: nacionalidad, color de la piel, sexo).

Page 9: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos

anuales).

Por su parte, las variables cuantitativas se pueden clasificar atendiendo a los valores que

pueden tomar en discretas y continuas:

Discretas: Son todas aquellas que toman valores que se pueden contar, es decir, que se pueden

enumerar (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3...., etc, pero,

por ejemplo, nunca podrá ser 3,45).

Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la

velocidad de un vehículo puede ser 80.3 km/h, 94.57 km/h..., etc.

ESCALAS DE MEDICIÓN

Medir una variable significa constatar la observación en los elementos de la población que es

objeto de estudio, es decir, consiste en verificar que valor toma la variable en la unidad de

análisis. Lo anterior implica que para medir una variable, ésta tiene que ser observable en el

mundo real, manteniendo el principio fundamental de la construcción de una variable que

consiste en que sus categorías deben de ser totalmente inclusivas y mutuamente excluyentes.

En Estadística se definen cuatro niveles o escalas de medición las cuales son:

a.- Escala Nominal: En esta escala lo único que puede decirse de una observación es a cuál

de un cierto número de categorías pertenece.

En esta escala de medición la única relación que puede establecerse entre observaciones es la

de igualdad y por lo tanto de desigualdad. Dos observaciones son iguales si están en la misma

categoría (llamadas también clases) y diferente si no lo están. Como consecuencia de lo

anterior, la única estadística válida para este tipo de datos es la frecuencia de cada clase.

Ejemplo, supóngase que en grupo de personas se desea medir el estado de salud con respecto a

una enfermedad en particular. En este caso la constatación de la variable (medición) en los

miembros de la población debe de concluir en que están o no afectados por la enfermedad.

b.- Escala Ordinal: Las observaciones medidas en esta escala pueden ordenarse de menor a

mayor, y en consecuencia no sólo se admiten las relación de igualdad, sino además la de

Page 10: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

mayor qué y menor que. Muchos de los estudios realizados en las Ciencias Sociales producen

observaciones que son medidas bajo esta escala, por lo difícil que es medir actitudes en los

seres humanos.

En esta escala además de calcularse frecuencias como en la escala nominal, se puede calcular

una medida de tendencia central llamada Mediana.

Un ejemplo clásico de esta escala es la jerarquización que existe en la iglesia y el ejército.

Coronel > Teniente > Subteniente > Sargento > Cabo > Soldado

c.- Escala de Intervalo: Con observaciones en esta escala no sólo se pueden ordenarse las

observaciones, sino que además puede definirse una unidad de distancia (puede ser arbitraria)

entre ellas. La principal diferencia de esta escala con la de Proporciones es que en la escala de

Intervalo el cero y la unidad de distancia son arbitrarios y, en particular, el cero no

corresponde a una característica física de las unidades de medidas. Un ejemplo clásico en esta

escala es la medición de la temperatura.

Dado que los requisitos indispensables para efectuar sumas y productos son que existan ceros

y una unidad de distancia, con las observaciones medidas bajo esta escala puede calcularse

medidas de tendencia central como la media y de dispersión como la varianza. Por tal razón

esta escala es más fuerte que la Nominal.

b.- Escala de Proporción o Razón: En esta escala las observaciones pueden ordenarse y

existen un cero y una unidad de distancia que son inherentes al sistema, es decir, que no son

arbitrarios. Ejemplos típicos de características medidas en esta escala el peso de un individuo,

el rendimiento por hectárea de una planta, etc. Esta es la escala de medición más fuerte que

existe y por lo tanto permite el cálculo de cualquier estadística.

ORGANIZACIÓN DE LA INFORMACIÓN

Resulta de mucha importancia en el campo de la investigación, utilizar técnicas que permitan

apreciar de una forma rápida y fácilmente aprehensible un tipo de información donde se

resalten los aspectos más importantes. Estas técnicas o métodos deberán poseer características

o propiedades que faciliten lo antes mencionado. Entre estas propiedades se pueden mencionar

las siguientes:

Page 11: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

1. Que proporcionen la máxima cantidad de información contenida en los datos en forma

rápida y fácil de visualizar.

2. Que posean sencillez operativa

3. Que permitan presentar los datos de una manera estética.

La Estadística Descriptiva, como se ha mencionado antes, tiene como propósito mostrar la

información de forma sencilla, es decir, entendible. Para ello hace uso de tres métodos los

cuales son: Métodos Tabulares y Gráficos y Métodos Numéricos. Entre los métodos tabulares

están las Tablas de Frecuencias o Tablas de Distribución de Frecuencias.

NOTACIÓN DE SUMATORIA. PROPIEDADES

Supóngase que la variable X, toma los valores de x1, x2, x3, ..., xn. Entonces, la suma de los

valores xi de la variable X sería: x1 + x2+ x3 +... xn.

Con el objeto de expresar esta suma de una manera más resumida, se hace uso de la letra

griega Sigma mayúscula ( ), la cual es el símbolo utilizado en matemáticas para indicar la

suma, de tal manera que:

; donde:

i=1 se lee como la suma de i=1 a i=n de x, lo cual indica que la variable x toma valores para

i=1, 2, 3, ..., n, o sea:

“i” se llama índice de suma y es una variable que toma los valores 1, 2, 3, ..., n.

La expresión i=1 indica en este caso que 1 es el valor inicial de i (no siempre el valor inicial

comienza de 1).

La n arriba del signo, indica el último valor de i.

A xi se le llama sumando

Propiedades de la sumatoria

Sean x1, x2,..., xn y y1, y2,..., yn dos conjuntos de datos, y “a” y “b” dos constantes

arbitrarias. Entonces:

1.

2. ( )

Page 12: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

3.

4. ( )

5. ( )

La demostración de cada una de estas propiedades se deja como práctica para el estudiante.

Page 13: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

METODOS TABULARES

Tablas de Frecuencias Relativas y Absolutas

Como una antesala de lo que son tablas de frecuencias relativas y absolutas se menciona a

continuación las formas iniciales de presentación de información, sus ventajas y desventajas

de tal manera que el estudiante comprenda la lógica de cada uno y por qué se usa una en vez

de otra.

Una de las primeras formas de presentación de información es el arreglo de los datos el cual es

una de las formas más sencillas de presentar datos. Pone los valores en orden ascendente o

descendente. Por ejemplo, a continuación se muestran las concentraciones de cloro en partes

por millón (ppm) de 30 galones de agua tratada.

Concentraciones de cloro en ppm de 30 galones de agua tratada

15.6 16.2 15.8 15.8 15.8 16.3

16.0 15.7 16.0 16.2 16.1 16.8

16.8 16.4 15.2 15.9 15.9 15.9

16.0 15.4 15.7 15.9 16.0 16.3

16.3 16.4 16.6 15.6 15.6 16.9

Una forma sencilla de arreglar estos datos es presentarlos en orden ascendente o descendente.

Si se arreglan de manera ascendente quedarían de la siguiente forma:

15.2 15.7 15.9 16.0 16.2 16.4

15.4 15.7 15.9 16.0 16.3 16.6

15.6 15.8 15.9 16.0 16.3 16.8

15.6 15.8 15.9 16.1 16.3 16.8

15.6 15.8 16.0 16.2 16.4 16.9

Este arreglo de datos ofrece varias ventajas sobre los datos originales o sin arreglar:

Se pueden localizar rápidamente los valores mínimos y máximos en los datos. En el

ejemplo, el valor mínimo es 15.2 y 16.9 el máximo.

Los datos se pueden dividir en secciones (clases)

Fácilmente se puede apreciar que valores se repiten más de una vez.

Page 14: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Un inconveniente de esta forma de presentación de información es que siempre se sigue

manejando toda la masa de información y por lo tanto es muy tedioso emplearla en bases

datos muy grandes. Esto quiere decir, que esta forma de presentación de información no tiene

capacidad de síntesis, de aquí que es preferible presentarlos en Cuadro de distribución de

frecuencias.

Al número de veces que se repite una observación dentro de una colección de datos se le llama

Frecuencia Absoluta (fi). La suma de éstas tiene que ser igual al tamaño de la colección de

datos (∑fi = n), en este caso 18 + 12 = 30 (total de las observaciones). A la relación de cada

frecuencia absoluta con respecto al total, se le llama Frecuencia Relativa (fr = fi/∑fi), la

suma de esta tiene que ser igual a 1 o bien a 100 si se le expresa en porcentaje. Este tipo de

arreglo es importante cuando la colección de datos es pequeña.

Los datos anteriores arreglados en un cuadro de distribución de frecuencia se muestran a

continuación:

xi fi fr xi fi fr

15.2 1 3.33 16.1 1 3.33

15.4 1 3.33 16.2 2 6.67

15.6 3 10.00 16.3 3 10.00

15.7 2 6.67 16.4 2 6.67

15.8 3 10.00 16.6 1 3.33

15.9 4 13.33 16.8 2 6.67

16.0 4 13.33 16.9 1 3.33

Total 18 60.00 Total 12 40.00

Hay autores que consideran la siguiente forma de presentación de cuadros de frecuencia donde

incluyen elementos que son propios de las Tablas de Frecuencias Absolutas y Relativas. Esto

se muestra a continuación:

Page 15: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Variable Frecuencias absolutas Frecuencias relativas

xi Simple(fi) Acumulada

(Fia) Simple (fr) Acumulada (Fra)

X1 f1 f1 fr1 = f1 / ∑fi Fr1

X2 f2 f1 + f2 fr2 = f2 / ∑fi fr1 + fr2

... ... ... ... ...

Xn-1 fn-1 f1 + f2 +…+ fn-1 fr-1 = fn-1 / ∑fi fr1 + fr2 +…+ fr-1

Xn fn ∑fi= n frn = fn / ∑fi 1 ó 100

Veamos un ejemplo:

Medimos la altura de los niños de una clase con instrumental de precisión y en condiciones

adecuadas, escogiendo a todos sus componentes, 30 sujetos, y obtenemos los siguientes

resultados (m):

Alumno Estatura Alumno Estatura Alumno Estatura

1 1.25 11 1.23 21 1.21

2 1.28 12 1.26 22 1.29

3 1.27 13 1.30 23 1.26

4 1.21 14 1.21 24 1.22

5 1.22 15 1.28 25 1.28

6 1.29 16 1.30 26 1.27

7 1.30 17 1.22 27 1.26

8 1.24 18 1.25 28 1.23

9 1.27 19 1.20 29 1.22

10 1.29 20 1.28 30 1.21

Puesto que todas las tallas están comprendidas entre 1.20 y 1.30 m., podemos agruparlas por

centímetros formando 11 grupos indicando cuántos niños presentan cada uno de los valores. Si

presentamos esta información estructurada (agrupada) en un cuadro de frecuencias

obtendríamos la siguiente:

Page 16: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Cuadro de frecuencia

Observación Frecuencias

fi Fia fr (%) Fra

1.20 1 1 3.33 3.33

1.21 4 5 13.33 16.66

1.22 4 9 13.33 30.00

1.23 2 11 6.67 36.66

1.24 1 12 3.33 40.00

1.25 2 14 6.67 46.66

1.26 3 17 10.00 56.66

1.27 3 20 10.00 66.66

1.28 4 24 13.33 80.00

1.29 3 27 10.00 90.00

1.30 3 30 10.00 100.00

Total 30 100

Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas

veces, entonces conviene agruparlos por intervalos mayores. ya que de otra manera

obtendríamos una tabla de frecuencia muy extensa que aportaría muy poco valor a efectos de

síntesis.

Supongamos que ahora medimos la estatura de los habitantes de una vivienda (también 30

personas) y obtenemos los siguientes resultados (m):

Habitante Estatura Habitante Estatura Habitante Estatura

1 1.15 11 1.53 21 1.21

2 1.48 12 1.16 22 1.59

3 1.57 13 1.60 23 1.86

4 1.71 14 1.81 24 1.52

5 1.92 15 1.98 25 1.48

6 1.39 16 1.20 26 1.37

7 1.40 17 1.42 27 1.16

8 1.64 18 1.45 28 1.73

9 1.77 19 1.20 29 1.62

10 1.49 20 1.98 30 1.01

Page 17: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Los datos son menos homogéneos (más dispersos) que en el caso de los niños de un grupo

escolar (todos de la misma edad) y si presentáramos esta información en un cuadro de

frecuencia obtendríamos 30 líneas (una para cada valor), cada uno de ellos con una frecuencia

absoluta de 1 y con una frecuencia relativa del 3.3%. Esta tabla nos aportaría toda

la información inicial, pero sería muy difícil de manejar si en vez de 30 personas fueran 300.

3000 o más: en definitiva, de escaso valor práctico. Lo que quiere decir lo anterior, es que si

bien es cierto que los cuadros de frecuencias tienen más capacidad de resumir la información,

esto no siempre se logra ya que depende de las características propias de la información.

En lugar de ello, podríamos agrupar los datos por intervalos llamados también Tablas de

Frecuencias Absolutas y Relativas, con lo que la información queda más resumida (se pierde

por tanto algo de información), pero es más manejable e informativa.

Una tabla de frecuencia absoluta y relativa no es más que la agrupación de una base de datos

en subgrupos llamados clases o intervalos de clases.

Cada intervalo de clase o clase posee dos elementos, Límite inferior y Límite superior. La

semisuma de ambos origina un elemento más en una tabla de frecuencia absoluta y relativa

denominado Punto medio de clase (PMC) o bien Marca de clase.

El primer tropiezo que se afronta es decidir cuántas grupos o clases deberán establecerse y si

éstas tendrán la misma anchura. Es recomendable en la práctica utilizar entre 5 y 20 clases

inclusive hay autores que recomiendan hasta 25 clase, y normalmente conviene construirla de

modo que todas las clases tengan la misma anchura. La anchura de clase recibe también el

nombre de Intervalo de Clase o bien Amplitud de clase.

Una manera de resolver este problema es utilizar la fórmula de Stirling (Sturge) K = 1 + 3.33*

log(n), donde k es el número de clases o intervalos que se deben construir. Para el caso en

cuestión sería:

k = 1 + 3.33*log10(30) = 5.87. Como se puede recordar que número de intervalos viene a ser

una variable cuantitativa discreta, entonces tiene que tomar valores cerrados. De acuerdo a lo

anterior y basado en leyes matemáticas se redondea al inmediato superior, es decir, 6. Hay

autores que sugieren siempre esto.

Un segundo problema que se afronta se refiere a la determinación del Ancho del Intervalo de

Clase. Este problema se resuelve calculando primeramente la diferencia entre el mayor y el

Page 18: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

menor valor numérico de los datos, llamado también Rango, Recorrido o Amplitud (A). En el

caso del ejemplo es: A = 1.98 - 1.01 = 0.97. Esto indica que la suma de las amplitudes de clase

de los intervalos de clase deberá cubrir al menos esta diferencia. Si 0.97 se divide entre 6, se

obtiene un resultado de 0.16. Si se multiplica la anchura de clase (Ac) determinada por el

número de intervalos K = 6, (al resultado se le llama Rango Ideal) se tiene el siguiente

resultado: 0.16*6 = 0.96. Si se recuerda la amplitud de los datos es de 0.97, por lo tanto esta

anchura de clase (Ac) no es suficiente para cubrirla por tal razón, algunos autores

recomiendan redondearlo al inmediato superior que en este caso sería de 0.17. Repitiendo el

proceso, se tiene que 0.17*6 = 1.02. Un aspecto importante de señalar es que si bien es cierto

que se pasa de 1.98 con 3 centésimas, cubre la amplitud de los datos. Por esto se dice que

Ac*k = al menos debe ser igual a la amplitud de los datos, es decir, no importa si se pasa del

valor máximo.

Un tercer aspecto que hay que resolver es por donde iniciar la construcción de los intervalos

de clases. Para el caso de variables cuantitativas continuas, se habla de una medida de

desplazamiento (MD) que es igual al Rango ideal (RI) menos la Amplitud de los datos (A),

donde RI es igual Ac * k, esto es:

MD = RI – A, entonces: MD = [(0.17*6) –0.97]/2 =0.025, o aproximadamente 0.03.

Este es el desplazamiento que debe tener el valor mínimo para iniciar la construcción de los

intervalos. Al construir el primer intervalo, al valor mínimo le restamos el desplazamiento es

decir, 1.01 – 0.03 = 0.98, éste es el límite inferior del primer intervalo de clase y su límite

superior será 0.98 + Ac, es decir, 0.98 + 0.17 = 115, Para el caso del segundo intervalo de

clase, su límite inferior es el límite superior del primer intervalo de clase o sea 115 y el límite

superior será 1.15 + 0.17 = 1.32 y así sucesivamente hasta llegar al número de intervalos

definidos. Esto es continuidad, ya que no existe ruptura entre intervalos.

Entonces, para este tipo de variable (cuantitativa continua), los intervalos de clases son

abiertos por la izquierda y cerrados por la derecha.

Luego se determina los Puntos Medios de Clase o Marcas de Clase en la segunda columna de

la tabla, esto es: PMC = (Li + LS)/2.

Posteriormente en una tercera columna se determinan las frecuencias absolutas, que en este

caso se define como el número de observaciones que caben dentro del intervalo de clase. Para

Page 19: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

que quepa una observación dentro de un intervalo de clase en este tipo de variable, éste tiene

que ser mayor que el límite inferior o menor o igual que el límite superior.

La tabla antes mencionada quedaría de la siguiente forma:

Intervalos de Clase PMC fi fr Fia Fra

0.98 a 1.15 1.065 2 6.67 2 6.67

1.15 a 1.32 1.235 5 16.67 7 23.33

1.32 a 1.49 1.405 8 26.67 15 50.00

1.49 a 1.66 1.575 7 23.33 22 73.33

1.66 a 1.83 1.745 4 13.33 26 86.67

1.83 a 2.00 1.915 4 13.33 30 100

30 100

Para el caso de variables cuantitativas discretas, los intervalos de clases son cerrados por

ambos lados.

Page 20: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

METODOS GRAFICOS

Dentro de las representaciones gráficas se pueden mencionar las siguientes:

Diagrama de puntos

Pictogramas

Diagrama de barras sencillas, dobles, múltiples

Diagrama de sectores torta o pastel (pie)

Histogramas de frecuencias

Polígono de frecuencias absolutas ó relativas

Polígono de frecuencia acumulada por la izquierda (menor que) u ojiva

Gráficos de línea, etc.

Para efecto de este texto se desarrollarán los principales como son el Diagrama de Puntos

por su relación con el Diagrama de dispersión, Histograma de frecuencia, Polígono de

frecuencia, Ojiva y Diagrama de sectores.

Diagrama de Puntos

Sirve para representar gráficamente cuadros de frecuencias en las cuales se consideran

únicamente una variable y una cantidad asociada a cada valor de la misma (frecuencias).

Existen dos tipos de diagramas de puntos cuya construcción se detalla enseguida.

La construcción de los diagramas de puntos se realiza de la siguiente manera:

El primer tipo de diagrama de puntos se construye colocando en el eje horizontal los

valores de la variable y en el eje vertical las cantidades asociadas a éstos (frecuencias).

Finalmente, para cada valor de la variable y cada cantidad asociada se dibuja puntos

cuyas alturas corresponde a la magnitud de dicha cantidad.

Para construir el segundo tipo de diagrama de puntos se colocan en el eje horizontal

los valores de la variable y sobre cada valor se dibuja tantos puntos como veces

aparecen éstos.

Para ejemplificar el primer caso se retomará las alturas de los 30 habitantes que han sido

mencionados anteriormente.

Page 21: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

En este caso se puede observar que los valores de la variable altura se encuentran en el eje

horizontal y en el vertical, el número de habitantes, y el punto está compuesto por las

coordenadas (altura, Número de habitantes con esa altura).

Histograma

Se llama Histograma a la gráfica de barras verticales sin espaciamiento entre ellas, construida

colocando en el eje vertical a las frecuencias absolutas ó relativas y el eje horizontal a los

límites de clase de una tabla de frecuencias. Lo anterior implica que si los intervalos de clases

son iguales, sobre cada clase se erigen rectángulos cuyas áreas son proporcionales a las

frecuencias de clase. Las etapas que se deben de cubrir en la construcción de un histograma

son:

Colocar en el eje horizontal los límites de clases

Colocar en el eje vertical las frecuencias relativas o absolutas.

Erigir rectángulos cuya base son las clases y su altura las frecuencias que corresponde

a cada clase

Para ejemplificar este método gráfico se tomará a la tabla de frecuencia absoluta y

relativa y las frecuencias absolutas asociada a cada clase.

0 0.5 1 1.5 2 2.5

Estatura (mt)

Page 22: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

En este caso, dado que se utilizó la frecuencia absoluta para construir el histograma entonces

el histograma toma el nombre de Histograma de Frecuencias Absolutas.

Polígono de Frecuencia

Un polígono de frecuencia es una gráfica de líneas rectas que unen los puntos obtenidos al

colocar en el eje horizontal a los valores medios (puntos medios) de clases y en el eje vertical

a las frecuencias absolutas o relativas. Esto equivale a unir los puntos medios de la cara

superior de los rectángulos de un histograma por medio de líneas rectas.

Para cerrar el polígono se adiciona una clase tanto inferior como superior para que el polígono

cierre.

0123456789

Fre

cuen

cias

abso

luta

s

Intervalos de clases

0123456789

Fre

cuen

cias

ab

solu

tas

Puntos Medios de Clases

Page 23: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

En este caso al igual que el histograma, el polígono retoma el nombre de la frecuencia que se

ha utilizado para construir.

Polígono de Frecuencia Acumulada por la Izquierda o Ojiva

Una Ojiva o Polígono de Frecuencia Acumulada es una gráfica construida con segmentos de

líneas rectas que unen los puntos obtenidos al colocar en el eje horizontal a los límites

superiores de clase y en el vertical a las frecuencias acumuladas absolutas o relativas.

Al inicio en el eje horizontal se coloca el límite inferior de la primera clase y se le asigna una

frecuencia acumulada de cero. Asimismo, por su naturaleza una ojiva es no decreciente.

Retomando como ejemplo la misma tabla de frecuencia absoluta y relativa, se tomarán las

frecuencias absolutas acumuladas por la izquierda o “menor que” de ésta.

Diagrama de Sectores (Torta o pastel)

Este tipo de gráfico se utiliza para representar datos cualitativos y cuantitativos discretos. Su

uso más frecuente es con el propósito de comparar ya sea las categorías que toma una variable

cualitativa o los valores discretos de una variable cuantitativa respecto al total.

Para construir este gráfico se utiliza una circunferencia, la cual se divide en sectores de tal

manera que sus medidas angulares centrales y, por ende la superficie del sector circular sean

proporcionales a las magnitudes de los valores de la variable que se trata de representar.

Page 24: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Al total de las frecuencias (∑fi = n) le corresponde el círculo completo, es decir, los 3600 de la

circunferencia y por regla de tres simple se determina el número de grados que le corresponde

a cada categoría o valor discreto en particular.

Ejemplo:

Los datos que se muestran a continuación corresponden a la distribución de los docentes de

una universidad en particular, respecto al lugar de realización de estudios de diplomados.

Lugar de realización del Diplomado n %

Extranjero 19 13.87

Universidad de Interés 87 63.5

Otras universidades bolivianas 31 22.63

Total 137 100

Tratando de representar estos datos en diagrama de sectores se tiene lo siguiente:

Número de grados para la categoría “Extranjero”.

= (19 x 360

0)

= 49.9 = 50 137

De la manera que quedaría de la siguiente forma una vez que se hayan realizado las

operaciones correspondientes:

Lugar de realización del Diplomado n Grados

Extranjero 19 50

Universidad de Interés 87 229

Otras universidades bolivianas 31 81

Total 137 360

De forma gráfica se vería de la siguiente forma:

Page 25: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Extranjero

14%

Universidad

de Interés

63%

Otras

universidades

bolivianas

23%

Page 26: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

MEDIDAS DE TENDENCIA CENTRAL O POSICIÓN

Como se pudo observar en la unidad anterior los histogramas o distribuciones de frecuencias

presentan formas muy variadas, por lo que no es fácil de comparar dos conjuntos de datos

mediante una inspección somera de los histogramas. Por otra parte, una tabla de frecuencia

con 15 a 20 clases puede no ser una representación suficientemente concisa de los datos. Por

estas razones y por su importancia en posteriores usos es necesario contar con cantidades que

describan sucintamente (rápidamente) el conjunto de datos que se estudia. Son de interés

cantidades que localicen el "centro" de las observaciones (o más bien de su distribución de

frecuencias) y la dispersión o variabilidad de las mismas.

A las medidas que localizan el "centro" de los datos se les llama "Medidas de Tendencia

Central" y las que miden la variabilidad de las observaciones se les llama "Medidas de

Dispersión".

Dentro de las medidas de Tendencia Central se pueden mencionar las siguientes:

Media o promedio

Media ponderada

Media Geométrica

Media Armónica

Media Cuadrática

Mediana

Moda

Por el grado de aplicabilidad serán desarrollada la siguientes medidas de tendencia central:

media aritmética, mediana y moda y, como un caso especial de la media aritmética, la media

ponderada.

Media Aritmética

También llamada media. Def: La media aritmética de n observaciones de la variable X se

denotará por , y se define como la suma de ellas dividida por "n". Esto es:

Ejemplo:

Page 27: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Sean los siguientes datos x1=2, x2=12, x3=9, x4=10, x5=7. La media aritmética de estos datos

es:

Desde un punto de vista geométrico, la media aritmética corresponde al punto de equilibrio de

los datos.

La media aritmética es la medida descriptiva de tendencia central más usada. Tiene la ventaja

de ser fácil de calcular, además de poseer propiedades teóricas excelente desde el punto de

vista de la estadística inferencia. Su principal desventaja es que, por ser el punto de equilibrio

de los datos es muy sensible a la presencia de observaciones extremas. Por otro lado su

cálculo se vuelve tedioso cuando la base de datos es muy grande. Otra desventaja es que no se

puede calcular en datos que tienen intervalos de clases abiertos.

Cálculo de la Media Aritmética en Tablas de Frecuencias

En muchas ocasiones se nos presenta el problema de estimar la media a partir de una tabla de

frecuencias. Esto se da por dos razones:

Ya se han presentado los datos en forma resumida y no se dispone de las

observaciones originales.

Cuando se dispone de las observaciones originales, pero su número es tan grande que

las operaciones aritméticas necesarias para el cálculo de la media requieren de mucho

trabajo. Entonces el uso de una tabla de frecuencias simplifica considerablemente el

trabajo.

Se debe de recordar que cuando se tiene una tabla de frecuencias con k clases se da lo

siguiente:

En una clase se tienen fi observaciones (frecuencia absoluta), las cuales pueden tener

cualquier valor entre el límite superior e inferior de esa clase. Para calcular de una manera

aproximada la media, se supone que las observaciones se encuentran uniformemente

distribuidas en el intervalo y, por lo tanto, el valor medio de clase (Punto medio de clase o

Marca de Clase) es un valor representativo de esa clase.

Page 28: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Con esta suposición el cálculo de la suma de las observaciones se simplifica de la siguiente

manera:

Esta expresión representaría la suma aproximada de las observaciones; por lo tanto, la media

aritmética se estimaría de la siguiente manera:

Todo lo anterior es posible siempre y cuando no se tengan clases abierta en la tabla.

Ejemplo:

Para ejemplificar la media aritmética para datos tabulados se retomará la tabla de frecuencias

absolutas y relativas que se ha expuesto anteriormente, la cual corresponde a la estatura de 30

personas. Se pide estimar la estatura promedio de estas personas.

Es importante ver que lo que se ha solicitado es una estimación de la estatura y no una

determinación ya que en datos lo único que se puede hacer es una estimación ya que la

determinación se la realiza en los datos originales.

Retomando la ecuación de estimación de la media aritmética se tiene lo siguiente:

Intervalos de Clase PMC fi PMC*fi

0.98 a 1.15 1.065 2 2.13

1.15 a 1.32 1.235 5 6.175

1.32 a 1.49 1.405 8 11.24

1.49 a 1.66 1.575 7 11.025

1.66 a 1.83 1.745 4 6.98

1.83 a 2.00 1.915 4 7.66

Total 45.21

Promedio 45.21/30 = 1.507

La estimación proporcionó un valor de 1.507 m/persona. La determinación del promedio en la

base de datos original, es de 1.513 m/persona. Siempre se observará una diferencia que es

producida por el hecho de que en una tabla de frecuencia lo que se realiza es una estimación y

no una determinación. Esta diferencia será cada vez menor si la medida de desplazamiento

para construir la tabla sea pequeña.

Page 29: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Propiedades de la Media Aritmética

La media aritmética tiene muchas propiedades sin embargo, solo se expondrá una por la

relevancia que tiene a nivel de inferencia y es la siguiente:

La suma algebraica de las desviaciones de un conjunto de números respecto a su media

aritmética es cero, es decir: ( ) . Esta es la razón por la cual le media se

la interpreta como el punto de equilibrio de una colección de datos numérica y además,

es por ello que en Estadística se le conoce como “el primer momento”.

Mediana

Es el valor de la serie de datos que se sitúa justamente en el centro de la muestra (un 50% de

valores son inferiores y otro 50% son superiores).

No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza

en su cálculo toda la información de la serie de datos (no pondera cada valor por el número de

veces que se ha repetido).

La mediana (Me) de un conjunto de “n” números, ordenados de menor a mayor, es el número

central en el arreglo. Si n es un número non, sólo hay un valor central. Si n es un número par,

hay dos valores centrales, y la mediana debe tomarse como la media de estos dos valores.

Ejemplo...

1.- Sean la siguiente colección de datos: 27, 3.4, 3.2, 3.3, 3.1

El primer paso para determinar la Mediana en datos sin tabular es ordenar los datos en orden

ascendente o descendente de tal forma que:

3.1, 3.2, 3.3, 3.4, 27. Dado que n es un número non o impar (n=5), entonces sólo hay un valor

central (3.3) y éste es el valor de la mediana.

Me = 3.3

2.- Calcular la mediana para los siguientes datos y ordenados:

151, 152, 153, 158, 162, 167, 167, 167, 168, 173

En este caso n es par (n=10), por lo que hay dos valores centrales, que son 162 y 167.

Entonces partiendo del concepto de Mediana, la Me es la media aritmética de estos dos

valores ya que antes y después de ella, no existe más del 50% de los datos.

Page 30: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Me = (162 + 167)/2 = 164.5. Entonces cuando este sea el caso la Me, se puede determinar de

la siguiente forma:

Cuando los datos son simétricos entre la mediana y la media aritmética no hay mucha

diferencia; sin embargo, para datos no simétricos es mejor medida de tendencia central la

mediana que la media.

Cálculo de la Mediana en datos tabulados

Cuando los datos están agrupados en clases, es decir, cuando existe una tabla de distribución

de frecuencias, para estimar la mediana se utiliza la siguiente ecuación:

( )( )

Donde:

Me = Mediana

a = Límite inferior de la clase de la Mediana

b = Límite superior de la clase de la Mediana

c = Frecuencia relativa acumulada una clase antes de la clase de la Mediana

d = Frecuencia relativa de la clase de la Mediana

Como se puede observar todos los insumos requeridos para la determinación de la Me, están

en la misma tabla.

Como se ha verificado anteriormente, la mediana es aquella medida de tendencia central que

antes y después de ella no existe más del 50% de la información, es decir, parte en dos la base

de datos. A partir de esto es que se propuso partir la base de datos en cuatro partes y se le

llamó cuartiles, luego en 10 parte y se les llamó deciles y luego en 100 partes y se les llamó

percentiles. A todo esto se llaman Fractiles, los cuales no se desarrollan en el presente

documento pero si se recomienda revisar cualquiera de la obras citadas al final de este

documento para verificar esta información.

Moda

La Moda (Mo) de un conjunto de datos es la observación o valor (si existe) que ocurre con

mayor frecuencia. Si es un valor único se dice que la distribución de frecuencias es unimodal.

Page 31: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Si se tienen dos o más valores con la misma frecuencia máxima se dice que la distribución es

bimodal, trimodal, etc. Ejemplo: sean los siguientes datos las calificaciones de un examen:

10, 7, 8, 7, 9, 8, 7, 9.

En este caso la calificación que más se repite es 7 ya tiene una frecuencia fi =3, por lo tanto la

Mo es 7.

Sean los siguientes datos:

10, 6, 7, 4, 13, 16, 18

Como se puede observar en estos datos todos tienen una frecuencia absoluta igual a 1, por lo

tanto no tiene moda este conjunto de datos. Las distribuciones de este tipo se les llaman

uniformes.

Sean los datos: 4, 3, 4, 7, 2, 7, 5, 4, 7, 5, 9, 7, 4

Aquí se puede observar que los valores numéricos con mayor e igual frecuencia son los

valores 4 y 7 por lo tanto la moda de estos datos es 4 y 7, o sea que una distribución bimodal.

Cuando los datos se encuentran organizados en Cuadros de frecuencia, la Mo es el valor que

tiene la mayor frecuencia absoluta. Ejemplo:

Los datos que se muestran a continuación, corresponden a la estatura de 30 personas que

conformaron una muestra. Según el cuadro de frecuencia donde se presenta esta información,

existen 3 valores que tienen la mayor frecuencia absoluta. Estos son 1.21, 1.22 y 1.28 con fi =

4; por lo tanto existen 3 Modas. Éstas son: 1.21, 122 y 1.28 m, por lo tanto la distribución es

trimodal.

Page 32: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Observación Frecuencias

fi fia fr (%) Fra

1.20 1 1 3.33 3.33

1.21 4 5 13.33 16.66

1.22 4 9 13.33 30.00

1.23 2 11 6.67 36.66

1.24 1 12 3.33 40.00

1.25 2 14 6.67 46.66

1.26 3 17 10.00 56.66

1.27 3 20 10.00 66.66

1.28 4 24 13.33 80.00

1.29 3 27 10.00 90.00

1.30 3 30 10.00 100.00

Total 30 100

Cuando la información se encuentra organizada en una tabla de frecuencias absoluta y relativa,

la Mo se puede estimar a través de la siguiente ecuación:

( )

( ) ( )

Donde:

Mo = Moda

Licm = Límite inferior de la clase modal

Acm = Amplitud de clase de la clase modal

ficm =Frecuencia absoluta de la clase modal

ficprem = Frecuencia absoluta de la clase postmodal

ficpostm = Frecuencia absoluta de la clase postmodal

Ejemplo:

Sea la siguiente tabla de frecuencia absoluta y relativa correspondiente a la variable estatura de

30 personas.

De hecho la variable estatura es una variable cuantitativa continua, además la tabla lo

demuestra ya que entre los intervalos no existe ruptura, es decir, que el límite superior de la

primera clase es el inferior de la siguiente clase. Es por ello que se dicen que son abiertos por

la izquierda y cerrados por la derecha.

Page 33: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Intervalos de Clase PMC fi

(0.98 a 1.15] 1.065 2

(1.15 a 1.32] 1.235 5

(1.32 a 1.49] 1.405 8

(1.49 a 1.66] 1.575 7

(1.66 a 1.83] 1.745 4

(1.83 a 2.00] 1.915 4

En este caso la clase modal sería aquella que tiene mayor frecuencia absoluta, esta es:

(1.32 a 1.49] =8, entonces partiendo de la ecuación proporcionada anteriormente:

( )

( ) ( )

Mo = 1.32 + 0.17 [(8 - 5)/((8 - 5) + (8 – 7)) = 1.4475

MEDIDAS DE DISPERSION

Estas son las medidas que miden como se dispersan los datos, generalmente alrededor de una

medida de tendencia central. Entre éstas se pueden mencionar las siguientes:

Rango o Amplitud

Desviación Media y Mediana

Varianza y Desviación Típica

Dispersión Relativa

Generalmente las más utilizadas son: Varianza, Desviación típica y Dispersión relativa o

Coeficiente de Variación y una que en los métodos tabulares ya se ha utilizado como es el

Rango.

Rango

La Amplitud, Rango o Recorrido de un conjunto de datos es la diferencia entre las

observaciones de mayor y menor valor numérico en el mismo.

R = Valor máximo - Valor mínimo

Page 34: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Tiene la ventaja de ser fácil su determinación, pero no es una buena medida de dispersión ya

que solo toma en cuenta dos valores de toda la colección y no idea de cómo es la variabilidad

dentro de los datos.

Varianza

La varianza retoma un nombre de acuerdo a dónde se determina. Si la determinación es en una

población se la llama Varianza Poblacional (σ²) y si es en una muestra se le llama Varianza

Muestral (s²).

La Varianza Población o Variancia de una población finita de N elementos x1, x2, x3, ...xn; se

define como la media aritmética del cuadrado de las desviaciones de las observaciones

respecto a su media μ; y se determina a través de la siguiente ecuación para varianza

poblacional:

( )

En caso de que sea muestral y para datos no organizados en una tabla de frecuencia absoluta y

relativa, se determina de la siguiente forma:

( )

Para datos tabulados, la varianza se determina de la siguiente manera:

(

)

Existe una fórmula de trabajo mucho más rápido para determinar la varianza muestral para

datos no tabulados que resulta de desarrollar en trinomio cuadrado perfecto de la ecuación.

Esta fórmula es:

(

)

Ejemplo:

Page 35: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Sean los siguientes datos las estaturas de 30 estudiantes de un salón de clases

Alumno Estatura Alumno Estatura Alumno Estatura

1 1.25 11 1.23 21 1.21

2 1.28 12 1.26 22 1.29

3 1.27 13 1.30 23 1.26

4 1.21 14 1.21 24 1.22

5 1.22 15 1.28 25 1.28

6 1.29 16 1.30 26 1.27

7 1.30 17 1.22 27 1.26

8 1.24 18 1.25 28 1.23

9 1.27 19 1.20 29 1.22

10 1.29 20 1.28 30 1.21

(

)

∑xi² = (1.25² + 1.28² + 1.27² +… 1.21²) = 47.1558

∑xi = (1.25 + 1.28 + 1.27 +… 1.21) = 37.6

n = 30

S² = 47.1558 -

(37.6)²

30

30-1

S² = 0.00105 m²

Dado que se determina o se estima la varianza se eleva al cuadrado las unidades originales de

medición razón por la cual no se debe comparar con la media aritmética ya que ésta es medida

en unidades lineales. Por esta razón, es que se propone una nueva medida de dispersión

llamada Desviación Típica.

Desviación Típica

No es más que la raíz cuadrada positiva de la varianza. En este sentido se puede hablar

entonces desviación típica poblacional y muestral, entonces:

σ = √σ²

Page 36: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

S = √S²

Para el caso del ejemplo anterior, S = √0.00105 = 0.0324 m

Este dato indica que los datos se dispersan en promedio 0.0324 m del promedio de la variable

Estatura.

Coeficiente de Variación

Todas las medidas de dispersión antes descritas son medidas de variación absoluta. Una

medida de la dispersión relativa de los datos, que toma en cuenta su magnitud, está dada por el

Coeficiente de Variación.

Coeficiente de Variación (C.V): Es una medida de dispersión relativa de un conjunto de

datos, que se obtiene dividiendo la desviación estándar del conjunto datos entre su media

aritmética.

Cuando se multiplica por 100 se expresa en porcentaje indicando tanto por uno que se alejan

los datos de su media aritmética.

(

)

Ejemplificando con los datos anteriores se tendría:

C.V = (0.0324/1.253)*100 = 2.586%, indicando con ello que por cada valor de la media los

datos se dispersan en un 2.586% alrededor de ella.

Ejemplo.

Sean la siguiente tabla de frecuencia absoluta y relativa, las estaturas correspondientes a 30

estudiantes. La tabla es la siguiente:

Intervalos de Clase PMC fi

(0.98 a 1.15] 1.065 2

(1.15 a 1.32] 1.235 5

(1.32 a 1.49] 1.405 8

(1.49 a 1.66] 1.575 7

(1.66 a 1.83] 1.745 4

(1.83 a 2.00] 1.915 4

Determine el Coeficiente de Variación de los datos.

Page 37: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Nótese que solo piden CV, entonces necesitamos dos insumos, la desviación típica y la media

aritmética de los mismos. Como se necesita S, entonces se necesita de S². Entonces realizando

los cálculos necesarios en la misma tabla se obtienen todos los insumos para la estimación del

Coeficiente de variación como se muestra a continuación. Note que lo que se hizo fue generar

los componentes de las ecuaciones a determinar:

Intervalos de Clase PMC fi PMC²fi PMCfi

(0.98 a 1.15] 1.065 2 2.2685 2.13

(1.15 a 1.32] 1.235 5 7.6261 6.175

(1.32 a 1.49] 1.405 8 15.792 11.24

(1.49 a 1.66] 1.575 7 17.364 11.03

(1.66 a 1.83] 1.745 4 12.18 6.98

(1.83 a 2.00] 1.915 4 14.669 7.66

Totales 30 69.9 45.21

(

)

S² = 69.9 -

(45.21)²

30

30-1

S² = 0.0609

S = 0.0780

45.21/30 = 1.507

(

)

C.V = (0.0078/1.507)*100 = 0.5176

Page 38: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

DEFORMACION DE CURVAS UNIMODALES

Una curva unimodal se puede deformar de dos maneras, respecto a un eje horizontal o bien

respecto a un eje vertical.

Cuando se trata de una deformación horizontal se habla de Asimetría y cuando se habla de

deformación vertical se habla de Curtosis.

Asimetría (Deformación Horizontal)

Asimetría es el grado de deformación horizontal que presente una curva unimodal respecto al

eje horizontal. De acuerdo a ello se puede tener lo siguiente:

Asimetría Positiva: Se dice que una distribución de frecuencia unimodal presenta asimetría

positiva o a la derecha, si tiene una ramificación más extendida hacia la derecha o hacia los

valores grandes de una variable. Esto indica que la variable tiende a tomar valores mayores

que su promedio y la relación que se establece entre las principales medidas de tendencia

central es la siguiente:

Asimetría Negativa: Una distribución unimodal tiene asimetría negativa o hacia la izquierda,

si tiene una ramificación más extendida hacia la izquierda indicando con ello que la variable

tiende a tomar valores inferiores a su promedio. En este caso, la relación que se establece

entre las principales medidas de tendencia central es la siguiente:

La siguiente gráfica resume la asimetría negativa y positiva

Page 39: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Curva Simétrica: En este caso la variable se deforma proporcionalmente con respecto al eje

horizontal y la relación que se establece entre las principales medidas de tendencia central es

la siguiente:

Coeficiente de Asimetría

La medida más usada para cuantificar la asimetría de la distribución de frecuencias de una

variable X, recibe el nombre de coeficiente de asimetría y que desde el punto de vista de

momento (tercer momento) tiene por ecuación:

Page 40: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

( )

La ecuación antes expuesta es para datos sin organizar o datos no tabulados. Aquí se puede

observar que si existen observaciones muy grandes en relación a la media, el coeficiente de

asimetría tendrá un valor positivo. Si existen observaciones muy pequeñas (menor que la

media), el coeficiente de asimetría será negativo y, finalmente, si las observaciones están

simétricamente distribuidas alrededor de la media, el coeficiente de asimetría tendrá el valor

de cero.

Ejemplo.

Sea los siguientes datos:

6.2, 7.9, 8.1, 8.5, 8.5, 8.9, 9.1, 10.8

Determine el CAs.

= 8.5

s = 1.29

= 2.1388

xi (xi -x) (xi - x)³

6.2 -2.3 -12.167

7.9 -0.6 -0.216

8.1 -0.4 -0.064

8.5 0.0 0.0

8.5 0.0 0.0

8.9 0.4 0.064

9.1 0.6 0.216

10.8 2.3 12.167

= 0

Por lo tanto se puede decir que la distribución es simétrica, en este caso el promedio, la

mediana y la moda coinciden en el mismo valor, lo cual puede ser verificado.

Para datos organizados en una tabla de frecuencia absoluta y relativa el coeficiente de

asimetría se estimar siempre y cuando la tabla no presente clases abierta, por la siguiente

ecuación:

Page 41: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

( )

Ejemplo:

Intervalos PMC fi PMC*fi *fi ( ) fi Fia

(20.5 a 25.5] 23 3 69 1587 -2736.99887 3

(25.5 a 30.5] 28 42 1176 32928 -4357.21344 45

(30.5 a 35.5] 33 21 693 22869 0.5738588 66

(35.5 a 40.5] 38 7 266 10108 1042.84987 73

(40.5 a 45.5] 43 3 129 5547 3279.33151 76

(45.5 a 50.5] 48 2 96 4608 7164.84635 78

(50.5 a 55.5] 53 2 106 5618 16733.8331 80

(55.5 a 60.5] 58 2 116 6728 32393.1814 82

(60.5 a 65.5] 63 1 63 3969 27821.4455 83

83 2714 93962 81341.8493

Obteniendo la información necesaria de la tabla:

= 1.9309312; por lo tanto, la asimetría resultante es Positiva, esto quiere

decir que la , lo cual puede demostrarse con la información que proporciona la

misma tabla.

Page 42: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Medidas de Curtosis (Deformación Vertical)

Medidas de Curtosis o apuntamiento. Se entiende por Curtosis, la medida de deformación

vertical de una distribución de frecuencias, es decir, la medida de apuntamiento o

achatamiento de una distribución.

La Curtosis mide cuan puntiaguda es una distribución en general por referencia a la normal.

La forma de medir la Curtosis o apuntamiento puede ser en función de momentos o cuartiles.

Curtosis en función de Momentos:

En este caso el grado de apuntamiento está dado por:

( )

; para datos sin organizar

En caso que los datos estén tabulados (organizados) y si la tabla no presente clases abiertas se

puede estimar Curtosis desde el punto de vista de momento a través de la siguiente ecuación:

( )

El coeficiente de Curtosis puede tomar uno de los siguientes valores, indicando con el tipo de

deformación vertical de la curva unimodal. Estos son:

Kur > 3: Este valor indica que la distribución es más apuntada que la normal y recibe el

nombre de Leptocúrtica

Kur = 3: En este caso la distribución es moderadamente apuntada y se llama Mesocúrtica (o

apuntamiento normal)

Kur < 3: Este indica que la distribución es menos apuntada que la normal, o sea achatada y se

llama Platicúrtica

Page 43: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

TEORIA DE PROBABILIDADES

Experimento Aleatorio

En Estadística, los conjuntos de interés son colecciones de observaciones obtenidas

estudiando el comportamiento de un fenómeno, ya sea en estado natural o bien bajo control.

Al proceso mediante el cual se obtiene observaciones se llama experimento. Los experimentos

u operaciones reales o hipotéticas pueden dividirse en dos clases:

Experimento Determinístico

Experimento no Determinístico

Un experimento es determinístico si su resultados están completamente determinados y puede

describirse por una fórmula matemática llamada también modelo determinístico (no son de

interés desde el punto de vista estadístico)

Ejemplo...

Supóngase que el experimento consiste en lanzar un objeto (piedra) al aire. De hecho ésta va a

caer porque posee un peso y por la fuerza de gravedad que ejerce la tierra. De hecho se puede

saber cuál es el tiempo que tardará en hacerlo. Este experimento se puede modelar por la

ecuación de caída libre de los cuerpos. En este caso de hecho se sabe cuál será el resultado que

se obtendrá.

Otro ejemplo sería si se lanza una pelota al agua, ésta de hecho flotará, en caso de ser de

hierro pues no flotará.

Un experimento es no determinístico si los resultados del experimento no se pueden predecir

con exactitud antes de realizar el experimento.

Ejemplo...

Supóngase que un experimento consiste en la aplicación de un sedante a una persona que tiene

dolor de cabeza. Aquí los posibles resultados pueden ser {sanos, enfermos}. En este caso no

se sabe a ciencia cierta cuál de estos dos resultados sucederá.

Otro ejemplo sería el lanzamiento de un dado legal. Aquí los resultados posibles son: {1, 2, 3,

4, 5,6}. Se sabe cuáles son los posibles resultados, pero no se sabe cuál precisamente.

En estos ejemplos se puede identificar lo siguiente:

Page 44: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

.- Cada experimento se puede repetir indefinidamente sin cambiar esencialmente las condiciones.

.- Cada experimento es no determinístico.

.- Cada experimento tiene varios resultados posibles que pueden describirse con anterioridad con

precisión (resultados a priori). Entonces a un experimento que presentas las tres características

mencionadas anteriormente se llama experimentos aleatorio. En otras palabras, un Experimento

Aleatorio es aquél cuyos resultados no pueden predecirse antes de su realización, y por lo

tanto, están sujetos al azar.

Espacio Muestral y Sucesos Elementales

Como se ha observado anteriormente, un experimento aleatorio tiene varios resultados posibles y

que pueden ser escritos con precisión. Entonces: A todo los resultados posibles asociados a un

experimento aleatorio ε, se le llama Espacio Muestral y se denotará por M y a cada resultado

de un espacio muestral M se llamará suceso.

Ejemplo...

Extraer un artículo defectuoso de un lote que contiene artículos defectuosos "D" y no

defectuosos "N"

M = {D, N}

.- Lanzamiento de un dado legal

M = {1, 2, 3, 4, 5,6}

.- Lanzamiento de una moneda.... M = {C, S}

.- Designación de un delegado de un grupo de 50 personas

M = {A1,A2,....,A50} ... Ai = i-ésima persona

Los experimentos aleatorios pueden ser simples o compuestos. Experimentos aleatorios simples

son los que se han ejemplificado anteriormente.

Un experimento aleatorio compuesto consiste en dos o más experimentos simples que puede

ocurrir de forma sucesiva o bien de forma simultánea.

Page 45: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Considérese el caso de experimento aleatorio compuesto: aquellos en que los experimentos

simples están unidos por la partícula gramatical "o" en el sentido excluyente y aquellos donde los

experimentos simples están unidos por la partícula gramatical "y".

Experimentos compuestos unidos por la partícula "o" excluyente

Un experimento compuesto ε, se dice que es una o-combinación de los experimentos ε1 y ε2

sí, sólo sí, el experimento ε ocurre, cuando el experimento ε1 ó ε2 ocurren (pero no ambos).

Esto quiere decir que ocurren de forma sucesiva pero no al mismo tiempo.

Ejemplo...

Considérese el experimento consistente en lanzar un dado o una moneda. Determine el espacio

muestral del experimento.

M1 = {1,2,3,4,5,6} ... lanzamiento del dado ε1

M2 = {C,S} ... lanzamiento de la moneda ε2. Por lo tanto, el espacio muestral asociado a ε, es la

unión de M1 y M2. Es decir:

M = M1 U M2 = {1, 2, 3, 4, 5, 6, C, S}

Experimentos compuestos unido por la partícula "y"

Un experimento compuesto , se dice que es un y-combinación de los experimentos simples

1 y 2, sí y sólo sí, el experimento ocurre, cuando el experimento 1 y 2 ocurre. Lo

anterior trae como consecuencia que si el experimento compuesto ε es una y-combinación de los

experimentos 1 y 2, el espacio muestral M asociado a , es el producto cartesiano de los

espacios muestrales M1 y M2 correspondiente a 1 y 2, es decir: M = M1 x M2. Ejemplo...

Se lanza una moneda tres veces. Determine el espacio muestral.

Aquí se puede observar que el experimento ocurre, si los tres experimentos simples ocurren...

i = 1,2,3; i= i-ésimo lanzamiento de la moneda. Esto es:

M1 = {C,S}

M2 = {C,S}

M3 = {C,S}

Page 46: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

consiste en realizar el experimento ε1, luego ε2 y luego ε3. Por lo tanto: M = M1 x M2 x M3

M = {CCC, CCS, CSC, SCC, CSS, CSC, SSC, SSS} que resulta del producto cartesiano de los

espacio muestrales simples que conforman al experimento compuesto como se muestra a

continuación:

M1*M2

M3

M2

C S

M1 C S

CC CCC CCS

C CC CS

CS CSC CSS

S SC SS

SC SCC SCS

SS SSC SSS

Otro ejemplo podría ser el experimento aleatorio compuesto consistente en el lanzamiento de una

moneda y un dado al mismo tiempo.

M2

M1 1 2 3 4 5 6

C (C,1) (C,2) (C,3) (C,4) (C,5) (C,6)

S (S,1) (S,2) (S,3) (S,4) (S,5) (S,6)

En muchos casos un diagrama, conocido con el nombre de Diagrama del Árbol, es más sugerente

para la determinar el espacio muestral de un experimento aleatorio compuesto.

Ejemplo... Determine el espacio muestra M del experimento aleatorio compuesto consistente en

el lanzamiento de tres monedas al mismo tiempo

(2n) = 2

4 = 16

Page 47: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

En este caso el espacio muestral se obtiene con los resultados que tiene cada rama del árbol, es

decir, M= {CCC, CCS, CSC, SCC, CSS, CSC, SSC, SSS}

Sucesos y Algebra de sucesos (α-Algebra de Borel)

Como se ha mencionado anteriormente, un suceso es un resultado de un experimento aleatorio.

Si se ha definido al espacio muestral como todos los posibles resultados de un experimento

aleatorio, es decir, se puede concebir al espacio muestral como un conjunto universo. Si se ve

desde este punto de vista, se puede hablar entonces de subconjunto y elementos de este conjunto

universo llamado espacio muestral. Se llama Evento a cualquier subconjunto del espacio

muestral y se le denota por A, B, C, D, E, F, etc. Así, si A es un evento, entonces A M, y se le

llamará suceso a cada elemento de un espacio muestral y se le designa por w, x, y, etc. Esto es si

x es un suceso, entonces x M. Un evento con un sólo elemento es un evento elemental.

Page 48: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Ejemplo: considérese como experimento aleatorio al lanzamiento de un dado y al evento A como

la ocurrencia de un número par. Determine el espacio muestral.

M = {1, 2, 3, 4, 5, 6}

A = {2, 4, 6}; entonces se dice que A M

Dado que ya se ha identificado el espacio muestral como conjunto universal, los eventos como

subconjunto del espacio muestral, se identificará también el conjunto vacío () de la teoría de

conjunto como el evento imposible, esto es, un evento que no se da o sea que no ocurre. Por

ejemplo, lanzar dos dados simultáneamente, y sea el evento A: "obtener suma de 14". De hecho

esto nunca va a suceder A = {}.

Sub-evento: Dados dos eventos, A y B se dice que A está contenido en B o que A es sub-evento

de B, si todo suceso favorable a A, es favorable a B. En otras palabras, si ocurre el evento A,

ocurre el evento B. Esto es: A B, si wi A w B

A B

Igualdad de Eventos: Se dice que dos eventos A y B son iguales si, AB y BA. Esto es: A =

B = AB y BA.

Unión de Eventos: Dados dos eventos A y B, se llama unión de A con B y se denota por AB

al evento formado por los sucesos que pertenecen a A ó a B ó, a ambos, es decir:

AB = {wiM /wiA v wiB}.

M

A

B

Page 49: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

AB

Intersección: Dados los eventos A y B, se llama intersección de A con B, al evento formado por

todos los sucesos favorables a A y a B. Es decir, ambos eventos A y B ocurren. Esto es:

AB = {w M / wA w B}.

AB

Complemento: Si A es un evento del espacio muestral M, se llama complemento de A, al evento

formado por todos los sucesos que no pertenecen a A. Es decir, no ocurre el evento A. Esto es:

Ac = M - A = {wi M / wi A}

M A B

M A B

M A B

Page 50: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Ac

Eventos Mutuamente Excluyente y colectivamente exhaustivos (complementarios)

Dos eventos A y B definidos en el mismo espacio muestral, se dice que son mutuamente

excluyentes si no pueden ocurrir juntos. Es decir la ocurrencia de uno excluye la ocurrencia del

otro. Es decir, que AB =

Enfoques de Probabilidades

Definir probabilidad estrictamente es un poco inadecuado. La formulación axiomática de la

teoría de probabilidades requiere niveles de abstracción y competencia matemática fuertes. Sin

embargo, hay autores que plantean enfoques a través de los cuales se puede abordar las

probabilidades. Estos enfoques son:

1. Enfoque o Probabilidad Clásica (llamada también de Laplace o Apriori)

2. Enfoque desde el punto de vista de frecuencia relativa (llamada también A posteriori).

3. Probabilidad subjetiva

Enfoque Clásico o A priori: Llamado también Este definición se basa en el supuesto de que

todos los resultados posibles de un experimento aleatorio son igualmente probable, es decir, cada

suceso de un espacio muestral M, tienen la misma posibilidad de ocurrir.

Según Laplace (1812) la probabilidad de un evento es la razón entre el número de casos

(sucesos) favorables y el número total de casos (sucesos) posibles, siempre que nada obligue

a creer que alguno de estos sucesos deban de tener preferencia a los demás, lo que hace que

todos sean iguales. Esto es:

M

A

Ac

Page 51: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

Observaciones:

1.- La probabilidad de un evento cualquiera A está comprendido entre 0 y 1. En efecto nA y

n son enteros positivos y 0 nA 1. Esto es:

0/n nA/n n/n ó 0 P[A] 1

2.- P [A] = 0, si A es un evento imposible A = ; nA = 0, luego P[A] = 0/n = 0

3.- P [A] = 1, si A es el evento seguro (A = M), es decir A = M nA = n P[A] = n/n = 1

4.- Puesto que todos los elementos de M = (w1, w2, ..., wn} son igualmente probables

P[{wi}] = 1/n; i = 1, 2,3,..., n P [M] = Σ P[wi] = 1

Si A es un evento de M P [A] = Σ P [{wi}] wiεA

Ejemplo..... Si se lanza una moneda tres veces. Calcular la probabilidad que ocurran:

a.- Dos caras

b.- Al menos dos caras

c.- A lo más dos caras

El espacio muestral de este experimento lo puede obtener a través de producto cartesiano o bien

a través del diagrama del árbol. Determinando el espacio muestral:

M = {CCC, CCS, CSC, CSS, SCC, SCS, SSC, SSS}

a.- A = {CCS, CSC, SCC} P[A] = 3/8

b.- B = {CCC, CCS, CSC, SCC} P[B] = 4/8 = 1/2

c.- C = {CCS, CSC, CSS, SCC, SCS, SSC, SSS} P[C] = 7/8

Ejemplo

Considérese el lanzamiento de dos dados. Calcular la probabilidad de:

a.- Obtener suma 7

b.- Obtener suma 6

c.- Obtener suma mayor que 5

d.- Que el resultado del primer dado sea mayor que el resultado del segundo dado.

A = {(w1,w2) M / w1 + w2 = 7}

Page 52: Estadistica y diseños experimentales

Por: Ing. M.Sc. Francisco Martínez Solaris Mgs. En Educación Superior

B = {(wi,w2) M / w1 + w2 = 6}

C = {(w1,w2) M / w1 + w2 > 5}

D = {w1,w2) M / w1 > w2}]

Determinando el espacio muestral a través del producto cartesiano de los dos espacios

muestrales simples de los experimentos que conforman este experimento compuesto se tendría lo

siguiente:

M2

M1 1 2 3 4 5 6

1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)

2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)

3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)

4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)

5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)

6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

P[A] = 6/36 = 1/6 (nA) = 6

P[B] = 5/36 (nA) = 5

P[C] = 26/36 (nA) = 26

P[D] = 15/36 (nA) = 15

Page 53: Estadistica y diseños experimentales

Probabilidad desde el punto de vista de Frecuencia Relativa (o A posteriori).

Supóngase la siguiente pregunta: ¿Cuál es la probabilidad de que la mitad o más de los

estudiantes de Esta2 obtengan notas aprobatorias?. En este caso y en muchos más, no sirve

de nada enumerar todos los resultados posibles. Como se puede observar esta pregunta no

se puede responder utilizando la definición clásica de probabilidades, dado que se necesita

mayor información. Esto conlleva a la interpretación de probabilidades en términos de vista

de frecuencia relativa.

Si un experimento bien definido se repite n veces (n grande): sean nA < n el número

de veces que el evento A ocurren los n ensayos, entonces la frecuencia relativa de veces

que ocurre el evento A "nA/n", es la estimación de la probabilidad que el evento A

ocurra, esto es:

P[A] = nA/n

Observación:

1.- La frecuencia relativa de un evento, está comprendida entre 0 y 1 0 P[A] 1

2. nA/n = 1, sí y sólo sí, el evento A ocurre en las n repeticiones de experimento. En

particular nM/n = 1

Ejemplo.

Sexo Partido Político

A B C D E F Total

Masculino 90 80 65 35 37 13 320

Femenino 15 20 5 10 3 2 55

Total 105 100 70 45 40 15 375

Determine las siguientes probabilidades:

a. ¿Cuál es la probabilidad que un miembro seleccionado aleatoriamente

b.- Sea una mujer?

c.- Pertenezca al partido B?

d.- Sea hombre miembro del partido C?

Solución.....

a.- P[Mujer] = 55/375

Page 54: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

b.- P[B] = 100/375

c.- P[C] = (70)/375

Definición Subjetiva de Probabilidad

Probabilidad desde el punto de vista subjetivo está relacionada con una presunción,

creencia o como algunos autores le llaman corazonada, por lo tanto, puede variar de una

persona a otra.

Dado un experimento determinado, la probabilidad de un evento A es el grado de creencia

asignado a la ocurrencia de este evento por un individuo particular, basado en toda la

evidencia a su disposición con las siguientes exigencias:

1.- P[A] = 0, representa la certeza que el evento A, no ocurrirá

2.- P[A] = 1, representa la certeza que el evento A, sí ocurrirá

Principales Teoremas de Probabilidad:

1. O P[A] 1, para cada evento A en M.

2. P[M] = 1

3. P[AUB] = P[A] + P[B]; siempre y cuando los eventos A y B ocurran por separado o

de forma independiente.

4. P [AUB] = P[A] + P[B] – P[AB]; en este caso A y B no son eventos

independientes, es decir, que ocurren al mismo tiempo.

5. Si A = , entonces P[A] = 0

6. Eventos mutuamente excluyentes y colectivamente exhaustivos o complementarios.

Sea A y B, dos eventos en el espacio muestral, se dice que son mutuamente

excluyente si la ocurrencia de uno de ellos elimina la ocurrencia del otro y viceversa

y son complementarios si la suma de sus probabilidades, es decir la unión de ambos,

da como resultado la probabilidad del espacio muestral. Si dos eventos cumplen

estos dos requisitos se dicen que forman una partición del espacio muestral M.

7. Sea A es un evento en M, entonces P[A´] = 1 – P[A]

Probabilidad Condicional (Dependencia de Eventos)

Page 55: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

A menudo sucede que la ocurrencia de un evento depende de la ocurrencia de otro y es de

frecuente interés obtener la probabilidad de un evento, donde dicho evento está

condicionado a la ocurrencia de un subconjunto del espacio muestral (otro evento). Es

decir, que se dice que el evento B ha ocurrido y se quiere saber la probabilidad que ocurra

el evento A.

Sea A y B dos eventos en el espacio muestral M si P [B] 0, se define la probabilidad

condicional del evento A dado el evento B como:

; P

Es decir, la probabilidad condicional es una probabilidad calculada en un espacio muestral

reducido, B; pues a partir de la información se sabe con probabilidad 1 que el evento B ya

ocurrió. En la práctica se puede resolver este problema usando la definición, esto es

calculando la P [AB] y P [B] con respecto al espacio muestral original, o bien

considerando la probabilidad del evento A con respecto al espacio muestral reducido B, es

decir, del evento que condiciona.

Ejemplo...

Una empresa tiene 300 trabajadores de los cuales 100 son casados y 30 son divorciados. En

dicha empresa trabajan 200 hombres, 85 de los cuales son casados y 95 son solteros. Se

toma un trabajador al azar:

a. Si el trabajador seleccionado es soltero, ¿cuál es la probabilidad que sea mujer?

b. Si el trabajador seleccionado es mujer, ¿cuál es la probabilidad que sea soltera?

c. ¿Cuál es la probabilidad que sea mujer o esté casada?

Solución

Lo primero que se tiene que hacer es extraer la información que proporciona el problema y

ver cómo se puede completar la siguiente. Por otro lado se debe de partir del hecho que la

información proporcionada se puede clasificar de acuerdo a dos criterios los cuales son: el

sexo de los trabajadores y el estado civil de los mismos. En el caso del ejemplo se dispone

de la siguiente información que se encuentra en el siguiente cuadro en forma cursiva. La

restante se puede completar utilizando el concepto de complemento de evento.

Page 56: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Sexo Estado Civil

Total Casado (C) Soltero (D) Divorciado (E)

Femenino (A) 15 75 10 100

Masculino (B) 85 95 20 200

Total 100 170 30 300

Como se puede observar se está totalizando tanto por filas como por columnas, es decir, de

acuerdo a los dos criterios de clasificación de la información. A esto se le llama

probabilidades marginales y a la información del interior del cuadro se le llama

probabilidad conjunta de los dos eventos (criterios de clasificación). Resolviendo el

problema se tiene:

a. Si el trabajador seleccionado es soltero, ¿cuál es la probabilidad que sea mujer?.

En este caso el evento condicionante es que el trabajador sea soltero y el evento

dependiente es que sea mujer.

Los problemas de probabilidad de eventos dependientes se pueden resolver de dos manera:

respecto al espacio muestral original y respecto al espacio muestral restringido del evento

que condiciona. Para el primer caso:

( ⁄ )

Para el segundo caso, es decir, respecto al espacio muestral restringido del evento

condiciónate se tendría que ver cuántas veces se repite el evento trabajador de sexo

femenino y cuántas veces se repite el evento trabajador soltero. De acuerdo a esto se tiene

que:

( ⁄ )

=

Como se puede observar ambos resultados coinciden en el mismo resultado.

b. Si el trabajador seleccionado es mujer, ¿cuál es la probabilidad que sea soltera?

Esto tiende a confundir pensando que es el mismo del inciso a., sin embargo el evento

condicionante es ahora que el trabajador sea Mujer. De acuerdo a esto se tiene:

( ⁄ )

=

Page 57: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

c. ¿Cuál es la probabilidad que sea mujer o esté casada?

[

] [

] [

]

Independencia de Sucesos

En probabilidad condicional la ocurrencia de un evento condiciona la probabilidad de un

segundo evento. Sin embargo, hay muchos casos donde los eventos están totalmente sin

conexión, y la ocurrencia de uno de ellos no cambia la probabilidad de ocurrencia del otro,

en este caso se dice que son independientes.

Sean A y B dos eventos y sea P [B] 0., A y B son eventos independientes si:

a.- P[A/B] = P[A]

Como consecuencia, si A y B son independientes y

P [A/B] = P[AB]/P[B] = P[A] P[AB] = P[A]P[B] y viceversa

Dos eventos A y B son independientes si se cumple cualquiera de las siguientes

condiciones:

.- P[A/B] = P[A] .- P[B/A] = P[B] .- P[AB] = P[A].P[B]

Ejemplo...

Un impulso eléctrico debe de pasar del punto I al II para producir una señal. Para llegar al

punto II debe de pasar por dos componentes electrónicos (E1 y E2). La trayectoria del

impulso se interrumpe si falla cualquiera de los dos componentes. La probabilidad de que el

componente E1 no falle es 0.7 y la probabilidad que el componente E2 no falle es 0.8.

Además, la probabilidad de que al menos uno no falle es 0.94. ¿Cuál es la probabilidad de

que la señal se produzca?

A = Componente E1 no falle = P[A] = 0.7

B = Componente E2 no falle = P[B] = 0.8

P [AUB] = 0.94

Para que se produzca el impulso eléctrico, ninguno de los componentes (E1 y E2) deben de

fallar la probabilidad solicitada es P[AB].

P[AUB] = P[A] + P[B] - P[AB]

P [AB] = P[A] + P[B] - P[AUB]

Page 58: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

= 0.7 + 0.8 - 0.94 = 0.56

Probabilidad Total

Sean A1, A2,..., Ak, eventos que forman una partición del espacio muestral y Sea B un

evento en el espacio muestral. Si P[A1], P[A2],..., P[Ak], P[B/A1], P[B/A2],..., P[B/Ak]

son probabilidades conocidas y se está interesado en la ocurrencia del evento B. Para

obtener esta probabilidad se hace uso del Teorema de Probabilidad Total que partiendo de

las premisas anteriores se enuncia de la siguiente manera:

∑ * ⁄ +

[ ⁄ ] [ ⁄ ] * ⁄ +

Ejemplo:

Un profesor tiene tres secretarias con diferentes niveles de competencia. Las secretarias son

S1, S2, S3. La secretaria S1 ha escrito el 20% de un trabajo, la secretaria S2 el 40% y la

secretaria S3 el 40%. Hay un error ortográfico que irrita en especial al profesor, y éste ha

calculado que S1 lo comete el 90% de las veces que tiene que escribir la palabra en

cuestión, que S2 lo comete el 40% de las veces, y S3 nunca.

¿Cuál es la probabilidad de que el profesor encuentre el error mencionado?

Obteniendo la información que proporciona el problema se tiene:

P [S1] = 0.20; P [S2] = 0.40; P [S3] = 0.40; P [ ⁄ P [ ⁄ P

[ ⁄ ; entonces la probabilidad del error es:

P [E] = P [S1]* P [ ⁄ + P [S2]* P [ ⁄ + P [S3]* P [ ⁄

P [E] = ((0.20*0.90) + (0.40*0.40) + (0.40*0)) = 0.34

Lo anterior se puede facilitar si se usa un árbol de probabilidades como se muestra a

continuación:

Page 59: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Supóngase ahora que el evento “B” ya ha ocurrido y se está interesado en saber a cuáles de

los eventos que forman la partición del espacio muestra se ha debido su ocurrencia. En este

caso se hace uso del Teorema de Bayes que partiendo también de las premisas anteriores se

enuncia de la siguiente forma:

* ⁄ +

* ⁄ +

* ⁄ +

Como se puede observar, el denominador no es más que la probabilidad “B”, es decir, la

probabilidad total.

Ejemplo:

Si el profesor encuentra el error mencionado en una página del trabajo. ¿Cuál es la

probabilidad de que esa página la haya escrito secretaria S1?, ¿la secretaria S2?, ¿la

secretaria S3?

[ ⁄ ]

[ ⁄ ]

( )

[ ⁄ ]

[ ⁄ ]

( )

[ ⁄ ]

[ ⁄ ]

( )

P [S1] = 0.20

P [S2] = 0.40

P [S3] = 0.40

P [E/S1] = 0.90

P [E’/S1] = 0.10

P [E’/S2] = 0.40

P [E/S2] = 0.60

P [E’/S2] = 1

P [E/S3] = 0

Page 60: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

REGRESION Y CORRELACION LINEAL SIMPLE

Regresión Lineal Simple

En muchas áreas de la investigación científica, la variación en las mediciones de una

variable en estudio es causada preponderantemente por otras variables relacionadas cuyas

magnitudes cambian en el curso del experimento. La incorporación explícita de los datos de

estas variables que influyen en el análisis estadístico, permite conocer la naturaleza de las

relaciones y utilizar esta información para mejorar la descripción y las inferencias de las

variables de interés primario.

Al probar las relaciones entre variables es importante que el valor de la variable pueda ser

predicha de las observaciones de otra variable o aún controladas y optimizadas

manipulando los factores de influencia.

El análisis de regresión es un conjunto de métodos estadísticos, que tratan con la

formulación de modelos matemáticos que describen las relaciones entre variables y el uso

de estas relaciones modeladas con el propósito de predecir e inferir.

Supuestos del modelo de Regresión Lineal Simple

Al igual que en otros tipos de análisis estadísticos, el modelo de Regresión Lineal Simple

se basa en ciertos supuestos que a continuación se detallan.

Supuesto 1. "Y" es una variable aleatoria cuya distribución probabilística depende de

"X"

Este supuesto quiere decir que para cualquier valor de "X", "Y" es una variable aleatoria

con cierta distribución probabilística con media μy/x y σ²y/x. Note que esta suposición

solamente implica que "Y" es una variable aleatoria que depende de "X", y no toma en

cuenta la forma lineal. Por otra parte, significa que la variable X se mide sin error y fijada

por el investigador.

Supuesto 2. Modelo de la línea recta

Esta suposición requiere que la ecuación para μy/x sea una línea recta, es decir que μy/x = ß0

+ ß1Xi y, por lo tanto, que la ecuación de dependencia sea Y = ß0 + ß1Xi + ε. Con esta

restricción, la línea que une a μy/x debe de ser una recta, por lo tanto se puede tener una de

las siguientes situaciones:

Page 61: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Puede ser que se tenga una relación positiva entre las variables X y Y, esto quiere decir que

a medida que aumenta X, Y también aumenta.

Otra situación que se puede dar es una relación inversa, es decir, que a medida que aumenta

X, Y disminuye.

En el último caso se recurre al hecho de que regresión también se entiende como la

tangente inversa del ángulo de inclinación de una recta. En los dos primeros casos las rectas

tienen pendiente y en el tercer caso, no hay pendiente lo cual indica que no existe regresión

lineal entre ambas variables.

Supuesto 3. Homogeneidad de varianza

Esta suposición es muy importante en el análisis de regresión. La varianza de la

distribuciones de "Y" son idénticas para todos los valores de "X". En otras palabras, se

supone que σ²y/x1 = σ²y/x2 = σ²y/xn = σ², donde σ² es la varianza común (desconocida) para

todas las distribuciones de "Y", independientemente del valor de "X". Esto quiere decir,

que la media de "Y" se modifica con el valor de "X", pero la varianza se mantiene

constante.

Supuesto 4. Independencia

Los valores de "Y" deberán ser estadísticamente independiente. Un ejemplo donde se viola

este supuesto es cuando se realizan mediciones de peso a un mismo individuo en un lapso

menor a una hora.

Supuesto 5. Normalidad

La distribución de "Y" para cualquier valor de "X" es normal. Esto equivale a suponer que

la variable aleatoria no observable ε es normal y su media es cero ya que "X" se toma

como variable no aleatoria susceptible a ser manipulada por el investigador.

Todos los supuestos anteriores se pueden resumir en los siguientes:

1. "Y" es una variable aleatoria cuya distribución probabilística depende del valor de "X".

Y

X

Page 62: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

2. La ecuación de regresión es una línea recta.

3. Homogeneidad de varianza.

4. Independencia de las observaciones lo que implica que los errores son independientes.

5. Normalidad.

En la Figura 1 se muestran los supuestos de normalidad y homogeneidad de varianza.

Diagrama de Dispersión

Este diagrama tiene por objetivo dar una idea de la posible relación existente entre la

variable dependiente Y y la independiente X.

Para realizar un diagrama de dispersión se coloca en el eje de las abscisas los valores

correspondiente a la variable independiente X y en el eje de las ordenadas los valores de la

variable dependiente Y. Luego se colocan puntos en la intersección de los valores de ambas

variables. Un ejemplo de lo anterior se muestra en seguida.

Los datos que se muestran a continuación corresponden a la producción en miles de

millones de dólares de 10 empresas y sus costos de producción de las mismas en miles de

millones de dólares.

Para construir un diagrama de dispersión lo primero que se tiene que hacer es determinar

quién es la variable dependiente y quién es la variable independiente, es decir, establecer la

relación entre dichas variables. Esta relación debe ser lo más natural posible.

Page 63: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

En el caso del problema, es de suponerse que a medida que aumenta la producción también

se incrementarán los costos de producción por todo lo concerniente a ello (materia prima,

horas hombres, gastos de energía, etc.). Entonces definimos a X, variable independiente, a

la Producción y a Y, variable dependiente, a los costos de producción. De acuerdo a esto se

tiene lo siguiente:

Producción (X)

(miles de millones de $us)

Costo (Y)

(miles de millones $u)

10 3

18 5

12 4

16 5

22 8

36 12

30 10

32 14

26 12

12 3

El diagrama de dispersión quedaría de la siguiente forma:

De acuerdo a la información que proporciona el diagrama de dispersión se puede observar

que a medida que aumenta la producción de las industrias, aumentan los costos de

producción de las mismas, es decir, se concluir que existe una relación positiva entre estas

variables y además se puede ver que esta relación tiende a ser lineal.

0

2

4

6

8

10

12

14

16

0 5 10 15 20 25 30 35 40

Cost

o (

Mil

es d

e m

illo

nes

$us)

Producción (Miles de Millones $us)

Page 64: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Método de Mínimos Cuadrado

Como lo plantea el supuesto 2 del modelo de regresión lineal simple, "Modelo de la Línea

Recta", que de existir una relación entre X y Y, ésta debe ser una línea recta. Entonces a

partir de muestra (x1, y1), (x2, y2),..., (xn, yn), de las variables "X" y "Y", se trata de

obtener una ecuación que represente la relación entre dichas variables. El modelo del cual

se habla es de una ecuación punto pendiente como sigue:

El problema de esta modelo es que sus componentes son parámetros y por lo tanto, son

estados desconocidos de la naturaleza generalmente. Es por ello que es necesario obtener

estimadores de ß0 y ß1 para estimar adecuadamente la recta de regresión μy/xi. El

estimador de μy/xi se denota por:

Para llegar a obtener estos estimadores se hace uso de la técnica propuesta por Carl Gauss

(1777-1855). Este método se basa en la idea de obtener estimadores para los componentes

del modelo que minimicen la suma de cuadrados de las distancias entre los valores

observados (Yi) y los estimados ( ). Esto significa que se tiene que minimizar la suma de

cuadrados de las longitudes de los segmentos de las líneas verticales que unen los datos

observados con la recta estimada como se muestra en la Figura 3.

A la técnica antes mencionada se le denomina "Técnica de Mínimos Cuadrados". Usando

notación matemática, el método de mínimo cuadrados consiste en encontrar los estimadores

de ß0 y ß1.

Al aplicar la técnica de mínimos cuadrados se llegan a obtener las ecuaciones de trabajo de

y 1^ (en este caso se ha omitido los procesos de derivación mediante el cual se llega a

obtener las fórmulas de trabajo). Estas ecuaciones son las siguientes:

Page 65: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

( )

;

. Donde:

Coeficiente de Regresión

Intercepto de la recta de estimación

Ejemplo:

Retomando los datos que se utilizaron para construir el diagrama de dispersión y aclarando

que “X” es Producción (miles de millones de $us) y “Y” Costos (miles de millones de $us)

y haciendo uso de las ecuaciones derivadas a través de la técnica de mínimos cuadrados se

tiene lo siguiente:

X Y XY X2 Y

2

10 3 30 100 9

18 5 90 324 25

12 4 48 144 16

16 5 80 256 25

22 8 176 484 64

36 12 432 1296 144

30 10 300 900 100

32 14 448 1024 196

26 12 312 676 144

12 3 36 144 9

Totales 214 76 1952 5348 732

Promedio 21.4 7.6

( )

;

( )

= 0.423738, Coeficiente de regresión

; ( ) ; Intercepto, por lo tanto la

ecuación de estimación quedaría de la siguiente manera:

; o bien se puede decir que:

Costos = 0.423738 (Producción) – 1.46798

Page 66: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Un aspecto que no se debe olvidar es que el propósito de la Regresión Lineal Simple es el

de predecir el comportamiento de una variable dependiente a través del conocimiento de

una variable independiente, es por ello que se debe estar seguro que la ecuación de

estimación sirve para este propósito (que existe regresión lineal simple). Por esta razón es

que la ecuación de estimada debe ser sometida a un proceso de validación.

Validación de la Ecuación de Estimación

Este proceso se puede realizar de dos maneras a saber:

A través del Cálculo del Coeficiente de Determinación (R2)

Por medio del Análisis de Varianza de la Regresión (ANARE)

Coeficiente de Determinación (R2) o Variabilidad (varianza explicada)

El Coeficiente de Determinación, R2, indica el porcentaje de la variabilidad de “Y” que

puede ser explicada o debida a “X”, es por ello que mientras más cerca esté del 100% es

mucho mejor. Esto es debido a que se trata de predecir el comportamiento de “Y” a través

del conocimiento de “X”, es por ello que es deseable que el mayor porcentaje de la

variabilidad de la variable dependiente sea debida a “X”, a tal punto que hay autores que

consideran que la ecuación es buena o sirve para predecir si R2 ≥ 70%.

El coeficiente de Determinación se calcula a través de la siguiente ecuación:

⌈⌈⌈⌈⌈

( )

√( ( )

) (

( )

)⌉⌉⌉⌉⌉

Para el caso del ejemplo anterior el R2 es el siguiente:

⌈⌈⌈⌈⌈

( )

√( ( )

) (

( )

)⌉⌉⌉⌉⌉

Page 67: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Esta dato indica que del 100% de la variabilidad de Y (Costos), el 89.36% es debido a X

(Producción), por lo tanto también se puede concluir que existe un 10.64% de variabilidad

de Y (Costos) que no es debida a X (Producción), a esto se le conoce como variabilidad no

explicada. En este caso se puede concluir también que la ecuación estimada sirve para

predecir (existe regresión lineal simple.

Análisis de Varianza de la Regresión Lineal Simple (ANARE)

De forma general se entienden por análisis de varianza a la partición de la variabilidad total

en fuentes de variación conocidas que en el caso de regresión lineal son las siguientes:

debida a la regresión

debida a otras causas (error)

Para tratar de ser un poco más explícito, estas dos fuentes de variación se derivan del

modelo aditivo lineal de la regresión línea simple el cual es:

Esto tiene correspondencia con una tabla de varianza o salida de

varianza que para regresión lineal simple es la siguiente:

FV gl SC CM Fc Ft

Regresión 1

SCRegresión

(α, glreg, glerr)

Error n-2

SCError

Total n-1 SCTotales

La primera columna encabezada por FV (Fuentes de variación) es donde se declara las

fuentes de variación en las que se está partiendo la variabilidad total. Nótese que en esta

tabla no se incluye el efecto de , ya que éste es una constante por lo tanto no es una

fuente de variación.

La segunda columna encabeza por “gl” (Grados de Libertad). De forma general grados de

libertad es “n-1”, para el caso de la fuente de variación debida a regresión siempre es 1 ya

que son dos los parámetros que se estiman, β0 y β1, por lo tanto, 2-1 = 1. Es por ello que

para el ANARE de regresión lineal simple, esta fuente de variación siempre tiene 1 grado

de libertad y los grados de libertad del error, siempre en este caso, son n-2. Por “n” se

entiendo al conjunto de pares de datos “X” “Y”.

Page 68: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

La tercera columna es la de Suma de Cuadrados (SC) que vienen a ser los componentes de

las varianza a estimar cuyas ecuaciones de trabajo son las siguientes:

( )

(∑

)

La cuarta columna es para los Cuadrados Medios (CM) que viene a ser las estimaciones

propiamente dichas de las varianza de cada una de las fuentes de variación. Estas resultan

de dividir las sumas de cuadrados de éstas entre sus grados de libertad.

La quinta columna denominada como “Fc” se refiere a los “F” calculados que resultan de

dividir el cuadrado medio de regresión entre el cuadrado medio del error, es decir, de la

variabilidad no debida a la regresión. Es por ello que el error se considera como un término

de comparación entre la variabilidad debida a regresión y el mismo. Si el cuadrado medio

del error es mayor que el cuadrado medio de regresión, el resultado que se obtendrá será

pequeño y posiblemente menor que el valor de la siguiente columna “Ft” o “F” de tabla,

valor que se extrae de una tabla de “F” con un nivel de significancia, grados de libertad de

regresión y los grados de libertad del error.

Para entender mejor lo anterior se debe de partir del juego de hipótesis que se prueba en un

ANARE. Este es:

Ho: β1 = 0

Ha: β1 0

La hipótesis nula (Ho) asume el efecto de igual o nulidad de efecto y es la hipótesis que se

somete a prueba. Partiendo del hecho de que asume el efecto de nulidad, en este caso indica

que no existe regresión lineal simple, y asume que la relación entre X y Y es una línea recta

sin pendiente, es por ello que es igual a cero.

Por hipótesis alternativa se entiende aquella que contradice a la hipótesis nula y que es

aceptada una vez que se rechaza la hipótesis nula. Es por ello que está como β1 0 ya que

una igualdad se contradice con una desigualdad. Esto significa que la recta tiene pendiente,

es decir, que existe regresión lineal simple.

Page 69: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Ahora bien, todo el ANARE se hace para realizar la prueba de hipótesis de que si existe o

no regresión lineal simple.

Se entiende como prueba de hipótesis al proceso a través del cual se prueba la plausibilidad

de una hipótesis.

Al realizar la prueba de hipótesis se debe llegar una decisión de aceptar o rechazar Ho.

¿Cuándo no se rechaza Ho?, cuando el Fc Ft y se rechaza cuando el Fc Ft. A lo anterior

se le llama Regla de Decisión la cual es la siguiente:

No Rechazo de Ho si Fc Ft

Rechazo de Ho si Fc Ft

Si la hipótesis nula no se rechaza significa que no existe regresión lineal simple, por lo

tanto la ecuación estimada no sirve para predecir, si se rechaza Ho, inmediatamente se

acepta la hipótesis alternativa la que indica que sí existe regresión lineal simple.

Un aspecto que todavía no se ha aclarado es “Nivel de Significancia, α, ” entendido como

la probabilidad de tomar una decisión equivocada (conocido también como Error Tipo I) es

por ello que los valores del α son pequeños 0.1.

Haciendo el ANARE a un α = 0.01 se tiene lo siguiente:

( )

= 154.4

(

)

Vaciando esta información en la tabla de ANARE se tiene lo siguiente y obteniendo el

valor de F de la tabla correspondiente a: 0.01, 1 y 8 se tiene que este es: 11.26

FV gl SC CM Fc Ft

Regresión 1 137.6897 137.6897 67.0389 11.26

Error 8 16.4310 2.053875

Total 9 154.4

De los resultados de la tabla se puede observar que el “Fc” es mayor que el “Ft” lo cual

indica que existe suficiente evidencia para rechazar la hipótesis nula, es decir, que existe

regresión lineal simple y por lo tanto se dice que la ecuación estimada sirve para predecir el

comportamiento de Costos (Y) a través del conocimiento de Producción (X).

Page 70: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Cuando se realiza un análisis de varianza de la regresión se debe emitir una conclusión que

podría ser la siguiente:

“De acuerdo al análisis de varianza realizado se concluye con un 99% de confiabilidad, (1 –

0.01)*100, que existe regresión lineal simple.”

Una vez que se ha comprobado que la ecuación estimada es buena (hay regresión lineal) el

siguiente paso sería interpretar los componentes de la recta de estimación.

Interpretación de los Componentes de la Ecuación de Estimación

Cuando se hacer una interpretación, ésta debe ser aplicada al problema en cuestión. En el

caso del ejemplo que se ha venido desarrollando sería el siguiente:

1: Este es el coeficiente de regresión que indica la cantidad de cambios que experimenta

“Y” por un cambio en “X”. En este caso indica que por Un mil millones de dólares que

se incremente la producción, los costos se incrementarán en 0.423738 miles de

millones de dólares. Esto porque la pendiente encontrada fue positiva, si hubiera sido

negativa, se diría que disminuiría esa cantidad.

0: No siempre tienen interpretación aplicada al problema, es decir, una interpretación

lógica, es por ello que comúnmente se le interpreta desde el punto de vista matemático

como el punto donde la recta de estimación corta al eje de las ordenadas cuando “X”

toma el valor de cero. En el caso del ejemplo, 0 =-1.46798, esto estaría indicando que

cuando la producción es cero, los costos son de -1.46798 miles de millones de dólares.

Como se ve esta interpretación carece de lógica lo cual hace que se interprete como se

ha mencionado anteriormente.

Existen casos donde si existe interpretación lógica como lo muestra el trabajo de

investigación realizado por Martínez (1995) donde ajustó pesos de becerros al nacimiento.

Dibujo de la Recta de Estimación

Cualquier recta se define por dos puntos y en el caso de la recta de regresión lineal simple,

ésta pasa por dos puntos obligados cuyas coordenadas son: ( ) y ( 0). La recta de

estimación debe dibujarse dentro del área de exploración, es decir, el área determinada por

el diagrama de dispersión que donde se tiene información de ambas variables.

Page 71: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Para el caso del ejemplo que se ha venido tratando la gráfica de la recta de estimación sería

como se muestra a continuación.

Regresión no Lineal

Este tipo de regresión no es objeto de desarrollo del presente documento ya que se

consideran para cursos superiores de estadística lo que se trata es dejar plasmado que una

relación entre dos variables no siempre es una línea recta, ésta puede ser logarítmica,

exponencial o bien cuadrática o cúbica. Uno de los criterios para definir el ajuste de modelo

es el R² y además el Cuadrado Medio del Error del análisis de varianza. En estos casos el

diagrama de dispersión es importante para determinar esas posibles relaciones.

Regresión Múltiple

No siempre la dependencia en caso de existir se pueda deber a una sola variable, puede ser

que “Y” como variable dependiente se vea afectada por más de una variable independiente,

en este caso se habla de regresión lineal múltiple, aspecto que no se desarrolla en este

documento.

y = 0.4237x - 1.468 R² = 0.8936

0

2

4

6

8

10

12

14

16

0 5 10 15 20 25 30 35 40

Cost

o (

mil

es d

e m

illo

nes

de

$us)

Producción (miles de millones de $us)

Page 72: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Correlación Lineal Simple

Así como existen técnicas que cuantifican los cambios de una variable dependiente por un

único cambio de la variable independiente, existen técnicas que cuantifican la asociación

lineal entre dos variables, esta técnica es llamada Correlación Lineal Simple que se exprese

como el coeficiente de correlación (r). Este coeficiente indica el sentido de la asociación

como también la magnitud de ésta, partiendo del hecho que el coeficiente de correlación

lineal simple toma valores en el rango de: r es 0≤ r ≤ 1. Entre más se acerca a 1 el valor de r

mayor es la asociación entre dichas variables.

De acuerdo a lo anterior algunos autores han determinado lo siguiente rangos:

-1 ≤ r < -0.8 Asociación fuerte y

negativa

0 ≤ r < 0.4 No hay asociación

-0.8 ≤ r < -

0.4

Asociación débil y

negativa

0.4 ≤ r <

0.8

Asociación débil y positiva

-0.4 ≤ r ≤ 0 No hay asociación 0.8 ≤ r ≤ 1 Asociación fuerte y

positiva

El coeficiente de Correlación Lineal Simple se determina a través de la siguiente ecuación:

( )

√( ( )

)(

( )

)

⌉, que para el caso del ejemplo sería el siguiente:

√( ( )

)(

( )

)

⌉= 0.9452

Este valor indica que existe una asociación fuerte y positiva entre estas variables, es decir,

entre la producción y los costos de esas empresas.

Page 73: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Diferencias entre Regresión Lineal Simple y Correlación Lineal Simple

Se pueden llegar a establecer las siguientes diferencias:

Regresión Lineal Simple Correlación Lineal Simple

Mide la cantidad de cambios en “Y” por un

único cambio en “X”.

Mide asociación lineal entre dos

variables

Existe una variable dependiente y otra

independiente

Es indistinto x, y ó y, x

β1 puede tomar cualquier valor en la recta

numérica

El coeficiente de correlación

toma valores en el intervalo -1 ≤

r ≤ 1

Page 74: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

DISEÑOS EXPERIMENTALES

Page 75: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

1. ASPECTOS GENERALES DE LA EXPERIMENTACIÓN

Antes de ingresar al análisis de los principales diseños experimentales, es necesario

establecer el acervo correspondiente en este campo de la Estadística llamado Diseños

Experimentales que facilite el proceso de aprendizaje que aunado a las bases estadísticas

anteriores conlleven al usuario a un mejor uso el presente material. Es por ello que a

continuación se detalla lo siguiente:

1.1. Experimento:

Es todo proceso que consiste en la ejecución de un acto o prueba una o más veces, cuyo

resultado en cada prueba depende del azar y que genera información tanto cualitativa como

cuantitativa según sea el caso. En sí viene a ser aquel proceso intencionado provocado por

el investigador con el fin de estudiar su origen, esencia e interrelación con otros procesos o

fenómenos.

1.2. Tratamiento:

Es todo elemento o sujeto sometido a estudio o ensayo de comparación. Viene a ser el

conjunto de condiciones experimentales que el investigador impone a las unidades

experimentales. Ejemplo: efecto de dosis desparasitante, tipo de desparasitante, niveles de

fertilización, metodologías de polinización, etc.

1.3. Unidad Experimental:

Por unidad experimental (unidad de análisis porque es la que proporciona información al

investigador) se entiende aquella a la cual se le aplica un tratamiento, en sí, es el material o

lugar sobre el cual se aplican los tratamientos. Este término se utiliza para representar al

conjunto de material experimental al cual se le aplica un tratamiento. Su tamaño depende

mucho del tipo de material experimental que se utilice y muchas veces de la esperanza de

vida en el caso de usar seres vivos. Cuando se experimenta con aves, la unidad

experimental puede estar constituida por un grupo de ellas; sin embargo, cuando se puede

experimentar con animales cuya esperanza de vida sea mayor, puede ser que uno solo de

ellos pueda ser considerado como una unidad experimental.

1.4. Factor:

Es un tratamiento que genera más tratamientos que en los diseños experimentales se

conocen como niveles del factor.

Page 76: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

1.5. Error Experimental:

Es la variación aleatoria (no explicada) ajena al control razonable del investigador. Este

término no es sinónimo de error, si no que forma parte de las características propias e

innatas de la unidad experimental. Este error no se puede evitar pero si se puede reducir

usando las repeticiones necesarias, usando unidades experimentales los más

homogéneamente posible y manejándolas de manera uniforme, de manera que si se observa

una diferencia entre los tratamientos estudiados, se deba a una bondad de los mismos y no a

consecuencias de un manejo no adecuado de las unidades experimentales. Tiene la función

de ser un comparador entre la variación provocada (explicada o debida a los tratamientos) y

la variación aleatoria o no explicada en el análisis de varianza.

1.6. Testigo

El testigo es el tratamiento de comparación adicional, que no debe faltar en un

experimento; la elección del tratamiento testigo es de gran importancia en cualquier

investigación, éste se constituye como referencial del experimento y sirve para la

comparación de los tratamientos en prueba.

1.7. Diseños Experimentales:

Es un método científico de investigación que consiste en hacer operaciones prácticas

destinadas a demostrar, comprobar o descubrir fenómenos o principios básicos. Tiene como

propósito proporcionar la máxima cantidad de información a un costo mínimo.

Diseñar un experimento es planificarlo, qué es lo que se pretende experimentar, es

planearlo de modo que se tenga la secuencia completa de pasos tomados de antemano para

asegurar que la información que se obtendrá permita un análisis objetivo que conduzca a

deducciones (demostración de hipótesis) válidas con respecto al problema de investigación

previamente establecido.

1.8. Principios Básicos de la Experimentación:

Los principios básicos de la experimentación agrícola son tres: Repetición, Azarización y

Control Local.

1.8.1. Repetición. Es la reproducción del experimento básico llamado también réplica y

solamente a través de ella se pueden obtener conclusiones de un fenómeno. Tiene dos

funciones: Proporcionar una estimación del error experimental y brindar una medición más

Page 77: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

precisa de los efectos de los tratamientos, es decir, que hace posible la prueba de

significancia a través de la regularidad estadística.

1.8.2. Azarización. En sí no es más que utilización del azar, es decir, la casualidad. En

diseños experimentales está referida a la asignación de los tratamientos a las unidades

experimentales de modo que todas tengan la misma posibilidad de recibir un tratamiento.

Tiene la como función hacer válida la prueba de significancia.

1.8.3. Control Local. Es la cantidad de balanceo, bloqueo o agrupamiento de las unidades

experimentales que se emplean en el diseño adoptado. Tiene la función de hacer más

eficiente el diseño experimental, es decir, hacer más sensitiva la prueba de significancia

reduciendo con ello la magnitud del error. Los criterios de agrupamiento van a depender del

tipo de ciencia donde se esté experimentando. En el caso de los experimentos agrícolas un

criterio de bloqueo puede ser la pendiente de suelo que puede conllevar a una gradiente de

humedad o fertilización, dirección del viento, etc.

1.9. Exigencias de la Experimentación:

Las exigencias de la experimentación son: Tipicidad, Uniformidad, Grado de Precisión,

Control efectivo de las medidas y observaciones.

1.9.1. Tipicidad. Llamado también representatividad, hace mención que no se pueden

extrapolar resultados a condiciones diferentes a las que se originaron.

1.9.2. Uniformidad. Indica que todas las unidades experimentales deben ser tratadas

uniformemente y que la única diferencia entre ellos sea los tratamientos que se están

evaluando en ellas. Esto evita tener resultados enmascarados en los experimentos.

1.9.3. Grado de precisión. Un experimento bien planeado debe permitir al investigador

medir diferencias en los tratamientos con el grado de precisión esperado evitando para ello

comete errores al montar el ensayo y en su misma ejecución. Esto debe ser una tarea de

primer orden por parte del investigador. Es por ello que se debe tener especial cuidado en la

conducción y manejo del experimento.

1.9.4. Control efectivo de las medidas y observaciones. Es necesario hacer anotaciones

de las manifestaciones de las unidades experimentales que permitan explicar ciertos

aspectos del experimento.

Page 78: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

1.10. Análisis de Varianza

Análisis de Varianza conocido también como ANDEVA o ANOVA, es la partición de la

variabilidad total en fuentes de variación conocida, fuentes de variación que se declaran en

un modelo aditivo lineal por lo tanto, una salida de varianza se corresponde con un modelo

aditivo lineal.

De forma general los diseños experimentales como tal se dividen en dos grupos: diseños

experimentales simples y diseños experimentales complejos.

Entre los diseños experimentales simples se tiene al Diseño Completamente al Azar,

Diseño en Bloques Completamente al Azar, Diseño Cuadrado Latino principalmente, a

éstos también se les conoce como diseños clásicos.

2. DISEÑO COMPLETAMENTE AL AZAR (DCA) O DISEÑO CON UN SOLO

CRITERIO DE CLASIFICACIÓN

Este diseño es el más simple de todos; en él se asigna al azar los tratamientos a grupos de

unidades experimentales previamente determinadas. Asimismo, todas las variables, excepto

las que están en estudio se mantienen constantes.

2.1. ¿Cuándo utilizar este Diseño?

Este diseño se utiliza cuando las unidades experimentales son homogéneas, o sea, que la

única diferencia que existe son los tratamientos que se aplican a las unidades

experimentales. Este diseño se usa cuando se estudia dos o más tratamientos bajo las

siguientes condiciones:

Lugar y unidades experimentales muy uniformes (suelo homogéneo, en

laboratorios, invernaderos, galpones, etc.), donde no hay heterogeneidad necesaria

de absorber.

Cuando sea probable que una parte del experimento se pierda.

Cuando se tiene un experimento pequeño y donde la mayor precisión de otras

distribuciones no compensan la pérdida de grados de libertad en el error.

Este tipo de diseño proporciona el máximo número de grados de libertad para la estimación

del error experimental; además, no requiere estimar datos faltantes, es decir, puede

analizarse con diferente número de repeticiones por tratamiento (diseño desbalanceado).

Page 79: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

2.2. Modelo Aditivo Lineal del DCA

El concepto de modelo lineal es una réplica de algo; así como un edificio puede ser

representado en una maqueta. Debe evitarse el error de creer que el modelo lineal es el

mundo real; ya que sólo es una abstracción de una realidad que existe en la mente del

hombre con el objetivo de ayudarse en el análisis de los procesos naturales que afectan por

diversos factores a fuentes de variación y que dichos modelos son de naturaleza transitoria

y son susceptibles a mejorarse.

La consideración básica para un diseño Completamente al Azar es que las observaciones

pueden representarse por medio del modelo estadístico lineal que es el siguiente:

Donde:

Yij = Variable Respuesta

μ = Efecto común a todas las observaciones

Ti = Efecto del i-ésimo tratamiento, i = 1, 2, 3.., t tratamientos

Eij = Erro experimental o error del modelo

2.3. Supuesto del Análisis de Varianza

Todos los análisis estadísticos se basan en supuestos y en caso del análisis de varianza son:

Homogeneidad de Varianza, Normalidad, Aditividad y Linealidad del Modelo, e

Independencia.

2.3.1. Homogeneidad de Varianza:

Las varianzas de las diferentes medías deben ser homogéneas. Por lo general, en el análisis

de varianza, se utiliza un promedio de “n” varianza (CME) para obtener la mejor

estimación de la varianza común. Pero, si las varianzas dentro de los tratamientos fuesen de

hecho distintas, no se tendría justificación para combinarlas, ya que el promediar varianzas

de tratamientos mayores y menores podría proporcionar resultados engañosos. La

diferencia entre dos tratamientos con varianzas grandes puede ser considerada significativa

cuando en realidad ésta puede haber ocurrido por casualidad. Por otra parte, la diferencia

entre dos tratamientos con varianzas pequeñas puede ser declarada no significativa cuando

en verdad lo es.

Page 80: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Existen muchas técnicas para probar homogeneidad de varianza, como la prueba de

Bartlett, Prueba de F, propuesta por R.A. Fischer. Por la rapidez de esta última prueba se

propone la misma para efecto del curso, lo cual no desmerece ninguna otra prueba.

La prueba de F propuesta por Fischer se basa en lo siguiente:

( )

( )

La prueba de hipótesis que se emplea es la siguiente:

Ho:

Ha:

La regla de decisión es la siguiente:

No Rechazo de Ho si Fc F (m-1, n-1)gl. Esto quiere decir que las varianzas son

homogéneas.

RHo si Fc > F (m-1, n-1)gl, lo cual indica que las varianza no son homogéneas.

Box (S/F; citado por Calzada Benza, 1970) mencionó que si la razón entre la varianza

mayor y la varianza menor es menor de cuatro, se puede considerar que hay suficiente

homogeneidad de varianza, siendo éste posiblemente un criterio más rápido para probar

homogeneidad de varianza.

2.3.2. Normalidad:

Los términos del error son aleatorios, independientes y normalmente distribuidos. Este

supuesto es de gran importancia ya que cuando los datos no se distribuyen normalmente los

coeficientes de variación son muy elevados. Cuando los datos de una variable no presentan

normalidad, existen algunas tipos de transformaciones en dependencia de la característica

de los datos de la variable en cuestión que la hacen normal.

En verdad este supuesto va más allá de lo planteado, ya que a la distribución normal se le

conoce también como la Ley Normal de los Errores y plantea que errores pequeños tienen

alta probabilidad de ocurrencia en contra posición a los errores grandes respecto a la media

que tienen baja probabilidad de ocurrencia.

Para probar normalidad también existen varias técnicas entre las que se pueden mencionar

la prueba de Shapiro-Wilk y la de Lilliefors. Si el lector está interesado en profundizar

sobre estas pruebas se le sugiere consultar a Ramírez y López (1993; Métodos Estadísticos

no Paramétricos)

Page 81: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

2.3.3. Aditividad y Linealidad del Modelo:

Lo anterior se cumple en el modelo aditivo lineal ya que todos los efectos se suman y son

lineales porque cada uno de los elementos del modelo lineal, están a la potencia "1".

2.3.4. Independencia:

Este supuesto implica que los términos del error son aleatorios, no

correlacionados (independientes) normalmente distribuidos; además, de las varianzas y las

medias de las distintas muestras.

2.4. Análisis de varianza para este Diseño

El análisis de varianza consiste en la partición de la variación total en fuentes de variación

conocidas y la que no es conocida se atribuye al error. El análisis de varianza separa parte de

la varianza causada por efectos accidentales, no sistemáticos (error experimental o

simplemente error) de los causados por efectos sistemáticos conocidos (tratamientos).

Antes de mostrar la tabla de análisis de varianza para e s t e d i se ñ o se mu es t r a a

c o n t in u ac i ó n u n c ua d r o d e concentración de información (Cuadro 1) y

posteriormente las ecuaciones trabajo para el mismo.

Cuadro 1. Concentración de los datos para un Diseño Completamente al Azar con “i”

tratamiento y “j” repeticiones.

TRATAMIENTOS REPETICIONES

ΣYi. 1 2 3 … j

1 Y11 Y12 Y13 Y1j Y1.

2 Y21 Y22 Y23 Y2j Y2.

3 Y31 Y32 Y33 Y3j Y3.

…i Yi1 Yi2 Yi3 Yij Yi.

ΣY.j Y.1 Y.2 Y.3 Y.j Y..

El modelo lineal para este diseño tiene solo dos fuentes de variación y es el siguiente:

Las fuentes de variación son las debidas a los tratamientos y las no debidas a

los tratamientos. La media poblacional µ no se considera como fuente de

variación ya que se considera como el efecto común a todas las observaciones

y es por eso que cuando se calcula las sumas de cuadrados se le resta el factor

de corrección que no es más que la media o efecto común de manera que solo

Page 82: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

queda la variación debida a la fuente de variación en cuestión.

El modelo aditivo de un Diseño Completamente al Azar se correspon de con las

salidas de varianza que se muestran en los Cuadro 2 y 3.

Cuadro 2. Salida de varianza para un Diseño Completamente al Azar con igual

número de repeticiones (diseño balanceado).

F.V gl SC CM Fc Ft

Tratamiento t-1 SCTRAT.

( )

Error t(r-1) SCError

( )

Total tr-1 SCTotales

Donde:

F.V = Fuente de variación

gl = Grados de libertad

SC = Suma de Cuadrados

CM = Cuadrado Medio

Fc = “F” calculado

Ft (, grados de libertad de tratamientos, grados de libertad del error) = “F” tabulado que

se encuentra en la tabla de “F” a un nivel de significancia “” (probabilidad de error tipo I),

grados de libertad de los tratamientos y grados de libertad del error

En caso de que los tratamientos tengan diferentes número de repeticiones (diseño

desbalanceado) la salida de varianza es la siguiente:

Cuadro 3. Salida de varianza para un Diseño Completamente al Azar con igual

número de repeticiones (diseño desbalanceado).

FV gl SC CM Fc Ft

Tratamiento t-1 SCTRAT.

( )

Error n-t SCError

Total n-1 SCTotales

Page 83: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

2.4.1. Ecuaciones de trabajo

; Factor de corrección si el experimento es balanceado

; Factor de corrección si el experimento es desbalanceado

; Suma de cuadrados totales

; Suma de cuadrado de tratamiento si el experimento es balanceado

; Suma de cuadrados si el experimento es desbalanceado

; Suma de cuadrados del error

2.4.1. Prueba de Hipótesis en el Análisis de Varianza de un Diseño Completamente al

Azar

En el análisis de varianza de este diseño se prueba el siguiente juego de hipótesis

estadísticas:

Ho: µ1 = µ2 = µ3 =… µi (T1 = T2 = T3 = …Ti). Esto es lo mismo que:

Ho: µ1 - µ2 - µ3 -… µi = 0 (T1 - T2 - T3 - …Ti = 0).

Ha: µ1 - µ2 - µ3 -… µi 0 (T1 T2 T3 …Ti).

La hipótesis nula asume el efecto de igual, es decir, que los tratamiento ejercen el mismo

efecto sobre la variable respuesta. Esta es la hipótesis que se somete a prueba y, la hipótesis

alternativa, en su esencia, es la que contradice a la hipótesis nula.

Dado que la hipótesis nula es la que se somete a prueba, entonces puede ser aceptada o

rechazada, si no es rechazada significa que no existe la suficiente evidencia experimental para

hacerlo, en caso de rechazarse, de inmediato se acepta la hipótesis alternativa. Para saber

cuándo aceptar o rechazar la hipótesis nula se toma en cuenta la siguiente regla de decisión:

No Rechazo de Ho (NRHo) si Fc Ft (F de tablas)

Rechazo de Ho (Rho) si Fc > Ft (F de tablas),es decir, que Ha es verdadera

Page 84: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

2.5. Interpretación de Resultados

Para una mejor ilustración de la interpretación de los resultados de un análisis en este

diseño, se muestra a continuación el siguiente ejemplo:

Los datos que se muestran a continuación corresponden a un estudio donde se

experimentaron con cinco variedades de tomate industrial bajo un diseño completamente al

azar con cuatro repeticiones donde la variable respuesta, entre otras, fue el peso del jugo de

tomate en gramos. Se está interesado en verificar si existen diferencias estadísticas a un α

=0.05 entre las variedades de tomates evaluadas.

La información obtenida fue la siguiente:

Cuadro 4. Peso de jugo (gramos) de tomate obtenido de cinco variedades de tomate

industrial.

Variedades Repeticiones

1 2 3 4

Martí 656.3 718.4 586.6 746.2

Topacio 784.4 713.4 915.8 629.6

Estela 924.5 822.8 824.2 978.5

VF-134 534.4 685.1 567.2 655.5

UC - 82 640.7 658.8 532.7 614.4

Adaptado de Pedroza (1998)

En el mismo cuadro de información se pueden incluir los totales de tratamiento como

también sus varianzas por cada uno de ellos como se muestra en el Cuadro 5.

Cuadro 5. Peso de jugo (gramos) de tomate obtenido de cinco variedades de tomate

industrial con sus totales y varianzas por tratamiento.

Variedades Repeticiones

ƩYi. S²i 1 2 3 4

UC - 82 640.7 658.8 532.7 614.4 2446.6 3102.56

Martí 656.3 718.4 586.6 746.2 2707.5 5034.40

VF-134 534.4 685.1 567.2 655.5 2442.2 5085.42

Estela 924.5 822.8 824.2 978.5 3550.0 5947.66

Topacio 784.4 713.4 915.8 629.6 3043.2 14680.72

Revisando el supuesto de homogeneidad de varianza y tomando en cuenta lo propuesto por

R. A. Fischer, se relaciona la varianza mayor con la varianza menor, en este caso varianza

del tratamiento correspondiente a la variedad Topacio y la del tratamiento de la variedad

UC-82. Probando Entonces:

Page 85: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

= 4.7318, (F 0.05, 3 ,3 =9.277) lo cual hace que no se rechace la hipótesis de

igualdad de varianza lo cual indica que las varianzas de los tratamientos (variedades) son

iguales estadísticamente.

Comenzando a realizar el análisis de varianza y partiendo del hecho que

( )

,

se tiene lo siguiente:

. Este no es más que una estimación de µ elevada al cuadrado,

es por ello que µ no se declara como fuente de variación en la salida de varianza de los

modelos aditivos lineales, además se debe recordar que varianza desde el punto de variable

aleatoria es: E(X-µ)² que es lo mismos que: E(X) ² - µ².

( )

( )

Es importante recordar que ninguna de estas sumas de cuadrados puede ser negativas por

ser componentes de varianza y recuerde que varianza no es más que el promedio de las

desviaciones al cuadrado de una variable respecto a su media y por otra parte, ninguna

suma de cuadrados puede ser mayor que la suma de cuadrados totales.

Además se puede observar que la Suma de Cuadrados del Error se obtiene por diferencia

entre la Suma de Cuadrados Totales y la de Tratamiento. Esto es producto de la aplicación

misma de lo que es análisis de varianza.

Una vez obtenidas las sumas de cuadrados correspondientes, el siguiente paso es construir

la tabla de análisis de varianza (salida de varianza) la cual queda como se muestra en el

Cuadro 6 una vez que se han determinado los cuadrados medios, el “Fc” F calculado y el

“Ft” F de tabla. Además, es recomendable que esta tabla vaya acompañada del Coeficiente

de Variación (C.V) el cual se define como la relación entre la raíz cuadrada del Cuadrado

Medio del Error y el Promedio de la Variable respuesta o en estudio.

(√

)

(√

)

Page 86: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Cuadro 6. Salida de varianza para los datos del Cuadro 4.

FV gl SC CM Fc Ft (0.05, 3, 16)

Variedades 3 218983.21 72994.4033 11.50058 3.05556828

Error 16 101552.267 6347.01672

Total 19 320535.477

C.V. = 11.60%

Si se toma en cuenta el juego de hipótesis de este diseño y la regla de decisión se puede

concluir que se rechaza la hipótesis ya que el “Fc” es mayor que el “Ft”. A manera de

conclusión se puede decir lo siguiente:

Con un 95% de confiabilidad se concluye que al menos unos de los tratamientos

(variedades de tomates) evaluados ejercen un efecto distinto (P ˂ 0.05) sobre la variable

respuesta (peso del jugo de tomate).

Ahora la pregunta es: ¿Cuál es ( o son) ese (esos) tratamiento (s) que hizo (hicieron)

rechazar la hipótesis nula?. Esta interrogante no la responde el análisis de varianza ya que

éste solo prueba si existe o no efecto de la variable independiente sobre la dependiente. Es

por ello que se deben hacer otros análisis para responder esta interrogante.

Para responder a estas interrogantes existen dos técnicas principalmente que son las

pruebas a priori o Contrastes Ortogonales y las pruebas a posteriore u obligadas por los

datos llamadas también Pruebas de Rangos Múltiples o Separación de Medias. Estas

últimas por el grado de uso que tienen en las investigaciones de índole experimental son

las que se desarrollan a continuación.

2.6. Pruebas obligadas por los Datos o de Rangos Múltiples

Cuando el análisis de varianza de un experimento reporta diferencias significativas y son más

de dos tratamiento, es necesario saber quién “produjo el ruido en la prueba de hipótesis” que

provocó que la hipótesis nula sea rechazada. Para este fin, existen las llamadas pruebas de

Rangos Múltiples. Entre estas pruebas están:

Diferencia Mínima Significativa (DMS) (LSD)

Método de Duncan

Método de Student-Newman-Keuls (SNK)

Método de Tukey (Diferencia Significativa Honesta)

Método de Scheffé.

Page 87: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Cada uno de estos procedimientos de comparación de medias está basado en un

conjunto de suposiciones, y son usualmente efectivos para fines específicos.

En cualquiera de los casos la hipótesis nula supone la igualdad de las medias y la

alternativa lo contrario y se utilizan siempre y cuando en el análisis de varianza se rechace la

hipótesis nula. Lo anterior indica que la prueba de hipótesis que se hace es la siguiente:

Ho: | |

Ha: | |

La hipótesis nula, que es la que se prueba, asume el efecto de igualdad de los promedios a

comparar, es por ello que la diferencia es igual a cero y por lo tanto, la hipótesis alternativa

contradice la hipótesis nula con una desigualdad. Dado que para realizar una separación de

medias lo primero que se hace una vez obtenidos los promedios es ordenarlos a éstos de

forma descendente por lo tanto la regla de decisión se puede establecer de la siguiente

forma:

NRHo = | |

RHo: Si | |

2.6.1. Diferencia Mínima Significativa (DMS)

Esta prueba solo debe usarse para comparar medias adyacentes en un arreglo ordenado,

medias por orden de magnitud (de mayor a menor). Cuando DMS se usa

indiscriminadamente para probar todas las diferencias posibles entre las diversas medias,

ciertas diferencias serán significativas, pero no al nivel de significancia que se ha elegido.

El número posible de comparaciones de medias tomadas de dos en dos a la vez es igual a

( )

. Los especialistas hacen mención que este método es adecuado para comparar un

tratamiento estándar (testigo) con otros tratamientos.

Esta prueba utiliza un solo comparador y su fórmula es la siguiente:

, donde:

DMS = Es el valor crítico de la prueba

t/2 = Valor tabular de “t” de student para los grados de libertad del error obtenido a un

/2.

r = número de repeticiones

Page 88: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

2.6.2. Método de Duncan

Esta prueba es ampliamente utilizada entre las diversas pruebas de Rangos

Múltiples. Su método es de naturaleza secuencial, lo que quiere decir, que utiliza un

nuevo valor “estudentizado”, para cada una de las comparaciones de medias adyacentes

ordenadas por magnitud en orden descendente.

Esta prueba incluye el cálculo de las diferencias significativas mínima entre las medias de

tratamiento cuando éstas se encuentran dispuestas en orden de magnitud. La fórmula

es la siguiente:

Donde:

Es el valor extraído de una tabla especial de rango “estudentizado”, con los grados de

libertad del error y con la disposición relativa de las medias en el arreglo.

CMError = Cuadrado Medio del Error

r = Número de repeticiones.

2.6.3. Método de Student-Newman-Keuls (SNK)

Es una prueba de carácter secuencial, es decir, que utiliza un nuevo valor “estudentizado”

para cada comparación.

Para el cálculo de esta prueba se requiere determinar la diferencia mínima significativa

entre las medias del tratamiento cuando éstas se encuentran dispuestas en orden de

magnitud. Su fórmula es la siguiente:

;

Donde:

q = Valor obtenido de tablas especiales de rango “estudentizado”, para los grados de

libertad del error y con la disposición relativa de las medias en el arreglo

CMError = Cuadrado medio del error

r = número de repeticiones

Page 89: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

2.6.4. Método de Tukey

Este método es un procedimiento basado en el rango “estudentizado

”, pero no es secuencial, ya

que utiliza un sólo comparador de “q” ordinario. Sin embargo, el método de Tukey es útil en

situaciones en que se desea hacer un primer énfasis en el uso del experimento con un total para

determinar la significancia de los pares de medias. Esta prueba sólo es exacta cuando los

grupos tienen igual número de elementos y para medias que no han sido ajustadas por

covarianza. Esta prueba se define de la siguiente manera:

Donde:

q = Valor obtenido de tablas especiales de rango “estudentizados”, para los grados de

libertad del error y con la disposición relativa de las medias en el arreglo

CMError = Cuadrado medio del error

r = número de repeticiones

2.6.5. Método de Scheffé

Se considera un método bastante general que utiliza la distribución de “F” de Snedecor. El

método de Scheffé puede aplicarse para probar hipótesis generales de que una función

lineal de las medias poblacionales es igual a cero. En contraste con las comparaciones

múltiples basadas en rangos estudentizados, el método de Scheffé es un método exacto para

medias provenientes de medias de igual o desigual tamaño y para medias que han sido

ajustadas por covarianza. Para el cálculo se requiere determinar la mínima diferencia

significativa entre las medias de los tratamientos cuando éstos se encuentran ordenados en

orden de magnitud. Su valor crítico se determina a través de la siguiente expresión:

√( ) (

)

Donde:

t = Número de tratamientos

F = Valor que se obtiene de la distribución de “F” de Snedecor con t-1 y los grados de

libertad del error.

Page 90: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

CError = Cuadrado medio del error, y ri, rj representan el número de observaciones usadas

para calcular cada media muestra

De forma general para realizar una comparación o separación de medias una vez que se ha

realizado el análisis de varianza y se ha verificado que existe un rechazo de la hipótesis

nula, se debe seguir el siguiente procedimiento:

Obtener los promedios de las fuentes de variación de interés (tratamiento, factor)

Ordenar los promedios de forma descendente

Seleccionar la prueba de rangos múltiples a usar

Determinar el valor crítico de la prueba de seleccionada

Establecer las comparaciones a realizar según la prueba seleccionada

Determinar las diferencias de medias de acuerdo a las comparaciones establecidas

Contrastar las diferencias de medias con el valor crítico de la prueba

Establecer el rango de mérito

Emitir conclusiones según el rango de mérito

Ejemplo.

A continuación se aplican todas las pruebas de rangos múltiples antes expuestas de manera

que se pueda realizar una comparación entre éstas. Los promedios por tratamiento son los

que se muestran en el Cuadro 7.

Cuadro 7. Medias por tratamientos y Medias ordenadas por magnitud descendente.

Variedades Totales Promedios Variedades Promedios Ordenados

UC - 82 2446.6 611.65 Estela 887.50

Martí 2707.5 676.88 Topacio 760.80

VF-134 2442.2 610.55 Martí 676.88

Estela 3550.0 887.50 UC - 82 611.65

Topacio 3043.2 760.80 VF-134 610.55

Aplicando DMS a un nivel de significancia = 0.05 que es el mismo nivel de significancia

que se utilizó para el análisis de varianza, además de la siguiente información:

CMError = 6347.01672

r = 4

t/2(16) = 2.1199

Page 91: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Por lo tanto el valor crítico de la prueba es de .

A continuación se presentan en el Cuadro 8 las comparaciones a realizar, las diferencias

entre las medias y el resultado de comparar estas diferencias con el valor crítico de la

prueba de DMS.

Cuadro 8. Resultado de la prueba de DMS para los tratamientos estudiados.

Comparaciones Diferencias de Medias Comparación según DMS

Estela versus Topacio 126.70 *

Estela versus Martí 210.63 *

Estela versus UC-82 275.85 *

Estela versus VF-134 276.95 *

Topacio versus Martí 83.93 ns

Topacio versus UC-82 149.15 *

Topacio versus VF-134 150.25 *

Martí versus UC-82 65.23 ns

Martí versus VF-134 66.33 ns

UC-82 versus VF-134 1.10 ns

ns = No significativo * = significativo

Las comparaciones se pueden resumir de acuerdo al siguiente rango de mérito

Variedades Comparación según DMS

Estela a

Topacio b

Martí bc

UC - 82 c

VF-134 c Promedios con literales distintas son estadísticamente diferentes según el método de DMS (P ˂ 0.01).

Interpretando los resultados de la separación o comparación de medias según DMS se

puede decir que la variedad que presentó mejor comportamiento respecto al peso de jugo

fue Estela con un promedio de 887.50 gramos, promedio que fue diferente (P < 0.05)

estadísticamente a las demás variedades evaluadas. Topacio presentó comportamiento

estadísticamente igual (P > 0.05) a Martí pero distinto (P < 0.05) a UC-82 y VF-134; estas

tres últimas se comportaron de igual manera (P > 0.05).

Page 92: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Aplicando el método de Duncan

Para realizar la prueba de Duncan lo primero que se debe hacer es obtener los valores

estudentizados ( ) extraídos de la tabla de Duncan con los grado de libertad del error y

con la disposición relativa de las medias, en este caso, con 5, 4, 3 y 2. Los valores de la

tabla de Duncan y al aplicar su ecuación, √

, se tienen los resultados que

se muestran en el Cuadro 9.

Cuadro 9. Valores estudentizado extraído de la tabla de Duncan y valores críticos de

la prueba según el número de medias a comparar.

Medias a comparar Número de Medias

2 3 4 5

R(0.05, 16) 3 3.15 3.23 3.3

RMS 119.50 125.48 128.66 131.45

Aquí se puede ver el efecto secuencial de Duncan ya que utiliza un comparador distinto

según el número de medias a comparar.

Los resultados de aplicar la prueba son los siguientes:

Cuadro 10. Contrastación de las diferencias entre medias adyacentes con los valores

críticos de Duncan.

Variedades/Promedios

Estela Topacio Martí UC - 82 VF-134 Valores

Críticos de

Duncan 887.50 760.80 676.88 611.65 610.55

Estela 887.50 0 126.70 ns 210.63* 275.85* 276.95* 131.45

Topacio 760.80 0 83.93ns 149.15* 150.25* 128.66

Martí 676.88 0 65.23 ns 66.33 ns 125.48

UC - 82 611.65 0 1.10 ns 119.50

VF-134 610.55 0

ns = No significativo * = significativo

Page 93: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Lo anterior se resume en el siguiente rango de mérito:

Variedades Comparación según Duncan

Estela a

Topacio ab

Martí bc

UC - 82 c

VF-134 c Promedios con literales distintas son estadísticamente diferentes según el método de Duncan (P ˂ 0.05).

Como se puede observar, en este caso los resultados obtenidos son un poco diferentes a los

obtenidos con DMS, en este caso, Estela ejerce el mismo comportamiento que Topacio,

por lo demás, la interpretación es la misma.

Aplicando la prueba de SNK:

Al igual que la prueba de Duncan, SNK es una prueba secuencial lo que indica que utiliza

un valor diferente para cada comparación de acuerdo al número de medias a comparar. Los

valores q y valores críticos de SNK al aplicar la ecuación, √

, se

muestran en el Cuadro 11.

Cuadro 11. Valores estudentizados de la tabla de SNK de acuerdo al número de

medias adyacentes a comparar y valores críticos de la prueba de SNK.

Medias a comparar Número de Medias

2 3 4 5

q(0.05, 16) 3 3.65 4.05 4.33

RMS 119.50 145.39 161.33 172.48

Los resultados al aplicar la prueba de rangos múltiples de SNK se resumen en el Cuadro 12.

Cuadro 12. Resultados de la comparación de medias según el método de SNK.

Variedades/Promedios Estela Topacio Martí UC - 82 VF-134 Valores

Críticos

de SNK 887.50 760.80 676.88 611.65 610.55

Estela 887.50 0 126.70 ns 210.63* 275.85* 276.95* 172.48

Topacio 760.80 0 83.93 ns 149.15 ns 150.25 ns 161.33

Martí 676.88 0 65.23 ns 66.33 ns 145.39

UC - 82 611.65 0 1.10 ns 119.50

VF-134 610.55 0

ns = No significativo * = significativo

Page 94: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Lo anterior se resume en el siguiente rango de mérito.

Variedades Comparación según SNK

Estela a

Topacio ab

Martí b

UC - 82 b

VF-134 b Promedios con literales distintas son diferentes según el método de SNK (P ˂ 0.05)

En este caso, los resultados de aplicación del método de SNK varían con respecto a Duncan

y por ende con DMS, la interpretación es la misma.

Aplicando el Método de Tukey

Tukey no es un método secuencial, es decir, que utiliza un solo valor estudentizado para

obtener el valor crítico de prueba, utiliza la misma tabla que SNK pero con el número

máximo de medias a comparar.

Aplicando ahora el método de Tukey o Diferencia Honesta Mínima se tiene lo siguiente:

q(0,05, 5, 16) = 4.33

Los resultados de contrastar la diferencia de medias ordenadas con el valor crítico de la

prueba de Tukey se muestra en el Cuadro 13.

Page 95: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Cuadro 13. Resultados de la aplicación de la prueba de Tukey a los promedios de los

tratamientos estudiados.

Comparaciones Diferencias de Medias Resultados de la comparación

según Tukey

Estela versus Topacio 126.7 ns

Estela versus Martí 210.625 *

Estela versus UC-82 275.85 *

Estela versus VF-134 276.95 *

Topacio versus Martí 83.925 ns

Topacio versus UC-82 149.15 ns

Topacio versus VF-134 150.25 ns

Martí versus UC-82 65.225 ns

Martí versus VF-134 66.325 ns

UC-82 versus VF-134 1.1 ns

ns = No significativo * = significativo

Resumiendo los resultados del Cuadro 13 en un rango de mérito se tiene lo siguiente:

Variedades Comparación según Tukey

Estela a

Topacio ab

Martí b

UC - 82 b

VF-134 b Promedios con literales distintas son estadísticamente diferentes según el método de Tukey (P ˂ 0.05).

Aplicando el Método de Scheffé

La prueba de Scheffé al igual que Tukey no es una prueba secuencial por lo tanto solo

utiliza un valor de “F” de Snedecor que se extrae un nivel de significancia “”, para el caso

del ejemplo = 0.05, con los grado de libertad de tratamientos y los del error experimental,

que son los mismos del ANDEVA. Aplicando la ecuación de Scheffé,

√( ) (

)

, se obtiene los resultados que se muestran en el

Cuadro 14 siguiente:

F(0.05, 4, 16) =

Page 96: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

√( ) (

)

Cuadro 14. Resultados de la aplicación de la prueba de Scheffé a los promedios de los

tratamientos estudiados.

Comparaciones Diferencias de Medias Resultados de la comparación

según Scheffé

Estela versus Topacio 126.7 ns

Estela versus Martí 210.625 *

Estela versus UC-82 275.85 *

Estela versus VF-134 276.95 *

Topacio versus Martí 83.925 ns

Topacio versus UC-82 149.15 ns

Topacio versus VF-134 150.25 ns

Martí versus UC-82 65.225 ns

Martí versus VF-134 66.325 ns

UC-82 versus VF-134 1.1 ns

ns = No significativo * = significativo

Resumiendo los resultados del Cuadro 14 en un rango de mérito se tiene lo siguiente:

Variedades Comparación según Scheffé

Estela a

Topacio ab

Martí b

UC - 82 b

VF-134 b

Promedios con literales distintas son estadísticamente diferentes según el método de

Scheffé (P ˂ 0.05).

2.7. ¿Cuándo, Porqué y Cuál Prueba de Rangos Múltiples Utilizar?

Todas las pruebas de rangos múltiples o separación o comparación de medias se utilizan

siempre y cuando en el análisis de varianza se rechace la hipótesis ya que este análisis solo

detecta si existe efecto o no de los tratamientos sometidos a consideración pero no indica

cuál o cuáles son los tratamientos responsables de este rechazo.

Page 97: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

En el Cuadro 15 se resumen los resultados obtenidos por cada una de las pruebas de

separación de medias aplicados con el mismo experimento.

Cuadro 15. Resumen de los resultados obtenidos al aplicar las pruebas de rangos

múltiples de DMS, Duncan, SNK, Tukey y Scheffé.

Variedades Prueba de Rangos Múltiples

DMS Duncan SNK Tukey Scheffé

Estela a a a a a

Topacio b ab ab ab ab

Martí bc bc b b b

UC - 82 c c b b b

VF-134 c c b b b

Promedios con literales distintas son estadísticamente diferentes (P ˂ 0.05).

Según Martínez Garza (1994) el método de Scheffé es más riguroso para detectar

diferencias significativas y esto se demuestra con los resultados expuestos en el Cuadro 15,

(aunque en este caso coincide tanto con SNK y Tukey debido al número de medias que se

compararon, es decir, que si hubieran sido más medias estos resultados probablemente

serían distintos) es por ello que se recomienda usarlo a un = 0.1. Por otra parte se ha

podido observar que tanto SNK como Tukey tiende a no detectar diferencias estadística

donde DMS y Duncan lo han hecho con diferencias mayores.

Una discusión más fundamentada sobre las separaciones de medias puede encontrarse en

Steel y Torrie (1992) en su obra “Bioestadística: Principios y Procedimientos pero sí se

puede deducir que para experimentos en fases exploratorias es recomendable usar pruebas

que no sean tan rigurosas como es DMS, Duncan e inclusive SNK, sin embargo, si este no

es el caso y los promedios no han sido corregidos por efecto de covariable, es

recomendable Tukey y si se requiere una prueba más rigurosa sin importar si el

experimento es balanceado o no, si los promedios ha sido corregido o no por covariable, es

recomendable usar Scheffé.

Page 98: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

3. DISEÑO EN BLOQUES COMPLETAMENTE AL AZAR (BCA) O CON DOS

CRITERIOS DE CLASIFICACIÓN

No siempre el material experimental es homogéneo limitando en este caso el uso del

Diseño Completamente al Azar (DCA). En estos casos es recomendable usar el Diseño en

Bloques Completamente al Azar.

3.1. ¿Cuándo utilizar este diseño?

Este diseño se utiliza cuando el material experimental presenta un factor de “estorbo” que

no es de interés estudiar pero que sí puede afectar los resultados conllevando a conclusiones

erradas o bien los llamados efectos enmascarados. Tiene como principio maximizar la

variabilidad entre bloques y minimizar la variabilidad interbloque o variabilidad interna.

Esto se logra ya que las unidades experimentales dentro de cada bloque son homogéneas

pero son heterogéneas entre bloques.

Si se habla de un diseño en Bloques Completamente al Azar, deben existir tantas unidades

experimentales dentro de cada bloque como tratamientos se tenga, de manera que cada

tratamiento tenga una repetición en cada bloque (principio de bloqueo). Esto al mismo

tiempo se vuelve una desventaja para este diseño ya que si se pierde una unidad

experimental o más, se rompe el principio de bloqueo ya que los tratamientos no tendrían el

mismo número de repeticiones dentro de cada bloque. Es por ello que en este caso para

analizar este diseño se deben estimar los datos perdidos conllevando a pérdidas de grados

de libertad en el error y por ende a un aumento del cuadrado medio del error.

3.2. Modelo Aditivo Lineal de un BCA

El modelo aditivo lineal para este diseño es el siguiente:

Donde:

Yij = Variable respuesta

= Efecto común a todas las observaciones

Bj = Efecto de la j-ésima repetición; j = 1, 2, 3,...r repeticiones

Ti = Efecto del j-ésimo tratamiento; i = 1, 2, 3, …i, tratamiento

Eij = Error experimental

Page 99: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

3.3. Análisis de Varianza para un BCA

Antes de exponer la salida de varianza y las ecuaciones de trabajo, se presenta un cuadro de

concentración o vaciamiento de información.

Cuadro 16. Concentración de los datos para un Diseño en Bloques Completamente al

Azar (BCA).

TRATAMIENTOS BLOQUES

ΣYi. 1 2 3 … j

1 Y11 Y12 Y13 Y1j Y1.

2 Y21 Y22 Y23 Y2j Y2.

3 Y31 Y32 Y33 Y3j Y3.

…i Yi1 Yi2 Yi3 Yij Yi.

ΣY.j Y.1 Y.2 Y.3 Y.j Y..

La salida de varianza de este diseño y de acuerdo a su modelo aditivo lineal es el siguiente:

Cuadro 17. Salida de varianza para un diseño en Bloques Completamente al Azar.

F.V gl SC CM Fc Ft

Bloque r-1 SCBloque CMBloque

( )

Tratamiento t-1 SCTRAT. CMTRAT.

( )

Error (t-1)(r-1) SCError CMError

Total tr-1 SCTotales

En este diseño se prueban dos juegos de hipótesis uno para bloques y otros para

tratamientos. Estas hipótesis son las siguientes:

Para tratamiento

Ho: µ1 - µ2 - µ3 -… µi = 0 (T1 - T2 - T3 - …Ti = 0)

Ha: µ1 - µ2 - µ3 -… µi 0(T1 - T2 - T3 - …Ti 0).

Para Bloques

Ho: Bµ1 - Bµ2 - Bµ3 -… Bµj = 0 (B1 - B2 - B3 - …Bj = 0)

Ha: Bµ1 - Bµ2 - Bµ3 -… Bµj 0 (B1 - B2 - B3 …Bj 0).

Las ecuaciones de trabajo para realizar el análisis de varianza de este diseño son las

Page 100: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

siguientes:

; Factor de Corrección

( )

Ejemplo:

Se llevó a cabo un experimento bajo un arreglo en bloques completamente al azar donde se

probaron el efecto siete tratamientos en el rendimiento (tn/ha) de una variedad de caña de

azúcar. Realice el análisis de varianza correspondiente a un = 0.05 con la siguiente

información:

Cuadro 18. Rendimiento (tn/ha) en una variedad de caña de azúcar sometida al efecto

de siete tratamientos.

Tratamientos I II III ƩYi.

1 63.08 51.99 43.43 158.5

2 44.38 49.77 40.29 134.44

3 58.65 52.31 41.84 152.8

4 52.31 59.28 46.28 157.87

5 52.31 53.89 47.55 153.75

6 49.45 32.65 34.55 116.65

7 50.72 57.06 42.80 150.58

ƩY.j 370.9 356.95 296.74 1024.59

Adaptado de Guzmán (2009)

Aplicando las ecuaciones de trabajo se tiene lo siguiente:

( )

(63.08² + 51.99² +…42.80²) - = 1234.124

( )

Page 101: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

( )

( )

Cuadro 19. Salida de varianza para el ejemplo de Diseños en Bloques Completamente

a Azar.

FV gl SC CM Fc Ft (0.05)

Bloques 2 443.7882 221.8941 8.3866913 3.88529383

Tratamientos 6 472.8412 78.8068667 2.9785779 2.99612038

Error 12 317.4946 26.4578833

Total 20 1234.124

Interpretación de Resultados

Es necesario recalcar que en un diseño de bloques completamente al azar la variable que se

está bloqueando no es de interés estudiar, en este caso, se está interesado en el efecto que

ejercen los tratamientos en el rendimiento de la variedad de caña de azúcar.

Cuando se establece un diseño en bloques completamente al azar, es necesario estar seguro

que en verdad el factor de estorbo existe, caso contrario se pierde grados de libertad en el

error, lo cual hace que las diferencias dentro de los tratamientos (error experimental) sean

mayores con las consecuencias que corresponden ya que se aumenta en el cuadrado medio

del error.

Para el caso del ejemplo, se puede verificar en la salida de varianza que existe diferencias

significativas (P 0.05) en bloques lo cual indica, que el investigador tenía razón en

realizar el bloqueo en el sentido que lo hizo, no hay más interpretación que se le pueda dar,

excepto cuando este bloqueo tiene o representa características de interés que se pueden

utilizar en subsiguientes investigaciones.

Por otra parte, este mismo análisis indica que los tratamientos estudiados ejercieron el

mismo efecto (P > 0.05) en el comportamiento de la variable respuesta, en este caso, el

rendimiento, es decir que no existen elementos de convicción para decir lo contrario. Si se

observa esta conclusión está basada en la prueba de hipótesis correspondiente a los

tratamientos y dado que se rechazó la hipótesis nula en el análisis de varianza, entonces se

está interpretando lo que significa la hipótesis alternativa.

Dado que el análisis de varianza no reportó diferencias significativas para tratamientos, no

Page 102: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

se debe aplicar una prueba de rangos múltiples ya que no hubo rechazo de la hipótesis nula.

En caso de que existan parcelas perdidas en un experimento conducido bajo un arreglo de

bloques completamente al azar se debe tomar la decisión de estimarla o no. Si son todas las

repeticiones de un tratamiento no hay necesidad de estimar ya que se sigue conservando el

principio de bloqueo, caso contrario se debería estimar teniendo en cuenta que por cada

parcela estimada se pierde un grado de libertad en el error y de hecho se aumenta el

cuadrado medio del error.

Uno de los métodos más comunes para estimar una parcela perdida es el propuesto por

Yates que se define de la siguiente forma: ( )

( )( ); donde:

Yij = Dato perdido

r = número de repeticiones (bloques)

= Total del bloque con la parcela o dato faltante

T = número de tratamientos

= Total del tratamiento con la parcela o dato faltante

4. DISEÑO CUADRADO LATINO (DCL)

Anteriormente se han analizado los casos de los diseños Completamente al Azar

donde e l materia l experimental tiene que ser homogéneo y Bloques al Azar, donde el

material experimental presenta un factor sistemático o de estorbo. Sin embargo, en la

investigación se presentan casos donde el material experimental presenta dos tipos de

efectos no sistemáticos o sea dos factores de estorbo, que no son de interés en la

investigación pero pueden afectar los resultados del experimento. Además, imposibilita el uso

de los diseños antes mencionados.

4.1. ¿Cuándo Utilizar este Diseño?

El diseño Cuadrado Latino, es considerado como una variante del diseño Bloques

al Azar. Este diseño es de gran utilidad cuando el material experimental presenta dos efectos

de estorbo. Permite controlar dos efectos sistemáticos que afectan al material experimental,

además del efecto de tratamiento que es el de interés estudiar. Tiene la característica de

controlar los efectos de estorbo a través de hileras y columna, o sea un doble bloqueo.

Para que los efectos de las hileras y las columnas no se confundan con el de los

Page 103: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

tratamientos, éstos se ubican de tal forma que un tratamiento no se repite en la misma

columna y la misma hilera. Por esta razón, la cantidad de tratamiento coincide con el

mismo número de filas y columnas.

La principal restricción de este diseño es que el número de repeticiones es igual al número

de tratamiento, si este último es considerable el número de repeticiones requerido se vuelve

impracticable. Son pocos usados los Cuadros Latinos 12 x 12, mientras que el tamaño más

común es desde 5 x 5 hasta 8 X 8. Es te diseño presenta hasta cier to punto la

misma desven ta j a que los Bloqu es a l Aza r de que , e l e r ro r experimental por

unidad, se aumente con el tamaño del cuadro, principalmente en diseños agronómicos donde

principal fuente de variación es el suelo.

4.2. Modelo Aditivo Lineal de para un DCL

El modelo aditivo lineal para este diseño es el siguiente:

Yij(k) = µ + Hi + Cj + Tk(ij) + Eijk

Donde:

Yij (k) = Variable respuesta

µ = Efecto común a todas las observaciones

Hi = Efecto de la i - ésima hilera i = 1, 2, 3,... i hileras

Cj = Efecto de la j-ésima columna j = 1, 2, 3,… j columnas

Tk (ij) = Efecto del k-ésimo tratamiento en la i-ésima hilera y j-ésima columna k = 1, 2, 3,…

k tratamientos.

Ejk = Error del modelo

En este diseño se prueban hipótesis para columnas, hileras y tratamiento de la misma forma

que se ha hecho anteriormente, es decir, la hipótesis nula asume el efecto de igualdad en

caso y la alternativa su contradicción.

4.3. Análisis de Varianza para un diseño Cuadrado Latino DCL

Al igual que los casos anteriores, antes de exponer la salida de varianza, se muestra un

cuadro de concentración de información, que es de donde obtiene como tal al análisis de

varianza que se debe corresponder con el modelo aditivo lineal.

Page 104: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Cuadro 20. Cuadro de vaciamiento de información para un diseño Cuadrado Latino.

Hileras Columnas

ΣYi. C1 C2 C3 … Cj

H1 Y11 Y12 Y13 Y1j Y1.

H2 Y21 Y22 Y23 Y2j Y2.

H3 Y31 Y32 Y33 Y3j Y3.

… Hi Yi1 Yi2 Yi3 Yij Yi.

ΣY.j Y.1 Y.2 Y.3 Y.j Y..

Los tratamientos están entre las hileras y las columnas bajo las características que se han

mencionado anteriormente, es por ello que hay que hacer un resumen de los tratamientos en

otro cuadrado como se muestra a continuación.

Cuadro 21. Resumen de la información de los tratamientos extraído de un diseño

Cuadrado Latino.

Tratamiento Repeticiones

ΣYi. R1 R2 R3 … Rj

T1 Y11 Y12 Y13 Y1j Y1.

T2 Y21 Y22 Y23 Y2j Y2.

T3 Y31 Y32 Y33 Y3j Y3.

… Tk Yi1 Yi2 Yi3 Yij Y..k

Y..1 Y..2 Y..3 Y..j Y…

La salida de varianza para un DCL es la siguiente:

Cuadro 22. Salida de varianza para un diseño Cuadrado Latino

FV gl SC CM Fc Ft

Hileras t-1 SCHileras CMHileras

( )

Columnas t-1 SCColumn CMColumn

( )

Tratamiento t-1 SCTRAT. CMTRAT.

( )

Error (t-1)(t-2) SCError CMError

Total t²-1 SCTotales

Las ecuaciones de trabajo para el análisis de varianza de este diseño son las siguientes:

( )

Page 105: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

( )

Ejemplo:

Se estudia la eficacia de cuatro fármacos diferentes (F1, F2, F3 y F4) en el tratamiento de

una enfermedad, para ello, se observa el número de días que tardan en curar los enfermos

tratados con estos fármacos. Se considera que el factor edad y el factor peso pueden influir

en el experimento, por ello, se controlan estos factores y se consideran cuatro niveles de

edad (E1, E2, E3 y E4) y cuatro de peso (P1, P2, P3 y P4). Los resultados del experimento

diseñado según la técnica del cuadrado latino se reportan en el Cuadro 23. ¿Qué

conclusiones se deducen del experimento a un nivel de significancia del 5%?”

Cuadro 23. Efecto de cuatro fármacos en los días para una curar una enfermedad en

pacientes de cuatro grupos etáreos y cuatro tipos de peso.

Peso Grupo Etáreo

E1 E2 E3 E4

P1 10.0 F1 9.5 F2 7.0 F4 11.5 F3

P2 8.0 F2 10.0 F1 8.5 F3 9.0 F4

P3 7.0 F3 6.5 F4 7.0 F1 8.0 F2

P4 6.0 F4 5.0 F3 6.0 F2 9.0 F1

Lo primero que se debe hacer es resumir la información para columnas, hileras tratamiento.

La de hileras y columnas sería la siguiente:

Page 106: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Peso Grupo Etáreo

ΣYi.. E1 E2 E3 E4

P1 10.0 9.5 7.0 11.5 38.0

P2 8.0 10.0 8.5 9.0 35.5

P3 7.0 6.5 7.0 8.0 28.5

P4 6.0 5.0 6.0 9.0 26.0

ΣY.j. 31.0 31.0 28.5 37.5 128.0

y la de tratamiento quedaría de la siguiente forma:

Fármaco

(Tratamiento) 1 2 3 4 ΣY..k

F1 10.0 10.0 7.0 9.0 36.0

F2 8.0 9.5 6.0 8.0 31.5

F3 7.0 5.0 8.5 11.5 32.0

F4 6.0 6.5 7.0 9.0 28.5

Con esta información se puede realizar el análisis de varianza

( )

∑ ( )

( )

( )

( )

( )

( )

Resumiendo lo anterior en la salida de varianza correspondiente a este diseño se tiene lo

siguiente:

Page 107: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Cuadro 24. Salida de varianza para el diseño Cuadrado Latino del ejemplo.

F.V gl SC CM FC Ft (0.05)

Peso (Hileras) 3 24.125 8.0416667 10.432432 4.757

Grupo Etáreo (Columnas) 3 11.125 3.7083333 4.8108108 4.757

Fármaco (Tratamiento) 3 7.125 2.375 3.0810811 4.757

Error 6 4.625 0.7708333

Total 15 47.0

De acuerdo al análisis de varianza realizado se concluye al 95% de confiabilidad que existe

efecto significativo del peso en los días que tardan los enfermos en curarse, de igual manera

lo hicieron los grupos etáreos estudiados. Al revisar el efecto de los fármacos (tratamiento)

se observó que éstos ejercieron el mismo efecto en los días para curarse por lo tanto es

indistinto usar uno o el otro.

En este caso, al igual que en los bloques, si existe efecto de hileras o columnas se concluye

nada más que era necesario bloquear en ese sentido. Si se encuentra efecto de tratamiento,

se debe aplicar alguna prueba de rangos múltiples.

Page 108: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

5. DISEÑOS FACTORIALES

Como se mencionó en un principio, todos los diseños hasta ahora desarrollados son diseños

simples donde solo se ha analizado el efecto de tratamiento. Sin embargo, se presentan

situaciones donde la interrogante a investigar se encuentra supeditada por varios factores

controlables, por ejemplo:

El efecto de diferentes niveles de un tipo de fertilización sobre el comportamiento

agronómico de diferentes materiales vegetales de un rubro.

El efecto de diferentes materiales vegetales en diferentes ambientes, etc.

En la parte introductoria de este documento se mencionó que un factor es un tratamiento

que genera más tratamiento (niveles de un factor). Puede ser que el comportamiento

agronómico de un material vegetal se vea influenciado por algún de nivel de fertilización en

conjunto con un medio determinado. Si bien es cierto que en algunos casos se pueden

estudiar por separados tales efectos, el tiempo que se requiere para obtener la repuesta es

mayor y además muchas veces se necesita aplicar ambos factores para ver el

comportamiento de las interacciones de los niveles de éstos.

Es por ello que una de las ventajas de este tipo de diseño es que además de estudiar los

efectos principales, se pueden estudiar las interacciones de los niveles de los factores

reduciendo el tiempo de experimentación y además proporcionando conclusiones más

concretas en el estudio.

Los diseños factoriales se dividen en diseños factoriales simples y diseños factoriales

complejo. Estos pueden ejecutarse en cualquiera de los diseños simples o clásicos hasta

ahora desarrollado, es decir, que se pueden tener diseños factoriales en un diseño

completamente al azar, en bloques completamente al azar y en cuadrado latino. De igual

forma se puede hacer en los diseños factoriales complejos, todo depende de las

características del material experimental que se utilice en el experimento.

A continuación se desarrollan diseños factoriales simples en arreglos completamente al azar

y en bloques completamente al azar.

Page 109: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

5.1. ¿Cuándo utilizar diseños factoriales simples en un arreglo completamente al

azar?

De cuando utilizar estos diseño se ha expuesto anteriormente por lo tanto solo se desarrolla

lo de completamente al azar. Los diseños factoriales simples en arreglo completamente al

azar se utilizan cuando se está interesado estudiar al mismo tiempo el efecto de dos o más

factores a un mismo rigor y el material experimental a usar es homogéneo, es decir, que las

unidades experimentales no presentan factor de estorbo alguna que pueda afectar los

resultados del experimento.

De forma general los diseños factoriales simples se puede clasificar de acuerdo al número

de factores que se estudien o bien de acuerdo a que si se estudian todos los niveles de los

factores (factoriales completos) o se estudian cierto niveles de éstos (factoriales

incompletos).

En función del número de factores que se estudien, los diseños factoriales pueden ser

bifactoriales, trifactoriales, etc. Generalmente es recomendable hasta tres por el efecto de

interpretación.

Para el análisis de experimentos factoriales se analizan primero los efectos principales

(factores individuales) y posteriormente las interacciones de los mismos. Hay autores que

mencionan que en caso de existir efecto de las interacciones no tiene sentido estudiar los

factores por separados ya que para ver el efecto en la variable respuesta se requiere de las

interacciones de los niveles de los factores en estudio.

5.2. Arreglo combinatorio

Como se ha mencionado anteriormente, un factor es una clase de tratamiento que genera

más tratamiento llamados niveles. Un nivel se refiere a los diferentes tratamientos dentro de

un factor y arreglo combinatorio se refiere a la combinación de los niveles de los factores

en estudio. Suponga que se tiene un factor A con tres niveles (a1, a2, a3) y un factor B con

cuatro niveles (b1, b2, b3, b4). En este caso se tiene un experimento bifactorial 3 x 4. El

arreglo combinatorio de estos dos factores sería el que se muestra en el Cuadro 25.

Page 110: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Cuadro 25. Arreglo combinatorio de un diseño bifactorial 3 x 4.

Factor A Factor B

b1 b2 b3 b4

a1 a1b1 a1b2 a1b3 a1b4

a2 a2b1 a2b2 a2b3 a2b4

a3 a3b1 a3b2 a3b3 a3b4

5.3. Modelo aditivo lineal

Para representar un experimento factorial se utiliza un modelo lineal que tome en

consideración la suma de una constante general común a todas las observaciones más los

efectos principales de los factores a estudiar así como los efectos secundarios

(interacciones) adicionándole finalmente un efecto aleatorio o error experimental. Además

se tiene que considerar en el modelo la forma de asignación de los tratamientos definidos

(interacciones) a las unidades experimentales. Esto quiere decir, que si el material

experimental es homogéneo, se hará en un arreglo completamente al azar, si hay un factor

de estorbo, entonces se hará en bloques completamente al azar, etc.

Es importante mencionar que en este tipo de experimentos factoriales, todos los factores se

estudian bajo un mismo rigor, cosa que no ocurre en los experimentos factoriales complejos

ya que en éstos se sacrifica precisión en uno de los factores para estudiar con mayor

precisión el otro.

Supóngase que en el ejemplo de arreglo combinatorio expuesto líneas arriba, se lleva a

cabo en un diseño o arreglo completamente al azar, entonces su modelo aditivo lineal sería

el siguiente:

( )

Yijk = Variable respuesta

µ = Efecto común a todas las observaciones

Ai = Efecto del i-ésimo nivel del factor A: i = a1, a2, a3 niveles del factor A

Bj = Efecto del j-ésimo nivel del factor B: j = b1, b2, b3, b4 niveles del factor B

(A*B)ij = Interacción del i-ésimo nivel del factor A con el j-ésimo nivel del factor B

Eijk = Error del modelo

Page 111: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

En este diseño se prueban hipótesis tanto para el factor A, factor B y para las interacciones

de los nieve, bajo la misma tipología desarrollada en este documento (hipótesis nula e

hipótesis alternativa). En caso de rechazo de la hipótesis nula, se debe hacer prueba de

rangos múltiples según sea el caso

Un cuadro de vaciamiento de información para un diseño bifactorial un arreglo

completamente al azar se muestra a continuación.

Cuadro 26. Cuadro de vaciamiento de información para un diseño bifactorial en un

arreglo completamente al azar.

Factor A Factor B Repeticiones

ΣYij. 1 2 3 …k

a1

b1 Y111 Y112 Y113 Y11k Y11.

b2 Y121 Y122 Y123 Y12k Y12.

b3 Y131 Y132 Y133 Y13k Y13.

bj Y1j1 Y1j2 Y1j3 Y1jk Y1j.

a2

b1 Y211 Y212 Y213 Y21k Y21.

b2 Y221 Y222 Y223 Y22k Y22.

b3 Y231 Y232 Y233 Y23k Y23.

bj Y2j1 Y2j2 Y2j3 Y2jk Y2i.

a3

b1 Y311 Y312 Y313 Y31k Y31.

b2 Y321 Y322 Y323 Y32k Y32.

b3 Y331 Y332 Y333 Y33k Y33.

bj Y3j1 Y3j2 Y3j3 Y3jk Y3j.

ai

b1 Yi11 Yi12 Yi13 Yi1k Yi1.

b2 Yi21 Yi22 Yi23 Yi2k Yi2.

b3 Yi31 Yi32 Yi33 Yi3k Yi3.

…bj Yij1 Yij2 Yij3 Yijk Yij.

De este cuadro se extrae la información de los efectos principales y secundarios

(interacciones) como se muestra en el Cuadro 27.

Page 112: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Cuadro 27. Información de los efectos principales y de las interacciones entre los

mismos.

Factor A Factor B

ΣYi.. b1 b2 b3 b4 …bj

a1 Y11. Y12. Y13. Y14. Y1j. Y1..

a2 Y21. Y22. Y23. Y24. Y2j. Y2..

a3 Y31. Y32. Y33. Y34. Y3j. Y3..

…ai Yi1. Yi2. Yi3. Yi4. Yij. Yi..

ΣY.j. Y.1. Y.2. Y.3. Y.4. Y.j. Y…

Las ecuaciones de trabajo son las siguientes:

( )

( )

( )

( )

( )

( )

La salida de varianza de acuerdo al modelo aditivo lineal sería la que se muestra en el

Cuadro 28.

Cuadro 28. Salida de varianza para un diseño bifactorial en un arreglo

completamente al azar.

F.V gl SC CM Fc Ft

Factor A a-1 SCA

F(,glA, gl Error)

Factor B b-1 SCB

F(,glB, gl Error)

A*B (a-1)(b-1) SCAB

( )( )

F(,glAB, gl Error)

Error ab(r-1) SCError

( )

Total abr-1 SCTotales

Page 113: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Si el diseño bifactorial se hubiera llevado a cabo en arreglo en bloques completamente al

azar el modelo aditivo lineal es el siguiente:

( )

Yijk = Variable respuesta

µ = Efecto común a todas las observaciones

Ai = Efecto del i-ésimo nivel del factor A: i = a1, a2, a3 niveles del factor A

Bj = Efecto del j-ésimo nivel del factor B: j = b1, b2, b3, b4 niveles del factor B

(A*B)ij = Interacción del i-ésimo nivel del factor A con el j-ésimo nivel del factor B

αk = Efecto de k-ésimo bloque: k = 1, 2, 3,… bloques

Eijk = Error del modelo

Y la salida de varianza sería la que se muestra en el Cuadro 29.

Cuadro 29. Salida de varianza para un diseño bifactorial en un arreglo de bloques

completamente al azar.

F.V gl SC CM Fc Ft

Bloque k-1 SCBloques

F(, glbloque, gl Error

Factor A a-1 SCA

F(,glA, gl Error)

Factor B b-1 SCB

F(,glB, gl Error)

A*B (a-1)(b-1) SCAB

( )( )

F(,glAB, gl Error)

Error (ab-1)(r-1) SCError

( )

Total abr-1 SCTotales

En este caso se adicionaría una hipótesis más que sería la de bloque y si hubiera un rechazo

de Ho, la interpretación sería la misma que se ha mencionado anteriormente.

Ejemplo

Un médico está interesado en determinar si tanto el estado nutricional como la edad (grupo

etáreo) de la madre tiene efecto sobre el peso del recién nacido. Los estados nutricionales

de su interés fueron: Normal, Sobrepeso y Obesa, y los grupos etáreos fueron: menores a 15

años, 15 a 18 años, 19 a 30 años y mayores a 30 años. Seleccionó de forma aleatoria cuatro

madres para cada combinación de los niveles de los dos factores, estado nutricional y grupo

Page 114: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

etáreo). Los pesos obtenidos en gramos fueron los que se reportan en el Cuadro 30.

En este caso se tiene un experimento bifactorial, Estado Nutricional y Grupo Etáreo, cada

uno con tres y cuatro niveles, respectivamente. Esto hace que se tenga un bifactorial 3 x 4

(esto vendría a ser un factorial completo asimétrico, asimétrico por no tienen el mismo

número de niveles y completo por se estudian todos los niveles que han sido propuestos por

el investigador. Por otra parte se tiene cuatro repeticiones por tratamiento (combinación),

entonces viene a ser un bifactorial 3 x 4 con 4 repeticiones, haciendo un total de 48

unidades experimentales como se muestra en el Cuadro 30.

Para los datos del Cuadro 30 realice lo siguiente:

a. Proponga y describa un modelo aditivo lineal para el experimento.

b. Proponga los juegos de hipótesis a probar.

c. Realice el análisis de varianza correspondiente de acuerdo al modelo aditivo lineal

propuesto en el inciso a., a una significancia del 1%. Realice conclusiones.

d. Si existe rechazo de Ho en cualquiera de los factores como en las interacciones de

los mismos, realice la prueba de rangos múltiples de Tukey al 99% de confiabilidad.

Emita conclusiones

Cuadro 30. Pesos de los recién nacidos de acuerdo al estado nutricional de la madre y

al grupo etáreo de las mismas.

Estado Nutricional Grupo Etáreo Repeticiones

1 2 3 4

Normal

Menor de 15 1800 1900 1700 2000

15 a 18 2000 2400 2900 3000

19 a 30 3000 2800 2900 3200

Mayor a 30 3100 3300 2600 2800

Con sobrepeso

Menor de 15 2100 1800 1900 2200

15 a 18 2500 2900 3200 2900

19 a 30 2700 2900 3100 3500

Mayor a 30 2900 2600 3200 2700

Obesa

Menor de 15 3000 2800 2400 2500

15 a 18 3100 3300 2900 3400

19 a 30 2800 2500 3200 3100

Mayor a 30 2800 3100 3400 3500

Page 115: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Dado que este experimento fue realizado en un arreglo completamente al azar no es

necesario totalizar las columnas por lo tanto se procede a continuación a obtener la

información de las interacciones de los niveles de los factores estudiados. Para ello es

necesario totalizar en fila las interacciones como se muestra en el Cuadro 31 posteriormente

hacer en cuadro de las interacciones que conllevaran a los totales de los efectos principales

como se reporta en el Cuadro 32, estos totales se muestran tanto en la suma de las hileras

como de las columnas de acuerdo a como se dispongan los factores (totales marginales) y

los valores de las interacciones están dentro del cuadro.

Cuadro 31. Datos del experimento con las interacciones totalizadas.

Estado

Nutricional

Grupo

Etáreo

Repeticiones ΣYij.

1 2 3 4

Normal

Menor de 15 1800 1900 1700 2000 7400

15 a 18 2000 2400 2900 3000 10300

19 a 30 3000 2800 2900 3200 11900

Mayor a 30 3100 3300 2600 2800 11800

Con sobrepeso

Menor de 15 2100 1800 1900 2200 8000

15 a 18 2500 2900 3200 2900 11500

19 a 30 2700 2900 3100 3500 12200

Mayor a 30 2900 2600 3200 2700 11400

Obesa

Menor de 15 3000 2800 2400 2500 10700

15 a 18 3100 3300 2900 3400 12700

19 a 30 2800 2500 3200 3100 11600

Mayor a 30 2800 3100 3400 3500 12800

Cuadro 32. Efectos principales e interacciones de los factores Estado Nutricional y

Grupo Etáreo.

Estado

Nutricional

Grupo Etáreo (años) ΣYi..

Menor de 15 15 a 18 19 a 30 Mayor a 30

Normal 7400 10300 11900 11800 41400

Con sobrepeso 8000 11500 12200 11400 43100

Obesa 10700 12700 11600 12800 47800

ΣY.j. 26100 34500 35700 36000 132300

Page 116: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Desarrollando las actividades solicitadas para el ejemplo se tiene lo siguiente:

a. Modelo aditivo lineal

( )

Yijk = Variable respuesta (peso de los recién nacidos)

µ = Efecto común a todas las observaciones

Ni = Efecto del i-ésimo estado nutricional; i = Normal, Con sobrepeso y Obesa

Gj = Efecto del j-ésimo grupo etáreo; menores de 15, 15 a 18, 19 a 30 y mayores a 30 años

(N*E)ij = Efecto de la interacción del i-ésimo nivel del factor Estado Nutricional con el j-

ésimo nivel del factor Grupo Etáreo

Eijk = Error del modelo

b. Juego de Hipótesis

Como existen dos factores y sus interacciones, las hipótesis son las siguientes:

Para el factor Estado Nutricional:

Ho: µNormal- µSobre peso- µObesa = 0

Ha: µNormal- µSobre peso- µObesa 0

Para el factor Grupo Etáreo:

Ho: µmenores de 15 - µ15 a 18 - µ19 a 30 - µmayores 30 años = 0

Ha: µmenores de 15 - µ15 a 18 - µ19 a 30 - µmayores 30 años 0

Para las interacciones:

Ho: µa1b1 - µa1b2 - µa1b3 - µa1b4 - … µa3b4 = 0

Ha: µa1b1 - µa1b2 - µa1b3 - µa1b4 - … µa3b4 0

c. Análisis de varianza

( )

( )

( )

( )

( )

Page 117: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

( )

( )

( )

( )

( )

( )

( )

Con estos cálculos se construye la salida o tabla de varianza como se muestra en el Cuadro

33.

Cuadro 33. Salida de varianza para el diseño bifactorial en un DCA del ejemplo.

F.V gl SC CM Fc Ft (0.01)

Estado Nutricional 2 1373750 686875 8.3609467 5.248

Grupo Etáreo 3 5510625 1836875 22.359256 4.377

Interacción 6 1196250 199375 2.4268808 3.351

Error 36 2957500 82152.778

Total 47 11038125

De acuerdo a los resultados del análisis de varianza se puede concluir con 99% de

confiabilidad que el peso de los recién nacidos se ve afectado por el Estado Nutricional y

por el Grupo Etáreo de las madres, es decir, que ejercen efectos significativos (P < 0.01) en

el peso de los recién nacidos, no así las interacciones de los niveles estudiados ya que ésta

resultó ser no significativa. Esto indica que los factores estudiados ejercen efectos aditivos

o bien que actúan de forma independiente en la variable respuesta.

d. Separación de media de Tukey al 99% de confiabilidad

Cuando se dan este tipo de resultados hay que determinar el nivel o niveles de cada factor

que provocaron el rechazo de la hipótesis nula en el análisis de varianza. Para ello hay que

hacer los ajustes necesarios como se muestra en el Cuadro 34.

Page 118: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Cuadro 34. Ajuste de los efectos principales y secundarios para la separación de

medias.

Efecto Total Promedio Ajuste

A ΣYi..

B ΣY.j.

AB ΣYij.

Aplicando estos ajustes para los efectos principales se tiene lo siguiente:

Estado Nutricional Totales Promedio

Normal 41400 2587.5

Con sobrepeso 43100 2693.75

Obesa 47800 2987.5

Aplicando Tukey para el factor Estado Nutricional se tiene lo siguiente:

Ordenando los promedios de los niveles del factor Estado Nutricional y estableciendo las

comparaciones correspondiente se tiene lo siguiente:

Estado Nutricional Promedio Comparaciones Diferencias Resultado

Obesa 2987.5 Obesa-Sobrepeso 293.75 ns a

Con sobrepeso 2693.75 Obesa- Normal 400 * ab

Normal 2587.5 Sobrepeso - Normal 106.25 ns b

En este caso se puede decir que de los niveles del factor Estado Nutricional, solo el nivel

Obesa ejerció un efecto distinto (P <0.01) en el peso de los recién nacidos.

Los ajustes para los niveles del factor Grupo Etáreo son los siguientes:

Page 119: Estadistica y diseños experimentales

Por Ing. M.Sc. Francisco Martínez Solaris. Mgs. En Educación Superior

Grupo Etáreo Totales Promedio

Menor de 15 26100 2175

15 a 18 34500 2875

19 a 30 35700 2975

Mayor a 30 36000 3000

Aplicando la Tukey para los niveles del factor Grupo Etáreo

Ordenando los promedios de los niveles del factor Grupo Etáreo y estableciendo las

comparaciones correspondiente se tiene lo siguiente:

Comparaciones Diferencias

Mayor a 30 - 19 a 30 25 ns

Mayor a 30 - 15 a 18 125 ns

Mayor a 30 - Menor a 15 825*

19 a 30 - 15 a 18 100 ns

19 a 30 - Menor a 15 800 *

15 a 18 - Menor a 15 700 *

Grupo Etáreo Promedio Resultado

Mayor a 30 3000 a

19 a 30 2975 a

15 a 18 2875 a

Menor de 15 2175 b

De acuerdo a los resultados de Tukey se puede concluir que de los niveles del factor Grupo

Etáreo, solamente uno de éstos ejerció un efecto distinto en el peso de los recién nacidos

como las madres menores de 15 años.