Antologia de-estadistica-22

ANTOLOGIA PARA LA MATERIA DE ESTADISTICA II

Contenido Temario original por la escuela ............................................................................................................................................... 3

Temario que se verá en clase .................................................................................................................................................. 3

Unidad I Inferencia estadística o inductiva ............................................................................................................................. 3

Introducción ........................................................................................................................................................................ 4

Campos de aplicación ......................................................................................................................................................... 4

Unidad II Teoría elemental del muestreo ............................................................................................................................... 4

Distribuciones de muestreo ................................................................................................................................................ 4

Distribución de muestreo de medias .............................................................................................................................. 5

Distribución de muestreo de proporciones .................................................................................................................... 7

Distribución de muestreo de diferencias y sumas .......................................................................................................... 8

Unidad III Teoría de la estimación estadística ...................................................................................................................... 10

Estimaciones sin sesgo ...................................................................................................................................................... 10

Estimaciones de intervalo de confianza para parámetros de población .......................................................................... 10

Intervalo de confianza para las medias. ........................................................................................................................ 10

Intervalos de confianza para proporciones. ................................................................................................................. 11

Intervalos de confianza para diferencias y sumas ........................................................................................................ 12

Unidad IV Teoría estadística de las decisiones ..................................................................................................................... 13

Hipótesis Nula: .................................................................................................................................................................. 13

Hipótesis Alternativa: ........................................................................................................................................................ 13

Contraste de hipótesis y significación o reglas de decisión .............................................................................................. 13

Errores de tipo I y de tipo II ............................................................................................................................................... 13

Nivel de significación......................................................................................................................................................... 13

Contrastes mediante la distribución normal .................................................................................................................... 14

Contrastes de una y dos colas ....................................................................................................................................... 14

Curvas de operación características, potencia de un contraste ....................................................................................... 15

Unidad V Test de Ji-Cuadrada ........................................................................................................................................... 15

Definición de χ2 ................................................................................................................................................................. 16

El test de χ2 para la bondad de ajuste ............................................................................................................................... 16

Tablas de contingencia ...................................................................................................................................................... 16

Unidad VI Ajuste de curvas y el método de mínimo cuadrados ........................................................................................... 18

Ajuste de curvas ................................................................................................................................................................ 18

El método de mínimos cuadrados .................................................................................................................................... 19

Recta de mínimos cuadrados ........................................................................................................................................ 19

Parábola de mínimos cuadrados ................................................................................................................................... 20

Unidad VII Teoría de la correlación ....................................................................................................................................... 21

Correlación y regresión ..................................................................................................................................................... 21

Correlación lineal .............................................................................................................................................................. 21

La recta de regresión de mínimos cuadrados ................................................................................................................... 22

Unidad VIII Análisis de varianza ............................................................................................................................................ 23

Experimentos de factor único ........................................................................................................................................... 23

Variación total, variación dentro de los tratamientos y variación entre tratamientos .................................................... 23

Temario original por la escuela Unidad I Inferencia Estadística o inductiva

Unidad II La estimación

Unidad III Estimación Puntual

Unidad IV Estimación por intervalos

Unidad V Prueba de hipótesis estadísticas

Unidad VI Continua prueba de hipótesis

Unidad VII Prueba de hipótesis referente a dos medias

Unidad VIII Prueba de hipótesis referentes a las varianzas

Unidad IX Prueba de hipótesis para dos poblaciones normales

Unidad X Curvas características de operación

Unidad XI Prueba de Ji-cuadrada de la bondad de ajuste

Unidad XII Regresión

Unidad XIV Correlación

Unidad XV Análisis de la varianza

Temario que se verá en clase Unidad I Inferencia Estadística o inductiva

Unidad II Teoría elemental del muestreo

Unidad III Teoría de la estimación estadística

Unidad IV Teoría estadística de las decisiones

Unidad V Test de Ji-Cuadrada

Unidad VI Ajuste de Curvas y el método de mínimos cuadrados.

Unidad VII Teoría de la Correlación

Unidad VIII Análisis de varianza

Unidad I Inferencia estadística o inductiva

Introducción

Comprende aquellas técnicas por medio de las cuales se toman decisiones sobre una población estadística basadas en

una muestra o en juicios de los administradores. Debido a que esas decisiones se toman en condiciones de

incertidumbre, se requiere el uso de conceptos de probabilidad. Considerando que las características medidas en una

muestra se denominan estadísticas muéstrales, las características medidas en una población estadística o universo, se

llaman parámetros poblacionales.

Ningún método estadístico puede corregir los defectos por una inadecuada selección del problema que se investiga, o por una mala recolección de datos. Una investigación que empieza mal, con seguridad termina mal. Con datos de mala calidad no será posible dar una respuesta adecuada a un problema científico.

Campos de aplicación

La inferencia estadística es ampliamente utilizada en diversas áreas, a continuación se mencionan unas pocas.

En las ciencias naturales: se emplea en la descripción de modelos termodinámicos complejos (mecánica estadística), en física cuántica, en mecánica de fluidos o en la teoría cinética de los gases, entre otros muchos campos.

En las ciencias sociales y económicas: es un pilar básico del desarrollo de la demografía y la sociología aplicada.

En economía: suministra los valores que ayudan a descubrir interrelaciones entre múltiples parámetros macro y microeconómicos. En las ciencias médicas: permite establecer pautas sobre la evolución de las enfermedades y los

enfermos, los índices de mortalidad asociados a procesos morbosos, el grado de eficacia de un medicamento, etcétera.

Entre otras.

Unidad II Teoría elemental del muestreo

La teoría del muestreo estudia la relación entre una población y las muestras tomadas de ella. Es de gran utilidad en

muchos campos. Por ejemplo para estimar magnitudes desconocidas de una población, tales como media y varianza,

llamadas a menudo parámetros, a partir del conocimiento de esas magnitudes sobre muestras, que se llaman

estadísticos. También es útil para determinar si las diferencias observadas entre 2 muestras son debidas a variaciones

fortuitas o si son realmente significativas. Por ejemplo cuando se estudia el resultado de una medicina como

tratamiento de cierta enfermad, o al decidir si un proceso de producción es mejor que otro.

Distribuciones de muestreo Si consideramos todas las posibles muestras de tamaño n en una población, para cada muestra podemos calcular un

estadístico (como la media o desviación estándar) que variara de muestra a muestra. De esta manera obtenemos una

distribución de muestreo. Tenemos diferentes tipos de distribución de muestreo que más adelante veremos.

Distribución de muestreo de medias

Supongamos que se toman todas las posibles muestras de tamaño n, sin reposición de una población finita de tamaño

N. Si denotamos la media y la desviación estándar de la distribución de muestreo de medias por y las de la

población , respectivamente entonces

Ecuación 1 Formulas de media y desviación estándar de distribución de muestreo de medias con población finita o sin reposición

Donde:

N es el tamaño de la población

n es el tamaño de la muestra

Si la población es infinita o si el muestreo es con reposición, los resultados anteriores se reducen a

Ecuación 2 Formulas de media y desviación estándar de distribución de muestreo de medias con población infinita o con reposición

Por ejemplo:

Las alturas de 3000 estudiantes varones de una universidad están normalmente distribuidos con media 68 pulgadas y

una desviación estándar de 3 pulgadas. Si se toman 80 muestras de 25 estudiantes cada una. ¿Cuáles serán la media y la

desviación estándar esperadas de la resultante distribución de muestreo de medias, si el muestre se hizo a) con

reposición y b) sin reposición.

a)

b)

Como la diferencia es menor se considera para efectos prácticos la misma que en muestre con reposición.

En cuántas muestras esperaríamos encontrar una media de a) 66.8 y 68.3 pulgadas y b) menor que 66.4

a)

0.4772+0.1915=0.6687

0.6687*80=53.496 o 53 muestras

b)

0.5-0.4962=0.0038 0.0038*80=0.304 o cero

500 esferas tienen un peso medio de 5.02 gramos y una desviación estándar de 0.30 g. Hallar la probabilidad de que una

muestra al azar de 100 esferas de ese conjunto tengan un peso total a) entre 496 y 500 g y b) más de 510g

a) El peso total estaría entre 496 y 500 si el peso medio de las 100 bolas está entre 4.96 y 5 g

*Entre –z a –z se restan *Entre +z a +z se restan *Si la variable es = a la media, se suma 0.5 0.4871-0.2704=0.2167 b) El peso total excederá los 510g si el peso medio de las 100 bolas excede 5.10 g

0.5-0.4986=0.0014

Distribución de muestreo de proporciones

Supongamos que una población es infinita y que la probabilidad de ocurrencia de un suceso (su éxito) es p, mientras la

probabilidad de que no ocurra es q=1-p. Por ejemplo una población puede ser todos los posibles lanzamientos de una

moneda, en la que la probabilidad de éxito es ½. Consideremos todas las posibles muestras de tamaño n de tal

población, y para cada una de ellas determinaremos la proporción de éxitos P. En el caso de una moneda, P sería la

proporción de soles en n tiradas. Obtenemos así una distribución de muestreo de proporciones cuya media y cuya

desviación típica vienen dadas por

Ecuación 3 Formulas de media y desviación estándar de distribución de muestreo de proporciones con muestreo con reposición

Esta fórmula es válida para poblaciones finitas realizadas con muestreo con reposición. Para poblaciones finitas con

muestreo sin reposición se usa:Y

Ecuación 4 Formulas de media y desviación estándar de distribución de muestreo de proporciones sin muestreo con reposición

Cada persona de un grupo de 500 lanza una moneda 120 veces. ¿Cuántas personas se espera que a) Saquen entre 40%

y 60% de soles y b) 5/8 de sus lanzamientos o más de soles

Como la proporción es una variable discreta, hay que hacer una corrección, si la variable es menor a la media se resta

y si la variable es mayor o igual a la media se suma

0.4857+0.4857=0.9714

500*0.9714=489 muestras

b)

0.4977

0.5-0.4977=0.0023 500*0.0023= 1 personas.

Se ha encontrado que el 2% de las piezas fabricadas en una cierta máquina son defectuosas ¿Cuál es la probabilidad de

que en un envío de 400 piezas a) el 3% o más b)2% o menos, sean defectuosas?

a)

1/2N=1/800=0.0012

0.5-0.3944=0.1056 b)

0.5+0.0714=0.5714

Distribución de muestreo de diferencias y sumas

Sean dadas dos poblaciones. Para cada muestra de tamaño n1 de la primera, calculamos un estadístico S1; eso da una

distribución de muestreo para S1, cuya media y desviación estándar denotaremos por µs1 y σs1. Del mismo modo, para

cada muestra de tamaño n2 de la segunda población, calculamos un estadístico S2; eso nos da un distribución de

muestreo para S2 cuya media y desviación estándar denotaremos con µs2 y σs2. Si tenemos medias muéstrales de ambas

poblaciones, la distribución de muestreo de las diferencias de medias viene dada para poblaciones infinitas o con

muestreo con reposición con medias y desviaciones estándar por:

Ecuación 5 Formulas de media y desviación estándar de distribución de muestreo de diferencias de medias.

Se puede usar la misma fórmula para poblaciones finitas o muestreo sin reposición.

Para suma se utiliza:

Ecuación 6 Formulas de mZedia y desviación estándar de distribución de muestreo de sumas de medias.

En caso que se hablen de proporciones se usa:

Ecuación 7 Formulas de media y desviación estándar de distribución de muestreo de diferencias de proporciones.

Ejemplo: Las bolas de rodamientos de cierto fabricante pesan 0.50 g de media, con desviación ESTANDÁR de 0.02 g. ¿Cuál es la probabilidad de que dos lotes de 1000 bolas cada uno difieran en peso en más de 2 g?

La diferencia entre ambos debe ser de 2g, por lo que 2/1000=0.002 g, asi que

2.23=0.4871

0-2.23 2.23 Ilustración 1 Área bajo la curva que se busca para P≥2.23 o P≤-2.23

Como se busca la probabilidad de que P≥2.23 o P≤-2.23 entonces (0.5-0.4871)+(0.5-0.4871)=0.0258

Unidad III Teoría de la estimación estadística

Desde un punto de vista práctico, suele resultar más importante ser capaz de inferir información sobre la población a

partir de muestras. Con tal situación trata la inferencia estadística, que usa los principios de la teoría del muestreo.

Estimaciones sin sesgo

Si un estadístico de muestreo es igual al que le corresponde en la población, se dice que el estadístico es un estimador

sin sesgo, si no, se llama estimador sesgado. La media de las distribuciones de muestreo viene siendo un estimador sin

sesgo ya que siempre es igual a la media de la población, cosa contraria con la varianza y desviación estándar que si

varían y por lo tanto son estimación sesgadas.

Estimaciones de intervalo de confianza para parámetros de población Se llama intervalo de confianza en estadística a un intervalo de valores alrededor de un parámetro muestral en los que,

con una probabilidad o nivel de confianza determinado, se situará el parámetro poblacional a estimar.

Nivel de confianza

99.73% 99% 98% 96% 95.45% 95% 90% 80% 68.27% 50%

zc 3.00 2.58 2.05 2.05 2.00 1.96 1.645 1.28 1.00 0.6745 Tabla 1 Valores de Zc correspondientes a varios niveles de confianza.

Intervalo de confianza para las medias.

Si la población es infinita o de una finita con reposición.

Ecuación 8 Intervalo de confianza para medias cuando es infinita o con reposición

Si la población es finita sin reposición

Ecuación 9 Intervalo de confianza para medias cuando la población es finita sin reposición

Donde X es la media de la muestra.

Ejemplo:

Supongamos que las alturas de 100 estudiantes varones de una universidad representan una muestra aleatoria de

estudiantes de esa universidad. La media muestral es de 67.45 pulgadas y la desviación estándar muestral es de 2.93

pulgadas. Hallar los intervalos de confianza a) 95% y b)99% para estimar la altura media de los estudiantes.

a) 42

Esto significa que 66.88 < µ < 68.02 o en otras palabras podemos decir que la probabilidad de que la altura

media de la población esté entre 66.88 y 68.02 pulgadas es del 95%. Equivale a decir que tenemos el 95% de

confianza que la media de la población está entre 66.88 y 68.02.

b)

Esto significa que 66.69 < µ < 68.21 o en otras palabras podemos decir que la probabilidad de que la altura

media de la población esté entre 66.69 y 68.21 pulgadas es del 99%. Equivale a decir que tenemos el 99% de

confianza que la media de la población está entre 66.69 y 68.21.

Actividad en clase: Realizar ejercicio 9.6 de la página 214 del libro Estadística Segunda Edición.

Intervalos de confianza para proporciones.

Si la población es infinita o de una finita con reposición.

Ecuación 10 Intervalo de confianza para proporciones cuando la población es infinita o con reposición

Si la población es finita sin reposición

Ecuación 11 Intervalo de confianza para proporciones cuando la población es finita sin reposición

Ejemplo:

Un sondeo de 100 votantes elegidos al azar en un distrito indica que el 55% de ellos estaban a favor de un cierto

candidato. Hallar los límites de confianza a) 95% b) 99% y c) 99.73% para la proporción de todos los votantes favorables

a ese candidato.

a)

b)

c)

Intervalos de confianza para diferencias y sumas

Medias

Ecuación 12 Intervalos de confianza para diferencias y sumas de Medias

Ejemplo:

Una muestra de 150 lámparas del tipo A ha dado una vida media de 1400 horas y una desviación estándar de 120h. Una

muestra de 100 lámparas del tipo B dan vida media de 1200 h y desviación estándar de 80h. Hallar los límites de

confianza a) 95% b) 99% para la diferencia de las vidas medias de las poblaciones de ambos tipos.

a)

b)

Proporciones

Ecuación 13 Intervalos de confianza para diferencias y sumas de Proporciones

Ejemplo:

En una muestra aleatoria de 400 adultos y 600 jóvenes que vieron un cierto programa de televisión 100 adultos y 300

jóvenes reconocieron que les había gustado. Determinar los límites de confianza a) 95% y b) 99% para la diferencia en

proporciones de todos los adultos y jóvenes que vieron con agrado el programa. 300/600=0.5 400/100=0.25

a)

b)

Unidad IV Teoría estadística de las decisiones

En la práctica nos vemos obligados con frecuencia tomar decisiones relativas a una población sobre la base de

información proveniente de muestras. Tales decisiones se llaman decisiones estadísticas. Por ejemplo podemos decidir

basados en datos muéstrales, si un método pedagógico es mejor que otro o si una moneda esta trucada o no.

Al intentar alcanzar una decisión, es útil hacer hipótesis sobre la población implicada. Tales hipótesis, que pueden ser o

no ciertas, se llaman hipótesis estadísticas.

Hipótesis Nula: En muchos casos se formulan hipótesis estadística con el único propósito de rechazarla o invalidarla. Así, si queremos

decidir si una moneda está trucada, formulamos la hipótesis de que la moneda es buena (o sea p=0.5). Esta hipótesis se

le llama hipótesis nula y se detona por Ho.

Hipótesis Alternativa: Es toda hipótesis que difiera de una ya dada. Por ejemplo, si una hipótesis es p=0.5, las alternativas pueden ser p=0.7,

p≠0.5 o p>0.5. Se denota por H1.

Contraste de hipótesis y significación o reglas de decisión

Si suponemos que una hipótesis particular es cierta pero vemos que los resultados hallados en su muestra aleatoria

difieren notablemente de los esperados bajo tal hipótesis, entonces diremos que las diferencias observadas son

significativas y nos veríamos obligados a rechazar la hipótesis. Por ejemplo en 20 lanzamientos de una moneda salen 16

caras, estaríamos obligados a rechazar la hipótesis de que la moneda es buena, aunque hay posibilidad de equivocarnos.

Los procedimientos para determinar si las muestras observadas difieren significativamente de los resultados esperados

se llaman contrastes (o tests) de hipótesis o de significación o reglas de decisión.

Errores de tipo I y de tipo II

Si rechazamos una hipótesis cuando debiera ser aceptada, diremos que se ha cometido un error de tipo I. Por otra parte

si aceptamos una hipótesis que debiera ser rechazada, diremos que se ha cometido un error de tipo II. En ambos casos,

se ha producido un juicio erróneo.

Nivel de significación

Al contrastar una cierta hipótesis la máxima probabilidad con la que estamos dispuestos a correr el riesgo de cometer un

error de Tipo I se llama nivel de significación del contraste. Esta probabilidad denotada a menudo por α se especifica

antes de tomar la muestra. En la práctica es frecuente usar un nivel de significación de 0.05 ó 0.01. , por ejemplo si se

usa 0.05 (5%) hay 5 oportunidades de 100 de rechazar la hipótesis, es decir tenemos un 95% de confianza de que hemos

adoptado la decisión correcta y un 5% de que nos hemos equivocado.

Nivel de significación α 0.10 0.05 0.01 0.005 0.02

Valores críticos de z para tests unilaterales

-1.28 o 1.28 -1,645 o 1.645

-2.33 o 2.33 -2.58 o 2.58 -2.88 o 2.88

Valores críticos de z para tests bilaterales

-1.645 y 1.645 -1.96 y 1.96 -2.58 y 2.58 -2.81 y 2.81 -3.08 y 3.08

Tabla 2 Tabla de nivel de significación

Contrastes mediante la distribución normal Supongamos que bajo cierta hipótesis y su distribución de muestreo estadístico S con una media µs y desviación típica

σs.

-1.96 1.96

0.95Regióncrítica 0.025

Regióncrítica 0.025

Ilustración 2 Distribución normal canónica con un 95% de confianza de que la hipótesis es verdadera

Como se ve en la ilustración 2, podemos tener 95% de confianza que la hipótesis es verdadera, para que esto sea cierto

el valor de z debe estar entre -1.96 y 1.96. Si no se encuentra, debemos concluir que tal suceso podría ocurrir con una

probabilidad de 0.05 si la hipótesis fuera cierta. Entonces tendremos que rechazar la hipótesis.

El área total sombreada 0.05 es el nivel de significación del contraste. Representa la probabilidad de equivocarnos al

rechazar una hipótesis (probabilidad de erro tipo I).

El conjunto de z fuera de rango -1.96 a 1.96 (en este ejemplo) se le conoce como región critica de la hipótesis o región

de rechazo de la hipótesis o región de significación.

El conjunto de z dentro del rango se le conoce como región de aceptación de la hipótesis o región de no significación.

Contrastes de una y dos colas

En el contraste anterior se buscaba los valores extremos del estadístico S. A este tipo de contrastes se les llama de 2

colas o bilaterales.

Si estamos interesados en valores extremos a un lado de la media, como por ejemplo cuando se contrasta una hipótesis

de que un proceso es mejor que otro, tales contrastes se llaman unilaterales o de una cola.

Ejemplos:

En un experimento sobre percepción extrasensorial (PES), un individuo en una habitación es invitado a adivinar el color

(rojo o azul) de una carta elegida de un mazo de 50 cartas bien mezcladas por otro individuo en otra habitación. El no

sabe cuántas rojas y cuantas azules hay en el mazo. Si el sujeto identifica 32 cartas correctamente, determinar si el

resultado es significativo al nivel de a) 0.005 y b) 0.001

H0:p=0.5 y el sujeto está simplemente diciendo colores al azar.

H1:p>0.5 y el sujeto tiene poderes de PES

Como estamos interesados en saber que adivine 32 o más entonces se utiliza un contraste de una sola cola y es hacia la

derecha.

a) para 0.05 utilizamos z=1.645 ya que es un contraste de una sola cola y es hacia la derecha. Si es mayor que se

valor tiene poderes PES si no es al azar

Entonces el individuo tiene poderes PES

b) para 0.01 utilizamos z=2.33. Como z=1.98 y no es mayor a 2.33 entonces el individuo no tiene poderes PES

Cuando suceden estos caso que en 0.05 se cumple pero en 0.01 no decimos que es probable que suceda, así que es

mejor hacer más investigación o pruebas.

Curvas de operación características, potencia de un contraste

Es posible evitar el riesgo de cometer un error de Tipo II simplemente no aceptando nunca la hipótesis, pero en muchas

aplicaciones prácticas esto es inviable. En tales casos se suele recurrir a curvas de operación características o curvas OC,

que son gráficos que muestran las probabilidades de error de Tipo II bajo diversas hipótesis. Proporcionan indicaciones

de hasta qué punto un contraste dado nos permitirá evitar un error de Tipo II; es decir, nos indicará la potencia de un

contraste a la hora de prevenir decisiones erróneas. Son útiles en el diseño de experimentos porque sugieren entre otras

cosas el tamaño de muestras a manejar.

Unidad V Test de Ji-Cuadrada

Los resultados obtenidos por muestreo no siempre coinciden exactamente con los esperados teóricamente de acuerdo

con las leyes de las probabilidades, por ejemplo, aunque consideraciones teóricas conducen a esperar 50 soles y 50

águilas en 100 lanzamientos de una moneda (buena), es raro que eso ocurra exactamente. Entonces podemos tener

sucesos posibles (E1, E2, E3…) y se observa que ocurren con frecuencias o1, o2, o3… llamados frecuencia observada pero

esperábamos que sucedieran con frecuencia e1, e2, e3… llamada frecuencia esperada.

A menudo deseamos saber si las frecuencias observadas difieren significativamente de las esperadas.

Suceso E1 E2

Frecuencia observada o o1 o2

Frecuencia esperada e e1 e2 Tabla 3 Tabla de contingencia

Definición de χ2

Una medida de la discrepancia existente entre las frecuencias observadas y esperadas viene proporcionada por el

estadístico χ2 dado por:

Ecuación 14 Formula de χ2

El test de χ2 para la bondad de ajuste

χ2 puede utilizarse para determinar la calidad del ajuste mediante distribuciones teóricas (como la binomial o normal)

de distribuciones empíricas (las obtenidas de las muestras).

Tablas de contingencia

La tabla 3, se le suelen denominar tablas de contingencia, en la cual podemos ver las frecuencias esperadas y las

frecuencias esperadas.

El estadístico χ2 necesita de grados libertad, v, para podernos dar un resultado correcto. El grado de libertad se calcula

Ecuación 15 Formula para calcular los grados de libertad

Donde k=al número de eventos o sucesos.

Los grados de libertad, más los niveles de significación se utilizaran con la siguiente tabla

Ilustración 3 Valores Percentiles de χ2

Ejemplo

En 200 tiradas de una moneda, han salido 115 soles y 85 águilas. Contrastar la hipótesis de que la moneda es buena, con

nivel de significación a)0.005 y b) 0.001

Suceso E1 Soles E2 Águilas

Frecuencia observada o 115 85

Frecuencia esperada e 100 100

Entonces:

Ya que k=2 entonces v=k-1=2-1=1

a) el valor critico de para 1 grado de libertad es 3.84. Asi pues como 4.50>3.84 rechazamos la hipótesis de

que la moneda es buena al nivel de significación de 0.05

b) el valor critico de para 1 grado de libertad es 6.63. Asi pues como 4.50<6.63 no podemos rechazar la

hipótesis de que la moneda es buena al nivel de significación de 0.01

Como sucedió antes es necesario hacer más pruebas ya que es probable que suceda pero no se tiene la certeza.

Unidad VI Ajuste de curvas y el método de mínimo cuadrados

Por lo general encontramos que existen relaciones entre dos o más variables, como por ejemplo los pesos de las

personas dependen en cierta medida de sus alturas, la presión de una masa de gas dada depende de su volumen y de su

temperatura. Suele ser deseable expresar tales relaciones en forma matemática determinando una ecuación que

conecte a las variables.

Ajuste de curvas

Para hallar una ecuación que relacione las variables, el primer paso es recoger datos que muestren valores

correspondientes de las variables bajo consideración. Así por ejemplo, supongamos que X e Y denotan,

respectivamente, la altura y el peso de personas adultas; entonces una muestra de N individuos revelaría las alturas X1,

X2…Xn y los pesos Y1, Y2…Yn

El próximo paso es marcar los puntos sobre un sistema de coordenadas rectangulares. El conjunto de puntos resultante

se llama diagrama de dispersión. A partir de dicho diagrama de dispersión es posible, visualizar una curva suave que

aproxime los datos. Tal curva se llama una curva aproximante. El problema general de hallar ecuaciones aproximantes

que se ajusten a un conjunto de datos se llama ajuste de curvas.

Ilustración 4 Diagrama de dispersión que se aproxima a una línea recta.

Ilustración 5 Diagrama de dispersión que no es lineal y se dice que es una relación no lineal

El método de mínimos cuadrados

Para evitar juicios subjetivos al construir rectas, parábolas u otras curvas aproximantes de ajuste de datos, es necesario

acordar una definición de recta de mejor ajuste, parábola de mejor ajuste, etc. Entonces se debe usar el método de

mínimos cuadradas.

Recta de mínimos cuadrados

La recta de mínimos cuadrados está dada por la ecuación:

Ecuación 16 Recta de mínimos cuadrados

Donde a0 y a1 se calculan

Ecuación 17 Ecuaciones para calcular a0 y a1 para recta de mínimos cuadrados

Ejemplo

Ajustar una recta de mínimos cuadrados a los datos siguientes

X 1 3 4 6 8 9 11 14

Y 1 2 4 4 5 7 8 9

Entonces tabulamos los valores

X Y X2 XY Y2

1 3 4 6 8 9

11 14

1 2 4 4 5 7 8 9

1 9

16 36 64 81

121 196

1 6

16 24 40 63 88

126

1 4

16 16 25 49 64 81

Entonces

Parábola de mínimos cuadrados

La parábola de mínimos cuadrados está dada por la ecuación:

Ecuación 18 Parábola de mínimos cuadrados

Unidad VII Teoría de la correlación

Correlación y regresión

Si todos los valores de las variables satisfacen una ecuación exactamente, decimos que las variables están

perfectamente correlacionadas o que hay correlación perfecta entre ellas. Si se lanzan dos dados 100 veces, no hay

relación entre las puntuaciones de ambos dados (a menos que estén trucados), es decir, no están en correlación.

Variables tales como el peso y la altura tienen una cierta correlación. Cuando sólo están en juego dos variables,

hablamos de correlación simple y regresión simple. En otro caso, se habla de correlación múltiple y regresión múltiple.

Correlación lineal

Si X e Y son dos variables en cuestión un diagrama de dispersión muestra la localización de los puntos (X, Y) sobre un

sistema rectangular de coordenadas. Si todos los puntos del diagrama parecen estar en una recta como en la ilustración

6 y 7 la correlación se llama lineal. Si Y tiende a crecer cuando X crece en como en la ilustración 6 se dice que es positiva.

Si Y tiende a decrecer cuando X crece como en la ilustración 7 , se dice que es negativa. Si todos los puntos parecen estar

sobre una cierta curva, la correlación no es lineal. Si no hay relación entre las variables decimos que no hay correlación

entre ellas.

Ilustración 6 Correlación lineal positiva

Ilustración 7 Correlación lineal negativa

Ilustración 8 Sin correlación

La recta de regresión de mínimos cuadrados

La recta de regresión de Y sobre X es:

Ecuación 19 recta de regresión Y sobre X

Donde a0 y a1 se calculan

Ecuación 20 Ecuaciones para calcular a0 y a1 para recta de regresión

La recta de regresión de X sobre Y es

Ecuación 21 Recta de regresión X sobre Y

Donde b0 y b1 se calculan

Ecuación 22 Ecuaciones para calcular b0 y b1 para recta de regresión

Ejemplo:

Altura X del padre

65 63 67 64 68 62 70 66 68 67 69 71

Altura Y del hijo

68 66 68 65 69 66 68 65 71 67 68 70

a) Construir un diagrama de dispersión

b) Hallar la recta de regresión de mínimos cuadrados de Y sobre X

c) Hallar la recta de regresión de mínimos cuadrados de X sobre Y

B) Y=35.82+0.476X

C) X=-3.38+1.036Y

Unidad VIII Análisis de varianza

Ya se ha visto como contrastar las diferencias entre dos medias muéstrales, en el supuesto de que las dos poblaciones

de las que se tomaban las muestras tenían la misma varianza. En muchas situaciones es necesario hacer eso mismo con

tres o más medias muéstrales, ósea, equivalentemente, contrastar la hipótesis de que todas las medias son iguales.

Experimentos de factor único

En un experimento de un factor, las medidas (u observaciones) se obtienen para grupos independientes de muestras,

donde el número de medidas en cada grupo es b. Hablamos de a tratamientos, cada uno de los cuales tiene b

repeticiones.

Denotaremos por la media de las medidas en fila j-ésima. Entonces tenemos

El punto en se usa para anunciar que el índice k se ha sumado. Los valores se llaman medias de grupo, medias de

tratamiento o medias de filas. La media global se calcula

Variación total, variación dentro de los tratamientos y variación entre tratamientos

La variación total denotada por V, se calcula con:

Ecuación 23 Variación Total

La variación dentro de los tratamientos se calcula con:

Ecuación 24 Variación dentro de los tratamientos

La variación entre los tratamientos se calcula con:

Ecuación 25 Variación entre los tratamientos

Por lo tanto V la podemos calcular también con:

En la práctica es conveniente restar alguna cantidad fija de todos los datos de la tabla para simplicar los cálculos; tal

operación no tiene efecto alguno sobre el resultado final.

Ejemplo

La siguiente tabla da las producciones por acre de una cierta variedad de trigo que crece en terrenos tratados con

fertilizantes A, B y C. Hallar a) las producciones medias para los diferentes tratamientos, b) la media global para todos los

tratamientos c) la variación total d) la variación entre tratamientos e) la variación dentro de los tratamientos.

A 48 49 50 49

B 47 49 48 48

C 49 51 50 50

Para hacer mejor el cálculo podemos restar 45 a todos los datos y queda la tabla

3 4 5 4

2 4 3 3

4 6 5 5

a)

b)

c)

d)

e)

Métodos Abreviados

Ecuación 26 Métodos Abreviados para experimento de un factor.

Donde T es el total de valores y Tj es el total de valores en el tratamiento j-ésimo.

Experimentos de Dos factores

El tratamiento de dos factores es como si fuera una matriz, a continuación se muestran las formulas.

Ecuación 27 Variación total de dos factores

Variación debida a error o azar

Ecuación 28 Variación debida a error

Variación entre filas

Ecuación 29 Variación entre filas

Variación entre columnas

Ecuación 30 Variación entre columnas

Formas abreviadas

Ecuación 31 Métodos Abreviados para experimento de 2 factores

Bibliografía

Unidad I Estadística Aplicada, Julian de la Horra Navarro, Mc Graw Hill. Página 84.

Unidad II Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 186-207

Unidad III Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 208-222

Unidad IV Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 223-240

Unidad V Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 268-284

Unidad VI Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 289-309

Unidad VII Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 322-348

Unidad VIII Estadística Segunda Edición, Spiegel, Mc Graw Hill. Páginas 375-396

Antologia de-estadistica-22

Documents

Transcript of Antologia de-estadistica-22