UNIDAD I

52
1 INTRODUCCIÓN Bienvenido al curso “Análisis Estadístico” David Huntsberger nos dice: “la palabra estadística a menudo nos trae a la mente imágenes de números apilados en grandes arreglos y tablas, de volúmenes de cifras relativas a nacimientos, muertes, impuestos, poblaciones, ingresos, deudas créditos y así sucesivamente”. David tiene razón, pues, al instante de escuchar estas palabras, éstas son las imágenes que llegan a nuestra cabeza. La Estadística es mucho más que sólo números apilados y gráficas bonitas. Es una ciencia con tanta antigüedad como la escritura, y es por sí misma auxiliar de todas las demás ciencias. Negocios, mercadeo, economía, agricultura, educación, psicología, sociología, antropología, biología, medicina, ingeniería, los gobiernos, etc. Se nombran entre los más destacados clientes de ésta. La ausencia de la Estadística conllevaría a un caos generalizado, dejando a los administradores, educadores y ejecutivos sin información vital a la hora de tomar decisiones en tiempos de incertidumbre. La estadística que conocemos hoy en día debe gran parte de su realización a los trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las probabilidades, con la cual se adhirió a las ciencias formales. Deseo que los contenidos que se presentan, motiven su reflexión sobre el rol que va a desempeñar como docente promotor de cambios en el contexto educativo nacional. Los contenidos y anexos de las unidades didácticas le proporcionarán información importante referente a la Estadística y su uso en el quehacer humano. Léalos detenidamente, desarrollando luego las actividades que se indican.

description

estadistica

Transcript of UNIDAD I

1

INTRODUCCIN

Bienvenido al curso Anlisis Estadstico

David Huntsberger nos dice: la palabra estadstica a menudo nos trae a la mente imgenes de nmeros apilados en grandes arreglos y tablas, de volmenes de cifras relativas a nacimientos, muertes, impuestos, poblaciones, ingresos, deudas crditos y as sucesivamente. David tiene razn, pues, al instante de escuchar estas palabras, stas son las imgenes que llegan a nuestra cabeza.

La Estadstica es mucho ms que slo nmeros apilados y grficas bonitas. Es una ciencia con tanta antigedad como la escritura, y es por s misma auxiliar de todas las dems ciencias. Negocios, mercadeo, economa, agricultura, educacin, psicologa, sociologa, antropologa, biologa, medicina, ingeniera, los gobiernos, etc. Se nombran entre los ms destacados clientes de sta.

La ausencia de la Estadstica conllevara a un caos generalizado, dejando a los administradores, educadores y ejecutivos sin informacin vital a la hora de tomar decisiones en tiempos de incertidumbre.

La estadstica que conocemos hoy en da debe gran parte de su realizacin a los trabajos matemticos de aquellos hombres que desarrollaron la teora de las probabilidades, con la cual se adhiri a las ciencias formales.

Deseo que los contenidos que se presentan, motiven su reflexin sobre el rol que va a desempear como docente promotor de cambios en el contexto educativo nacional.

Los contenidos y anexos de las unidades didcticas le proporcionarn informacin importante referente a la Estadstica y su uso en el quehacer humano. Lalos detenidamente, desarrollando luego las actividades que se indican.

ORIENTACIONES METODOLGICAS

CUL ES EL PROPSITO DEL MANUAL AUTO INSTRUCTIVO?El objetivo de este MAI es ayudar a conocer, vencer las dificultades en tu preparacin y crear habilidades en el empleo del Anlisis Estadsticoa, de forma autodidacta o bajo la direccin de un tutor.

Para lograrlo se emplea un curso eminentemente prctico que incluye los mtodos y tcnicas estadsticas bsicas empleadas en las investigaciones y aplicadas a la solucin de problemas.

El sistema comprende dos elementos fundamentales:

El MAI, que explica la teora de manera clara, con ejemplos de la vida diaria y de investigaciones realizadas.

La calculadora para facilitar los clculos. Adicionalmente se puede utilizar cualquiera de los paquetes estadsticos existentes.

INDICACIONES AL ALUMNOPrepararlo para enfrentar el procesamiento estadstico en una investigacin es el objetivo de este manual. Esta preparacin lo lleva a vas de hecho desarrollando un programa acadmico cuidadosamente elaborado, de tal forma que podr aprender a sistematizar los contenidos.

Posee un enfoque que facilita la construccin del conocimiento. Est orientado a la solucin de problemas prcticos y le inicia en el uso de asistentes estadsticos.

En cada tema, estructurado para propiciar su participacin activa en el proceso de enseanza- aprendizaje, hay un resumen terico de los conceptos bsicos; adems un acceso a ejercicios resueltos y propuestos, para que consolide los conceptos.

Espero, logre los propsitos que se ha trazado al utilizar este MAI y le deseo, adems, xitos en su labor.

QUE COMPRENDE EL MANUAL AUTO INSTRUCTIVOEl MAI consta de cuatro unidades didcticas.

- En la primera unidad se trata sobre el anlisis de regresin simple, mltiple y series temporales.

- En la segunda, anlisis de varianza; anlisis de covarianza, nocin y tipos

- En la tercera, anlisis factorial, anlisis de senderos

- En la cuarta, anlisis de componentes principales; anlisis discriminanteEVALUACIONES Y CALCULADORAEVALUACIONES, PARA QU?

Las evaluaciones en cada unidad sirven para comparar el nivel alcanzadopor los alumnos. Permiten la retroalimentacin necesaria y la toma de decisiones que cada caso requiere. La evaluacin final permite conocer el grado de preparacin alcanzado a la vez que prepara a los alumnos para su ingreso al nivel superior.

LA CALCULADORA, PARA QU?

La calculadora cientfica ejecuta con facilidad y precisin clculos que suelen ser necesarios en las distintas actividades

PRIMERA UNIDADANALISIS DE REGRESIN SIMPLE, MULTIPLE Y SERIES TEMPORALES

a travs del

para y

y

COMPETENCIAS A LOGRAR

CONCEPTUALESPROCEDIMENTALESACTITUDNALES

Conceptualiza el anlisis de regresin simple.

Interioriza el anlisis de resgresin mltiple. Internaliza el anlisis de correlacin Estudia el anlisis de las series temporales

Ejemplifica el anlisis de regresin simple y mltiple.

Investiga sobre las series temporales

Resuelve problemas utilizando los diferentes tipos de regresin. Resuelve problemas de correlacin Realiza inferencias sobre la regresin y correlacin Reconoce el uso que se hace del anlisis de regresin y correlacin Confianza en su capacidad de plantear y resolver problemas

CONCEPTOS CLAVES

Distribuciones bidimensionales, modelo lineal, pendiente de recta, ecuacin de regresin, ecuacin de correlacin, coeficiente de regresin y correlacin, serie temporal.

LECCIN N 01ANALISIS DE REGRESIN

INTRODUCCIN

Los mtodos estadsticos presentados hasta ahora han tratado, todos, con una sola variable x, sin embargo muchos de los problemas del trabajo estadstico, tratan con un nmero mayor de variables. Un profesor puede estar interesado en conocer de qu manera se puede predecir el rendimiento en aritmtica de un estudiante con base en el puntaje obtenido en una prueba de aptitud en dicha asignatura. Un psiclogo desea saber si existe alguna relacin entre el concepto que tiene un alumno de s mismo y su promedio de notas. Un socilogo puede estar interesado en saber que clase de relacin existe entre la tasa de delincuencia juvenil que hay en una comunidad y el grado de hacinamiento de los hogares que all se encuentran. Un mdico se puede interesar en la relacin que existe entre el uso del tabaco y las afecciones cardiacas. Un economista en la relacin entre los precios de la Bolsa y la tasa de inflacin, entre la edad de los obreros calificados y su productividad.

Otros ejemplos:

1. Pulso y temperatura de los enfermos de un hospital

2. Edad y nmero de das que trabajan los empleados de una fbrica.

3. Produccin y ventas de una fbrica

4. Latitudes y temepraturas medias de las capitales de un conjunto de pases.

En esta y las siguientes lecciones nos dedicaremos a la explicacin de dos de las tcnicas para la elaboracin de datos asociados con dos o ms variables.

En forma especfica, el anlisis de correlacin y regresin comprende el anlisis de los datos muestrales para saber si y como se relacionan entre si dos o ms variables en una poblacin. El anlisis de correlacin produce un nmero que resume el grado de relacin entre dos variables y el anlisis de regresin da lugar a una ecuacin matemtica que describe dicha relacin. Con frecuencia en educacin y psicologa, se da mayor importancia a la determinacin de la fuerza de la relacin; en otras disciplinas, como administracin de empresas, agricultura, investigaciones mdicas, se concentra ms la atencin en la naturaleza de la relacin y el anlisis de regresin constituye el instrumento principal.

El anlisis de regresin es til para averiguar la forma probable de la relacin entre variables y, cuando se emplea este mtodo de anlisis, el objetivo final por lo general es predecir o estimar el valor de una variable, correspondiente a un valor dado de otra variable

En el problema tpico de regresin, como en la mayora de los problemas de la estadstica aplicada, el investigador cuenta, para el anlisis, con una muestra de observaciones de alguna poblacin real o hipottica. Por lo tanto, es importante que el investigador comprenda la naturaleza de la poblacin en la que est interesado, conocer lo suficiente acerca de la poblacin, para ser capaz de construir un modelo matemtico que la represente. Un investigador que va a analizar un conjunto de datos por los mtodos de la regresin lineal simple, debe tener la seguridad de que el modelo es, al menos una representacin aproximada de su poblacin, teniendo en cuenta que es improbable que el modelo sea un retrato perfecto de la situacin real; adems es necesario tener presente que los resultados obtenidos del anlisis de datos que se ha forzado en un modelo al que no se ajustan, no tienen valor.

1.1 SUPOSICIONES QUE FUNDAMENTAN LA REGRESIN LINEAL SIMPLE.

En el modelo de regresin lineal simple interesan dos variables, X e Y. Por lo general a la variable X se le conoce como variable independiente, ya que se encuentra bajo el control del investigador, es decir, los datos son seleccionados por el investigador y correspondiendo a cada valor preseleccionado de X, se obtienen uno o ms valores de Y, a quien se le llama variable dependiente. Las suposiciones son:

1. Se dice que los valores de la variable independiente X son fijos, es decir que sus valores son preseleccionados por el investigador y no pueden ser variados.

2. La variable X se mide sin error, esto significa que se desprecia la magnitud del error de medicin de X.

3. Para cada valor de X existe una sub poblacin de valores de Y. Estas sub poblaciones deben estar normalmente distribuidas.

4. Las varianzas de las sub poblaciones de Y son todas iguales.

5. Los valores Y son estadsticamente independientes.

Estas suposiciones se pueden resumir por medio de la siguiente ecuacin que se conoce como modelo de regresin:

Y = o+ (1x + e

Donde y es un valor tpico de una de las sub poblaciones de Y, o y (1 se llaman coeficientes de regresin de la poblacin. Geomtricamente o y (1 representan la ordenada al origen y la pendiente, respectivamente, de la recta sobre la cual se supone que estn las medias; e se llama trmino de error e indica la cantidad en la que y se desva de la media de las subpoblaciones de Y de la cual se extrae.

En la figura siguiente se da una representacin grfica del modelo de regresin:

1.2 RECTA DE MNIMOS CUADRADOS

El mtodo que por lo comn se emplea para obtener la recta deseada se conoce como mtodo de los mnimos cuadrados y la recta resultante se llama recta de los mnimos cuadrados. Y P * *

*

*

* *

*

X Figura 1.2Designemos las observaciones muestrales por: X1, X2,, Xn; Y1, Y2,, Yn. Podemos designar las medias aritmticas por:

Sobre el diagrama de dispersin de la figura 1.2 trazamos perpendiculares a los ejes, estas perpendiculares representan a . A travs de las observaciones queremos hacer pasar una recta que sirva de estimacin de la verdadera lnea

+ X. Designemos la lnea estimada por: en donde son estimaciones de los parmetros desconocidos o, (1 e es la ordenada de la recta para cualquier valor dado de X. para ajustar una lnea de este tipo debemos obtener frmulas para en funcin de las observaciones muestrales. Mostraremos cmo se obtienen por el mtodo de los mnimos cuadrados.Definamos la diferencia vertical entre P y la lnea estimada por . Estos residuos o desviaciones sern positivos o negativos segn que el punto real se encuentre por encima o por debajo de la lnea. Si se elevan al cuadrado y se suman, la cantidad resultante ser no nula y variar directamente con la dispersin de los puntos respecto a la lnea. Diferentes pares de valores de sern diferentes lneas y, en consecuencia, valores diferentes para la suma de los cuadrados de los residuos respecto a la lnea. As tendremos

El principio de los mnimos cuadrados es el de que los valores debern escogerse de tal forma que hagan lo ms pequea posible, y que las derivadas parciales de la suma con respecto a debern ser iguales a cero. Podremos escribir por lo tanto,

Se puede determinar el valor de y diferenciando la ecuacin anterior primero con respecto a y luego con respecto a y luego el resultado igualando acero.

Los valores estimados y reemplazando 0 y 1 por a y b, se tiene:

Resolviendo,

Al ordenar estas ecuaciones queda lo que se llama ecuaciones normales

La solucin para b es:

La solucin de las ecuaciones normales para a es: a = (( xi2)( ( yi) (( xi )((xi yi) = n ( ( xi2 ) - (( xi )2La ecuacin de la lnea de regresin queda: Y = a + bx y la ecuacin estimada ser Veamos como aplicamos la frmula; cmo la desarrollamos y cmo efectuamos la prediccin.PROCEDIMIENTO

1. Determinar la variable independiente (X) y la dependiente (Y)

2. Construir el diagrama de dispersin

3. Calcular los parmetros a y b

4. Escribir y graficar la ecuacin de regresin

5. Realizar si fuera necesario el pronstico

Ejemplo. Supongamos el siguiente cuadro donde se anotan los puntajes obtenidos por los alumnos de Educacin a Distancia en una prueba de habilidad mental y de aptitud acadmica. AlumnosPrueba de habilidad mentalAptitud acadmica

Eduardo1532

Katy4555

Miguel5055

Carla3845

Mery4555

Susana2030

Juan4235

Luca4650

Jenny3845

1: Observamos que en dicho cuadro la variable prueba de habilidad mental es la variable independiente X y la variable aptitud acadmica es la variable dependiente Y

2. DIAGRAMA DE DISPERSIN.

Es la forma grfica de ver si existe o no relacin lineal entre las variables X e Y. Cmo reconocer buena o mala relacin

Dado un valor de X no podemos decir gran Conocido X sabemos que Y se mueve por

cosa sobre Y. Mala relacin una horquilla estrecha. Buena relacin

Lo de horquilla estrecha hay que entenderlo con respecto a la dispersin que tiene la variable Y por si sola, cuando no se considera XCmo reconocer relacin directa e inversa

Para valores de X por encima de la media Para los valores de X mayores que la media tenemos valores de Y por encima y por debajo le corresponden valores de Y mayores proporciones similares. Incorrelacin Para los valores de X menores que la media le

corresponden valores de Y tambin menores.

Esto se llama relacin directa o creciente entre XeY

Para los valores de X mayores que la media le

corresponden valores de Y menores. Esto es relacin inversa o decreciente entre X e Y.

Para nuestro ejemplo, dibujemos el diagrama utilizando el sistema cartesiano, donde en el eje x se anota los valores de la variable independiente ( X) y en el eje y los valores de la variable dependiente ( Y).

60

* *

50 *

*

40

* *

30 *

20

15 20 25 30 35 40 45 50

Si observamos el grfico, vemos que los puntos dan la sensacin de ascender en lnea recta de izquierda a derecha y podemos trazarla.3. Ahora vamos a realizar las operaciones necesarias para calcular el valor de los parmetros a y b de la ecuacin de regresin y para ello volvemos a copiar el cuadro de nuestro ejemplo, donde escribimos las variables X e Y, obviando los datos adicionales.

xYX2XYY2

1532 225 4801024

4555202524753025

5055250027503025

3845144417102025

4555202524753025

2030 400 600 900

4235176414701225

4650211623002500

3845144417102025

( 339 402 13943 15970 18774

Reemplazando estos resultados en la frmula de b y a respectivamente

b = 9 (15970) ( 339 )( 402) = 0.7053

9 ( 13943 ) - ( 339 )2 a = ( 402 ) ( 13943 )- ( 339) ( 15970 ) = 18. 1011

9 ( 13943 ) ( 339 )24. Luego la ecuacin de regresin ser y = 18.1011 + 0.7053 x.

El resultado de esta ecuacin nos dice que cuando el puntaje obtenido en habilidad acadmica vara en un punto, el puntaje obtenido en aptitud acadmica lo hace en 0.7053.

Con la ecuacin hallada podemos predecir el puntaje obtenido en aptitud acadmica cuando el puntaje en habilidad acadmica es por ejemplo 35. Para ello reemplazamos la x de la ecuacin por el nmero 35 y escribiremos:

Este resultado nos indica que cuando el puntaje en habilidad acadmica es 35, el puntaje estimado en aptitud acadmica es 43.

1.3 ERROR ESTANDAR DE ESTIMACIN

Una til medida de la exactitud de la prediccin cuando se usa una lnea de regresin para hacer predicciones se obtiene calculando la media de la suma de cuadrados. La suma de cuadrados se divide entre n-2 para obtener una estimacin insesgada de la varianza del error.

Una de las frmulas a usar es la siguiente:

Sx = ( y2i a (yi - b (xiyi n 2

Para ilustrar el uso de esta frmula, calcularemos Sx en el ejemplo enunciado para hallar la ecuacin de regresin.

Sx = 18774 - 18.1011(402 ) - 0.7053 ( 15970 ) = 5.779

7

Esto quiere decir que la recta de ajuste tendr un posible error de +- 5.779 puntos de nota o calificativo.

EJERCICIOS PROPUESTOS

1. Nos interesa conocer en un grupo de 12 personas la relacin entre el inters por los acontecimientos polticos y sociales del pas y la lucha verdadera frente a tales acontecimientos. Se aplican dos tipos de escalas ordinales. Hallar el coeficiente regresin.

Persona A B C D E F G H I J K L

Inters 2 6 5 1 10 9 8 3 4 12 7 11

Lucha 3 4 2 1 8 11 10 6 7 12 5 9

2. Se sabe que las producciones de algodn de un pas, expresadas en millones de toneladas, fueron: Aos 1989 90 91 92 93 94 95 96 97

Produccin 8 10 12 15 15 18 19 23 30 La produccin de algodn en el ao 2000 ser?

3. En un estudio sobre la relacin entre la satisfaccin en el trabajo y las aptitudes, los investigadores recolectaron datos con diez profesionales, se tiene los siguientes puntajes:

Puntaje satisfac. 58 54 67 64 66 73 70 85 74 85

Puntaje aptitud 50 55 60 65 70 75 80 85 90 95

Qu puntaje de satisfaccin corresponde a 93 de aptitud?4. La tabla muestra el nmero de horas por semana que gastaron diez universitarios estudiando y su promedio de puntaje de notas acumulativas.

Promedio notas 2.1 2.7 2.6 2.5 3.5 3.0 3.5 3.7 2.9

Horas de estudio 5 6 7 8 9 10 11 12 13 Cul ser el promedio de notas para 16 horas de estudio?LECCIN N 02INFERENCIAS RESPECTO A LOS PARMETROS iSi en una poblacin de inters, X e Y no estn relacionadas linealmente, la pendiente de la lnea de regresin de la poblacin, 1, ser 0 y las medias de las subpoblaciones de Y sern todas iguales. Pero si 1 no es igual a 0, habr alguna relacin entre X e Y.En consecuencia , al evaluar una ecuacin de regesin muestral, podemos, emplear un procedimiento basado directamente en la pendiente de la lnea. Si podemos rechazar la hiptesis nula de que 1 = 0 , concluimos que X e Y estn relacionadas linealmente.Se puede demostrar que la distribucin muestral de la pendiente muestral b1 est normalmente distribuida con una media igual a 1 y una varianza igual a Donde es la varianza poblacional del error, esto es, la varianza comn que, se supone, es igual a las varianzas de las subpoblaciones Y. En general, para cualquier modelo lineal de regresin, si el error aleatorio tiene una distribucin normal, se establece que es un estimador insesgado con una distribucin normal que tiene

y Es decir las varianzas de los dos estimadores son mltiplos constantes de 2, la varianza del trmino de error del modelo. Con esta informacin podemos construir una prueba de la hiptesis Ho: ( es un valor especfico de ) con el estadstico de prueba: donde y Que sigue la distribucin normal estandarizada. Cuando la varianza poblacional del error es desconocida, pero podemos estimarla mediante la media cuadrtica del error de la muestra, MCE. El estadstico de prueba se transforma en: , que se distribuye como la distribucin t de Student con n-2 grados de libertad.

Para verificar Ho: 1= 0, sustituimos a 10 por 0 en la ecuacin de la t.Ejemplo 1. Sean los datos (n =5) que se dan en la siguiente tabla

xy

-2

-1

0

1

20

0

1

1

3

Presentan estos datos suficiente evidencia para indicar que la pendiente difiere de 0?. Haga la prueba con error 5% y establezca los lmites para el nivel de significacin alcanzado.

Solucin

Se tiene como datos calculados:

a)1. Ho: 1=0 ; Ha: 10

2. error 5%

3. El estadstico de prueba es la t con n-2 gl. Entonces t(0.025,3) = 3.182

4. 5. Como 3.65 > 3.182, rechazamos la Ho y aceptamos la Ha que nos indica que la pendiente difiere de 0..

b) Ahora construiremos el intervalo de confianza, cuya ecuacin, teniendo en cuenta que el estadstico de prueba es t, es la siguiente

Luego el I.C. ser Que al sustituir por sus valores, resulta Ejercicios

1. Ajuste una recta a los cinco puntos dados.

xY

3

2

1

1

0.5-2

-1

0

1

2

a) Obtenga las estimaciones de o y 1 b) Presentan los datos evidencia suficiente para indicar que la pendiente 1,

difiere de 0?

c) Encuentre un intervalo de confianza de 95% para 12. Los promedios de los precios de venta de casas nuevas para una sola familia durante un periodo de ocho aos se indican en la tabla siguiente. Sea Y el promedio de los precios de venta y X el ao (representados con los nmeros 1, 2, 3, .., 8).

AoPrecio promedio de

Venta (en miles de $)

1972 (1)

1973 (2)

1974 (3)

1975 (4)

1976 (5)

1977 (6)

1978 (7)

1979 (8)27.6

32.6

35.9

39.3

44.2

48.8

55.7

62.9

a) Ajuste el modelo b) Hay suficiente evidencia que permita afirmar que el promedio de los precios de venta de casas nuevas parra una sola familia se ha incrementado durante el periodo 1972-1979 con 5% de error?

3. El octanaje Y de petrleo refinado depende de la temperatura X del proceso de refinacin, pero tambin de la dimensin de la partcula del catalizador. Un experimento con un catalizador de partculas pequeas dio como resultado una recta ajustada de , con n= 31, y SSE = 2.04. Un experimento independiente con un catalizador de partculas grandes dio como resultado

, con n = 11, y SSE = 1.86 a) Pruebe la hiptesis de que las pendientes difieren en forma significativa de cero con un nivel significativo de 0.05 para cada prueba.

b) Pruebe con un nivel de significancia de 0.05, que los dos tipos de catalizador producen la misma pendiente en la relacin entre el octanaje y la temperatura.

LECCIN N 03AMPLIACIONES DEL MODELO LINEAL DE DOS VARIABLES

En la leccin anterior nos hemos centrado en las relaciones lineales entre dos variables; se requiere ampliar el estudio para cubrir el caso de relaciones no lineales entre dos variables.

3.1 RELACIONES NO LINEALES ENTRE DOS VARIABLESLas transformaciones comnmente utilizadas son la logartmica y la inversa, con las cuales se puede abarcar una amplia variedad de relaciones no lineales. La dificultad es que el hacer transformaciones para conservar los clculos en un sencillo armazn lineal puede conducir a quebrantar algunos de los supuestos bsicos que fundamentan las tcnicas lineales. Por otra parte, existen a veces casos en que las transformaciones mejoran la validez de ciertos supuestos bsicos,Para ilustrar el uso de las transformaciones, supongamos que tenemos una variable Z que crece aproximadamente a una razn de unidad de tiempo t, de una perturbacin v, entonces escribimos

Zt = ABtvt donde B = 1+gTomando logaritmos en ambos miembros, resulta

Log Zt = Log A + t(log B) + log vtSi definimos: Yt = Log Zt ; Xt = t; = log A; i = log B; t = log vt, se puede escribir de nuevo de la siguiente forma. ( modelo lineal conocido)Ejemplo

Sea la produccin anual de carbn bituminoso (1000 toneladas netas)

DecenioProduccin anual media

(1000 toneladas netas)

ZY= Log Z X = t

1931- 1940

1941- 1950

1951- 1960

1961- 1970

1971- 1980

1981- 1990

1991- 2000 1837

4868

12411

32617

82770

148457

322958 3.26413.6873

4.0937

4.5136

4.9179

5.1718

5.5092-3-2

-1

0

1

2

3

Puesto que X representa el tiempo, introduciendo 1, 2, 3, para conseguir una media muestral nula, las ecuaciones minimocuadrticas se convierten en:

Que dan Tomando antilogaritmos, tenemos Luego Esto da una razn de aumento de 137.7 por ciento cada decenio. La correspondiente razn de crecimiento anual g en que

, resultando g = 0.09; es decir un 9 por ciento de aumento anual.Es til tener una idea de las diversas no linealidades susceptibles de ser transformadas mediante la utilizacin de logaritmos e inversos. Las cifras que se acompaan explican algunos de los principales casos, en los que 0 y 1 son parmetros positivos y los logaritmos que se toman son siempre los de base e. Limitamos tambin las explicaciones al cuadrante positivo X,Y.

a) Transformacin semilogartmica X = ABY que se transforma en b) Transformacin doblemente logartmica o logartmica doble

i) Y=AX , se transforma en (aqu Log A = 0) ii) Y = AX-, se transforma en 3.2 MODELO GENERAL

En las lecciones anteriores se examinaron los fundamentos del anlisis de regresin para el modelo lineal simple. En esta leccin se extendern los conceptos ya presentados al modelo lineal general para el cual una respuesta dada se considera como una funcin de varias variables de prediccin. Al examinar este modelo se estudiarn algunas formas para determinar el mejor conjunto de variables de prediccin por incluir en la ecuacin de regresin.

MODELO LINEAL GENERAL.

Sean x1, x2, , xk, k variables de prediccin, las cuales pueden tener alguna influencia sobre uan respuesta Y, y supngase que el modelo tiene la forma donde Yi es la

; i = 1, 2, , n

i-sima observacin de la respuesta para un conjunto de valores fijos de las variables de prediccin, i es el error aleatorio no observable asociado con Yi, y son m = k+1 parmetros lineales desconocidos. La ecuacin anterior recibe el nombre de modelo lineal general y da origen a lo que se conoce como una regresin lineal mltiple.

Dada una muestra aleatoria de de observaciones Y1, Y2, , Yn en los puntos de observacin x11, x12, , xik, x21, x22,, x2k, , xn1, xn2, , xnk, respectivamente, con base en el modelo lineal general, se tiene las n ecuaciones siguientes:

.

Como resultado, el modelo lineal general tambin puede expresarse en forma matricial como

Y = X +

donde

Adems X es una matriz de n x m para las variables de prediccin, y es un vector de parmetros desconocidos de m x 1, mientras que Y y siguen siendo vectores de n x 1, los que contienen las observaciones de la variable de respuesta y los errores aleatorios asociados con stas, respectivamente.Si en estas matrices hacemos x0 = 1, se tiene

Bajo el caso de la teora normal Y ~ N(X, 2I)

~ N(0, 2I), donde V(Y) = V() = 2I

De esta manera Y y son vectores de variables aleatorias independientes normalmente distribuidas.

Para la estimacin de los parmetros por mnimos cuadrados las ecuaciones normales toman la forma

(XX)B = XY

Donde, ahora, (XX) es una matriz de m x n y B es un vector de m x 1 el cual contiene los estimadores de mnimos cuadrados b0, b1, , bk. A partir de esta expresin podemos encontrar los coeficientes de la regresin mltiple, es decir: B= (XX)-1XYQue en forma matricial se expresa

Por lo tanto, la ecuacin estimada de regresin es donde el vector de n x 1 contiene los valores estimados para la respuesta promedio correspondientes a los n puntos de observacin de las variables de prediccin. La diferencia entre los vectores Y y proporciona el vector de residuos.

Ejemplo 1. Los datos siguientes muestran el nmero de recmaras, el nmero de baos y los precios a los que se vendi recientemente una muestra aleatoria de casas unifamiliares en cierto conjunto habitacional grande:Nmero de recmaras

x1Nmero de baos

x2Precio ( dlares)

y

32

4

2

3

2

5

421

3

1

2

2

3

27880074300

83800

74200

79700

74900

88400

82900

Use el mtodo matricial para encontrar una ecuacin lineal que nos permita predecir el precio promedio de venta de una casa unifamiliar en el conjunto habitacional dado en trminos del nmero de recmaras y el nmero de baos. Solucin

Las cantidades que necesitamos para sustituir en las matrices son

; luego tenemos

La inversa de esta matriz se puede obtener por cualquiera de las tcnicas estudiadas en la asignatura de matemtica. El resultado es el siguiente

Ahora vamos a ingresar los datos en la matriz XY

Y finalmente realizando las operaciones, tenemos

Los coeficientes obtenidos son . Despus de redondear, la ecuacin de regresin, queda:

Y esto nos dice que cada recmara extra aade en promedio de $4133 y cada bao $758 al precio de venta de una casa.

As por ejemplo si queremos predecir el precio de venta de una casa con tres recmaras con dos baos se tendr:

dlares.

De la misma manera que en la regresin simple, utilizando el modelo general tambin se pueden hacer inferencias sobre los parmetros del modelo:

Ejemplo1. Pruebe la hiptesis nula 1 = 3500 contra la hiptesis alternativa 1 > 3500 en el nivel 0.05 de significancia

Clculos necesarios para hacer la prueba de hiptesis

i) BXY = C11=

ii) Realizando la prueba de hiptesis 1. Ho: 1 = 3500

H1: 1 > 3500

= 0.05

2. rechace la Ho si t 2.015, donde t es el valor de t(0.005, 5) 3. Utilizando la prueba t para probar la hiptesis

4. Puesto que t = 2.77 excede a 2.015, se debe rechazar la hiptesis nula; concluimos que en promedio cada recmara adicional aade ms de $3500 al precio de venta de una casa. EJERCICIOS PROPUESTOS1. Sean los datos proporcionados por una compaa de mudanzas sobre los pesos de seis embarques, las distancias que se trasladaron, y el dao en que se incurri.Peso

(1000 libras)

x1Distancia

(1000 millas)

x2Dao

(dlares)

Y

4.0

3.0

1.6

1.2

3.4

4.81.5

2.2

1.0

2.0

0.8

1.6160

112

69

90

123

186

a) Suponga que la regresin es lineal, estime o, 1, 2.

b) estime el dao cuando un embarque que pesa 2400 lbs, se traslada a 1200 millasc) Pruebe la hiptesis 1= 25 vs 1> 25 con el 5% de error.

2. Sea los datos de las utilidades semanales promedio (en $1000) de cinco restaurantes, su nmero de asientos y el trfico diario promedio (en miles de autos) que pasa por sus locales.

Nmero de asiento

x1Cuenta de trfico

x2Utilidades netas semanales

Y

120

200

150

180

24019

8

12

15

1623.8

24.2

22.0

26.2

33.5

a) Suponga que la regresin es lineal, estime o, 1, 2.

b) estime el promedio de la utilidad neta semanal de un restaurante con nmero de asientos de 210 en una localidad donde la cuenta del trfico diario promedia 14000 autos

c) Pruebe la hiptesis 1= 30 vs 1> 30 con el 5% de error.

LECCIN N 04ANALISIS DE CORRELACION Y COVARIANZACon alguna frecuencia el inters que hay en la relacin entre dos variables X e Y se concentra en determinar si estn o no relacionadas y, en caso afirmativo, en averiguar qu tan fuerte es la relacin. La tcnica analtica apropiada que se emplea en esta situacin, es el anlisis de correlacin. El trmino correlacin literalmente significa relacin mutua, ya que indica el grado en que los valores de una variable se relacionan con los valores de otra. Existen muchos ejemplos en los que puede existir una relacin posible entre dos variables, as tenemos:

1. Estn relacionadas la edad y la resistencia fsica?

2. Tienden a tener mayor escolaridad las personas con altos ingresos, en comparacin con las de bajos ingresos?

3. Parece influir la temperatura en el ndice de criminalidad?

4. Puede el xito en el trabajo predecirse a partir de calificaciones obtenidas en las pruebas de seleccin?

Estos y problemas semejantes se prestan a un anlisis de correlacin., donde el investigador toma una muestra aleatoria de unidades de asociacin (que pueden ser seres humanos, animales, lugares, cosas, puntos en el tiempo, etc) de la poblacin de inters y hace dos mediciones, una de X y una de Y, en cada unidad de asociacin de la muestra. El investigador toma cualquier valor de X (y tambin de Y) que est en la muestra.

El modelo a utilizar lo podemos expresar simblicamente de la siguiente manera: yi = (0 + (1x1 + (i

donde yi es un valor de Y, (0 y (1 son parmetro poblacionales, xi es el valor i de la variable X y (i es un trmino de error aleatorio.

En el anlisis de correlacin no distinguimos las variables X e Y segn sea una independiente y la otra dependiente, como lo hicimos en el anlisis de regresin, aqu las dos variables tienen el mismo status y se puede intercambiar las posiciones de X y Y, de tal manera que el modelo se puede escribir:

xi = (0 + (1y1 + (i

En consecuencia, podemos utilizar los datos de la muestra tomada de una poblacin bivariante para obtener una lnea de regresin muestral de Y sobre X o de X sobre Y. En general estas dos lneas no coinciden tal como se muestra en la siguiente figura.

4.1 SUPOSICIONES DEL MODELO DE CORRELACIN

1. Para cada valor de X, hay una subpoblacin de valores Y normalmente distribuida

2. La distribucin conjunta de X e Y es normal.

1. Las sub poblaciones de valores Y tienen todas la misma varianza

2. Las medias de las subpoblaciones de valores Y estn colocadas todas en la misma lnea recta.

3. Para cada valor de Y hay una subpoblacin de valores de X que est normalmente distribuida.

4. Las subpoblaciones de valores de X tiene todas la misma varianza.

5. Las medias de las subpoblaciones de valores X estn colocadas todas en la misma lnea recta

4.2 EL COEFICIENTE DE CORRELACIN

El coeficiente de correlacin, ( es el parmetro que presenta el inters primordial en la correlacin y es la medida de la correlacin entre dos variables, que existe en una poblacin bivariante. Puede asumir los siguientes valores:

Como rara vez conocemos, ( podemos estimarlo a partir de los datos de una muestra aleatoria de la poblacin de inters. La estimacin puntual de ( es r que se calcula con la siguiente frmula:

Ejemplo. Se proporcionan los datos de las calificaciones obtenidas por 10 alumnos de la Universidad Inca Garcilaso de la Vega en las pruebas tomadas para obtener el bachillerato y la licenciatura.NmeroEstudianteCalificaciones x ( Bachiller)Calificaciones y ( Licenciatura) x2Xy y2

1

2

3

4

5

6

7

8

9

10Jaime

Eduardo

Carolina

Marcia

Pedro

Jos

Lina

Susana

Luca

Jenny80

82

84

85

87

88

88

89

90

9110

10

21

14

21

17

20

35

31

246400

6724

7056

7225

7569

7744

7744

7921

8100

8281800

820

1764

1190

1827

1496

1760

3115

2790

2184100

100

441

196

441

289

400

1225

961

576

( 864 193 74764 16846 4209 Reemplazando en la frmula de la correlacin:

r = 10 ( 16846) ( 864 )( 193 ) = 0.726

( 10 ( 74764) ( 864 )2( (10 ( 4209 ) ( 193 )2(De acuerdo con sus valores asignados, la correlacin entre el puntaje obtenido por los estudiantes en las pruebas de bachillerato y licenciatura respectivamente es muy alta y positiva. EJEMPLO 2. Suponga que queremos determinar con base en los datos siguientes si hay una relacin entre el tiempo, en minutos, que tarda una secretaria en llenar cierto formulario en la maana y al final de la tarde

Maana

xTarde

Y

8.2

9.6

7.0

9.4

10.9

7.1

9.0

6.6

8.4

10.5 8.7

9.6

6.9

8.5

11.3

7.6

9.2

6.3

8.4

12.3

Calcule e interprete el coeficiente de correlacin

SolucinDe los datos obtenemos n = 10, x = 86.7, x2= 771.35, y = 88.8, y2=819.34, xy = 792.92, de donde

Luego Esto es un indicativo de una asociacin positiva entre el tiempo que le toma a una secretaria ejecutar la tarea dada en la maana y al final de la tarde.

Ahora vamos a probar hiptesis de correlacin, es decir , contra la alternativa apropiada.Utilizando los datos del ejemplo 2, probaremos la hiptesis nula contra la hiptesis alterna en el nivel 0.01 de significacin.Solucin

1. 2. Rechace la hiptesis nula si z -2.575 o z 2.575, donde z =

3. Al sustituir n = 10 y r = 0.936, obtenemos

4. Puesto que z = 4.5 excede a 2.575, debemos rechazar la hiptesis nula; concluimos que hay una relacin lineal entre el tiempo que tarda una secretaria en llenar el formulario en la maana y al final de la tarde.EJEERCICIO

1. Los datos siguientes corresponden a x, la cantidad de fertilizante ( en libras) que un agricultor aplica a su suelo, e y, es su rendimiento de trigo (en bshels por acre):

XY

112

92

72

66

112

88

42

126

72

52

2833

28

38

17

35

31

8

37

32

20

17

Calcule r para esos datos y pruebe la hiptesis nula en el nivel 0.05 de significancia4.3 COVARIANZA

Se llama covarianza de una variable bidimensional (X,Y) a la media aritmtica de los productos de las desviaciones de cada una de las variables respecto a sus medias. Su ecuacin:

Sxy = _______________ = __________ -

n n

Ejemplo 1.

Calcular la covarianza de la tabla que nos da las claificaciones de 12 alumnos en las asignaturas de Matemtica y FsicaMatemticaFsica

2

3

4

4

5

6

6

7

7

6

10

101

3

2

4

4

4

6

4

6

7

9

10

Solucin. Calculamos en una columna a la derecha los valores que necesitamos para poder sustituirlos en la ecuacin de la covarianza. Estos valores los obtenemos multiplicando 2x1, 3x 3, 4 x 2, , 10 x 10 y luego sumamos.XiYixi. yi

2

3

4

4

5

6

6

7

7

8

10

101

3

2

4

4

4

6

4

6

7

9

102

9

8

16

20

24

36

28

42

56

90

100

7260431

Calculando la media aritmtica de cada variable:

= 72 = 6 ; = 60 = 5

12 12

Reemplazando en la ecuacin de la covarianza, se tiene:

Sxy = 431 - (6)(5) = 5.92

12

EJERCICIO1. Tomando los datos del ejemplo 2 de esta seccin, halle la covarianza.LECCIN N 05ANLISIS DE LAS SERIES DE TIEMPOEn la leccin sobre correlacin se hizo notar que las muestras tomadas en el tiempo no se comportan, a menudo, como muestras aleatorias y que, por lo tanto, las tcnicas estadsticas estndar son inaplicables ah. Esta carencia es caracterstica en ciertos conjuntos de datos: precio de acciones, costo de vida, consumo de tabaco, matrcula de alumnos, pacientes atendidos, etc. En esta leccin se consideran los mtodos para el tratamiento de datos de este tipo.

5.1 SERIES DE TIEMPOSe denomina serie de tiempo a un conjunto de observaciones obtenidas durante un periodo de tiempo. Los economistas, en especial, se han dedicado al estudio de estas series dado que muchos de los problemas de inters para la economa las implican; tambin han sido investigadas en las ciencias fsicas en relacin con fenmenos peridicos de diversos tipos. De igual modo los educadores cuando tratan de predecir su matrcula con fines de una adecuada planificacin.

El objeto de analizar tales datos es determinar si se presentan ciertos patrones o pauta no aleatorizadas. Algunas veces se trata de descubrir patrones no aleatorios que se puedan utilizar para predecir el futuro. Por ejemplo, los pronsticos de venta es un caso en el que se analizan los datos del pasado, con la esperanza de encontrar algo que sea til para predecir la demanda futura.

5.2 COMPONENTES DE LA SERIE CRONOLGICA

Las variaciones o movimientos caractersticos de una serie cronolgica, en un enfoque univariado puede dividirse en cuatro componentes diferenciados:

a) Tendencia o Movimiento Secular (T). Se refiere a la direccin general que sigue una serie cronolgica; expresa un movimiento uniforme o regular que sigue la serie durante un largo periodo de tiempo y puede ser ascendente o descendente.

b) Variaciones Estacionales (E). Son movimientos o fluctuaciones que se repiten a intervalos regulares durante subperiodos de tiempo especificado. Pueden ser fluctuaciones peridicas que se presentan trimestralmente, mensual, etc.

c) Variaciones Cclicas (C). Son fluctuaciones que se presentan alrededor de la tendencia n forma ms o menos regular cada cierto periodo de tiempo en un largo plazo.

d) Variaciones Irregulares (I). Son fluctuacions que se presentan en forma espordica de un periodo a otro, son variaciones accidentales que no se pueden determinar en trminos e tendencia, variaciones estacionales o cclicas. Pueden ser de dos tipos:

Variaciones causadas por sequas, guerras, terremotos, huelgas, etc.

Variaciones aleatorias cuyas causas no pueden definirse, son simplemente factores no conocidos.5.3 ANLISIS DE UNA SERIE CRONOLGICA.

El anlisis de una serie cronolgica consiste en la descripcin, generalmente matemtica, del comportamiento de sus componentes. Muchas series frecuentemente presentan una tendencia fcil de definir, alrededor de la cual se puede explicar los dems componentes. Por ejemplo, la variacin de los precios tiene una tendencia ascendente; la temperatura es estacional; la poblacin es creciente; etc.

El modelo puede ser aditivo o multiplicativo que se representa de la siguiente manera:

Y = T + E + C + I

Y = T x E x C x I

5.4 ESTUDIO DE LA TENDENCIA.

La curva de la tendencia de una serie cronolgica muestra la evolucin general de la serie y pude tomar diferentes formas tales como rectilnea, parablica, exponencial, etc. Existen varios mtodos para lograr la estimacin de la tendencia, entre los ms utilizados se encuentran:

Mtodo de la mano alzada;

Mtodo de los semi-promedios;

Mtodo de las medias mviles;

Mtodo de los mnimos cuadrados.

Por razones de enseanza aprendizaje, nosotros vamos a desarrollar el mtodo de los mnimos cuadrados.

5.5 MTODO DE LOS MNIMOS CUADRADOS.

Cuando hemos estudiado el anlisis de regresin, se plante que para obtener las estimaciones mnimo-cuadrticas se tena que resolver el sistema de ecuaciones normales dada por:

y = na + b x

xy = a x + b x2Considerando que la recta de tendencia est en funcin del tiempo, reemplazaremos la x por t y tendremos:

La solucin para encontrar a y b en las series de tiempo se simplifican considerando el punto medio de la serie como origen (codificacin del tiempo), ya que de esta manera se tiene x = 0, en consecuencia las ecuaciones normales se convierten en:

y = na

xy = b x2 De donde se obtiene: a = y =

n

b= xy x2Entonces la ecuacin de la lnea de tendencia es = + xy (x) x25.6 ELECCIN DEL ORIGEN O CODIFICACIN DEL TIEMPO

Cuando se tiene series cronolgicas con datos, impar, de periodos, se elige el origen en la mitad del periodo medio. As, si la serie tiene 7 aos consecutivos, de 1996 a 2002, el origen se toma al final de junio de 1999 o a principios de julio, es decir:

Aos1996 1997 1998 1999 2000 2001 2002

X -3 -2 -1 0 1 2 3

Cuando se tiene series cronolgicas con datos, par, de periodos, se elige el origen entre los dos periodos medios. Se considera la unidad de tiempo como seis meses, entonces, cada ao tiene dos unidades de tiempo. As, si la serie tiene 6 aos consecutivos, de 1997 a 2002, el origen se toma entre 1999 y 2000, es decir:

Aos1997 1998 1999 2000 2001 2002

X -5 -3 -1 1 3 5

Ejemplo. Los siguientes datos representan los registros de la matrcula en las Facultades de Educacin de las universidades peruanas (en miles de personas).

Aos1999 2000 2001 2002 2003

Matrcula 2.5 2.8 2.4 1.9 2.1

Hallar la ecuacin lineal de estimacin que describe la tendencia de la matrcula y luego predecirla para l ao 2006.

Proceso:

1. Construimos la tabla asignando los cdigos del tiempo, teniendo en cuenta que es un nmero impar de aos.

Aos X x2Matrcula (y)xy

1999

2000

2001

2002

2003-2

-1

0

1

24

1

0

1

42.5

2.8

2.4

1.9

2.1-5

-2.8

0

1.9

4.2

0 1013.7-1.7

2. Reemplazando los valores obtenidos (sumatoria) en la ecuacin de la lnea de tendencia, se tiene:

= + xy (x) = 13.7 + -1.7 x = 2.74 0.17x

x2 5 10

3. Para hallar el nmero de matriculados en el ao 2006, se asigna el cdigo de tiempo que sigue, as:

2004 = 3

2005 = 4

2006 = 5

Este valor reemplazamos en la ecuacin obtenida:

= 2.74 0.17x = 2.74 (0.17)(5) = 1.89Interpretacin: En el ao 2006 se matricularan en total, aproximadamente 1890 alumnos en las Facultades de Educacin.

Ejemplo. Una constructora en 4 aos ha terminado reconstruir la siguiente cantidad de casas

Aos 2000 2001 2002 2003

Casas construidas 12 11 17 20

Predecir el nmero de casas que terminar de construir el ao 2005.

Proceso:

1. Construimos la tabla asignando los cdigos del tiempo, teniendo en cuenta que es un nmero par de aos.

Aos X x2Matrcula (y)Xy

2000

2001

2002

2003-3

-1

1

3 9

1

1

912

11

17

20-36

-11

17

60

0 2060 30

2. Reemplazando los valores obtenidos (sumatoria) en la ecuacin de la lnea de tendencia, se tiene:

= + xy (x) = 60 + 30 x = 15 + 1.5x

x2 4 20

3. Para hallar el nmero de casas que se construir en el ao 200, se asigna el cdigo de tiempo que sigue, as:

2003 = 3

2004 = 5

2005 = 7

Este valor reemplazamos en la ecuacin obtenida:

= 15 + 1.5x = 15 + (1.5)(7) = 25.5 = 26

Interpretacin: En el ao 2005 se construirn en total, aproximadamente 26 casas.

EJERCICIOS PROPUESTOS

1. Nos interesa conocer en un grupo de 12 personas la relacin entre el inters por los acontecimientos polticos y sociales del pas y la lucha verdadera frente a tales acontecimientos. Se aplican dos tipos de escalas ordinales. Hallar el coeficiente regresin.

Persona A B C D E F G H I J K L

Inters 2 6 5 1 10 9 8 3 4 12 7 11

Lucha 3 4 2 1 8 11 10 6 7 12 5 9

2. Los gastos de una dependencia pblica ( en miles de soles ) son:

En. Feb Mar Abr May Jun Jul

75 79 74 81 77 82 80

Cul ser el gasto de dicha dependencia en el mes de noviembre?3. Se sabe que las producciones de algodn de un pas, expresadas en millones de toneladas, fueron: Aos 1989 90 91 92 93 94 95 96 97

Produccin 8 10 12 15 15 18 19 23 30 La produccin de algodn en el ao 2000 ser?

4. En un estudio sobre la relacin entre la satisfaccin en el trabajo y las aptitudes, los investigadores recolectaron datos con diez profesionales, se tiene los siguientes puntajes:

Puntaje satisfac. 58 54 67 64 66 73 70 85 74 85

Puntaje aptitud 50 55 60 65 70 75 80 85 90 95

Qu puntaje de satisfaccin corresponde a 93 de aptitud?5. La tabla muestra el nmero de horas por semana que gastaron diez universitarios estudiando y su promedio de puntaje de notas acumulativas.

Promedio notas 2.1 2.7 2.6 2.5 3.5 3.0 3.5 3.7 2.9

Horas de estudio 5 6 7 8 9 10 11 12 13 Cul ser el promedio de notas para 16 horas de estudio?6. Un botnico seleccion al azar 10 plantas de una especie que crece en determinada rea geogrfica. El investigador tom la hoja basal ms grande de cada planta y la midi; los resultados se da en milmetros.

Anchura 5 15 15 30 35 35 40 45 55 60

Longitud 50 60 65 70 75 80 85 85 90 95

Calcular la ecuacin de regresin y de correlacin.

7. Se sabe que la produccin de algodn de un pas, expresadas en millones de toneladas, fueron:

Aos 1995 1996 1997 1998 1999 2000 2001 2002

Produccin 8 10 12 15 15 18 19 23

a) Represente la tendencia por una recta ajustada por mnimos cuadrados

b) Estime la produccin para el ao 2005.

8. El auditor del sistema educativo pblico ha estudiado los registros del inventario para averiguar si el inventario actual de libros de texto es tpico. Las siguientes existencias corresponden a los 5 aos precedentes.

Ao 1999 2000 2001 2002 2003

Inventario ($1000) 4620 4910 5490 5730 5990

a) Estime por el auditor, el valor del inventario en el ao 2006.RESUMEN DE LA UNIDADLa regresin y la correlacin son tcnicas que se encargan de estimar las relaciones existentes entre dos o ms variables. La correlacin resume la fuerza de la relacin, mientras que la regresin roporciona una ecuacin matemtica de la misma. La ecuacin se puede utilizar para predecir valores de una variable dados los valores de la otra.

Las ecuaciones de regresin lineal tiene la forma y = a + bx, en la cual y es la variable dependiente o predicha, x es la variable independiente o predoctora, a y b son respectivamente la ordenada en el origen y la pendiente de la recta. La tcnica que es ms usual para determinar la ecuacin de regresin es la de mnimos cuadrados.

Los datos de series cronolgicas constan de observaciones realizadas acerca de un periodo determinado. El objetivo de analizar estos datos es determinar si es posible identificar atrones histricos los cuales pueden ser tiles para explicar sucesos pasados o para predecir acontecimientos futuros.EXPLORACION ON LINE

1. Elementos bsicos de estadstica Mdulo 12: Regresin lineal y correlacin Anlisis de correlacin Coeficiente de correlacin, r ... Mdulo 13: Anlisis de regresin y correlacin mltiples ...www.cyta.com.ar/biblioteca/ bddoc/bdlibros/guia_estadistica/index.htm2. Dpto de Biologa. Prog. Mtodos EstadsticosIntroduccin al anlisis de regresin y correlacin. La Asociacin entre variables. Comparacin entre el anlisis de correlacin y el anlisis de regresin. ...www.ciens.ula.ve/Biologia/programas/METODEST.htm 3. Algunos mtodos simples para la evaluacin de recursos pesqueros Este captulo pretende revisar brevemente dos tcnicas estadsticas de gran importancia - anlisis de regresin y de correlacin - as como indicar algunos ...www.fao.org/DOCREP/003/X6845S/X6845S02.htm4. Anlisis de regresin

Anlisis de regresin y correlacin ... Anlisis de correlacin. Estimacin del coeficiente de correlacin. El estudio del grado de relacin lineal entre ...fluidos.eia.edu.co/lhidraulica/regresion/regresion.html

LECTURA

Simon Denis Poisson

Naci: 21 de Junio 1781 en Pithiviers, Francia

Falleci: 25 Abril 1840 en Sceaux (cercano a Paris), Francia

El trabajo ms importante de Poisson fue una serie de escritos de las Integrales Definidas y sus avances en las series de Fourier. Sus profesores Laplace y Lagrange llegaron a ser sus amigos de toda la vida. Escribi una memoria de diferencias finitas cuando tena slo 18 aos, esto atrajo la atencin de Legendre.

Poisson enseaba en la escuela politcnica desde el ao 1802 hasta 1808 cuando lleg a ser un astrnomo de Bureau des Longitudes. En 1809 fue nominado como profesor de matemticas puras en la nuevamente abierta facultad de ciencias.

Su trabajo ms importante fue una serie de escritos de integrales definidas y sus avances en las series de Fourier. Este trabajo fue la fundacin del trabajo que prosigui en esta rea Dirichlet y Riemann.

En Recherchs sur la probabilit des jugements...., un trabajo importante en probabilidad publicado en el ao 1837, la distribucin de Poisson recin apareca. La distribucin de Poisson describe la probabilidad como un acontecimiento fortuito ocurrido en un tiempo o intervalo de espacio bajo las condiciones que la probabilidad de un acontecimiento ocurre es muy pequea, pero el nmero de intentos es muy grande, entonces el evento actual ocurre algunas veces.

Public entre 300 y 400 trabajos matemticos incluyendo aplicaciones a la electricidad y el magnetismo y la astronoma. Su libro Tratados de mecnica publicado el 1811 y luego el 1833 fue un trabajo estndar de mecnica por muchos aos.

Su nombre es asociado a un rea extensa de ideas, por ejemplo: Integral de Poisson, Teora de ecuaciones de potencia de Poisson, Avances de Poisson en ecuaciones diferenciales, La razn de la probabilidad de Poisson y La constante en electricidad de Poisson.ACTIVIDADES DE AUTOAPRENDIZAJEPara cada una de las situaciones dadas a continuacin, establezca si el anlisis de correlacin o el anlisis de regresin seran ms apropiados y explique por qu:

1. Un equipo de investigadores quiere determinar si las calificaciones en la universidad son indicadores de xito en un cierto campo.

2. Estime el nmero de kilmetros que recorren un conjunto de llantas radiales antes de que sea ncesario sustituirlas.

3. Prediga cunto demorar una persona en terminar un trabajo con base en el nmero de semanas de entrenamiento.

4. Determine si el nmero de semanas que se pasaron en un curso de adiestramiento, es uan variable importante en el tiempo que toma realizar un trabajo.

5. El administrador de una tienda quiere estimar las ventas semanales, basndose en las ventas de martes y mircoles. AUTO EVALUACIN DE LA PRIMERA UNIDAD

INDICACIONES

Lea con cuidado cada una de las preguntas

Interprete, analice y escoja la estrategia que debe usar para llegar a la solucin

Resuelva y marque la respuesta

Verifique su respuesta con el solucionario adjunto al final de la prueba

CONCEPTUAL

1. Relacionar los enunciados de la derecha con los de la izquierda, colocando los nmeros que le corresponden.

1. Regresin simple ( ) Tendencia

2. Expresa un movimientouniforme ( ) Suposicin en la que puede ser ascendente o descendente regresin lineal simple.

3. Las sub poblaciones de valores Y tienen ( ) Anlisis bidimensional

todas, la misma varianza ( ) Anlisis descriptivo

a) 123 b) 321 c) 213 d) 231 e) 312

2. Colocar verdadero ( V ) o falso (F) en cada uno de los siguientes enunciados:

( ) La curva de la tendencia de una serie cronolgica puede tomar diferentes formas tales como rectilnea, parablica, exponencial.

( ) Cuando se tiene series cronolgicas con datos par de periodos, se elige el origen entre los dos periodos medios.

( ) Se denomina serie de tiempo a un conjunto de observaciones obtenidas durante un periodo de tiempo.

a) FFV b) VVV c) FFF d) VVF e) VFV

3. Colocar verdadero ( V ) o falso (F) en cada uno de los siguientes enunciados:

( ) La estimacin puntual de ( es r

( ) En el modelo de correlacin Las sub poblaciones de valores Y tienen todas la misma varianza.

( ) En la regresin lineal simple se supone que la variable X se mide con error.

a) FFF b) VVV c) FFV d) VVF e) VFV

PROCEDIMIENTAL

4. Se est estudiando la relacin existente entre los aos de estudios realizados por los padres y los estudios realizados por los hijos. Para ello se toma una muestra de 7 personas y se obtiene los siguientes resultados

Padres (X) 12 10 6 16 8 9 12Hijos (Y) 12 8 6 11 10 8 11

Calcular los coeficientes de la recta de regresin ( b y a, en ese orden)

a) 0.498; 4.238 b) 0.50; 4.50 c) 0.45; 4.30 d) 0.40; 4.35 e) n.a

5. Tomando como dato el ejercicio anterior (N 4) y sus resultados, indicar cunto cambia Y al variar X en una unidad.

a) 0.45 unid. b) 0.40 unid. c) 0.49 unid. d) 0.50 unid. e) n,a

6. Sean los datos del ejercicio N 4. Qu aos de estudio le corresponde a un hijo cuyo padre tiene 20 aos de estudio?

a) 15 aos b) 13 aos c) 16.5 aos d) 14.12 aos e) n.a

7. Mediante la siguiente ecuacin de tendencia lineal, estime el rendimiento de la inversin para el 2005, tomando como ao de inicio o base 1999.

Y = 0.15 + 0.01 t

Donde Y= rendimiento sobre inversin en el ao t

t = ao (1999 = 0)

a) 0.21 b) 0.25 c) 0.28 d) 0.24 e) n.a

8. Un bufete de ingenieros consultores ha establecido la siguiente relacin respecto al rendimiento por galn de automviles de seis cilindros, cuyo peso vara de 1500 a 3000 libras ( peso del conductor, 150 libras o sea 75 kg).

Y = 30 0.002x

En la que Y = rendimiento en millas por galn (mpg) x = peso del vehculo

Estime el consumo de gasolina x milla para un automvil que pesa 2000 lb.

a) 26 mpg b) 28 mpg c) 30 mpg d) 24 mpg e) n.a

9. Emplee los siguientes valores de resumen para determinar la ecuacin de regresin:

x = 200, y = 300, xy = 6200, x2 = 3600, n = 20

a) y = 5 2x

b) y = -5 + 2x

c) y = 6 + 3x

d) y = - 6 + 3x

e) n.a

10. Para los siguientes datos de estaturas (x) y pesos (y) de 12 estudiantes, calcular el valor de r.

X 65 73 70 68 66 69 75 70 64 72 65 71Y 124 184 161 164 140 154 210 164 126 172 133 150

a) 0.930 b) 0.940 c) 0.932 d) 0.934 e) n.a

ANLISIS DESCRIPTIVO

Anlisis bidimensional

Anlisis unidimensional

Anlisis de correlacin

Anlisis de series temporales

Anlisis de regresin

Describir la relacin entre variables

Analizar el grado de relacin entre variables

Hacer pronsticos

La correlacin mide la fuerza de una relacin entre variables; la regresin da lugar a una ecuacin que describe dicha relacin en trminos matemticos.

El valor de b puede ser positivo o negativo, en el primer caso se dice que au m menta la variable dependiente y en el segundo caso que disminuye.

El valor de a tambin puede ser positivo o negativo

+- 1 Correlacin perfecta (positiva o negativa)

De +- 0.90 a +- 0.99 Correlacin muy alta (positiva o negativa)

De +- 0.70 a +- 0.89 Correlacin alta (positiva o negativa)

De +- 0.40 a +- 0.69 Correlacin moderada (positiva o negativa)

De +- 0.20 a +- 0.39 Correlacin baja ( positiva o negativa)

De +- 0.01 a +- 0.19 Correlacin muy baja ( positiva o negativa)

0 Correlacin nula

CLAVE DE RESPUESTAS

1b 2b 3d 4a 5c 6d 7a 8a 9b 10d

_1314517229.unknown

_1314517233.unknown

_1314517238.unknown

_1314517240.unknown

_1314517242.unknown

_1314517244.unknown

_1314517245.unknown

_1314517243.unknown

_1314517241.unknown

_1314517239.unknown

_1314517236.unknown

_1314517237.unknown

_1314517234.unknown

_1314517231.unknown

_1314517232.unknown

_1314517230.unknown

_1314517225.unknown

_1314517227.unknown

_1314517228.unknown

_1314517226.unknown

_1314517223.unknown

_1314517224.unknown

_1314517222.unknown