Regresión y correlación

26
ESTADÍSTICA I Análisis de Regresión y Correlación Ms. Ylder Helí Vargas Alva

Transcript of Regresión y correlación

ESTADÍSTICA I

Análisis de Regresión y Correlación

Ms. Ylder Helí Vargas Alva

Análisis de correlación

• El análisis de correlación es un grupo de

técnicas estadísticas usadas para medir la

fuerza de la asociación entre dos variables.

• Un diagrama de dispersión es una gráfica que

representa la relación entre dos variables.

• La variable dependiente es la variable que se

predice o calcula.

• La variable independiente proporciona las

bases para el cálculo. Es la variable de

predicción.

El coeficiente de correlación, r

El coeficiente de correlación (r) es una medida de la

intensidad de la relación lineal entre dos variables.

.

El coeficiente de correlación, r

El valor del índice de correlación varía en el intervalo [-1,1]:

• Si r = 1, existe una correlación positiva perfecta. El índice indica

una dependencia total entre las dos variables denominada

relación directa: cuando una de ellas aumenta, la otra también lo

hace en proporción constante.

• Si 0 <r< 1, existe una correlación positiva.

• Si r = 0, no existe relación lineal. Pero esto no necesariamente

implica que las variables son independientes: pueden existir

todavía relaciones no lineales entre las dos variables.

• Si -1 <r< 0, existe una correlación negativa.

• Si r = -1, existe una correlación negativa perfecta. El índice indica

una dependencia total entre las dos variables llamada relación

inversa: cuando una de ellas aumenta, la otra disminuye en

proporción constante.

Correlación negativa perfecta: r=-1

10

9

8

7

6

5

4

3

2

1

0

0 1 2 3 4 5 6 7 8 9 10

X

Y

Correlación positiva perfecta: r = 1

10

9

8

7

6

5

4

3

2

1

0

0 1 2 3 4 5 6 7 8 9 10

X

Y

Correlación cero: r = 0

10

9

8

7

6

5

4

3

2

1

0

0 1 2 3 4 5 6 7 8 9 10

Y

X

Correlación positiva : 0 < r < 1

Y

X

10

9

8

7

6

5

4

3

2

1

0

0 1 2 3 4 5 6 7 8 9 10

Correlación negativa : -1 < r < 0

Y

X

10

9

8

7

6

5

4

3

2

1

0

0 1 2 3 4 5 6 7 8 9 10

Aplicación

Relación complemento nutricional y

aumento de peso

0

5

10

15

20

0.0 2.0 4.0 6.0

Complemento nutricional (Kg)

Au

men

to d

e p

eso

(Kg

)

Ejemplo 1

• Juan Escobedo, encargado de la Biblioteca de

la UCT es el encargado de estudiar el costo de

los libros de texto. Él cree que hay una relación

entre el número de páginas en el texto y el

precio de venta del libro. Para proporcionar una

prueba, selecciona una muestra de ocho libros

de texto actualmente en venta en la Librería

“Buen Libro”. Dibuje un diagrama de dispersión.

Compruebe el coeficiente de correlación.

Ejemplo 1

Libro Páginas Precio ($)

• Intr. a la Historia 500 84

• Álgebra 700 75

• Intr.a la Psicología 800 99

• Intr. a la Sociología 600 72

• Mercadotecnia 400 69

• Intr. a la Biología 500 81

• Metod. de la Inv. 600 63

• Intr.a la Enfermería 800 93

Ejemplo 1

400 500 600 700 800

60

70

80

90

100

Page

Scatter Diagram of Number of Pages and Selling Price of Text

Price ($)

Páginas

Ejemplo 1

Libro Páginas Precio ($)

X Y XY X2 Y2

Intr. a la Historia 500 84 42,000 250,000 7,056

Álgebra 700 75 52,500 490,000 5,625

Intr. a la Psicología 800 99 79,200 640,000 9,801

Intr. a la Sociología 600 72 43,200 360,000 5,184

Mercadotecnia 400 69 27,600 160,000 4,761

Intr. a la Biología 500 81 40,500 250,000 6,561

Fund. de Jazz 600 63 37,800 360,000 3,969

Intr. a la Enfermería 800 93 74,400 640,000 8,649

Total 4,900 636 397,200 3,150,000 51,606

Ejemplo 1

614.0

)636()606,51(8)900,4(000,150,3(8

)636)(900,4()200,397(8

)()(

))(()(

22

2222

YYnXXn

YXXYnr

La correlación entre el número de páginas y el

precio de venta del libro es 0.614. Esto indica una

asociación moderada entre las variables

(correlación positiva).

Análisis de regresión

• En análisis de regresión utilizamos la variable

independiente (X) para estimar la variable

dependiente (Y).

Objetivo: determinar la ecuación de regresión

para predecir los valores de la variable

dependiente (Y) en base a la o las variables

independientes (X).

Procedimiento: seleccionar una muestra a partir

de la población, listar pares de datos para cada

observación; dibujar un diagrama de puntos para

dar una imagen visual de la relación; determinar

la ecuación de regresión.

Estimación de la ecuación de Regresión Lineal Simple

Y= a + bX, donde: “Y” es el valor estimado para valores distintos “X”.

“a” es la intersección o el valor estimado de “Y” cuando

“X=0”

“b” es la pendiente de la línea, o el cambio promedio de “Y”

para cada cambio en una unidad de “X”

el principio de mínimos cuadrados es usado para obtener “a”

y “b”:

2

11

2

111

n

i

i

n

i

i

n

i

i

n

i

i

n

i

ii

xxn

yxyxn

b

n

x

bn

y

a

n

i

i

n

i

i 11

Ejemplo 2

• Desarrolle una ecuación de regresión para la

información dada en el Ejemplo 1 que se puede

utilizar para estimar el precio de venta basado

en el número de páginas.

05143.)900,4()000,150,3(8

)636)(900,4()200,397(82

b

0.488

900,405143.0

8

636a

Ejemplo 2

La ecuación de regresión es:

Y = 48.0 + .05143X

• La ecuación cruza al eje Y en $48. Un libro sin las

páginas costaría $48.

• La pendiente de la línea es .05143. El costo de

cada página adicional es de cinco céntimos.

• El signo del valor de b y el signo del valor de r

serán siempre iguales.

Ejemplo 2

Podemos utilizar la ecuación de regresión para

estimar valores de Y.

• El precio de venta estimado de un libro de 800

páginas es $89.14, encontrado por

14.89)800(05143.00.48

05143.00.48

XY

Ejemplo 3

Problema 1: Se cuenta con las mediciones sobre la edad y la

talla de 14 niños, y estamos interesados en determinar si

existe algún tipo de relación entre la talla del niño y su edad.niño edad (meses) talla (cm)

i xi yi

1 3 55

2 6 68

3 5 64

4 5 66

5 3 62

6 4 65

7 9 74

8 8 75

9 9 73

10 7 69

11 6 73

12 5 68

13 8 73

14 6 71

r=0.88

Modelo Estimado bxay ˆ

44,2b 64,53a

xy 44,264,53ˆ

Interpretación de los resultados

- Existe asociación o dependencia entre la Talla del

niño y la edad (r=0,88); a medida que la edad

aumenta la talla aumenta.

- Desde los resultados del modelo de regresión lineal

simple, se tiene que la talla media de un niño es de

53,64 cm. Cuando la edad del niño (meses) aumenta

en una unidad la talla se incrementa en 2,44 cm.

Ejemplo 4

X 189 190 208 227 239 252 257 274 293 308 316

Y 402 404 412 425 429 436 440 447 458 469 469

Una compañía desea hacer predicciones del valor anual de sus ventas

totales en cierto país a partir de la relación de éstas y la renta nacional.

Para investigar la relación cuenta con los siguientes datos:

X representa la renta nacional en millones de Nuevos Soles e Y

representa las ventas de la compañía en miles de Nuevos Soles en el

periodo que va desde 2000 hasta 2010 (ambos inclusive). Calcular:

a) La recta de regresión de Y sobre X.

b) El coeficiente de correlación lineal e interpretarlo.

c) Si en 2012 la renta nacional del país fue de 325 millones de Nuevos

Soles. ¿Cuál será la predicción para las ventas de la compañía en

este año?

Ejemplo 5

Ejemplo 6

En un depósito cilíndrico, la altura del agua que contiene varia

conforme pasa el tiempo según esta tabla:

a. Halla el coeficiente de correlación lineal entre el tiempo y la

altura e interprétalo.

b. ¿Cual será la altura del agua cuando hayan transcurrido 40

horas?

c. Cuando la altura del agua es de 2m, suena una alarma

¿Qué tiempo ha de pasar para que avise la alarma?

Aplicación

Los datos siguientes muestran las cantidades consumidas

de complemento nutricional (en Kg.) y el aumento de peso

de niños con signos de desnutrición.

PACIENTE 1 2 3 4 5 6 7 8 9 10

COMPLEMENTO1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5

EN Kg: X

AUMENTO DE8 10 9 12 14 13 15 17 14 14

PESO : Y

Presente la información en un diagrama de dispersión.

Desarrolle una ecuación de regresión