Teoria Ultima Clase (1)

34
0 50 100 150 200 250 300 350 0 5 10 15 20 25 MSC. DAPHNE TIMANÁ PALACIOS REGRESIÓN f(x)=ax+b R 2 =0.99 X Y

description

j

Transcript of Teoria Ultima Clase (1)

  • 050

    100

    150

    200

    250

    300

    350

    0 5 10 15 20 25

    MSC. DAPHNE TIMAN PALACIOS

    REGRESIN

    f(x)=ax+b

    R2=0.99

    X Y

  • En la prctica a menudo de requiere resolver problemas que implicanconjuntos de variables de las cuales se sabe que tienen alguna relacininherente entre s. Por ejemplo cuando se estudian varios automviles con unmismo motor del mismo volumen, no todos tienen el mismo rendimiento decombustible. No todas las casas ubicadas en la misma zona del pas, con lamisma superficie de construccin, se venden la mismo precio.

    El rendimiento del combustible (en millas por galn) y el precio de las casas(en miles de dlares) son variables dependientes o respuestas de los dosescenarios. El volumen del motor (pies cbicos) y los metros cuadrados desuperficie de construccin son, respectivamente, variables independientes oregresores. Una forma razonable de relacin entre la respuesta Y y el regresorX es la relacin lineal.

    = 0 + 1

    En la que, por supuesto, 0 es la interseccin y 1 es la pendiente

  • x x+1

    1

  • REGRESINEs una forma de estudiar la asociacin o relacin, entre una variable dependiente (Y) y la variable que es la base de

    la prediccin a la que se le denomina variable

    independiente (X)

    El propsito del anlisis de regresin es usar los datos o

    valores observados de las variables, para realizar

    estimaciones, en base a una relacin funcional.

    X

    Y

  • Xy=f(x)y=f(X1,X2)

    X1

    X2

    Regresin Simple, cuando en el

    anlisis de regresin, se utiliza slo

    una variable independiente.

    Regresin Mltiple. cuando se considera

    dos o ms variables independientes .

    Donde:

    y ... es la variable dependiente, x, x1, x2, . . . , xk, .son variables independientes.

    Tambin se clasifica en lineal y no lineal, segn el comportamiento de las

    variables.

  • Qu vamos a estudiar

    En esta unidad estudiaremos la Regresin Lineal simple, es decir, vamos a tratar diferentes formas de describir la relacin entre dos variables cuando estas son numricas.Ejemplo:

    Estudiar si hay relacinentre la altura (X ) y el peso (Y ).

    El tiempo de estudio dedicado a un curso (X) , esta relacionadocon la calificacin obtenida (Y)

    X

    y=f(x)

  • XY

    MODELO DE REGRESIN LINEAL SIMPLE

    Se busca encontrar una funcin de X muy simple (lineal) que nos permita aproximar Y mediante la siguiente formula:

    = 0 + 1 X

    b0 (ordenada en el origen, constante)b1 (pendiente de la recta)e error aleatorio (efecto dentro de variable)

    Y e rara vez coincidirnpor muy bueno que sea elmodelo de regresin. A lacantidad e = Y- se ledenomina residuo o errorresidual.

    Esta

    determinado

    por 2

    variables:

    Y

  • Qu hacer para realizar una regresin

    El paso inicial que generalmente se realiza, es la construccin del Diagrama De Dispersin.

    El 2 paso es, a travs delMtodo de los MnimosCuadrados, estimar losCoeficientes de Regresin ( b0y b1) para establecer la recta deregresin.

    Finalmente, cuando se realiza una prediccin estadstica, siempreser til calcular una medida que indique que tan preciso es elpronstico de Y sobre X. A esta medida se le llama ErrorEstndar de Estimacin.

    Y = b0 + b1 X

    b0 (ordenada en el origen, constante)b1 (pendiente de la recta)

    X

    Y

  • DIAGRAMA DE DISPERSION

    Es la representacin de los puntos o datos de cada una de las variables en el plano cartesiano.

    Es recomendable en todo estudio de regresin pues permite tener una idea, sobre la existencia o no de la regresin.

    30

    40

    50

    60

    70

    80

    90

    100

    140 150 160 170 180 190 200

  • Modelos de Diagrama de Dispersin

  • METODO DE LOS MINIMOS CUADRADOS

    Este mtodo consiste en hallar los valores de b0 Y b1, haciendo mnima la suma de los cuadrados de los errores. Siendo la tarea principal en el anlisis de regresin lineal simple.

    Una vez obtenidos estos valores nos permitir establecer la recta de regresin que mejor se ajuste a los datos o la recta de mnimos cuadrados. Veamos las formulas a aplicar

    Hallaremos la Suma Cruzada de X, Y con la siguiente formula:

    Luego, la Suma de Cuadrados de X de la siguiente manera:n

    YXXYSCxy

    ))((

    n

    XiXSC ix

    2

    2)(

  • Con las formulas anteriores, obtenemos la pendiente de la recta: b1, haciendo la siguiente divisin:

    El siguiente paso es hallar la ordenada en el origen:b0, con la siguiente formula:

    donde:

    Y obtenemos la ecuacin de regresin:

    Y = b0+b1(X)

    ,__

    n

    Yiy

    n

    Xix

    x

    xy

    SC

    SCB 1

    _

    1

    _

    0 xByB

  • EJEMPLO:

    En un estudio de la relacin entre la publicidad por radio y las

    ventas de un producto, durante 10 semanas se han recopilado,

    los tiempos de duracin en minutos de la publicidad por semana

    (X), y el nmero de artculos vendidos (Y).

    Semana 1 2 3 4 5 6 7 8 9 10

    Publicidad enminutos X

    20 30 30 40 50 60 60 60 70 80

    Ventas Y 50 73 69 87 108 128 135 132 148 170

  • Solucin

    Tambin se utilizara los promedios de las variables:

    iX iY iiYX2

    iX2

    iY

    nYYnXX ii /,/

  • Reemplazando en las formula de los coeficientes de regresin, se tiene lo

    siguiente:

    x

    xy

    SC

    SC1b

    __

    0 xbyb

    Por lo tanto la recta de regresin Y = b0+b1(X), estar determinada de la siguiente manera Y = 10+ 2x.

    Interpretacin

    B0: El Nmero real de artculos vendidos es de 10 unidades.

    B1: El nmero promedio de artculos vendidos aumenta en 2 unidades a

    medida que aumenta cada minuto de duracin, de la publicidad en la semana.

    Solucin

  • Error Estndar y Error de Estimacin

    Cuando se realiza una prediccin, es importante determinarel error estndar, el cual se representa por Sy.x y mide ladispersin de los datos observados con respecto a la lneade regresin.

    El error de estimacin,

    que esta representado: e = y y

    74.2210

    )61800(2)1100(10134660.

    2.

    10

    2

    xSy

    n

    xyByByxSy

    Error de prediccin

  • El anlisis de correlacin

    El anlisis de correlacin es la tcnica estadsticaque permite describir el grado hasta el cual unavariable est linealmente relacionada con otra.

    Hay dos medidas que se usan para describir la correlacin

    El coeficiente de correlacin

    El coeficiente de determinacin

  • ))(( SCYSCX

    SCXYr

    EL COEFICIENTE DE CORRELACIN DE PEARSON

    Sus valores oscilan entre -1 y 1

    Cuando r es positivo, indica que X e Yestn directamente relacionados.

    Cuando r es negativo, indica que X e Y estninversamente relacionados

  • Interpretacin del coeficiente de correlacin de Pearson

    -1 0 0,5 0,9 1-0,9 -0,5

    Perfecta

    Negativa

    Perfecta

    Positiva

    FuerteNegativa

    DbilNegativa

    DbilPositiva

    ModeradaPositiva

    FuertePositiva

    ModeradaNegativa

    No existe correlacin

  • El coeficiente r tiene el mismo signo que elcoeficiente b1 en la ecuacin de regresin

    r =

    Coeficiente de determinacin: R^2 = (r^2) =

  • CASO 2 CONTAMINACIN

  • Uno de los problemas ms desafiantes que enfrenta el campodel control de la contaminacin del agua lo representa laindustria de la papelera, ya que sus desechos son qumicamentecomplejos; se caracterizan por valores elevados de la demandade oxgeno qumico, slidos voltiles y otras medidas decontaminacin. Considere los datos experimentales de lasiguiente tabla que se obtuvieron de 33 muestras de desechostratados qumicamente en un estudio realizado en Virginia Tech.Se registraron los valores de la reduccin porcentual de losslidos totales y, el porcentaje de disminucin de la demanda deoxgeno qumico.

  • y = 0.9036x + 3.8296R = 0.9129

    0

    10

    20

    30

    40

    50

    60

    0 10 20 30 40 50 60

    red

    ucc

    in

    de

    la d

    eman

    da

    de

    ox

    gen

    o, Y

    (%

    )

    Reduccin de Slidos, X (%)

    Reduccin de Slidos, X (%) Curva de regresin ajustada

    reduccin de la demanda de oxgeno, Y (%)

    Pronstico reduccin de la demanda de oxgeno, Y (%)

  • Resumen

    Estadsticas de la regresin

    Coeficiente de correlacin mltiple 0.96Coeficiente de determinacin R^2 0.91R^2 ajustado 0.91Error tpico 3.23Observaciones 33

  • Y = 3.8296 + 0.9036 X

    Por cada unidad porcentual de reduccin de slidos, el porcentaje de reduccin de la demanda de oxgeno aumenta

    en 0.9036 (%).

  • R2= 0,9129

    Interpretacin: el 91,3% de las variaciones en

    de la reduccin de la demanda de oxigeno,pueden explicarse por su relacin lineal con lareduccin de slidos.