Escuela Superior Politécnica del Litoral “Impulsando la sociedad del conocimiento” 1 Instituto...
-
Upload
benito-picado -
Category
Documents
-
view
220 -
download
0
Transcript of Escuela Superior Politécnica del Litoral “Impulsando la sociedad del conocimiento” 1 Instituto...
“SOFTWARE ESTADÍSTICO PARA REGRESIÓN.
El caso de regresión Logística y Poisson”
Escuela Superior Politécnica del Litoral“Impulsando la sociedad del conocimiento”
1
Instituto de Ciencias Matemáticas
Guayaquil, Jueves 23 de Febrero 2012
Presentado por:Andrea Elizabeth Fuentes PugllaRaúl Alejandro Pinos LoayzaNathaly Rivera Flores
2
Introducción
Regresión Lineal
Supuestos:
Se concluye:
Andrea Fuentes PugllaRaúl Pinos LoayzaNathaly Rivera
( , )i iY g X β
Guayaquil, Jueves 23 de Febrero 2012
( ) 0 2 =
constante ΕሾYiǀX= xiሿ= 𝒙𝑖′𝜷+ 𝜀𝑖 ;𝑌= 0,1 ,ሺ𝒙𝑖′𝜷ሻ= 𝛽0 + 𝛽1𝑥1 + ⋯+ 𝛽𝑝−1𝑥𝑝−1
0 1 1 2 2 1 1i p p iY X X X
3
Modelo Lineal Generalizado
Andrea Fuentes Puglla Raúl Pinos Loayza Nathaly Rivera
Guayaquil, Jueves 23 de Febrero 2012
4
Modelo Lineal Generalizado
Cuando la ,se recurre al Modelo Lineal Generalizado.
Es una generalización de la Regresión Lineal para poder responder a otros tipos de modelos además de los lineales siempre y cuando la variable a ser explicada forme parte de las familias exponenciales.
Andrea Fuentes Puglla Raúl Pinos Loayza Nathaly Rivera
Guayaquil, Jueves 23 de Febrero 2012
2 No es
constante
1 2,..., 1, PX X X Yi
enlace
5
FAMILIAS EXPONENCIALES
Andrea Fuentes Puglla Raúl Pinos Loayza Nathaly Rivera
Guayaquil, Jueves 23 de Febrero 2012
6
Familias Exponenciales
Es una clase de distribuciones de probabilidad cuya formulación matemática comparten cierta forma:
Andrea Fuentes Puglla Raúl Pinos Loayza Nathaly Rivera
𝒇ሺ𝒙;𝜽ሻ= ℎሺ𝑥ሻ𝑔ሺ𝜃ሻ𝑒[𝜂ሺ𝜃ሻ𝑇(𝑥)]
Guayaquil, Jueves 23 de Febrero 2012
7
Familias Exponenciales
Andrea Fuentes Puglla Raúl Pinos Loayza Nathaly Rivera
Distribución Binomial
Como miembro de la familia exponencial consideremos la variable aleatoria
Bernoulli. Su función de probabilidad es:
𝑝ሺ𝑥;𝜃ሻ= 𝜃𝑥(1− 𝜃) 1−𝑥
= expሼ 𝑥 𝑙𝑜𝑔𝜃+ሺ1− 𝑥ሻlogሺ1− 𝜃ሻሽ = expሼ𝑥 𝑙𝑜𝑔 𝜃+ logሺ1− 𝜃ሻ− 𝑥 𝑙𝑜𝑔(1− 𝜃)ሽ
= expሼlogሺ1− 𝜃ሻ+ 𝑥(𝑙𝑜𝑔𝜃− 𝑙𝑜𝑔ሺ1− 𝜃ሻ)ሽ = expቄlogሺ1− 𝜃ሻ+ 𝑥 log ( 𝜃1−𝜃)ቅ = expቄ𝑥 log ( 𝜃1−𝜃)ቅ ሺ1− 𝜃ሻ ∗1
= 𝑒𝑥𝑝[𝜂ሺ𝜃ሻ𝑇(𝑥)] 𝑔ሺ𝜃ሻℎሺ𝑥ሻ El parámetro natural 𝜂ሺ𝜃ሻ= log ( 𝜃1−𝜃)
Guayaquil, Jueves 23 de Febrero 2012
8
Familias Exponenciales
Andrea Fuentes Puglla Raúl Pinos Loayza Nathaly Rivera
Distribución Poisson
Para la distribución Poisson se hace algo similar al descomponerlo en una familia exponencial, su
función de probabilidad es:
𝑓ሺ𝑥ሻ= 𝑒−𝜆𝜆𝑥𝑥! , 𝜆= 0,1,2,3,…
Para llevar esta expresión a su forma de familia exponencial es cuestión de un poco de algebra:
𝑒−𝜆𝜆𝑥𝑥! = 𝑒𝑥𝑝ቈlogቆ𝑒−𝜆𝜆𝑥𝑥! ቇ = exp ൣ �log൫𝑒−𝜆൯+ logሺ𝜆𝑥ሻ− log (𝑥!)൧
= 𝑒𝑥𝑝ሾ−𝜆+ 𝑥 𝑙𝑜𝑔ሺ𝜆ሻ− log (𝑥!)ሿ = 𝑒𝑥𝑝ሾ−𝜆+ 𝑥 𝑙𝑜𝑔ሺ𝜆ሻ− log (𝑥!)ሿ = 𝑒𝑥𝑝ሾ𝑥 𝑙𝑜𝑔ሺ𝜆ሻሿ 𝑒𝑥𝑝−𝜆 log൬1𝑥!൰
Donde el parámetro natural 𝜂 (𝜆) es igual 𝑙𝑜𝑔ሺ𝜆ሻ
Guayaquil, Jueves 23 de Febrero 2012
9
Regresión Logística
Andrea Fuentes Puglla Raúl Pinos Loayza Nathaly Rivera
Guayaquil, Jueves 23 de Febrero 2012
10
Regresión Logística
Andrea Fuentes PugllaRaúl Pinos Loayza Nathaly Rivera
Regresión Logística permite estimar la relación entre una variable de respuesta binomial (dependiente) y un conjunto de variables independientes (explicativas)ΕሾYiǀX= xiሿ= 𝒙𝑖′𝜷+ 𝜀𝑖 ;𝑌= 0,1 ,ሺ𝒙𝑖′𝜷ሻ= 𝛽0 + 𝛽1𝑥1 + ⋯+ 𝛽𝑝−1𝑥𝑝−1
𝜋ሺ𝒙𝑖ሻ= 𝑃ሺ𝑌= 1ǀ𝑥𝑖ሻ= 𝒙𝑖′𝜷
Guayaquil, Jueves 23 de Febrero 2012
11
Función de respuesta E[Y]
Andrea Fuentes Puglla Raúl Pinos Loayza Nathaly Rivera
La Función de Respuesta E[Y] no es rectilínea cuando la variable a ser explicada es indicadora, si no mas bien sigmoidal, esto hace que se pueda utilizar la Distribución Logística que convierta a la Función de Respuesta E[Y] por lo que utilizaremos la función de enlace de la distribución de Bernoulli, por lo que se obtiene::
Dándose origen de esta forma a la denominada Regresión Logística.
Guayaquil, Jueves 23 de Febrero 2012
12
Estimación de Parámetros
Andrea Fuentes PugllaRaúl Pinos Loayza Nathaly Rivera
. Se recurre al cálculo de la función de verosimilitud.
Por lo que se cumple:
Guayaquil, Jueves 23 de Febrero 2012
∂lnL∂β0 = ∂lnL∂β1 = . . . .= ∂lnL∂βp−1 = 0
Se obtiene:∂lnL∂β = σ (𝑦𝑖 − 𝑛𝑖𝜋𝑖)𝑛𝑖=1 𝑥𝑖
13
Viene… Estimación de Parámetros
Andrea Fuentes Puglla Raúl Pinos Loayza Nathaly Rivera
Como resultado de la primera y segunda derivada de la función de verosimilitud se obtiene las siguientes ecuaciones:
i
= ቐ 𝑒൫𝒙𝑖′ 𝜷൯1+ 𝑒൫𝒙𝑖′ 𝜷൯− 𝑒൫𝒙𝑖′ 𝜷൯1+ 𝑒൫𝒙𝑖′ 𝜷൯൩2ቑ 𝒙𝑖 𝒙′𝑖ሺ𝒀𝑖 − 𝜋𝑖ሻ
𝒙′𝑖 𝑊 𝒙𝑖 𝐺= 𝜋𝑖(1− 𝜋𝑖)𝒙𝑖𝒙′𝑖
Guayaquil, Jueves 23 de Febrero 2012
14
Regresión Poisson
Andrea Fuentes PugllaRaúl Pinos Loayza Nathaly Rivera
Guayaquil, Jueves 23 de Febrero 2012
15
Regresión Poisson
Andrea Fuentes Puglla Raúl Pinos Loayza Nathaly Rivera
Es una técnica estadística en lo que se utiliza un modelo no lineal que pertenece a la categoría del análisis de datos de recuento. En estos casos, la variable dependiente toma más de dos valores discretos: 0, 1 , 2 , 3, . . .
La variable aleatoria sigue una distribución de Poisson, con parámetro que estárelacionada con las variables de explicación X.
Guayaquil, Jueves 23 de Febrero 2012
iy i
𝑦𝑖 = 0,1,2,…= ΕሾYiǀX= xiሿ= 𝒙𝑖′𝜷+ 𝜀𝑖 ;𝑌= 0,1 ,ሺ𝒙𝑖′𝜷ሻ= 𝛽0 + 𝛽1𝑥1 + ⋯+ 𝛽𝑝−1𝑥𝑝−1
16
Función de respuesta E[Y]
Andrea Fuentes Puglla Raúl Pinos Loayza Nathaly Rivera
Dado que la Función de Respuesta E[Y] toma valores discretos, se utiliza la función de enlace, obtenida de la Distribución de Poisson:, el cual es:
Guayaquil, Jueves 23 de Febrero 2012
𝐸ሾ𝑌ሿ= ℯ(𝛽0+𝛽1𝑥1+⋯+𝛽𝑝−1𝑥𝑝−1) Dándose origen de esta forma a la denominada Regresión Poisson.
17
Estimación de Parámetros
Andrea Fuentes Puglla Raúl Pinos Loayza Nathaly Rivera
. Se recurre al cálculo de la función de verosimilitud.
Por lo que se cumple:
Guayaquil, Jueves 23 de Febrero 2012
∂lnL∂β0 = ∂lnL∂β1 = . . . .= ∂lnL∂βp−1 = 0
Se obtiene: ∂lnL∂β = σ (𝑦𝑖 − 𝜋𝑖)𝑛𝑖=1 𝑥𝑖
𝑙𝑛 𝐿= ሾ𝑦𝑖 ln𝜋𝑖ሿ𝑛
𝑖=1 − ሾ𝜋𝑖ሿ𝑛
𝑖=1
18
Método de Newton Rapshon
Guayaquil, Jueves 23 de Febrero 2012
Andrea Fuentes Puglla Raúl Pinos Loayza Nathaly Rivera
19
Método de Newton Rapshon
Andrea Fuentes Puglla Raúl Pinos Loayza Nathaly Rivera
Guayaquil, Jueves 23 de Febrero 2012
20Guayaquil, Jueves 23 de Febrero 2012
Andrea Fuentes Puglla Raúl Pinos Loayza Nathaly Rivera
Método de Newton RapshonPara evitar la existencia de falsas raices, se incluye en el algoritmo la segunda derivada de la funcion.
21
PROGRAMACION DE R. LOGISTICA
Guayaquil, Jueves 23 de Febrero 2012
Andrea Fuentes Puglla Raúl Pinos Loayza Nathaly Rivera
function R1 = reglogcontr(y,x,b0)[n,ppp]=size(x);beta=b0;dife=1;pp=zeros(1,n);w=zeros(n);x=[ones(n,1),x];whiledife>0.0001 bini=beta; for i=1:n suma=x(i,:)*beta; pp(i)=1/(1+exp(-suma)); end p=pp'; for i=1:n w(i,i)=p(i)*(1-p(i)); end beta=bini+(inv(x'*w*x))*x'*(y-p); dife=sum(abs(beta-bini));endSb=inv(x'*w*x);R1=zeros(ppp,4);for i=1:ppp+1 R1(i,1)=beta(i); R1(i,2)=sqrt(Sb(i,i)); R1(i,3)=R1(i,1)/R1(i,2); R1(i,4)=abs(R1(i,3)); R1(i,4)=tcdf(R1(i,4),n-ppp); R1(i,4)=(1-R1(i,4))*2;End
Andrea Fuentes Puglla Raúl Pinos Loayza Nathaly Rivera 22
GRACIAS
Guayaquil, Jueves 23 de Febrero 2012