Rls

Doctorado en Tecnologías de las Comunicaciones - Procesado Digital de Señales en Comunicaciones (Curso 2003/04)

4.5 Algoritmo RLS (Recursive Least Squares)

Metodo de mınimos cuadrados (LS)

Ecuaciones normales

Pseudoinversa

Variantes del LS

Algoritmo RLS (Recursive Least Squares)

Introduccion

Calculo recursivo de la matriz de autocorrelacion y la estima LS

Convergencia

Comparacion de prestaciones con el LMS

Conclusiones


Metodo de mınimos cuadrados (LS)

LS: Solucion determinista a problemas de estimacion lineal

Planteamiento del problema

Determinar los coeficientes optimos de un filtro FIR dados los pa-

trones de entrada x(n) y las salidas deseadas d(n)

Solucion estocastica: minimizar

J(w) = E[|e(n)|2

]⇒

Filtro de Wiener

LMS

Solucion determinista: minimizar

J(w) =N−1∑n=0

|e(n)|2 ⇒

Mınimos cuadrados

RLS


Principio de ortogonalidad

Problema a resolver: encontrar el mınimo para J =N−1∑n=0

e(n)e∗(n)

Gradiente

∇kJ = −2N−1∑n=0

x(n− k)e∗(n)

∇kJ = 0 → Principio de ortogonalidad

La serie temporal de errores mınimos, emin(n), es ortogonal con la serie temporal

de entrada del filtro x(n− k)

N−1∑n=0

x(n− k)e∗min(n) = 0, k = 0, 1, 2, · · · , M − 1

Corolario: La salida del filtro optimo, ymin(n), es ortogonal al error emin(n)

N−1∑i=0

ymin(n)e∗min(n) = 0


Ecuaciones normales

Principio de ortogonalidad

N−1∑n=0

x(n− k)

(d∗(n)−

M−1∑i=0

ωix∗(n− i)

)= 0

Sistema de ecuaciones: Ecuaciones Normales

M−1∑i=0

ωi

N−1∑n=0

x(n− k)x∗(n− i) =N−1∑n=0

x(n− k)d∗(n), k = 0, · · · , M − 1

(XHX

)w = XHd

Notacion Problema: XN×Mw∗M×1 + eM×1 = dM×1 (Normalmente N > M)

x(0) x(−1) · · · x(−M + 1)

x(1) x(0) · · · x(−M + 2)...

.... . .

...

x(N − 1) x(N − 2) · · · x(N −M)

ω∗0

ω∗1...

ω∗M−1

+

e(0)

e(1)...

e(N − 1)

=

d(0)

d(1)...

d(N − 1)


Solucion LS

Solucion unica

a) N ≥ M (Sistema sobredeterminado)

b) Rank(XHX)=M (columnas linealmente independientes)

w =(XHX

)−1XHd

Infinitas soluciones

N < M (Sistema indeterminado)

Solucion de norma mınima

w = XH(XHX

)−1d


Pseudoinversa

Definiendo el operador pseudoinversa X+

w = X+d

X+ =

(XHX

)−1XH , Si N > M

XH(XHX

)−1, Si N < M

X−1, Si N = M

Cuando N ≥ M y Rank(XHX)=M

d = Xw∗ = X(XHX

)−1XH︸︷︷︸

Px

d

Px: matriz de proyeccion en el sub-espacio de las columnas de X


LS/Filtro de Wiener

Ecuaciones normales (XHX

)w = XHd

ΦM×Mw = θM×1

Interpretacion de Φ y θ

Φ: estima de la autocorrelacion

Φ = XHX =N−1∑n=0

xnxHn

θ: estima de la correlacion cruzada

θ = XHd =N−1∑n=0

d(n)x∗n


Propiedades

La matriz Φ

es hermıtica (Φ = ΦH)

es semidefinida positiva (xHΦx ≥ 0)

El estimador LS es insesgado si el error tiene media nula

Si el error es blanco, de media nula y varianza σ2

E[(w −wo)(w −wo)

H]

= σ2Φ−1

El estimador LS es el mejor estimador lineal insesgado (BLUE)

Si ademas el error es gaussiano, el estimador LS alcanza el lımite de

Cramer-Rao (es el mejor estimador, lineal o no lineal)


LS ponderado (Weighted Least Squares)

El WLS introduce una matriz de ponderacion

J(w) = (d−Xw∗)HA(d−Xw∗) = ||e||2A

A: hermıtica positiva semidefinida

A diagonal: se pondera cada error de forma distinta

J(w) =N−1∑n=0

a(n)|e(n)|2

Ecuaciones normales

XHAXw = XHAd

Solucion (si N ≥ M y Rank(XHAX)=M)

w =(XHAX

)−1XTAd


LS regularizado

Funcion de coste

J(w) = wHAw + ||d−Xw∗||2

A: hermıtica positiva semidefinida

Solucion

w =(XHX + A

)−1XHd

Tıpicamente: A = αI

w =(XHX + αI

)−1XHd

Si la matriz XHX esta mal condicionada el LS regularizado reduce la amplificacion

de ruido (a cambio de sesgar el estimador)

λmax + α

λmin + α︸︷︷︸cond(XHX+αI)

<λmax

λmin︸︷︷︸cond(XHX)


Algoritmo RLS: Introduccion

Estima recursiva de la solucion LS

Problema: estimar la media de N muestras x(n), n = 1, · · · , N .

xN =1

N

N∑n=1

x(n)

Si se dispone de una nueva muestra x(N + 1)

xN+1 =1

N + 1(NxN + x(N + 1))

Algoritmo RLS: resuelve de modo similar el caso del estimador LS

¿Como se actualiza la estima LS obtenida con N datos cuando se

dispone de un nuevo dato, x(N + 1),d(N + 1) ?


Funcion de coste y solucion LS

Funcion de coste (determinista) en el instante n

Jn(w) =N∑

i=1

λn−i|e(i)|2 = |e(n)|2 + λ|e(n− 1)|2 + · · ·+ λn−i|e(1)|2

e(n) = d(n)−wHxn

λ: factor de olvido exponencial (0 < λ < 1)

La solucion cumple las ecuaciones normales

Φnwn = θn ⇒ wn = Φ−1n θn

Φn =N∑

i=1

λn−ixixHi , θn =

N∑i=1

λn−ixid(n)


Cuestiones preliminares

En la solucion obtenida para cada instante n intervienen todos los

datos hasta ese instante (aunque ponderados de distinta manera)

La estima LS es determinista; no obstante, si λ = 1 y los procesos

que intervienen son ergodicos

lımn→∞1nΦn = R

lımn→∞1nθn = p

⇒ lımn→∞

LS = Wiener

La inversion de la matriz de autotocorrelacion para cada n necesi-

tarıa O(M 3) operaciones y O(M 3) posiciones de memoria

¿Se puede hacer el calculo de forma recursiva?


Calculo recursivo de Φ−1n

Φn+1 =N+1∑i=1

λn+1−ixixHi = λΦn + xn+1x

Hn+1

Φ−1n+1 =

(λΦn + xn+1x

Hn+1)−1

Aplicando el “Matrix Inversion Lemma”

Φ−1n+1 = λ−1Φ−1

n −λ−2Φ−1

n xn+1xHn+1Φ

−1n

1 + λ−1xHn+1Φ

−1n xn+1

Definiciones

Pn = Φ−1n Inversa de la autocorrelacion

kn+1 =λ−1Pnxn+1

1 + λ−1xHn+1Pnxn+1

Vector de ganancia


Calculo recursivo de Φ−1n (II)

Ecuacion de Ricatti para el RLS

Pn+1 = λ−1 (Pn − kn+1xHn+1Pn

)Vector de ganancia

kn+1 = Pn+1xn+1

son los datos blanqueados por la inversa de la matriz de autocorre-

lacion


Actualizacion del filtro

Solucion de mınimos cuadrados

wn+1 = Φ−1n+1θn+1

que puede desarrollarse como

wn+1 = Pn+1θn+1 = λPn+1θn + Pn+1xn+1d∗(n + 1)

Teniendo en cuenta la recursion de la ecuacion de Ricatti

wn+1 = Pnθn︸︷︷︸wn

−kn+1xHn+1Pnθn + Pn+1xn+1︸︷︷︸

kn+1

d∗(n + 1)

Expresion final

wn+1 = wn + kn+1[d∗(n + 1)− xH

n+1wn

]


Errores “a priori” y “a posteriori”

Error a priori (innovacion)

α(n + 1) = d(n + 1)−wHn xn+1

error que comete el filtro estimado sin usar el nuevo dato

Error a posteriori

e(n + 1) = d(n + 1)−wHn+1xn+1

error utilizando el nuevo dato

En la funcion de coste se minimizan los errores a posteriori

En la recursion del RLS aparecen los errores a priori


Convergencia del RLS

Convergencia en media

El RLS converge a la solucion de mınimos cuadrados

Si λ = 1 y las senales son ergodicas el RLS converge en media a

Wiener

Convergencia en error cuadratico (λ = 1, ergodicidad)

J(n) ≈ Jmin

(1 +

M

n

)El RLS converge en aproximadamente 2M iteraciones

El RLS no tiene desajuste (si λ = 1)


RLS/LMS

RLS: wn+1 = wn + kn+1[d∗(n + 1)− xH

n+1wn

]LMS: wn+1 = wn + µxn

[d∗(n)− xH

n wn

]En ambos casos se actualiza el filtro mediante un termino de error

Para obtener wn+1

El LMS utiliza los datos en n

El RLS utiliza todos los datos (a traves de Kn+1)

En el LMS el error se multiplica por µxn

En el RLS el error se multiplica por

kn+1 = Φ−1n+1xn+1 ⇒

Los datos se blanquean en cada iteracion

Desacoplo de la convergencia de w


Ejemplo: Identificacion

Sistema: W ∗(z) = 1 + 0.5z−1

Entrada correlada con un factor r, es decir, R =

1 r

r 1

u(n): ruido aditivo balnco, gaussiano de media cero, varianza 0.001

e independiente de la entrada


Ejemplo: Identificacion (II)

Coeficiente de

correlacion de la

entrada r = 0.1

Coeficiente de

correlacion de la

entrada r = 0.8


Resumen del RLS

Parametros iniciales

M = no coef., P0 = δ−1I, δ < 0.01σ2x, w0 = 0M×1, λ ≤ 1

Iteraciones

kn+1 =λ−1Pnxn+1

1 + λ−1xHn+1Pnxn+1

α(n + 1) = d(n + 1)−wHn xn+1

wn+1 = wn + kn+1α∗(n + 1)

Pn+1 = λ−1(Pn − kn+1x

Hn+1Pn

)


El RLS en ambientes no estacionarios

Aproximadamente la memoria del RLS viene dada por

Memoria =1

1− λ

Si λ = 1 la memoria es infinita (ambientes estacionarios)

Si λ < 1

Aumenta la capacidad de seguimiento

Aumenta el deasjuste

D =1− λ

1 + λM (para valores de λ cercanos a 1)


Capacidad de seguimiento LMS/RLS

LMS: capacidad de seguimiento determinada por el paso de adap-

tacion µ

µ ↑ ⇒

mejor seguimiento

mayor desajuste

RLS: capacidad de seguimiento determinada por el factor de olvido

λ

λ ↓ ⇒

mejor seguimiento

mayor desajuste

Para un mismo desajuste (que fija µ y λ) el LMS tiene habitualmente

un mejor comportamiento en ambientes no estacionarios.


Conclusiones

El RLS obtiene de manera recursiva el estimador LS

Utiliza todos los datos pasados (ponderados por un factor de olvido)

Evita la inversion de la matriz de autocorrelacion en cada paso: se actualiza Φ−1n+1

a partir de Φ−1n

Insensible a la dispersion de autovalores de la matriz de autocorrelacion

El valor de ganancia kn desacopla la convergencia de los coeficientes

Para λ = 1 y procesos ergodicos el RLS converge a Wiener y no existe desajuste

En comparacion con el LMS

Velocidad de convergencia muy superior (del orden de 2M)

Gasto computacional superior (versiones rapidas: Fast-RLS)

Para un mismo desajuste se comporta peor en ambientes no estacionarios

El RLS puede presentar problemas de estabilidad numerica

Rls

Documents

Transcript of Rls