Teoria ecualizacionadaptativalorenzodiaz

Ecualización adaptativa de un canal digital

Comunicaciones Digitales. PRL. Noviembre 2004 1

Ecualización adaptativa de un canal digital 1. Introducción. 2. Filtrado de señales.

2.1 Introducción al filtrado digital. 2.2 Filtros adaptativos.

3. La solución óptima de Wiener. 3.1 Planteamiento del problema del filtro óptimo. 3.2 El filtro óptimo. 3.3 Ecualización de canal.

4. Algoritmos adaptativos. 4.1 Introducción. 4.2 El método de descenso de máxima pendiente. 4.3 Algoritmo least-mean-square (LMS).

1. Introducción. El término filtro se utiliza comúnmente para describir un dispositivo que discrimina,

según algún atributo de los objetos que se aplican a su entrada, aquellos que pasan a su través.

En el contexto del procesado de señal, el término filtrado indica el proceso lineal pensado para alterar el contenido espectral de una señal de entrada de un modo previamente especificado. La alteración de la secuencia de entrada es tanto en magnitud como en fase para cada una de sus componentes frecuenciales, de modo que tanto el módulo como la fase de la respuesta frecuencial del filtro debe cumplir una serie de especificaciones ajustándose a un determinado patrón para realizar correctamente su función.

En este tema del curso centraremos nuestra atención en un subconjunto de filtros, denominados adaptativos, cuyas características varían en el tiempo. De este modo, el filtrado adaptativo es la solución para problemas de filtrado donde se desconoce la solución exacta o las condiciones del problema son no estacionarias.

En particular, buscamos la solución al problema de ecualización de un canal de comunicaciones digital. Estudiaremos la solución óptima de Wiener y los algoritmos adaptativos más conocidos para solucionar el problema iterativamente.

2. Filtrado de señales. 2.1 Introducción al filtrado digital. Llamaremos filtro digital a cualquier procesado numérico realizado en una señal de

entrada en tiempo discreto; dicho de otro modo, un filtro digital es la implementación en hardware o software de una ecuación en diferencias finitas.



Las ventajas más importantes que aportan los filtros digitales frente a los analógicos son la facilidad para modificar sus características, alta inmunidad al ruido, alta precisión (limitada, lógicamente, por los errores de redondeo en la aritmética empleada) y bajo coste. Por estas razones, los filtros digitales están reemplazando rápidamente a los filtros analógicos. Además, existen potentes herramientas software que hacen que el proceso de diseño de un filtro se limite a la determinación de su plantilla.

Podemos clasificar los filtros digitales en filtros FIR (de respuesta impulsional finita) y filtros IIR (de respuesta impulsional infinita).

Un filtro FIR de orden L se describe por la siguiente ecuación en diferencias finitas:

( )inxwLnxwnxwnxwnyL

iiL −=+−⋅+⋅⋅⋅+−⋅+⋅= ∑

−

=− ·)1()1()()(

1

0110 [1]

lo que da lugar a la función de transferencia:

)1(

12

21

10 ...)( −−−

−− ⋅++⋅+⋅+= LL zwzwzwwzH [2]

La secuencia { } 10

−=

Lkkw constituye los coeficientes del filtro. En este tipo de filtros no

hay recursividad, es decir, la salida depende sólo de la entrada y no de valores pasados de la salida. Esto quiere decir que la respuesta de un filtro ante una entrada no es más que una suma ponderada de valores pasados y presentes de la entrada.. Las características principales de estos filtros se resumen en que son incondicionalmente estables y que son de fase lineal, debido a que su función de transferencia sólo tiene ceros y un denominador constante. Su respuesta impulsional será de duración finita ya que si la entrada se mantiene a cero durante L periodos consecutivos, la salida será también cero.

La Figura 1 muestra una estructura de filtro transversal para llevar a cabo un filtrado FIR como se refleja en la ecuación 1.

Empleando notación vectorial, el filtrado del vector de entrada )(nx con el filtro w puede expresarse como:

wxxw TT ⋅=⋅= )()()( nnny [3]

donde el vector de entrada en el instante de tiempo n viene dado por:

[ ] Tx )1()1()()( +−−= Lnxnxnxn K [4]



y el vector de coeficientes es:

[ ] Tw 110 −= Lwww K [5]

Figura 1. Diagrama de bloques de una estructura transversal que implementa un filtro de respuesta impulsional finita.

Pasando al segundo grupos de filtros digitales, los de respuesta impulsional infinita

(IIR), la ecuación en diferencias que describe un filtro IIR de orden N es:

)()1()()()2()1()(

10

21

MnxbnxbnxbNnyanyanyany

M

N

−⋅+⋅⋅⋅+−⋅+⋅==−⋅+⋅⋅⋅+−⋅+−⋅+

[6]

obteniéndose como función de transferencia:

( ) NN

MM

zazazazbzbzbbzH−−−

−−−

⋅++⋅+⋅+⋅++⋅+⋅+

=...1...

22

11

22

110 [7]

∑

1−z 1−z 1−z

∑∑∑

...

...

...

)(nx )1( −nx

)1( +− Lnx

)(ny

)2( −nx

1−LW2 W1 W 0 W



Las características principales de estos filtros, al igual que las de los AR, son que su respuesta ante una entrada impulsional es infinita y que producen distorsión de fase, es decir, que ésta no varía linealmente con la frecuencia. La gran ventaja de estos filtros IIR es que, para unas mismas especificaciones de diseño, el orden requerido es mucho menor que el de un filtro FIR.

En general, cualquier filtro FIR o IIR se caracteriza por su función de transferencia, la cual se traduce en dos secuencias, una del numerador y otra del denominador, definidas como los coeficientes del filtro. En nuestro caso, dichos coeficientes no serán más que vectores de números reales cuyos valores se obtendrán bien del diseño de filtros con MATLAB o bien de la actualización de los mismos por un algoritmo adaptativo.

Uno de los parámetros característicos en el diseño de filtros digitales es la frecuencia de muestreo, de manera que cualquier sistema que realice filtrado de señales deberá muestrear las señales a filtrar con una tasa igual a la frecuencia de muestreo del filtro diseñado.

2.2 Filtros adaptativos.

Como hemos adelantado en el punto anterior, existe la posibilidad de permitir que los coeficientes de un filtro varíen en el tiempo con el objetivo de poder adaptarse a situaciones distintas.

Los filtros digitales adaptativos, que podrán ser tanto filtros FIR como IIR, serán aquellos cuyos coeficientes no permanezcan constantes sino que son actualizados periódicamente por un algoritmo adaptativo.

En general, un filtro digital adaptativo consta de dos partes: un filtro digital -igual que los vistos en el punto anterior, pero de coeficientes variables- que procesa las señales deseadas, y un algoritmo adaptativo encargado de ajustar los coeficientes de dicho filtro.

De manera genérica, la Figura 2 ilustra un filtro adaptativo, donde d(n) es la respuesta deseada, y(n) es la salida actual del filtro digital ante la señal de entrada x(n) y el error e(n) es la diferencia entre d(n) e y(n). La función del algoritmo adaptativo es ajustar los coeficientes del filtro digital para minimizar la señal de error e(n).

Figura 2. Diagrama de bloques de un filtro adaptativo.

e(n)

x(n) y(n)

Filtro Digital

Algoritmo Adaptativo

∑

d(n)

+



De las operaciones implícitas en esta figura, y(n) es la respuesta del filtro digital ante la entrada x(n). En el caso de filtro adaptativo FIR de orden L, la expresión de y(n) se deduce de la ecuación 1 como:

( )lnxnwLnxnwnxnwnxnwnyL

llL −=+−⋅+⋅⋅⋅+−⋅+⋅= ∑

−

=− ·)()1()()1()()()()(

1

0110 [8]

quedando marcada la dependencia temporal de los coeficientes del filtro { } 10)( −

=Lll nw . El

resto de operaciones, incluidas en el bloque llamado “algoritmo adaptativo”, serán estudiadas en el apartado 4 del tema.

Empleando notación vectorial, la señal de error resultante de la Figura 2 queda:

)()()()()()( nnndnyndne xw T ⋅−=−= [9]

En el análisis que sigue, asumiremos que las señales d(n) y x(n) son estacionarias, de modo que sus principales parámetros estadísticos -valor medio, varianza, autocorrelación y correlación cruzada- no dependen del tiempo. El ajuste de los coeficientes de un filtro trata de optimizar algunos criterios previamente establecidos. Antes de analizar en el punto 4 algunos de esos criterios, vamos a dedicar la siguiente sección al cálculo exacto de la solución óptima a la que debería tender iterativamente los coeficientes del filtro adaptativo según el problema planteado en la Figura 2.

3. La solución óptima de Wiener. 3.1 Planteamiento del problema del filtro óptimo.

En este apartado se describe un tipo de filtros digitales óptimos, conocidos genéricamente como filtros de Wiener.

Considere el problema planteado en la Figura 3.

Figura 3. Esquema de partida del problema de filtrado óptimo.

e(n)

d(n)

W(z) Σ _

x(n)

+

y(n)



La entrada del sistema es la secuencia x(n), el filtro W(z) queda caracterizado por su respuesta impulsional y la salida del sistema es la señal en tiempo discreto y(n). La salida del sistema se interpreta como una estimación de la señal deseada d(n). El error de estimación e(n), se define como la diferencia entre la respuesta deseada d(n) y la salida del filtro y(n). El objetivo es hacer ese error de estimación tan pequeño como sea posible.

Existen dos requerimientos para el filtro:

• El filtro debe ser lineal para hacer más sencillo el análisis matemático del problema.

• El filtro trabaja con señales en tiempo discreto, para poder ser implementado con técnicas de filtrado digital.

Las características finales del filtro dependen de otras decisiones que hay que tomar:

• La respuesta impulsional del filtro, ¿será finita o infinita?

• ¿Qué criterio emplearemos para la optimización?

En lo referente a elegir un filtro FIR o un filtro IIR, atenderemos a criterios prácticos para la elección. Debido a que los filtros de respuesta impulsional finita son incondicionalmente estables, centraremos nuestra atención en esta opción de filtrado.

En cuanto a la técnica de optimización, consideraremos el diseño de un filtro según un criterio de minimización de una función de coste elegida de la siguientes opciones:

1) El valor cuadrático medio de la estimación del error.

2) La media estadística del valor absoluto de la estimación del error.

3) La media estadística de potencias de tercer o mayor orden del error estimado.

La primera de las opciones ofrece una evidente ventaja sobre las otras dos: con su empleo, aseguramos una dependencia de segundo orden entre la función de coste y los coeficientes de la respuesta impulsional del filtro. Por ello, se garantiza la existencia de una única solución óptima de los coeficientes del filtro que minimiza la función de coste.

Con estas premisas, vamos a plantear matemáticamente el cálculo del filtro óptimo de Wiener.

3.2 El filtro óptimo. Comencemos escribiendo la expresión del error de estimación e(n):

)()()()()(1

0nndlnxwndne

L

ll xw T ⋅−=−⋅−= ∑

−

=

[10]

La función de coste a minimizar es, como hemos determinado anteriormente, el valor cuadrático medio de la señal de error, esto es:



[ ] [ ] wRwwp TT

⋅⋅+⋅⋅−== 2)()( 22 ndEneEξ [11]

siendo p el vector de correlación cruzada entre la señal de entrada x(n) y la señal de referencia d(n) y se define como:

[ ] [ ]Txp )1()......1( )0()()( LpppndnE −−=⋅= [12]

La matriz de autocorrelación R se define como:

[ ]

−−

−−

=⋅=

)0(...)2()1(

)2(...)0()1()1(...)1()0(

)()(

xxxxxx

xxxxxx

xxxxxx

rLrLr

LrrrLrrr

nnEMOMM

TxxR [13]

donde el vector de entrada )(nx es:

[ ]Tx )1(.).........1( )()( +−−= Lnxnxnxn [14]

El filtro óptimo minimiza el valor de la función de coste definida en la ecuación 11. Para obtener las componentes del mismo, podemos derivar dicha ecuación, obteniendo de esa forma el vector gradiente de la superficie del error:

pw Rw

⋅−⋅⋅=∂∂

=∇ 22ξξ [15]

e imponiendo la condición de mínimo:

022 =⋅−⋅⋅ p wR o [16]

obtenemos finalmente la solución del filtro óptimo de Wiener ow :



pR w -1o ⋅= [17]

Para obtener el valor mínimo de la función de coste, sustituimos el valor obtenido para el filtro óptimo de la ecuación 17 en la ecuación 11:

[ ][ ] [ ][ ] [ ] oT-1T

-1T-1-1T

oTooT

wppRppRRpRpRp

wRwwp

⋅−=⋅⋅−=

=⋅⋅⋅⋅+⋅⋅⋅−=

=⋅⋅+⋅⋅−=

)( )(

2)(

2)(

22

2

2min

ndEndE

ndE

ndEξ

[18]

El error cuadrático medio de la señal de error puede expresarse en términos de la matriz de autocorrelación R de la señal de entrada:

( ) ( )oTo wwRww −⋅⋅−+= minξξ [19]

Si introducimos el vector v como la traslación del vector de coeficientes con respecto a la solución óptima:

owwv −= [20]

la función de coste puede escribirse:

vRvT ⋅⋅+= minξξ [21]

Por otro lado, la matriz R es semidefinida positiva (todos sus valores propios son reales no negativos) y puede expresarse en términos de sus valores y vectores propios como sigue:

TQΛQR ⋅⋅= [22]

donde Λ es la matriz diagonal que tiene en su diagonal principal los valores propios de R :



=

Lλ

λλ

000

0000

2

1

L

OMM

M

L

Λ [23]

y Q tiene como columnas los vectores propios de la matriz de autocorrelación R . Como los vectores propios son ortogonales entre si y están normalizados, la matriz Q se dice ortonormal y cumple:

IQQT =⋅ [24]

o lo que es lo mismo:

TQQ =−1 [25]

Si definimos una versión rotada del vector de desajuste de coeficientes de la siguiente forma:

vQvQv' -1T ⋅=⋅= [26]

entonces podemos reescribir la función de coste a minimizar como:

( ) ( )

( )( ) ( )

''

min

min

min

min

min

vΛvvQΛvQ

vQΛQv vRv

wwRww

T

TTT

TT

T

oTo

⋅⋅+=

=⋅⋅⋅⋅+=

=⋅⋅⋅⋅+=

=⋅⋅+=

=−⋅⋅−+=

ξ

ξ

ξ

ξ

ξξ

[27]

Si desacoplamos la notación matricial, podemos expresar la función de coste como indica la ecuación 28:

2

1min ' l

L

ll v∑

=

⋅+= λξξ [28]



3.3 Ecualización de canal.

Un escenario de empleo del filtrado óptimo de Wiener es la ecualización de un canal de comunicaciones. La Figura 4 describe el sistema: la fuente de información proporciona la señal de entrada al canal x(n), la salida del mismo -señal y(n)- se ve alterada por la adición de un ruido aleatorio. La nueva señal ruidosa recibe el nombre yv(n). Finalmente, el ecualizador es el último bloque cuyo objetivo es regenerar la señal de entrada al sistema x(n) a partir de la salida del canal mezclada con ruido. Obviando el problema adicional del ruido aditivo, la función de transferencia del ecualizador tiene que ser la inversa de la del canal para que su salida z(n) sea lo más parecida a la secuencia original x(n). Desde el punto de vista del filtrado óptimo de Wiener, podemos plantear el diseño de un ecualizador que a partir de la señal yv(n) obtenga la mejor aproximación de la señal desada d(n) que no será otra cosa que una versión retrasada de la secuencia original x(n).

Figura 4. Esquema de ecualización de un canal.

4. Algoritmos adaptativos. 4.1 Introducción

Recordemos la expresión general del valor cuadrático medio de la señal de error (MSE) de un filtro FIR:

[ ] [ ] wRwwp TT ⋅⋅+⋅⋅−== 2)()( 22 ndEneEξ [29]

Esta función de coste es una función cuadrática de las componentes del vector de coeficientes, de modo que para cada valor del vector de coeficientes existe su correspondiente valor de la función de coste ξ. Por tanto, los valores del MSE junto con los L coeficientes forman un espacio L+1 dimensional denominado superficie MSE.

)(nh x(n) e(n) +

d(n)

Fuente de información )(nw Σ Σ

_

Generador de ruido aditivo

y(n) yv(n) +

z(n)

Ecualizador Canal



Consideremos el caso de un filtro digital de dos coeficientes (L=2): 0w y 1w . El valor de la función de coste ξ y los coeficientes forman el espacio tridimensional que se muestra en la Figura 5.

Figura 5. Superficie de error para un filtro FIR adaptativo de dos coeficientes.

Un algoritmo iterativo busca la solución óptima, en términos de mínimo MSE, avanzando hacia el punto [ ]optimooptimo

o ww 1,=ow sobre la superficie. La búsqueda del punto óptimo se ve facilitada por el hecho que en una función cuadrática no existen mínimos locales, existiendo sólo una solución óptima. La intersección del paraboloide con planos paralelos al plano de los coeficientes da como resultado elipses concéntricas, lugares geométricos de los puntos con MSE constante, conocidas como contornos de error.

Realizando una interpretación geométrica -para lo cual es conveniente limitar a dos el número de coeficientes del filtro-, la ecuación 20 de traslación de los coeficientes realiza el cambio de coordenadas de los coeficientes w en un nuevo conjunto de coordenadas dada por los vectores v con el origen en el centro de las elipses concéntricas. Con la rotación definida en la ecuación 26 se pasa a emplear una nueva base dada por los vectores v' que definen los ejes principales de la elipse.

La expresión general de la actualización de los coeficientes de un algoritmo adaptativo vendrá dada por la siguiente ecuación:

[ ])()()()1( nxInGnn ⋅+=+ ww [30]

ξ

minξ

optimow0

optimow1

1w

0w



donde )(nG es un término de ganancia e [ ])(nxI es un término de innovación dependiente -entre otros elementos- de la señal de entrada x(n). Cada algoritmo particularizará las funciones de ganancia e innovación ofreciendo una serie de ventajas e inconvenientes que habrá que poder medir para elegir en cada caso la opción más adecuada.

Para medir las prestaciones de un algoritmo adaptativo recurriremos a parámetros de dos tipos: los de tipo teórico y los dependientes de la implementación real de la solución en una arquitectura hardware concreta.

Dentro de los parámetros teóricos que definirán la bondad de la estrategia tenemos:

1) Velocidad de convergencia.

Resulta evidente que una cualidad deseable de un algoritmo adaptativo es que converja a la solución óptima en el menor número de iteraciones posible. Para medir la tasa de convergencia y la constante de tiempo asociada, será de utilidad la denominada curva de aprendizaje del algoritmo adaptativo. Esta curva de aprendizaje no es otra cosa que la representación gráfica del valor cuadrático medio del error (MSE) frente al tiempo n. Por otro lado, entenderemos por constante de tiempo el tiempo necesario para que un determinado parámetro -el error cuadrático medio en este caso- decaiga hasta un factor

%371 ≈e de su valor inicial.

Figura 6. Curva de aprendizaje del algoritmo adaptativo.

2) Desajuste.

Empecemos definiendo el llamado exceso de error cuadrático medio o exceso MSE como la diferencia entre el valor esperado de la función de coste menos su valor mínimo, esto es:

n

)(nξ

)(∞ξ

minξ



[ ] min)( ξξξ −= nEexceso [31]

El desajuste M es el cociente entre el exceso MSE y el valor mínimo del error:

[ ]min

min

min

)(ξ

ξξξ

ξ −==

nEM exceso [32]

Suele existir un compromiso entre la velocidad de convergencia del MSE (dada por su constante de tiempo) y el desajuste del error. El producto de ambos parámetros -constante de tiempo y desajuste- es fijo para un algoritmo adaptativo:

cteM =×τ [33]

de modo que ganar en rapidez de convergencia tiene que ser a costa de admitir un mayor error residual o, por el contrario, para minimizar ese error residual tenemos que buscar una convergencia más lenta controlada por un factor µ menor.

Las variantes propuestas sobre la base del algoritmo adaptativo básico deben buscar la minimización del producto M×τ

3) Robustez.

Se trata de evaluar la capacidad de operar con datos estadísticamente mal condicionados. A la vista de la solución óptima de Wiener se hace evidente que si la matriz R de autocorrelación de la señal de entrada x(n) es singular o esta próxima a serlo, la posibilidad de que no se alcance la solución es mayor. Más adelante demostraremos como esta falta de adecuación en los datos también repercute en una ralentización de la convergencia.

En cuanto a los factores dependientes de la implementación únicamente enumeramos algunos de los aspectos que habrá que tener en cuenta.

4) Carga computacional.

El coste o carga computacional de un algoritmo habrá que medirlo en términos del número de operaciones (sumas y, especialmente productos) que hay que realizar en una iteración.

5) Eficiencia de la arquitectura.

También interesa considerar la cantidad de memoria que el algoritmo precisa, el número de accesos a dichas posiciones de memoria y el número de punteros que requiere la implementación de la solución. Yendo un poco más lejos, habrá que evaluar las prestaciones del hardware para implementar operaciones en paralelo mediante segmentación, la posibilidad de empleo de varios procesadores simultáneamente y del modo de direccionamiento circular, muy adecuado para la implementación de filtrados.



6) Propiedades numéricas.

La sensibilidad del hardware a los errores aritméticos es otro parámetro a considerar. La precisión de los conversores analógico/digitales y el empleo de una aritmética de doble precisión evitará problemas difíciles de analizar desde el punto de vista teórico pero que pueden poner en peligro el éxito de la implementación del algoritmo.

4.2 El método de descenso de máxima pendiente.

Hemos visto que la superficie MSE es una función cuadrática de los coeficientes del filtro y que, por lo tanto, ajustar los coeficientes para minimizar el error implica descender a lo largo de la superficie, hasta alcanzar el punto más bajo. Con esta idea fueron desarrollados algoritmos descendentes basados en el cálculo del gradiente en un punto de la superficie.

El desarrollo matemático del algoritmo se facilita observando la Figura 5. Supongamos un valor inicial de los coeficientes del filtro, )0(w , que corresponden a un único valor de ).0(ξ El conjunto de estos valores determinan un punto inicial en la superficie MSE. Calculando el gradiente en ese punto, obtenemos el grado de variación de la superficie con respecto a sus coordenadas. Tomando la dirección negativa del gradiente, nos vamos desplazando por sucesivos puntos de la superficie, hasta alcanzar el punto donde el error cuadrático medio se minimiza. Además, siguiendo la dirección contraria al gradiente, avanzamos hacia el mínimo de la manera más rápida posible. Este concepto puede ser implementado por el siguiente algoritmo:

( ))(2

)()1( nnn ξµ∇−⋅+=+ ww [34]

donde )(nξ∇ es el gradiente de la superficie MSE dado por las derivadas direccionales

lwn ∂∂ /)(ξ , y µ es el factor de convergencia (o tamaño del paso) que controla el compromiso entre la estabilidad del algoritmo y la rapidez en alcanzar el punto deseado.

Partiendo de la ecuación 11, derivamos el gradiente de la función de coste como se expresa en la ecuación 13.

Por tanto el algoritmo de descenso de máxima pendiente queda:

[ ])()()1( nnn wRpww ⋅−⋅+=+ µ [35]

Cuando )(nw ha convergido hasta ow , es decir, cuando se alcanza el mínimo

punto de la superficie MSE, el gradiente se anula, .0)( =∇ nξ Continuando con el desarrollo del algoritmo, reescribimos la ecuación 35:

[ ] pwRIw ⋅+⋅⋅−=+ µµ )()1( nn [36]



Sustituyendo en la ecuación 36 el valor del filtro óptimo de Wiener (ecuación 17) tenemos:

[ ] owRwRIw ⋅⋅+⋅⋅−=+ µµ )()1( nn [37]

Realizando una traslación del vector de coeficientes y rotando el nuevo vector empleando la matriz Q de vectores propios de la matriz de autocorrelación R , como se expresa en las ecuaciones 20 y 26, respectivamente, obtenemos:

[ ][ ] )(

)()1( 1-1-

nnn

v'ΛIv'QRQQIQv'

⋅⋅−==⋅⋅⋅⋅−⋅⋅=+

µµ [38]

iterando la ecuación 38 desde el primer valor de n tenemos:

[ ] )0( )( v'ΛIv' ⋅⋅−= nn µ [39]

El vector de coeficientes converge si se cumple:

[ ] 0 →⋅− ∞→nnΛI µ [40]

La convergencia debe darse para las L componentes de la diagonal de la matriz:

[ ][ ]

[ ]

0

1.........1 .........1

2

1

→

⋅−

⋅−⋅−

∞→n

nL

n

n

λµ

λµλµ

MMM

OMM

M [41]

Por lo tanto, la condición exigida al factor de convergencia para garantizar la estabilidad del algoritmo adaptativo se impone sobre el mayor de los valores propios para asegurar la convergencia de todos los modos,

lλλ

µ 220max

<<< [42]



siendo maxλ el mayor valor propio de la matriz de autocorrelación R .

Para estimar la velocidad de convergencia de cada modo consideraremos el tiempo que debe transcurrir para una caída de 1 Np:

( )e

ll

11 =⋅− τλµ [43]

despejando lτ tenemos:

( )ll λµ

τ⋅−

−=

1ln1 [44]

Si la convergencia es lenta y el paso de adaptación suficientemente pequeño, se puede emplear una aproximación empleando el desarrollo en serie de Taylor, obteniendo:

l

l λµτ

⋅≈

1 [45]

El modo más lento será el de menor energía, es decir:

max,min

11l

ll τ

λµλµτ =

⋅≤

⋅≈ [46]

de modo que max,lτ define la convergencia de los coeficientes.

Analicemos ahora la convergencia de la función de coste )(nξ . Según la ecuación 28, )(nξ puede escribirse en términos de lλ y de '.lv Iterando desde el primer valor de los coeficientes de acuerdo con la ecuación 39 tenemos:

( ) ( )01)( 22

1min l

nL

llln νλµλξξ ′⋅−⋅+= ∑

=

[47]

Si el algoritmo de máxima pendiente converge -con max20 λµ << - entonces, sin importar cuales sean las condiciones iniciales, tenemos:



min)( ξξ → ∞→nn [48]

esto implica que en el límite se anule el segundo término de la ecuación 47.

La constante de tiempo de la curva de aprendizaje puede calcularse de un modo similar al cálculo realizado para la convergencia de los coeficientes:

( )e

MSEll

11 ,2 , =⋅− ⋅τλµ [49]

despejando MSEl ,τ tenemos:

( )lMSEl λµ

τ⋅−⋅

−=

1ln21

, [50]

Si el paso de adaptación es suficientemente pequeño, se puede emplear una aproximación obteniendo:

max,min

, 21

21

MSEl

MSEl τλµλµ

τ =⋅⋅

≤⋅⋅

≈ [51]

quedando calculada la constante de tiempo del MSE.

Como el factor de convergencia esta acotado, max2 λµ < , se tiene:

min

max

minmax, 42

1λ

λλµ

τ⋅

>⋅⋅

=MSE [52]

de modo que la dispersión de valores propios minmax λλ define la velocidad de la convergencia del algoritmo.

A partir de la ecuación 51 podemos promediar para obtener la constante de tiempo media:



[ ] PxtrL

L

L

L

l MSEl

L

l

lMSE

⋅⋅=

⋅⋅=

==⋅⋅

=⋅⋅

=

∑∑==

µµ

τλ

µλµτ

21

2

12

12

1

1 ,1

R

[53]

A la vista de la ecuación anterior, la constante de tiempo promedio es la media armónica de las constantes de tiempo de cada modo.

En cuanto al desajuste del algoritmo de máxima pendiente, es nulo ya que los coeficientes convergen a la solución de Wiener, esto es:

0min

==ξ

ξ excesoMSEM [54]

A modo de resumen, el método de descenso de máxima pendiente precisa del conocimiento de la matriz R de autocorrelación de la señal de entrada y del vector p de correlación cruzada entre la entrada y la señal deseada. La dificultad de implementar el método es doble: por un lado realizar en cada iteración el cálculo de R y p es computacionalmente costoso; por otro lado, aún disponiendo de la capacidad de llevar a cabo los cálculos puede no ser posible calcular los momentos estadísticos al tener sólo una realización de los procesos. Además, la condición de estacionariedad de las señales x(n) y d(n) sólo suele ser válida en la práctica para algunos tipos de señales y en determinados intervalos de tiempo. Estas dificultades pueden solucionarse empleando una estimación del vector gradiente en lugar del gradiente real; este principio es la base del algoritmo adaptativo LMS que se presentará a continuación.

La ventaja de no precisar el cálculo de la inversa de la matriz de autocorrelación es mayor cuando los datos están más condicionados, con R próxima a singular y una dispersión de autovalores elevada. Sin embargo, al tratarse de un método cuya velocidad de convergencia es sensible a esta dispersión minmax λλ , se tiene la paradoja de que la situación más ventajosa es por otro lado la más lenta. Consecuentemente es un método poco usado en implementaciones prácticas.

4.3 Algoritmo least-mean-suare (LMS). El algoritmo LMS es posiblemente el algoritmo adaptativo más conocido y

empleado en implementaciones reales. Dada su simplicidad y buenas prestaciones sirve normalmente de referencia para comparar nuevas estrategias basadas en algoritmos adaptativos.

Propuesto por primera vez por Widrow, el algoritmo LMS puede considerarse como una simplificación del método de descenso de máxima pendiente. La diferencia consiste en



emplear una expresión alternativa de la función de coste, no utilizando el valor cuadrático medio (MSE) de la señal de error, sino su potencia instantánea, esto es:

)()(ˆ 2 nen =ξ [55]

Por lo tanto, la estimación del gradiente empleada en el algoritmo LMS es sencillamente el gradiente de la potencia instantánea, es decir:

[ ] )()(2)(ˆ nenen ⋅∇⋅=∇ξ [56]

considerando la ecuación 10 para definir el error, al derivar con respecto a los coeficientes del filtro se tiene:

)()( nne x−=∇ [57]

de tal forma que la estimación del gradiente resulta:

)()(2)(ˆ nenn ⋅⋅−=∇ xξ [58]

Con esta estimación del vector gradiente se obtiene finalmente la expresión de actualización de los coeficientes del filtro adaptativo según el algoritmo LMS:

)()()()1( nennn ⋅⋅+=+ xww µ [59]

De la ecuación anterior se deduce la sencillez de este algoritmo al no necesitar el cálculo de valores estadísticos o derivadas con respecto a los coeficientes.

Las prestaciones del algoritmo LMS han sido analizadas por muchos autores por ser el algoritmo adaptativo más importante y que sirve de referencia para las comparaciones con nuevas propuestas.

La convergencia en media de los pesos del filtro en el algoritmo LMS puede determinarse tomando el valor esperado a ambos lados de la ecuación 59:

[ ] [ ] [ ])()()()1( nenEnEnE ⋅⋅+=+ xww µ [60]



Sustituyendo el valor de la señal de error y empleando la barra horizontal superior para indicar valor esperado, tenemos:

( )[ ])()()()()()1( nnndnEnn xwxww T ⋅−⋅⋅+=+ µ [61]

A partir de las definiciones de p y R obtenemos:

[ ] [ ] pwRIwRpww

⋅+⋅⋅−=⋅−+=+ µµµ )()()()1( nnnn [62]

Si recordamos la definición del vector )(nv como la diferencia entre el vector de coeficientes del filtro adaptativo y la solución óptima:

owwv −= )()( nn [63]

Considerando la ecuación 63, podemos reescribir la ecuación 62 como:

[ ] )()1( nn vRIv ⋅⋅−=+ µ [64]

Rotando los coeficientes mediante el producto con la matriz Q de vectores propios.

)()( nn vQv' T ⋅= [65]

se obtiene:

[ ] )()1( nn v'ΛIv' ⋅⋅−=+ µ [66]

Las componentes de este vector son:

[ ] )('1)1(' nvnv lll ⋅⋅−=+ λµ Ll ,...,1= [67]

donde cada término )(' nv l puede expresarse a partir del valor inicial como:



[ ] )0(1)(' ln

ll vnv ′⋅−= λµ [68]

Dado el valor del MSE como:

)()()()(1

2minmin nvnnn

L

lll∑

=

′⋅+=⋅⋅+= λξξξ v'Λv'T [69]

Si la adaptación es lenta )(nlν ′ ≈ )(nlν ′ y teniendo en cuenta la ecuación 68 obtenemos la solución explícita del MSE:

( ) ( )01)( 22

1min l

nL

llln νλµλξξ ′⋅−⋅+≈ ∑

=

[70]

Conforme aumenta el valor del factor de convergencia, )(nlν ′ difiere

significativamente de )(nlν ′ produciéndose un desajuste que veremos un poco más tarde. La convergencia en media del algoritmo LMS desde un valor inicial de los

coeficientes )0(w hasta su valor óptimo ow , es equivalente a:

0)( →′ ∞→nl nv Ll ,...,1= [71]

Esto requiere, por la ecuación 70, que:

11 <⋅− lλµ [72]

o equivalentemente:

lλ

µ 20 << [73]

Así, el algoritmo LMS converge en media desde )0(w hasta ow , si y sólo si:



max

20λ

µ << [74]

Siendo maxλ el mayor valor propio de la matriz de autocorrelación R . La velocidad de convergencia del modo dominente se obtiene cuando:

max

1λ

µ = [75]

Sin embargo, el criterio de estabilidad dado por la ecuación 73 no es aplicable en la práctica debido a la dificultad de calcular el valor maxλ cuando el tamaño del filtro L es grande. En las aplicaciones prácticas, se realiza una estimación de este valor de la siguiente forma:

[ ] ∑=

=⋅=L

llxxrLtr

1)0( λR [76]

donde [ ]Rtr denota la traza de la matriz R . Tomando el valor propio mayor se cumple que:

( ) xxx

L

ll PLrL ⋅=⋅=≤ ∑

=

01

max λλ [77]

donde [ ])()0( 2 nxErP xxx =≡ denota la potencia de la señal x(n). Por lo tanto el valor de µ queda acotado del siguiente modo:

xPL ⋅

<<20 µ [78]

Por lo tanto, la convergencia en media del algoritmo LMS, requerirá un valor de µ que cumpla la ecuación anterior. Éste es inversamente proporcional a L, por lo que para filtros de orden alto se deberá utilizar un valor de µ pequeño. El factor de convergencia también es inversamente proporcional a la potencia de la señal de entrada x(n). Por lo tanto las señales más débiles podrán utilizar un valor de µ más alto que las señales de más potencia. Una solución interesante es normalizar el valor del factor de convergencia con



respecto a la potencia de la señal de entrada. El algoritmo que emplea esta estrategia es el llamado algoritmo LMS normalizado (NLMS) que estudiaremos en la siguiente sección.

Hay que recordar que el análisis anterior sólo asegura la convergencia en media de los coeficientes del filtro. Sin embargo, asegurar la convergencia en media no garantiza la estabilidad en varianza. Para que los coeficientes también converjan en varianza hay que exigir una condición más restrictiva para el factor de convergencia µ:

max3

20λ

µ⋅

<< [79]

que se traduce en términos de la potencia de la señal de entrada en la condición dada por la ecuación 80:

xPL ⋅⋅

<<3

20 µ [80]

Quedan dos aspectos importantes que analizar del algoritmo LMS como son la constante de tiempo del proceso adaptativo y el desajuste del error.

Aunque algunos autores prefieren definir la constante de tiempo del error cuadrático medio como el tiempo que tarda en caer en un factor ,1 2e argumentando una mayor consistencia dimensional en la definición, nosotros vamos a elegir el criterio de referencias clásicas de filtrado adapativo que estiman la constante de tiempo como el necesario para la caída de 1 Np. La ecuación 70 demostraba la posibilidad de expresar el MSE en términos de las componentes del vector de coeficientes rotados )(nv' :

El tiempo necesario para que cada componente de )(nξ varíe desde )0(ξ hasta e)0(ξ viene dado por:

( )e

MSEll

11 ,2 , =⋅− ⋅τλµ [81]

despejando MSEl ,τ tenemos:

( )lMSEl λµ

τ⋅−⋅

−=

1ln21

, [82]



Si podemos asumir que el factor de convergencia µ es suficientemente pequeño y que por lo tanto 1<<⋅ lλµ , podremos realizar una aproximación del siguiente modo:

l

MSEl λµτ

⋅⋅≈

21

, [83]

La ecuación 83 muestra que cada modo tiene su propia constante de tiempo, determinada por el factor de convergencia global µ y el valor propio lλ asociado a dicho modo. Por lo tanto, la convergencia global viene limitada por el modo más lento y consecuentemente, la constante de tiempo del error cuadrático medio vendrá acotada por:

max,min

, 21

21

MSEl

MSEl τλµλµ

τ =⋅⋅

≤⋅⋅

≈ [84]

quedando calculada la constante de tiempo del MSE.

A partir de la cota del factor de convergencia max2 λµ < , se tiene:

min

max

minmax, 42

1λ

λλµ

τ⋅

>⋅⋅

=MSE [85]

de modo que también en el algoritmo LMS la dispersión de valores propios minmax λλ define la velocidad de la convergencia del algoritmo. Esto es: a la vista de la ecuación 84 se deduce que cuanto más pequeño sea el menor valor propio minλ de la matriz de autocorrelación más lenta será la convergencia. Desafortunadamente, si el mayor valor propio maxλ es muy grande, por la ecuación 79 la elección del factor de convergencia µ estará muy limitada de modo que sólo un valor de µ servirá para todos los modos. Resumiendo, si minλ es muy pequeño y maxλ muy grande, la constante de tiempo global del error cuadrático medio (MSE) se incrementa haciendo más lenta la convergencia.

Sin embargo, hay que hacer notar que la cota anterior es una limitación muy conservadora para la constante de tiempo global, ya que a la vista de la ecuación 70 sólo aquellos valores propios para los cuales la proyección del vector propio )0('lv sobre )0(v es importante ejercerá influencia en la convergencia global. Como muchas de estas proyecciones pueden ser despreciables, la convergencia total puede venir condicionada por unos pocos modos de forma que, a menudo, el error cuadrático medio converge más rápidamente que lo que indica a ecuación 85.



Ya hemos comentado con anterioridad la dificultad que implica el cálculo de los valores propios de la matriz R . Sin embargo, existe un importante resultado para acotar la dispersión de valores propios a partir del rango dinámico del espectro de la señal de entrada x(n):

[ ][ ])(min

)(max1min

max

ωω

λλ

XX

≤≤ [86]

A la vista de este resultado se justifica el empleo de diferentes técnicas de “blanquedo” de señales para conseguir un espectro más plano de la señal de entrada y mejorar por lo tanto la convergencia del algoritmo adaptativo.

En cuanto al desajuste del algoritmo LMS, se puede realizar un cálculo del mismo basado en descomponer la estimación del gradiente en dos componentes: el gradiente real y un ruido de gradiente. Calculando la covarianza de este ruido cuando los coeficientes han convergido tenemos:

∑

∑

=

=

⋅−⋅

−

⋅−⋅

= L

l l

l

L

l l

l

M

1

1

21

2

λµλµλµ

λµ

[87]

Si se cumple que 1<<⋅ lλµ tenemos:

[ ][ ]R

Rtr

trM⋅

⋅≈

µµ-2

[88]

Si se cumple además que [ ] 1<<⋅ Rtrµ entonces:

[ ][ ] [ ] PxLtr

trtrM ⋅⋅=⋅≈⋅

⋅≈

22-2µµ

µµ R

RR [89]

En resumen, el LMS es un algoritmo que no requiere a priori un conocimiento de la estadística de las señales, requiere pocas operaciones por muestra, ofrece un buen compromiso entre prestaciones y simplicidad, es sensible a la dispersión de valores propios de la matriz de autocorrelación y es robusto ante problemas de ruido, errores de cuantificación y empleo de aritmética finita.

Teoria ecualizacionadaptativalorenzodiaz

Engineering

Transcript of Teoria ecualizacionadaptativalorenzodiaz