Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la...

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Uso de LS• , con gi en R3

Esta matriz de 3x3 simétrica y definida positiva es un tensor de difusión de hidrógeno.

min

MX

i

⇣Si � S0 exp

�bgTi Dgi

⌘2

Friday, October 7, 16


En cada posición del cerebro tenemos una matriz



Tractografía cerebral



La forma de los elipsoides tambien es importante



A veces esta solución no es buena ....

• ¡No se pierda su próximo curso de optimización!



Descomposicion SVD y aplicacionesMAT-251

Dr. Alonso Ramírez ManzanaresCIMATe-mail: [email protected]: http://www.cimat.mx/~alram/met_num/

Dr. Joaquín Peña AcevedoCIMAT A.C.e-mail: [email protected]


mailto:[email protected]


http://www.cimat.mx/~cesteves/mat151









Descomposición SVD • El nombre SVD viene de Singular Value Decomposition

• Partimos del teorema de algebra lineal que nos dice: Cualquier matriz rectangular, siempre se puede descomponer como producto de 3 matrices

• donde U es ortonormal (cuadrada), S es diagonal y V es ortonormal (cuadrada). Entonces UTU=I y VTV = I .

• Las columnas de U son los eigenvectores (ortonormales) de AAT y las columas de V son los eigenvectores (ortonormales ) de ATA.

• Las entradas de S se llaman valores singulares y son las raíces cuadradas de los eigenvalores de U o V en orden descendente, las cuales son no-negativas.

2



Descomposición SVD • La descomposición es “casi” única: permutaciones en columnas y en los

elementos de la diagonal generan otras descomposiciones.

• U S VT se puede descomponer como suma de matrices de rango 1.

• Cuando la matriz A es compleja, la descomposición se da en términos de la transpuesta conjugada

USV > = s1u1v>1 + · · ·+ srurv

>r



Descomposición SVD • La descomposición es “casi” única: permutaciones en columnas y en los

elementos de la diagonal generan otras descomposiciones.

• U S VT se puede descomponer como suma de matrices de rango 1.

• Cuando la matriz A es compleja, la descomposición se da en términos de la transpuesta conjugada

Amn = UmmSmnV ⇤nn

USV > = s1u1v>1 + · · ·+ srurv

>r



Ejemplo:

• Dada

• Calculamos:

• Definición de descomposición espectral

• Uso del determinante

• Resolviendo el polinomio

• Sustituyendo en el SEL



Ejemplo (2)

• Usando la orthonormalización

• Hacemos el mismo proceso para

• Obteniendo

• Usando los eigenvalores antes calculados (o también los de ATA) construimos



Ejemplo (3)



Ejemplo (3)

• Y finalmente



Ejemplo (3)

• Y finalmente

• Algo interesante es que esta descomposición nos indica que el operador lineal A aplicado a un vector realiza una rotación, luego un escalamiento y luego otra rotación.



Una aplicación: condicionamiento (1)

• Descomponemos la matriz como: a = u w vT

• con

• y sabemos que u uT = I y v vT = I.

• w1,w2,...,wn >= 0 (los valores singulares de la matriz).




• Si la matriz a es cuadrada, las matrices u y v también lo son, entonces la inversa de a es

• a-1 = (u w vT)-1

= (vT)-1 w-1 u-1

= v w-1 uT

• con

•




• Si la matriz a es cuadrada, las matrices u y v también lo son, entonces la inversa de a es

• a-1 = (u w vT)-1

= (vT)-1 w-1 u-1

= v w-1 uT

• con

•

• Cuando algún wi es cero la matriz es singular.




• Veamos que pasa al tratar de resolver un SLE con una matriz singular

• Para evitar errores por singularidad, usamos




• Veamos que pasa al tratar de resolver un SLE con una matriz singular

• Para evitar errores por singularidad, usamos

con




• El valor de ε en

depende de la precisión de la máquina.

• Cuando la matriz a es singular el SLE no tiene solución, pero mediante esta formulación obtenemos la solución x de mínimos cuadrados ||ax-y||2.

• Es decir, la operación

• se puede usar cuando tenemos mas ecuaciones que incógnitas, es decir se puede usar en solución general de mínimos cuadrados, esto es conocido como una pseudo inversa de SVD.



Condicionamiento

• Nótese que en este caso explícitamente sabemos qué es lo que está fallando, es decir, que tan singular es la matriz, mientras que si usamos eliminación Gaussiana o descomposición LU no tenemos la información.



Otra aplicación Reducción de dimensionalidad en Datos (1)

• En este ejemplo trabajaremos con algo que se llama SVD reducido.

• La idea es capturar la información relevante de un conjunto de datos y eliminar la que no nos sirve (a veces es ruido), veamos esto graficamente:

• Entonces, lo que queremos es explicar los datos en bajas dimensiones.



Maldición de la dimensionalidad, experimento

• En R1 dab = 3, dbc = 1

• Cuando aumentamos de dimensión solo agregamos +-∊ en la nueva dimensión con signo aleatorio, de tal forma que los puntos a, b y c siguen muy cerca de 1, 4 y 5 en la recta R1 respectivamente.

• En R105 dab = 3.698648, dbc = 2.493993

• Con ∊ = 0.15

a=1 b=4 c=5

• dab

• dbcdi

stan

cias

dimensión



• Veamos como se aplica esto a datos de un análisis de semántica llamado latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x documentos

• ¿Qué información tiene un renglón de la matriz?

• ¿ Qué información tiene una columna de la matriz?

doctorcarnurse (enfermera)hospitalwheel (rueda)

doc

1do

c 2

doc

3do

c 4

doc

5








doc

1do

c 2

doc

3do

c 4

doc

5


• Características de las palabras en R5







doc

1do

c 2

doc

3do

c 4

doc

5


• Características de las palabras en R5

• Características de los documentos en R5



• De la descomposición de

•

• tiene los productos puntos de los descriptores de palabras es decir sus vectores involucrados contienen características de palabras. Por otro lado, ATA contiene información de las características de los documentos.




• Cuando calculamos U y V , es decir los eigenvectores de AAT y de ATA, estamos obteniendo componentes ortogonales que describen los datos y la matriz S tiene los valores singulares que indican que componentes son más importantes ya que es donde hay mas variabilidad entre los datos.

•




• Haciendo los cálculos para obtener U y V tenemos:

• A esta reconstrucción se le llama SVD completo (full - SVD)


=A =

* *T

*



• Por otro lado, ¿qué pasa si tomamos únicamente las primeras 4 dimensiones con más variabilidad?, las 4 más importantes:

• A esta reconstrucción se le llama SVD reducido (reduced - SVD)


=

A =

* *T

*

= A



• Por otro lado, que pasa si tomamos únicamente las primeras 3 dimensiones con mas variabilidad, las 3 más importantes:

• A esta reconstrucción se le llama SVD [más :) ] reducido (reduced - SVD)


=

A =

* *T

*

= A



• Existen criterios basados en la varianza para determinar cuantas dimensiones nos quedamos. Por ahora nos quedaremos con 3.

• Dado que U tiene la información (ortonormal) de las palabras, si operamos las matrices reducidas (las delimitadas en los rectángulos rojos) UrSr (es decir, pesamos los componentes ortogonales por su importancia dada por los valores singulares) obtenemos:





• Por el otro lado, la matriz V tiene la información de los documentos, de tal forma que si operamos la matrices reducidas VrSr (las delimitadas en los rectángulos rojos) obtenemos:

• Con lo cual tenemos descriptores de dimensionalidad menor (R3) que nos pueden servir para clasificar de manera más eficiente.

doc 1doc 2doc 3doc 4doc 5




Nota General

• Nótese que dado que estamos aproximando la matriz con menos eigenvalores y vectores, en dado caso de que la matriz sea cercana a ser singular podemos eliminar todas las columnas asociadas a los valores singulares muy pequeños y tener aun así una buena aproximación de la matriz con una no singular.

• O quizá una mala representación pero que no es singular, todo depende de la aplicación.



Más aplicaciones


Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la...

Documents

Transcript of Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la...