Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la...

58
Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016 Uso de LS , con g i en R 3 Esta matriz de 3x3 simétrica y definida positiva es un tensor de difusión de hidrógeno. min M X i S i - S 0 exp -bg T i Dg i 2 Friday, October 7, 16

Transcript of Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la...

Page 1: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Uso de LS• , con gi en R3

Esta matriz de 3x3 simétrica y definida positiva es un tensor de difusión de hidrógeno.

min

MX

i

⇣Si � S0 exp

�bgTi Dgi

⌘2

Friday, October 7, 16

Page 2: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

En cada posición del cerebro tenemos una matriz

Friday, October 7, 16

Page 3: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Tractografía cerebral

Friday, October 7, 16

Page 4: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Tractografía cerebral

Friday, October 7, 16

Page 5: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

La forma de los elipsoides tambien es importante

Friday, October 7, 16

Page 6: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

A veces esta solución no es buena ....

• ¡No se pierda su próximo curso de optimización!

Friday, October 7, 16

Page 7: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Descomposicion SVD y aplicacionesMAT-251

Dr. Alonso Ramírez ManzanaresCIMATe-mail: [email protected]: http://www.cimat.mx/~alram/met_num/

Dr. Joaquín Peña AcevedoCIMAT A.C.e-mail: [email protected]

Friday, October 7, 16

Page 8: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Descomposición SVD • El nombre SVD viene de Singular Value Decomposition

• Partimos del teorema de algebra lineal que nos dice: Cualquier matriz rectangular, siempre se puede descomponer como producto de 3 matrices

• donde U es ortonormal (cuadrada), S es diagonal y V es ortonormal (cuadrada). Entonces UTU=I y VTV = I .

• Las columnas de U son los eigenvectores (ortonormales) de AAT y las columas de V son los eigenvectores (ortonormales ) de ATA.

• Las entradas de S se llaman valores singulares y son las raíces cuadradas de los eigenvalores de U o V en orden descendente, las cuales son no-negativas.

2

Friday, October 7, 16

Page 9: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Descomposición SVD • La descomposición es “casi” única: permutaciones en columnas y en los

elementos de la diagonal generan otras descomposiciones.

• U S VT se puede descomponer como suma de matrices de rango 1.

• Cuando la matriz A es compleja, la descomposición se da en términos de la transpuesta conjugada

USV > = s1u1v>1 + · · ·+ srurv

>r

Friday, October 7, 16

Page 10: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Descomposición SVD • La descomposición es “casi” única: permutaciones en columnas y en los

elementos de la diagonal generan otras descomposiciones.

• U S VT se puede descomponer como suma de matrices de rango 1.

• Cuando la matriz A es compleja, la descomposición se da en términos de la transpuesta conjugada

Amn = UmmSmnV ⇤nn

USV > = s1u1v>1 + · · ·+ srurv

>r

Friday, October 7, 16

Page 11: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo:

• Dada

• Calculamos:

• Definición de descomposición espectral

• Uso del determinante

• Resolviendo el polinomio

• Sustituyendo en el SEL

Friday, October 7, 16

Page 12: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo:

• Dada

• Calculamos:

• Definición de descomposición espectral

• Uso del determinante

• Resolviendo el polinomio

• Sustituyendo en el SEL

Friday, October 7, 16

Page 13: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo:

• Dada

• Calculamos:

• Definición de descomposición espectral

• Uso del determinante

• Resolviendo el polinomio

• Sustituyendo en el SEL

Friday, October 7, 16

Page 14: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo:

• Dada

• Calculamos:

• Definición de descomposición espectral

• Uso del determinante

• Resolviendo el polinomio

• Sustituyendo en el SEL

Friday, October 7, 16

Page 15: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo:

• Dada

• Calculamos:

• Definición de descomposición espectral

• Uso del determinante

• Resolviendo el polinomio

• Sustituyendo en el SEL

Friday, October 7, 16

Page 16: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo:

• Dada

• Calculamos:

• Definición de descomposición espectral

• Uso del determinante

• Resolviendo el polinomio

• Sustituyendo en el SEL

Friday, October 7, 16

Page 17: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo:

• Dada

• Calculamos:

• Definición de descomposición espectral

• Uso del determinante

• Resolviendo el polinomio

• Sustituyendo en el SEL

Friday, October 7, 16

Page 18: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo:

• Dada

• Calculamos:

• Definición de descomposición espectral

• Uso del determinante

• Resolviendo el polinomio

• Sustituyendo en el SEL

Friday, October 7, 16

Page 19: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo:

• Dada

• Calculamos:

• Definición de descomposición espectral

• Uso del determinante

• Resolviendo el polinomio

• Sustituyendo en el SEL

Friday, October 7, 16

Page 20: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo (2)

• Usando la orthonormalización

• Hacemos el mismo proceso para

• Obteniendo

• Usando los eigenvalores antes calculados (o también los de ATA) construimos

Friday, October 7, 16

Page 21: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo (2)

• Usando la orthonormalización

• Hacemos el mismo proceso para

• Obteniendo

• Usando los eigenvalores antes calculados (o también los de ATA) construimos

Friday, October 7, 16

Page 22: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo (2)

• Usando la orthonormalización

• Hacemos el mismo proceso para

• Obteniendo

• Usando los eigenvalores antes calculados (o también los de ATA) construimos

Friday, October 7, 16

Page 23: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo (2)

• Usando la orthonormalización

• Hacemos el mismo proceso para

• Obteniendo

• Usando los eigenvalores antes calculados (o también los de ATA) construimos

Friday, October 7, 16

Page 24: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo (3)

Friday, October 7, 16

Page 25: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo (3)

• Y finalmente

Friday, October 7, 16

Page 26: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo (3)

• Y finalmente

Friday, October 7, 16

Page 27: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo (3)

• Y finalmente

Friday, October 7, 16

Page 28: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo (3)

• Y finalmente

Friday, October 7, 16

Page 29: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo (3)

• Y finalmente

Friday, October 7, 16

Page 30: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Ejemplo (3)

• Y finalmente

• Algo interesante es que esta descomposición nos indica que el operador lineal A aplicado a un vector realiza una rotación, luego un escalamiento y luego otra rotación.

Friday, October 7, 16

Page 31: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Una aplicación: condicionamiento (1)

• Descomponemos la matriz como: a = u w vT

• con

• y sabemos que u uT = I y v vT = I.

• w1,w2,...,wn >= 0 (los valores singulares de la matriz).

Friday, October 7, 16

Page 32: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Una aplicación: condicionamiento (2)

• Si la matriz a es cuadrada, las matrices u y v también lo son, entonces la inversa de a es

• a-1 = (u w vT)-1

= (vT)-1 w-1 u-1

= v w-1 uT

• con

Friday, October 7, 16

Page 33: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Una aplicación: condicionamiento (2)

• Si la matriz a es cuadrada, las matrices u y v también lo son, entonces la inversa de a es

• a-1 = (u w vT)-1

= (vT)-1 w-1 u-1

= v w-1 uT

• con

Friday, October 7, 16

Page 34: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Una aplicación: condicionamiento (2)

• Si la matriz a es cuadrada, las matrices u y v también lo son, entonces la inversa de a es

• a-1 = (u w vT)-1

= (vT)-1 w-1 u-1

= v w-1 uT

• con

• Cuando algún wi es cero la matriz es singular.

Friday, October 7, 16

Page 35: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Una aplicación: condicionamiento (3)

• Veamos que pasa al tratar de resolver un SLE con una matriz singular

• Para evitar errores por singularidad, usamos

Friday, October 7, 16

Page 36: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Una aplicación: condicionamiento (3)

• Veamos que pasa al tratar de resolver un SLE con una matriz singular

• Para evitar errores por singularidad, usamos

Friday, October 7, 16

Page 37: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Una aplicación: condicionamiento (3)

• Veamos que pasa al tratar de resolver un SLE con una matriz singular

• Para evitar errores por singularidad, usamos

con

Friday, October 7, 16

Page 38: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Una aplicación: condicionamiento (3)

• Veamos que pasa al tratar de resolver un SLE con una matriz singular

• Para evitar errores por singularidad, usamos

con

Friday, October 7, 16

Page 39: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Una aplicación: condicionamiento (4)

• El valor de ε en

depende de la precisión de la máquina.

• Cuando la matriz a es singular el SLE no tiene solución, pero mediante esta formulación obtenemos la solución x de mínimos cuadrados ||ax-y||2.

• Es decir, la operación

• se puede usar cuando tenemos mas ecuaciones que incógnitas, es decir se puede usar en solución general de mínimos cuadrados, esto es conocido como una pseudo inversa de SVD.

Friday, October 7, 16

Page 40: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Condicionamiento

• Nótese que en este caso explícitamente sabemos qué es lo que está fallando, es decir, que tan singular es la matriz, mientras que si usamos eliminación Gaussiana o descomposición LU no tenemos la información.

Friday, October 7, 16

Page 41: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Otra aplicación Reducción de dimensionalidad en Datos (1)

• En este ejemplo trabajaremos con algo que se llama SVD reducido.

• La idea es capturar la información relevante de un conjunto de datos y eliminar la que no nos sirve (a veces es ruido), veamos esto graficamente:

• Entonces, lo que queremos es explicar los datos en bajas dimensiones.

Friday, October 7, 16

Page 42: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Otra aplicación Reducción de dimensionalidad en Datos (1)

• En este ejemplo trabajaremos con algo que se llama SVD reducido.

• La idea es capturar la información relevante de un conjunto de datos y eliminar la que no nos sirve (a veces es ruido), veamos esto graficamente:

• Entonces, lo que queremos es explicar los datos en bajas dimensiones.

Friday, October 7, 16

Page 43: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Otra aplicación Reducción de dimensionalidad en Datos (1)

• En este ejemplo trabajaremos con algo que se llama SVD reducido.

• La idea es capturar la información relevante de un conjunto de datos y eliminar la que no nos sirve (a veces es ruido), veamos esto graficamente:

• Entonces, lo que queremos es explicar los datos en bajas dimensiones.

Friday, October 7, 16

Page 44: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Maldición de la dimensionalidad, experimento

• En R1 dab = 3, dbc = 1

• Cuando aumentamos de dimensión solo agregamos +-∊ en la nueva dimensión con signo aleatorio, de tal forma que los puntos a, b y c siguen muy cerca de 1, 4 y 5 en la recta R1 respectivamente.

• En R105 dab = 3.698648, dbc = 2.493993

• Con ∊ = 0.15

a=1 b=4 c=5

• dab

• dbcdi

stan

cias

dimensión

Friday, October 7, 16

Page 45: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

• Veamos como se aplica esto a datos de un análisis de semántica llamado latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x documentos

• ¿Qué información tiene un renglón de la matriz?

• ¿ Qué información tiene una columna de la matriz?

doctorcarnurse (enfermera)hospitalwheel (rueda)

doc

1do

c 2

doc

3do

c 4

doc

5

Otra aplicación Reducción de dimensionalidad en Datos (1)

Friday, October 7, 16

Page 46: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

• Veamos como se aplica esto a datos de un análisis de semántica llamado latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x documentos

• ¿Qué información tiene un renglón de la matriz?

• ¿ Qué información tiene una columna de la matriz?

doctorcarnurse (enfermera)hospitalwheel (rueda)

doc

1do

c 2

doc

3do

c 4

doc

5

Otra aplicación Reducción de dimensionalidad en Datos (1)

• Características de las palabras en R5

Friday, October 7, 16

Page 47: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

• Veamos como se aplica esto a datos de un análisis de semántica llamado latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x documentos

• ¿Qué información tiene un renglón de la matriz?

• ¿ Qué información tiene una columna de la matriz?

doctorcarnurse (enfermera)hospitalwheel (rueda)

doc

1do

c 2

doc

3do

c 4

doc

5

Otra aplicación Reducción de dimensionalidad en Datos (1)

• Características de las palabras en R5

• Características de los documentos en R5

Friday, October 7, 16

Page 48: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

• De la descomposición de

• tiene los productos puntos de los descriptores de palabras es decir sus vectores involucrados contienen características de palabras. Por otro lado, ATA contiene información de las características de los documentos.

Otra aplicación Reducción de dimensionalidad en Datos (1)

Friday, October 7, 16

Page 49: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

• Cuando calculamos U y V , es decir los eigenvectores de AAT y de ATA, estamos obteniendo componentes ortogonales que describen los datos y la matriz S tiene los valores singulares que indican que componentes son más importantes ya que es donde hay mas variabilidad entre los datos.

Otra aplicación Reducción de dimensionalidad en Datos (1)

Friday, October 7, 16

Page 50: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

• Haciendo los cálculos para obtener U y V tenemos:

• A esta reconstrucción se le llama SVD completo (full - SVD)

Otra aplicación Reducción de dimensionalidad en Datos (1)

=A =

* *T

*

Friday, October 7, 16

Page 51: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

• Por otro lado, ¿qué pasa si tomamos únicamente las primeras 4 dimensiones con más variabilidad?, las 4 más importantes:

• A esta reconstrucción se le llama SVD reducido (reduced - SVD)

Otra aplicación Reducción de dimensionalidad en Datos (1)

=

A =

* *T

*

= A

Friday, October 7, 16

Page 52: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

• Por otro lado, que pasa si tomamos únicamente las primeras 3 dimensiones con mas variabilidad, las 3 más importantes:

• A esta reconstrucción se le llama SVD [más :) ] reducido (reduced - SVD)

Otra aplicación Reducción de dimensionalidad en Datos (1)

=

A =

* *T

*

= A

Friday, October 7, 16

Page 53: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

• Existen criterios basados en la varianza para determinar cuantas dimensiones nos quedamos. Por ahora nos quedaremos con 3.

• Dado que U tiene la información (ortonormal) de las palabras, si operamos las matrices reducidas (las delimitadas en los rectángulos rojos) UrSr (es decir, pesamos los componentes ortogonales por su importancia dada por los valores singulares) obtenemos:

Otra aplicación Reducción de dimensionalidad en Datos (1)

doctorcarnurse (enfermera)hospitalwheel (rueda)

Friday, October 7, 16

Page 54: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

• Por el otro lado, la matriz V tiene la información de los documentos, de tal forma que si operamos la matrices reducidas VrSr (las delimitadas en los rectángulos rojos) obtenemos:

• Con lo cual tenemos descriptores de dimensionalidad menor (R3) que nos pueden servir para clasificar de manera más eficiente.

doc 1doc 2doc 3doc 4doc 5

Otra aplicación Reducción de dimensionalidad en Datos (1)

Friday, October 7, 16

Page 55: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Nota General

• Nótese que dado que estamos aproximando la matriz con menos eigenvalores y vectores, en dado caso de que la matriz sea cercana a ser singular podemos eliminar todas las columnas asociadas a los valores singulares muy pequeños y tener aun así una buena aproximación de la matriz con una no singular.

• O quizá una mala representación pero que no es singular, todo depende de la aplicación.

Friday, October 7, 16

Page 56: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Más aplicaciones

Friday, October 7, 16

Page 57: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Más aplicaciones

Friday, October 7, 16

Page 58: Uso de LS - cimat.mxalram/met_num/clases/clase13.pdf · latente, la matriz tiene información de la ocurrencia de palabras en documentos de texto, entones es una matriz palabras x

Alonso Ramírez Manzanares Métodos Numéricos 03.10.2016

Más aplicaciones

Friday, October 7, 16