Presentación de PowerPoint -...
Transcript of Presentación de PowerPoint -...
CDMX, CU, 21 de febrero de 2018
Construcción de un espacio semántico (diccionario) para el idioma Español sobre el dominio de la Wikipedia.
Igor Barahona
• Introducción
• Revisión de la literatura
• Objetivos de investigación
• Metodología
• Resultados
• Conclusiones
Contenido
• Introducción
• Revisión de la literatura
• Objetivos de investigación
• Metodología
• Resultados
• Conclusiones
IntroducciónRevisión literatura
Objetivos de investigación
Resultados Conclusiones
Definiciones básicas
➢El Análisis Semántico Latente (ASL) es una técnica que permite cuantificar la similitud de contenido entre dos piezas textuales (palabras, frases o documentos)
➢Mediante el método estadístico de descomposición en valores singulares, es posible hacer una representación de las piezas textuales que componen el espacio semántico.
Gutiérrez (2005)
Metodología
Antecedentes
➢En las últimas dos décadas, con la aparición de computadoras mas potentes el ASL creció rápidamente
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
➢Básicamente el ASL caracteriza el significado de las “piezas lingüísticas” como vectores inmersos en un espacio semántico de alta dimensionalidad
➢Las “piezas lingüísticas” con significados similares tendrán posiciones cercanas en tal espacio semántico
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
Supuestos básicos del
ASL
1. El significado de cualquier pieza semántica es contextualmente dependiente
2. En tal uso contextual existen relaciones de similitud semántica que están latentes
Gutiérrez (2005)
• Introducción
• Revisión de la literatura
• Objetivos de investigación
• Metodología
• Resultados
• Conclusiones
Orígenes del ASL
➢ Landauer & Dumais (1997) afirman que el ASL puede emular la forma en que los humanos utilizan el lenguage.
➢Metodologías similares le precedieron. La ventana móvil de Lund & Dumais (1997) y el BEAGLE propuesto por Jones Kintsch, & Mewhort (2006)
➢ Gunther, Dudschig & Kaup (2014) afirman que el ASL es el modelo mas prominente, el cual, al estar basado en corpus de enorme tamaño, produce resultados confiables.
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
Previo al análisis
➢ El ASL require de un corpus conformado por un número muy grande de documentos.
➢ Se trata de un corpus formado por textos en lenguage natural.
➢ Los textos que alimentan el corpus deden ser escritos por personas, con propósitos comunicativos reales.
➢ El lenguaje natural es aquel escrito o hablado por humanos para propósitos generales de comunicación.
• Introducción
• Revisión de la literatura
• Objetivos de investigación
• Metodología
• Resultados
• Conclusiones
Objetivos de investigación
1. Descargar la Wikipedia completa, en texto plano, sin imágenes, videos o sonido.
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
2. Construir una matriz documentos-palabras
3. Con los métodos estadísticos pertinentes, construir un espacio semántico para el español
4. Presentar conclusiones pertinentes
• Introducción
• Revisión de la literatura
• Objetivos de investigación
• Metodología
• Resultados
• Conclusiones
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
1
2
3
. . . . . . . .
1,300,485
ID. Doctos
Palabras
𝑓𝑗,𝑖
ncol(Y)=1,300,485
nrow(X)= 5,826,313
Docto Id
Familia Id
Letra abecedario
n.cat.row(X)=3𝑓𝑗,𝑖= frecuencia de la palabra j en el documento i
1 2 3 . . . . . . . .
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
Vector de documentos (ortogonal)
Vector de palabras (transpuesto)
Valores singulares
U=V= D=
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
Lebart, Salem & Berry (1997)
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
¿Qué podemos hacer con el campo semántico?
• Introducción
• Revisión de la literatura
• Objetivos de investigación
• Metodología
• Resultados
• Conclusiones
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
Apariencia de la matriz documentos - palabras
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
Apariencia del campo semántico
Veamos un ejemplo……………….
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
Queda prohibida toda discriminación motivada por origen étnico o nacional, el género, la edad, las discapacidades, la condición social, las condiciones de salud, la religión, las opiniones, las preferencias sexuales, el estado civil o cualquier otra que atente contra la dignidad humana y tenga por objeto anular o menoscabar los derechos y libertades de las personas.
Artículo 1. (Constitución EUM)
Toda persona tiene todos los derechos y libertades proclamados en esta Declaración, sin distinción alguna de raza, color, sexo, idioma, religión, opinión política o de cualquier otra índole, origen nacional o social, posición económica, nacimiento o cualquier otra condición. Además, no se hará distinción alguna fundada en la condición política, jurídica o internacional del país o territorio de cuya jurisdicción dependa una persona, tanto si se trata de un país independiente, como de un territorio bajo administración fiduciaria, no autónomo o sometido a cualquier otra limitación de soberanía..
Artículo 2. (Declaración Universal de los derechos humanos)
• Introducción
• Revisión de la literatura
• Objetivos de investigación
• Metodología
• Resultados
• Conclusiones
IntroducciónRevisión literatura
Objetivos de investigación
Resultados ConclusionesMetodología
➢ Herramienta útil para comparar textos, discursos y obras literarias
➢ Se realiza una contribución novedosa en el contexto del idioma español
➢ Explorar otras metodologías como aprendizaje profundo o de máquina
Cuadras, C. M. (2014). Nuevos métodos de análisis multivariante, CMC Editions.
Günther, F., Dudschig, C., & Kaup, B. (2015). LSAfun-An R package for computations
based on Latent Semantic Analysis. Behavior research methods, 47(4), 930-944.
Gutiérrez, R. M. (2005). Análisis semántico latente:¿ Teoría psicológica del
significado?. Revista signos, 38(59), 303-323.
Jones, M. N., Kintsch, W., & Mewhort, D. J. (2006). High-dimensional semantic space
accounts of priming. Journal of memory and language, 55(4), 534-552.
Landauer, T. K., & Dumais, S. T. (1997). A solution to Plato's problem: The latent semantic
analysis theory of acquisition, induction, and representation of
knowledge. Psychological review, 104(2), 211.
Landauer, T. K., Foltz, P. W., & Laham, D. (1998). An introduction to latent semantic
analysis. Discourse processes, 25(2-3), 259-284.
Lebart, L., Salem, A., & Berry, L. (1997). Exploring textual data(Vol. 4). Springer Science &
Business Media.
Referencias
###################################################################################################################### 21/feb/2018 ########################################################################################################################################################### Applied Latent Semantic Analysis (LSA)######################### Cargar el campo semántico y paquete#######################################################################################
Library(LSAfun)load("mi.lsaV2.rda")
###################################################################################################################### 21/feb/2018 ####################################################################################################################################################### SIMILITUDES SEMÁNTICAS Y######################### VECINOS PRÓXIMOS. EJEMPLO CON 4 PALABRAS#######################################################################################
####### similitud semántica entre ciencia y matemáticasCosine("ciencia","matemáticas",tvectors=D)
####### similitud semántica entre imaginación y poesíaCosine("imaginación","poesía",tvectors=D)
####### similitud semántica entre imaginación y poesíaCosine("matemáticas","vaca",tvectors=D)
Apendice A. Scrip en R
https://drive.google.com/file/d/19AR2RpaRTgCeMV60DGqmc575GQPyeAV2/view?usp=sharing
mi.lsaV2.rda
Apendice A. El campo semántico
El campo semántico se encuentra disponible para descarga en el siguiente enlace:
matemáticas
matemáticamatemático
matemáticos
teoremasteórica
analítica
física
kuhn
axiomas
epistemología
empíricas
hilbert
álgebra
leibniz
geometría
fundamentos
teoría
empírica
conjetura
empírico
computacional
determinista
teorías
científica
lógica
enunciados
empíricos
formulación
algebraica
demostración
cálculo
formalismo
ciencia
euclides
lógicos
científico
exactas
infinitos
turing
-0.2
0.0
0.2
0.4
-0.2 0.0 0.2 0.4
x
y
Palabras semánticamente semejantes a “matemáticas”
poesía
poetas
poéticopoética
poeta
poéticas
poéticos
poemario
poesías
poemas
poemarios
prosaliteraria
poemasonetos
soneto
versos
poetisa
epigramas
antologías
rimas
literario
rima
lírica
poems
antología
literatura
verso
ensayista
literaturas
odas
líricos
eliot
musicalidad
literarios
novelista
publicaría
epopeya
literarias
-0.1
0.0
0.1
0.2
-0.2 0.0 0.2
x
y
Palabras semánticamente semejantes a “poesía”
Fin de la presentación.
Fin de la presentación
¡Gracias por su atención!