La lematizacion de textos
-
Upload
elena-alvarez-mellado -
Category
Data & Analytics
-
view
157 -
download
0
Transcript of La lematizacion de textos
La lematización de textos
Elena Álvarez Mellado
Seminario Filologías Digitales hoy
¿Qué es la lematización?
¿Cómo funciona un lematizador?
limones
dijo
corruptas
nueces
cantábamos
limón
decir
corrupto
nuez
cantar
LEMATIZADOR
corruptísimas
tuerquecita
riéndose
dándoselas
corrupta
tuerca
reír
dar
LEMATIZADOR
- Lexicón (lemas+categorías)
- Reglas morfológicas
- Paciencia.
Ingredientes para hacer un lematizador:
Termina en -ito/a(s) -illo/a(s)
-ísimo/a(s) (sílaba tónica)
Quitamos la terminación: arbolito>árbol
Añadimos O/E/IO guapillo, excelentísimo, sucísimo
¿Raíz irregular? QU->C; GU->G; GÜ->G; C->Z
En el caso de Z: arrocito>arroc->arroz
Añado O/A poquillo->poco; agüita->agua;
Última vocal de la raíz O->UE (fortísimo) E->IE
(calentito)
¿Termina en -bil? -bil->ble (amabilísimo)
¿Termina en -rc /-nc/vocal+c? mayorcito, camioncito, sofacito
¿Termina en -ec? florecita
Añado O/E/IO viejecito, sobrecito,
seriecísimo
¿Termina en -cec? piececito->piecec->pie
Añadimos Z: pececito->pecec->pez
Sí
¿Conozco esta palabra? ¿Está en mi base de datos
(lemario)?
Miro en el lemario su lema y su categoría
(MEMORIA)
Aplico el programa de reglas
morfológicas (REGLAS)
No
"palabra": "los"
"lema": "el"
"categoria": "articulo"
"analisis": "ADMP"
"palabra": "ciudadanos"
"lema": "ciudadano"
"categoria": "sustantivo"
"analisis": "NCMP"
"palabra": "reciben"
"lema": "recibir"
"categoria": "verbo"
"analisis": "VPI3P"
"palabra": "el"
"lema": "el"
"categoria": "articulo"
"analisis": "ADMP"
"palabra": "euro"
"lema": "euro"
"categoria": "sustantivo"
"analisis": "NCMP"
"palabra": "con"
"lema": "con"
"categoria": "preposición"
"analisis": "P000"
"palabra": "euforia"
"lema": "euforia"
"categoria": "sustantivo"
"analisis": "NCFS"
Los ciudadanos reciben el euro con euforia
Pon un lematizador en tu vida
Lematizadores de código abierto
Freeling (UPC)
NLTK (Natural Language Toolkit)
openNLP
Stanford CoreNLP
API
AntConc
+
Corpus anotados
Corpus AnCora (UB)
GitHub del grupo CLIG: FR ES PT
Corpus BROWN y LOB
Stanford NLP corpora
Corpus lematizados consultables
Corpus del español de Mark Davis
http://corpusdelespanol.org/
CORPES (RAE)
http://web.frl.es/CORPES/view/inicioExterno.view