4. Pruebas y validación del sistema.lorien.die.upm.es/juancho/pfcs/JAA/capitulo4.pdf · Capítulo...
Transcript of 4. Pruebas y validación del sistema.lorien.die.upm.es/juancho/pfcs/JAA/capitulo4.pdf · Capítulo...
Capítulo 4. Pruebas y validación del sistema
98
4. Pruebas y validación del sistema.
4.1. Problemática del tildado en textos.
4.1.1. Introducción.
El proyecto realizado por Azucena Jiménez1 nos permitía contar con una
herramienta potente a la hora de depurar los textos en formato electrónico del diario El
Mundo. Con las funciones que desarrolló como complemento a las ya existentes en la
librería dicc, se puede procesar un elevado número de artículos de dicho periódico.
Además, las cadenas de palabras que nos van proporcionando se encuentran ya
depuradas: se han eliminado las cabeceras, titulares, firmas, etc. que vienen asociadas a
lo que es el texto de la noticia en sí. También se limpiaban los textos de todo tipo de
siglas, acrónimos, números romanos, abreviaturas, etc.
Nosotros tuvimos que adaptar ligeramente dichas funciones a nuestras
necesidades. Las funciones de búsquedas en diccionarios estaban pensadas para que dos
palabras que tan sólo se diferenciasen por la posición de la tilde se consideraran
distintas. Nuestro propósito consistía en procesar las palabras del texto de las noticias,
realizar la búsqueda en diccionario y devolver los resultados de la misma. Pero la
búsqueda tenía que realizarse sin tener en cuenta la tilde: dos palabras que sean iguales
1 [JIM99]
Capítulo 4. Pruebas y validación del sistema
99
salvo porque se diferencian en la posición de la tilde, para nuestro estudio son la misma
palabra. Para ser más exactos, las consideramos variantes de la misma palabra
ambigua. Éste es el concepto principal en nuestro procesado de los textos de El Mundo.
Pero nuestro propósito no consistió únicamente en la obtención de estas palabras
ambiguas, que después intentarían resolverse con el sistema MBL implementado.
Adicionalmente, en algunos casos puntuales, se intentó la resolución del tildado
mediante la aplicación de reglas. Por ejemplo, para las palabras no encontradas en
ninguno de los diccionarios, se analizó que muchas de las palabras con misma
terminación tenían la misma forma de tildarse. Por tanto, para estas palabras no
encontradas se realizaron pruebas de tildado mediante el análisis de sus terminaciones.
4.1.2. Palabras ambiguas.
La palabra ambigua es una estructura que se definió para que contuviese toda la
información necesaria sobre la problemática que origina el hecho de que el tildado de la
misma no se pueda determinar mediante una búsqueda simple en diccionarios. Se
compone fundamentalmente de:
• La primera y más importante, es la posición de la tilde. Si no fuese porque
este campo varía dentro de una palabra ambigua, ésta no sería tal.
• La categoría de la palabra ambigua cuando la tilde se encuentra en una
posición determinada. Puede ocurrir que la categoría de la palabra sea la
misma aun cuando la posición de la tilde es distinta en cada uno de los casos.
A nosotros nos interesarán especialmente aquellos casos en los que la
categoría que tiene la palabra con la tilde en una posición es única y distinta
de la que tiene si la tilde se encuentra en otra posición. De esta forma, a
través del conocimiento de la categoría, seríamos capaces de determinar el
tildado de la palabra.
Capítulo 4. Pruebas y validación del sistema
100
• La palabra encontrada en los diccionarios, y que supondrá una variante de la
palabra ambigua. Las palabras que se van leyendo de los textos de El Mundo
se buscan en una serie de diccionarios, que se detallarán en un anexo
posterior. Se guardan todas las variantes que se vayan encontrando de una
palabra, que quedan almacenadas en este campo.
• Un campo totalmente informativo es el diccionario en el que se ha
encontrado esa variante de la palabra ambigua. Se puede haber encontrado
en cualquiera de los diccionarios empleados.
• Para el caso de los verbos, se almacena también el nombre del supuesto
infinitivo del verbo. La forma de buscar una palabra que puede ser un
tiempo verbal es la siguiente: se le elimina la terminación, y con la raíz se
intenta reconstruir el infinitivo del verbo. Si ésta reconstrucción se encuentra
en alguno de los diccionarios de infinitivos, se considera la palabra como un
verbo. Pero a veces esta estimación puede ser errónea, por lo que es
conveniente almacenar el supuesto infinitivo del verbo en cuestión. Si se ha
cometido un error, se suele apreciar fácilmente porque el infinitivo generado
no suele tener relación con la supuesta forma verbal.
Todas las palabras ambiguas eran volcadas a fichero. En un principio todas iban
al mismo. Pero tras sucesivos análisis de los resultados obtenidos, se fueron separando
según las tipologías en distintos ficheros. El formato de todos los ficheros de
ambigüedades que se generan es el mismo (ficheros con extensión .rpt ). Cada línea se
corresponde con una palabra ambigua en su tildado, dentro de uno de los tipos
preestablecidos. El formato de cada línea es el siguiente (con cada campo separado por
un espacio en blanco): palabra en estudio, trío de palabras que forman el contexto
(anterior, central, posterior), primera posición de la tilde dentro de la palabra encontrada
(si es 0, no está tildada), categorías de la palabra con esa posición de tilde, segunda
posición de tilde y sus categorías, etc. Las formato de las categorías es el mismo que el
de los textos 860.
Capítulo 4. Pruebas y validación del sistema
101
4.1.2.1. Tipología.
A continuación se enumeran los distintos tipos de ambigüedades a los que se ha
llegado. Hay que tener en cuenta que la selección de los tipos se hacía de manera
secuencial, en el orden en el que se van a enumerar. Es decir, que si una palabra
ambigua se ha enmarcado dentro de un tipo, es porque se ha visto que cumplía las
condiciones que se tenían que dar en las palabras de dicho tipo. Pero eso no quiere decir
que no pudiesen cumplir también los requisitos para estar dentro de otra tipología
posterior.
Para cada tipo de ambigüedad se muestra un ejemplo de los distintos ficheros de
ambigüedades obtenidos. Los tipos que se han tratado son los siguientes:
• Ambigüedad VERBO_NOMBRE_VERBO: se observó que se producía este caso
particular de la ambigüedad VERBO_NOMBRE y se decidió considerarlo aparte.
Se presenta cuando una palabra tiene la tilde en una determinada posición cuando es
un tiempo verbal o un nombre, y en otra cuando se trata de otro tiempo verbal.
• Ambigüedad VERBO_NOMBRE: cuando nos encontramos con una palabra
ambigua que puede ser verbo o nombre según la posición que ocupe la tilde, se
incluye en este tipo.
pasé Escándalo pasé día 4 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.M##sangre la sangre » 6 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.F##pasé los pasé a 4 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.M##secuestro del secuestro encanecida 0 V..01I.0.. N00##S.M## 9 V..41H.0..velas utilizaba velas para 0 V..01U.0.. V..01H.0.. V..02U.0.. N00##P.F## 2 V..01H.0..anunció , anunció ayer 0 V..01I.0.. N00##S.M## 7 V..41H.0..documento un documento interno 0 V..01I.0.. N00##S.M## 9 V..41H.0..serie una serie de 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.F##calle la calle » 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.F##apoyo con apoyo del 0 V..01I.0.. N00##S.M## 5 V..41H.0..silencio su silencio , 0 V..01I.0.. N00##S.M## 8 V..41H.0..título ellas título de 2 V..01I.0.. V..41H.0.. N00##S.M## 6 V0841H.0..anticipo su anticipo mortuorio 0 V..01I.0.. N00##S.M## 8 V..41H.0..
Capítulo 4. Pruebas y validación del sistema
102
• Ambigüedad VERBO_ADJETIVO_VERBO: análogamente a lo ya comentado en el
primer tipo, se observó que se producía este caso particular de la ambigüedad
VERBO_ADJETIVO y se decidió considerarlo aparte. Se presenta cuando una
palabra tiene la tilde en una determinada posición cuando es un tiempo verbal o un
adjetivo, y en otra cuando se trata de otro tiempo verbal.
• Ambigüedad VERBO_ADJETIVO: se trata del caso en el que nos encontramos con
una palabra ambigua que puede ser verbo o adjetivo según la posición que ocupe la
tilde.
• Ambigüedad VERBO_VERBO: en este caso dos palabras se diferencian en el
tildado por ser dos tiempos verbales distintos.
sería eso sería « 4 V..01H.0.. V..02U.0.. V29044.0.. V2904H.0.. V..A3H.0.. V..A3W.0.. V..A3T.0.. 0 A11..S.F##primarias las primarias de 7 V..04U.0.. 0 A11..P.F##obvio Es obvio que 4 V..01I.0.. 5 V..A3H.0.. 0 A11..S.M##critica texto critica expresamente 0 V..02U.0.. V..83U.0.. 3 A11..S.F##publica hoy publica EL 0 V..02U.0.. V..83U.0.. 2 A11..S.F##sería porque sería muy 4 V..01H.0.. V..02U.0.. V29044.0.. V2904H.0.. V..A3H.0.. V..A3W.0.. V..A3T.0.. 0 A11..S.F##medios los medios de 4 V..41I.0.. 0 A12##P.M##solicitó Gobierno solicitó ayer 0 V..01I.0.. 8 V..41H.0.. 4 A11..S.M##continuó que continuó en 7 V..01I.0.. 8 V..A3H.0.. V0841H.0.. 0 A11..S.M##indicó , indicó que 6 V..41H.0.. 0 V..03T.0.. 1 A11..S.M##indicó , indicó que 6 V..41H.0.. 0 V..03T.0.. 1 A11..S.M##indicó , indicó que 6 V..41H.0.. 0 V..03T.0.. 1 A11..S.M##criticó Maturana criticó « 7 V..41H.0.. 0 V..03T.0.. 3 A11..S.M##medios los medios de 4 V..41I.0.. 0 A12##P.M##medios los medios de 4 V..41I.0.. 0 A12##P.M##
tenías no tenías siquiera 4 V..03W.0.. 0 N00##P.F##tenía no tenía nada 4 V..03U.0.. V..03H.0.. V..03Y.0.. V0881..0.. 0 N00##S.F##mentira era mentira podrida 7 V..83I.0.. 0 N00##S.F##colegio en colegio público 6 V..41I.0.. 0 N00##P.M##mentira una mentira plural 7 V..83I.0.. 0 N00##S.F##venía política venía de 4 V..01W.0.. V..01Y.0.. V..41I.0.. V1481..0.. 0 N00##S.F##Venía Venía de 4 V..01W.0.. V..01Y.0.. V..41I.0.. V1481..0.. 0 N00##S.F##interprete abertzale interprete cuál 10 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. 4 N00##S.N## N00##S.M##
público orden público y 2 V..41H.0.. V..03T.0.. V..A3H.0.. A11..S.M## 7 V0841H.0..pública televisión pública , 2 V..02U.0.. V..83U.0.. V..02T.0.. A11..S.F## 0 V0802U.0..turbio Un turbio asunto 0 V..01I.0.. A11..S.M## 6 V..41H.0..doble un doble fraude 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N##turbio al turbio trato 0 V..01I.0.. A11..S.M## 6 V..41H.0..secreto el secreto del 0 V..01I.0.. A11..S.M## 7 V..41H.0..ambiente el ambiente previo 8 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N##previo ambiente previo a 0 V..41H.0.. A11..S.M## 6 V0841H.0..frecuente - frecuente secuela 9 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N##firme ponen firme firme 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N##firme puesto firme : 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N##
Capítulo 4. Pruebas y validación del sistema
103
• Ambigüedad VERBO_NOMBRE_ADJETIVO: con los tipos que vienen a
continuación ya no se es tan selectivo. Simplemente basta con que tengan las
categorías a las que hace referencia el nombre y estén asociadas a posiciones de tilde
distintas.
• Ambigüedad ADJETIVO_ADJETIVO: para todas las distintas posiciones de la tilde
nos encontramos ante adjetivos.
• Ambigüedad NOMBRE_NOMBRE: de forma análoga con los nombres.
explicó Klerk explicó que 7 V..41H.0.. 0 V..03T.0..llegó , llegó al 0 V..03I0.. V..03T.0.. 5 V..41H.0..completarán pocos completarán su 10 V..A1T.0.. 0 V..83T.0..llegó día llegó una 0 V..03I0.. V..03T.0.. 5 V..41H.0..eché Me eché a 4 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0..traté y traté de 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0..ocupe se ocupe de 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0..realizará que realizará el 9 V..02W.0.. V08A1H.0.. 0 V..02U.0.. V..02H.0.. V..02Y.0.. V0883..0..cree , cree que 4 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. V..41W.0.. V..A3H.0.. V0802U.0..protagonizó Feliu protagonizó ayer 0 V..01I.0.. 11 V..41H.0..contribuyó secuestro contribuyó a 0 V..01I.0.. 10 V..41H.0..contestó que contestó lo 0 V..01I.0.. 8 V..41H.0..aplazaran se aplazaran las 8 V..G.N.0.. 0 V..01U.0..motorizó se motorizó , 0 V..01I.0.. 8 V..41H.0..
interno documento interno que 0 V..01I.0.. N00##S.M## A11..S.M## 7 V..41H.0..caso el caso de 0 V..01I.0.. N00##S.M## A11..S.M## 4 V..41H.0..terció gasolinera terció : 0 V..01I.0.. N00##S.M## A11..S.M## 6 V..41H.0..caso el caso requería 0 V..01I.0.. N00##S.M## A11..S.M## 4 V..41H.0..interno documento interno elaborado 0 V..01I.0.. N00##S.M## A11..S.M## 7 V..41H.0..pagó y pagó ) 0 V..03I0.. V..03T.0.. N00##S.M## V0801I.0.. A11..S.M## 4 V..41H.0..baja se baja los 0 V..01H.0.. V..02U.0.. A11..S.F## 4 N00##S.M##interno funcionamiento interno y 0 V..01I.0.. N00##S.M## A11..S.M## 7 V..41H.0..presente estar presente a 8 V..41I.0.. 0 V..034.0.. V..03T.0.. N00##S.M## A11..S.N##
cardíacos masajes cardíacos , 5 A11..P.M## 0 A11..P.M##cardíaca actividad cardíaca hasta 5 A11..S.F## 0 A11..S.F##austriacos laboriosos austriacos para 0 A11..P.M## 6 A11..P.M##austriacas enfermeras austriacas que 0 A11..P.F## 6 A11..P.F##cardiacos ( cardiacos , 5 A11..P.M## 0 A11..P.M##dionisiaca masa dionisiaca y 0 A11..S.F## 7 A11..S.F##
plató el plató de 5 N00##S.M## 0 N00##S.M##cóctel un cóctel molotov 2 N00##S.M## 0 N00##S.M##chófer de chófer junto 3 N00##S.M## 0 N00##S.M##carné un carné de 5 N00##S.M## 0 N00##S.F##parque y parque eventual 0 N00##S.M## 6 N00##S.M##periodos los periodos de 4 N00##P.M## 0 N00##P.M##fútbol del fútbol que 2 N00##S.M## 0 N00##S.M##carné su carné español 5 N00##S.M## 0 N00##S.F##plato metiendo plato » 5 N00##S.M## 0 N00##S.M##cartel el cartel de 0 N00##S.M## 2 N00##S.M##cartel de cartel , 0 N00##S.M## 2 N00##S.M##carne de carne o 5 N00##S.M## 0 N00##S.F##
Capítulo 4. Pruebas y validación del sistema
104
• Ambigüedad NOMBRE_ADJETIVO: para distintas posiciones de tilde aparecen
(únicamente) nombres y adjetivos.
• Ambigüedad CONJ_OTROS: para distintas posiciones de la tilde aparece una
conjunción y cualquier otra categoría.
• Ambigüedad PREP_OTROS: análogamente para preposiciones.
• Ambigüedad DEMOST_OTROS: en este tipo se encuadran las palabras ambiguas
que presentan cualquier tipo de categoría junto a un demostrativo, ya sea adjetivo o
pronombre. Para ello nos servimos de los formatos de las categorías 860 (ver anexo
posterior), que nos ayudan a distinguirlas. Un adjetivo demostrativo viene
representado por A08 en las tres primeras posiciones: “A08.....”. Y un pronombre
demostrativo, por R11: “R11.....”.
porque - porque la 0 C09##N.0## 6 R22##S.M## N00##S.M##porque - porque la 0 C09##N.0## 6 R22##S.M## N00##S.M##porque dimite porque eso 0 C09##N.0## 6 R22##S.M## N00##S.M##porque protestado porque , 0 C09##N.0## 6 R22##S.M## N00##S.M##porque , porque recuerdan 0 C09##N.0## 6 R22##S.M## N00##S.M##porque ocurrido porque son 0 C09##N.0## 6 R22##S.M## N00##S.M##porque , porque la 0 C09##N.0## 6 R22##S.M## N00##S.M##porque equivocada porque toda 0 C09##N.0## 6 R22##S.M## N00##S.M##porque es porque las 0 C09##N.0## 6 R22##S.M## N00##S.M##porque , porque no 0 C09##N.0## 6 R22##S.M## N00##S.M##Porque Porque si 0 C09##N.0## 6 R22##S.M## N00##S.M##porque dimito porque sería 0 C09##N.0## 6 R22##S.M## N00##S.M##Porque Porque la 0 C09##N.0## 6 R22##S.M## N00##S.M##porque va porque sería 0 C09##N.0## 6 R22##S.M## N00##S.M##porque acepte porque de 0 C09##N.0## 6 R22##S.M## N00##S.M##
leones los leones el 0 N00##P.M## 5 A11..P.M##leonés el leonés Jaime 0 N00##P.M## 5 A11..P.M##inglés en inglés , 5 A11..S.M## A11..P.M## 0 N00##P.F##danés Ministerio danés de 4 A11..S.M## A11..P.M## 0 N00##P.M##inglés en inglés de 5 A11..S.M## A11..P.M## 0 N00##P.F##austriaco al austriaco Thomas 0 N00##S.M## A11..S.M## 6 N00##S.M## A11..S.M##inglés delantero inglés Alan 5 A11..S.M## A11..P.M## 0 N00##P.F##austriaco piloto austriaco Roland 0 N00##S.M## A11..S.M## 6 N00##S.M## A11..S.M##tácita , tácita o 2 A11..S.F## 0 N00##S.F##
sobre advirtió sobre las 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.M## P00##N.0##entre frontera entre ambas 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. P00##N.0##entre , entre los 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. P00##N.0##hacía se hacía manifiesta 4 V..81I.0.. V..81H.0.. 0 P00##N.0##sobre especulaciones sobre la 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.M## P00##N.0##bajo transparentes bajo el 0 V..01I.0.. N00##S.M## P00##N.0## B00..N.0## A11..S.M## 4 V..41H.0..entre editorialista entre el 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. P00##N.0##entre , entre otras 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. P00##N.0##
Capítulo 4. Pruebas y validación del sistema
105
• Ambigüedad PRONOMBRE_OTROS: este tipo se creó para analizar las
ambigüedades de los pronombres (en el caso de que no hayan sido clasificadas ya en
alguno de los tipos anteriores).
• Ambigüedad OTROS: tipo que recoge todo lo que no ha sido seleccionado
anteriormente.
esta recuperar esta iniciativa 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##este , este canal 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M## 1 R11##S.M##Esta : Esta vieja 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##este « este proyecto 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M## 1 R11##S.M##este de este año 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M## 1 R11##S.M##está No está mal 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##esta recurrido esta vez 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##éste Si éste se 4 V..03I.0.. 1 V..A3I.0.. V..G.N.0.. R11##S.M## 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M##este aplicar este sistema 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M## 1 R11##S.M##estas de estas severas 4 V..01U.0.. 1 R11##P.F## 0 A08##P.F## R11##P.F##esta Es esta clase 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##este en este que 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M## 1 R11##S.M##está democracia está muy 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##esta qué esta ley 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##esta claramente esta ley 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##
segundo lejano segundo puesto 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..varias durante varias semanas 4 V..01U.0.. 0 R14##P.F## A11..P.F##segundo un segundo plano 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..varias dio varias claves 4 V..01U.0.. 0 R14##P.F## A11..P.F##varias en varias ocasiones 4 V..01U.0.. 0 R14##P.F## A11..P.F##segundo el segundo para 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..varias de varias horas 4 V..01U.0.. 0 R14##P.F## A11..P.F##segundo En segundo lugar 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..segundo distante segundo lugar 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..segundo En segundo lugar 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..segundo el segundo político 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..
estrictamente cumpliendo estrictamente con 0 B03..N.0## 5 B03..N.0##jamás Israel jamás cedería 0 V..01U.0.. 4 B01..N.0## B21..S.N##periódicamente reiteraba periódicamente por 0 B03..N.0## 5 B01..N.0##jamás comercial jamás visto 0 V..01U.0.. 4 B01..N.0## B21..S.N##jamás que jamás hubiera 0 V..01U.0.. 4 B01..N.0## B21..S.N##únicamente general únicamente por 1 B03..N.0## 0 B03..N.N##únicamente era únicamente la 1 B03..N.0## 0 B03..N.N##únicamente servido únicamente para 1 B03..N.0## 0 B03..N.N##jamás « jamás veían 0 V..01U.0.. 4 B01..N.0## B21..S.N##estrictamente razones estrictamente impositivas 0 B03..N.0## 5 B03..N.0##alias , alias « 3 V..01U.0.. 0 B21..S.N##únicamente cantar únicamente en 1 B03..N.0## 0 B03..N.N##jamás Nunca jamás he 0 V..01U.0.. 4 B01..N.0## B21..S.N##
Capítulo 4. Pruebas y validación del sistema
106
4.1.2.2. Palabras diacríticas.
Las palabras diacríticas son aquellas que llevan la acentuación siempre en la
misma sílaba, independientemente de que estén o no tildadas. Por tanto, si la
acentuación es siempre la misma, no sería, en principio, necesario procesar estas
palabras, ya que el problema del presente proyecto se centra en el correcto tildado de las
palabras, pero orientado a que un sintetizador de voz conozca sin error la acentuación.
Debido a que las comparaciones entre palabras las realizamos siempre sin tener
en cuenta la tilde, las diacríticas se dejaron todas sin tilde en el diccionario de palabras
diacríticas. En dicho diccionario, se realiza una primera búsqueda al comienzo de la
clasificación, para determinar si una palabra es diacrítica. A este diccionario se le
añadieron palabras que, sin ser diacríticas, aparecían en los textos del diario tildadas o
no tildadas con las mismas características de éstas, sin serlo (o, incluida,...). Las
palabras que, por tanto, no se procesan por ser diacríticas (o por aparecer con un tildado
no influyente en la acentuación de la palabras) son:
Pero algunas de estas palabras, si bien siempre llevan la acentuación en la misma
sílaba, no poseen la misma entonación llevando y no llevando tilde. Por tanto, era
importante el conocimiento de dicho dato. Se decidió considerarlas como otro tipo más
de ambigüedad, siendo seleccionadas estas palabras antes de comenzar la selección de
tipos de ambigüedades explicada anteriormente. A estas palabras se las conoce dentro
del código como diac_tildes , y son las siguientes:
adondeaquelaquellaaquellasaquelloaquelloscualcuales
cuantacuantascuantocuantosdedondeesaese
esesesoesasesosestoestosincluidaincluido
incluidasincluidosoperiodosisolo
Capítulo 4. Pruebas y validación del sistema
107
• aun/aún
• el/él
• mas/más
• mi/mí
• se/sé
• te/té
• tu/tú
Una muestra del fichero generado para estas palabras diacríticas cuya tilde sí nos
interesa conocer es el siguiente:
4.1.2.3. Palabras interrogativas.
Otro estudio separado merecían las palabras interrogativas. Éstas mantienen
algunas características comunes entre sí, por las que en el caso de encontrarse en un
contexto de frase interrogativa llevarían tilde. Por tanto, también antes de determinar si
la palabra pertenece a alguno de los tipos de ambigüedad ya descritos, se comprueba si
se trata de una de estas palabras, y si es así, se extraen a un fichero aparte.
Las palabras que nos ha interesado tratar dentro de esta tipología de
interrogativas son las siguientes:
• que/qué
• como/cómo
el sufrieron el miércoles 0 N00##S.M## D00##S.M## 1 R00##H.M##el quemarme el vello 0 N00##S.M## D00##S.M## 1 R00##H.M##El El presidente 0 N00##S.M## D00##S.M## 1 R00##H.M##el , el mantenimiento 0 N00##S.M## D00##S.M## 1 R00##H.M##el » el 27 0 N00##S.M## D00##S.M## 1 R00##H.M##El El primer 0 N00##S.M## D00##S.M## 1 R00##H.M##El El documento 0 N00##S.M## D00##S.M## 1 R00##H.M##el elaborado el pasado 0 N00##S.M## D00##S.M## 1 R00##H.M##el por el dirigente 0 N00##S.M## D00##S.M## 1 R00##H.M##El El balance 0 N00##S.M## D00##S.M## 1 R00##H.M##se , se mantiene 2 V..01I.0.. V2902U.0.. 0 V..41W.0.. V..A3H.0.. R02##..N##el mantiene el nivel 0 N00##S.M## D00##S.M## 1 R00##H.M##se no se contabiliza 2 V..01I.0.. V2902U.0.. 0 V..41W.0.. V..A3H.0.. R02##..N##se no se declara 2 V..01I.0.. V2902U.0.. 0 V..41W.0.. V..A3H.0.. R02##..N##el incumple el sistema 0 N00##S.M## D00##S.M## 1 R00##H.M##
Capítulo 4. Pruebas y validación del sistema
108
• cuando/cuándo
• quien/quién
• quienes/quiénes
Un ejemplo del fichero de ambigüedades para estas palabras interrogativas se
muestra a continuación. Estas palabras serán posteriormente tratadas por el MBL de
manera individualizada: entrenará sólo con una de estas palabras para posteriormente
evaluar sólo esa misma palabra.
4.2. Búsqueda en diccionarios.
Para realizar un estudio sobre el correcto tildado de las palabras, se pensó que
primero se debía realizar un filtrado de las mismas. Las palabras que tienen una única
posición para la tilde (bien porque nunca se tilden, bien porque si lo hacen, la posición
de ésta sea siempre la misma) no son palabras que nos presenten mayor dificultad. Si
tenemos en cuenta que disponemos de una importante cantidad de información
almacenada en forma de diccionarios, la simple búsqueda de dichas palabras no
conflictivas (por no presentar ambigüedad respecto a la posición de la tilde) en los
diccionarios, nos puede resultar suficiente para conocer el correcto tildado de las
mismas.
que Administración que incumple 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que , que es 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que , que « 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que , que en 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que popular que llena 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##Como Como en 0 V..01I.0.. P..##N.0## B..##N.0## C..##N.0## B21..S.N## 2 R22##N.N## B07..N.0##que sabían que no 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que Ahora que la 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##quién ¿ quién diablos 0 R14##S.N## 4 R14##S.N##como , como pereciente 0 V..01I.0.. P..##N.0## B..##N.0## C..##N.0## B21..S.N## 2 R22##N.N## B07..N.0##que tendrían que recuperar 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que Aquella que , 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que saber que el 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que Y que ellos 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que puesto que lo 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##
Capítulo 4. Pruebas y validación del sistema
109
Los distintos diccionarios que se han empleado en estas tareas serán descritos en
un anexo posterior. Aquí tan sólo mencionaremos que entre ellos se encuentra el
diccionario de la Real Academia Española, el diccionario de los textos 860, un
diccionario de nombre propios, de siglas, abreviaturas, etc. No todas las palabras leídas
de los textos de El Mundo son procesadas. En primer lugar, las palabras leídas son
filtradas haciendo uso de las funciones de la librería dicc para eliminar todas aquellas
que pertenezcan a cabeceras de noticias, pies de página, firmas, etc. Una vez dichas
funciones nos entregan únicamente las palabras que pertenecen al cuerpo de una noticia,
nosotros comprobamos si esa palabra es diacrítica de las que no deben ser procesadas.
Si no es así, se observa si se trata de una de las palabras diacríticas de las que sí nos
interesa conocer la tilde, y en caso afirmativo, se procesa como tal. Si no, se comprueba
si es una de las palabras que hemos considerado como interrogativas.
Para estas tres comprobaciones anteriores, se crearon los diccionarios
respectivos con las palabras de cada tipo, y se cargaron en memora al comienzo de la
ejecución junto a los demás. Para realizar estas comprobaciones se empleaba también la
función de búsqueda en diccionarios SuperBuscaPalabra2 , modificada para nuestros
propósitos. Si no nos encontrábamos ante ninguno de estos tres casos, entonces se
realizaba la búsqueda en todos los diccionarios cargados, sin tener en cuenta la tilde, y
se iba creando para cada palabra su estructura PalabraAmbigua , para ir almacenando
toda la información relativa a las posiciones de tilde encontradas para esa palabra, y
todas las posibles categorías asociadas a cada posición de la tilde, en el caso de que la
palabra fuese ambigua.
Por supuesto, la situación óptima para nuestros propósitos era que la palabra
buscada fuese encontrada en alguno de los diccionarios, y que no poseyera ningún tipo
de ambigüedad respecto a la posición de la tilde. Pero esto no ocurría en un número
importante de los casos. Incluso, existía la posibilidad de que no se encontraran en
ninguno de los diccionarios. Estas palabras que calificamos como palabras no
encontradas, fueron volcadas a un fichero distinto, para ver si se las podía realizar algún
tipo de tratamiento.
Capítulo 4. Pruebas y validación del sistema
110
Hay que tener cuenta que el hecho de encontrar una palabra en los diccionarios,
y que ésta no presente ningún tipo de ambigüedad, no implica que obligatoriamente se
haya acertado en la resolución de su tildado al considerar como solución buena la que
figura en los diccionarios. Puede ocurrir, aunque con una probabilidad muy baja, que se
falle en ese dictamen. A esos casos les hemos dado el nombre de palabras encontradas
no ambiguas erradas.
4.2.1. Palabras no encontradas.
Con las palabras que no eran encontradas en ninguno de los diccionarios, se
pensó en la posibilidad de aplicar algún tipo de regla que permitiese predecir su tildado.
Se observó que las terminaciones o sufijos de las palabras podían ser determinantes a la
hora de estimar su acentuación: existen terminaciones para las que casi siempre la
acentuación de la palabra es la misma (aguda, llana o esdrújula). Por tanto, para las
palabras no encontradas, se examinó la terminación de las mismas, y si coincidía con
alguna de las que habíamos estudiado, se acentuaba la palabra según el modo o tipo de
acentuación asociado a cada terminación.
Las reglas se aplican a palabras poco comunes, de ahí que con pocas reglas
cubramos una amplio abanico de ellas, debido a que contamos con diccionarios grandes.
El hecho de que estas palabras no estén en los diccionarios indica que se usan menos, y
por tanto son más regulares. Suelen ser palabras raras inventadas, derivadas de otras.
Las palabras más irregulares, o excepciones a las reglas, ya se encuentran en los
diccionarios.
Las terminaciones que se emplearon, junto con los tipos de acentuación
asociados, se pueden apreciar en la Figura 4.1., donde se muestra la variable enumerada
term_acent_fija . Para realizar estas comprobaciones se crearon una serie de
funciones nuevas. La función EsTerminAcentConocida devuelve si la palabra termina
o no con alguno de los sufijos expresados en la figura. En caso afirmativo, rellena la
variable global acentuacion_term_palabra con la acentuación asociada a dicha
Capítulo 4. Pruebas y validación del sistema
111
terminación, para que después, mediante la función
AcentuaPalabraSegunTerminacion , la palabra se acentúe como tal estimación, y, si es
pertinente, se tilde.
Figura 4.1. Terminaciones con acentuación conocida.
Los resultados obtenidos con esta estrategia, que se detallarán en apartados
posteriores, son bastante exitosos, alcanzando una tasa de acierto en la predicción del
tildado del 98%. También hay que decir que de las palabras no encontradas, sólo el 54%
posee alguna de estas terminaciones. Para aumentar ese porcentaje se deberían añadir
más terminaciones a esta lista.
TTerminacion_acent term_acent_fija[] = {{"acion",AGUDA},{"idad",AGUDA},{"idades",LLANA},{"ante",LLANA},{"antes",LLANA},{"oria",LLANA},{"orio",LLANA},{"orios",LLANA},{"orias",LLANA},{"ista",LLANA},{"istas",LLANA},{"ivo",LLANA},{"iva",LLANA},{"ivos",LLANA},{"ivas",LLANA},{"escas",LLANA},{"esco",LLANA},{"escos",LLANA},{"acia",LLANA},{"acias",LLANA},{"ismo",LLANA},{"ismos",LLANA},{"ente",LLANA},{"entes",LLANA},{"izar",AGUDA},{"grama",LLANA},{"um",LLANA},{"ez",AGUDA},{"ito",LLANA},{"itos",LLANA},{"ita",LLANA},{"itas",LLANA},{"ado",LLANA},{"ada",LLANA},{"ados",LLANA},{"adas",LLANA},{"dad",AGUDA},{"dades",LLANA},{"ancia",LLANA},{"ancias",LLANA},{"ador",AGUDA},{"adora",LLANA},
{"adores",LLANA},{"adoras",LLANA},{"ora",LLANA},{"oras",LLANA},{"eses",LLANA},{"illo",LLANA},{"illos",LLANA},{"illa",LLANA},{"illas",LLANA},{"isimo",ESDRUJULA},{"isima",ESDRUJULA},{"isimos",ESDRUJULA},{"isimas",ESDRUJULA},{"iendo",LLANA},{"ando",LLANA},{"oide",LLANA},{"oides",LLANA},{"ing",LLANA},{"arlo",LLANA},{"arlos",LLANA},{"arla",LLANA},{"arlas",LLANA},{"oso",LLANA},{"osos",LLANA},{"osa",LLANA},{"osas",LLANA},{"encia",LLANA},{"encias",LLANA},{"ano",LLANA},{"ana",LLANA},{"ane",LLANA},{"anos",LLANA},{"anas",LLANA},{"anes",LLANA},{"ensa",LLANA},{"enso",LLANA},{"ensas",LLANA},{"ensos",LLANA},{"ento",LLANA},{"entos",LLANA},{"arse",LLANA},{"erse",LLANA},{"irse",LLANA},{"ible",LLANA},
{"ibles",LLANA},{"able",LLANA},{"ables",LLANA},{"on",AGUDA},{"ones",LLANA},{"ona",LLANA},{"onas",LLANA},{"ial",AGUDA},{"iales",LLANA},{"iento",LLANA},{"ientos",LLANA},{"istica",ESDRUJULA},{"istico",ESDRUJULA},{"isticos",ESDRUJULA},{"isticas",ESDRUJULA},{"ogico",ESDRUJULA},{"ogicos",ESDRUJULA},{"ogica",ESDRUJULA},{"ogicas",ESDRUJULA},{"ico",LLANA},{"ica",LLANA},{"icos",LLANA},{"icas",LLANA},{"enta",LLANA},{"anza",LLANA},{"anzas",LLANA},{"ero",LLANA},{"era",LLANA},{"eros",LLANA},{"eras",LLANA},{"or",AGUDA},{"ores",LLANA},{"eiro",LLANA},{"eira",LLANA},{"eiros",LLANA},{"eiras",LLANA},{"inyo",LLANA},{"inya",LLANA},{"inyos",LLANA},{"inyas",LLANA},{"ete",LLANA},{"etes",LLANA},{"ette",LLANA},{"ettes",LLANA},
{"allo",LLANA},{"allos",LLANA},{"alla",LLANA},{"allas",LLANA},{"ar",AGUDA},{"er",AGUDA},{"ir",AGUDA},{"ares",LLANA},{"oj",AGUDA},{"ojs",AGUDA},{"itis",LLANA},{"erte",LLANA},{"erlo",LLANA},{"izan",LLANA},{"iza",LLANA},{""}};
Capítulo 4. Pruebas y validación del sistema
112
4.2.2. Estructura de la clasificación.
A continuación se van a exponer de manera gráfica los distintos pasos por los
que va pasando una palabra que ya ha sido filtrada como palabra perteneciente al cuerpo
de la noticia. Es importante tener clara la probabilidad con la que nos podemos
encontrar en cada opción, pues también contribuye a la tasa de acierto total del sistema.
Es decir, al realizar la búsqueda en diccionarios ya estamos acertando con algunas de
ellas; y con las que no lo hacemos, posteriormente se aplicarán las técnicas MBL o
reglas para mejorar estas estadísticas.
En la Figura 4.2. se pueden apreciar las distintas decisiones que se van tomando
tras la búsqueda de una palabra en los diccionarios.
Figura 4.2. Búsqueda en diccionarios y clasificación.
PALABRAS DELCUERPO DE LOS
TEXTOS¿Es diacrítica?
SI
No seprocesa
NO
NO
SI
diac_tildes.rptinterrogativas.rpt
Búsqueda endiccionarios
¿Encontrada?
NO
SI
¿Terminaciónconocida?
SI
Ambigua
No Ambigua
Tipos de ambigüedades: *.rpt
Interrogativas: interrogativas.rpt
Diacríticas-tilde: diac_tildes.rpt
no_encon_term.rpt
NO
¿Es diac_tilde ointerrogativa?
Erradas: term_erradas.rpt
Acertadas
Erradas: erradas.rpt
AcertadasEXITO
Palabras no encontradas sinterminación conocida:
no_encon.rpt
Capítulo 4. Pruebas y validación del sistema
113
La aplicación genera varios ficheros de extensión .rpt, aparte de los propios
ficheros de ambigüedades. De este modo, como se puede ver en la figura anterior, para
las palabras que se han encontrado sin ambigüedad pero con una posición de tilde
distinta a la que tenía la palabra leída en los textos, son volcadas al fichero erradas.rpt.
Una muestra del mismo puede apreciarse a continuación: la primera columna presenta
las palabras leídas de los textos, y en la segunda columna, las palabras encontradas en
los diccionarios.
Palabra leída--------Palabra encontrada
Pág pag
habia había
huído huido
Morán moran
bebés bebes
Parece que tiene algún problema con los plurales: la palabra bebés no ha sido
capaz de encontrarla como plural de bebé, sino únicamente como verbo. También se
aprecia algún error debido a los nombres propios: es el caso de Morán/moran. Éstos
último poseen una más fácil solución, que es ampliando el diccionario de nombres
propios con las palabras que se vayan encontrando. Sin embargo, el porcentaje de
palabras que se encuentran como no ambiguas y se yerran es muy bajo frente al total de
palabras no ambiguas encontradas: representan menos del 2%.
Así mismo, si la palabra no ha sido encontrada en los diccionarios y posee una
terminación “conocida”, se volcará al fichero no_encon_term.rpt y se procederá a
comprobar si se ha estimado correctamente la tilde. Un ejemplo del fichero anterior se
muestra a continuación:
gravísimas
tantísimos
autoimponerse
exhaustivamente
guerristas
felipismo
felipismo
horteridad
Capítulo 4. Pruebas y validación del sistema
114
tracamandanas
españolísima
entendidísimo
judicialización
personajillos
autocompasiva
empecinadamente
Si para alguno de las palabras contenidas en el anterior fichero no se ha estimado
correctamente la tilde, estas palabras son volcadas al fichero term_erradas.rpt. Una
muestra del mismo se puede ver a continuación:
Palabra leída--------Palabra estimada
ring ríng
idearium ideárium
looping loóping
argumentum arguméntum
potissimum potissímum
zapping zápping
simposium simpósium
Como se puede ver, la mayoría de las palabras erradas cuando se ha detectado
una terminación “conocida” son extranjerismos, y la gran mayoría son anglicismos con
la terminación –ing. Dichas palabras no han sido encontradas porque no se emplearon
los diccionarios extranjeros, debido a los grandes requerimientos de recursos que se
necesitaban para cargarlos. Y se ha cometido error con ellos por intentar aplicar una
tildado del castellano a una palabra extranjera. Sin embargo, estos errores representan,
frente al total de palabras no encontradas con terminación “conocida”, tan sólo un 2%.
Finalmente, todas las palabras no encontradas en los diccionarios y que no han
sido enviadas a ninguno de los dos ficheros anteriores de palabras no encontradas, son
volcadas al fichero no_encon.rpt. El total de las palabras no encontradas en los
diccionarios representan tan sólo el 0.73% del total de palabras procesadas.
motorola
bravía
sociatas
Capítulo 4. Pruebas y validación del sistema
115
light
rock
set
sets
plastilina
personajazos
apartheid
Finalmente, el fichero que produce la aplicación con todos los datos numéricos
de los tipos de palabras que van procesando se llama estadisticas.rpt. Todos los ficheros
y datos expresados en párrafos anteriores se han obtenido ejecutando la aplicación con
un fichero que contenía todas las noticias del mes de Mayo de 1994 del diario El
Mundo, así como el fichero de estadísticas que se muestra a continuación:
Fecha y Hora de comienzo del programa: Thu Mar 30 21:24:02 2000
Artículos procesados: 4317Frases: 100456Palabras totales: 2367439
Palabras diacríticas (no procesadas): 402442
Palabras procesadas: 1706349
Palabras no encontradas en los diccionarios: 12523Palabras no encontradas en los diccionarios sin terminación conocida: 5778Palabras no encontradas con terminación conocida y acertadas: 6610Palabras no encontradas con terminación conocida y erradas: 135
Palabras encontradas no ambiguas: 1382757Palabras encontradas no ambiguas acertadas: 1379941Palabras encontradas no ambiguas erradas: 2816
Palabras encontradas ambiguas: 311069Palabras encontradas ambiguas VERBO_NOMBRE: 7489Palabras encontradas ambiguas VERBO_NOMBRE_VERBO: 41591Palabras encontradas ambiguas VERBO_ADJET: 3519Palabras encontradas ambiguas VERBO_ADJET_VERBO: 8212Palabras encontradas ambiguas VERBO_VERBO: 19023Palabras encontradas ambiguas VERBO_NOMBRE_ADJET: 7833Palabras encontradas ambiguas ADJET_ADJET: 623Palabras encontradas ambiguas NOMBRE_ADJET: 3203Palabras encontradas ambiguas NOMBRE_NOMBRE: 1492Palabras encontradas ambiguas CONJ_OTROS: 2544Palabras encontradas ambiguas PREP_OTROS: 11738Palabras encontradas ambiguas DEMOST_OTROS: 13284Palabras encontradas ambiguas PRONOMBRE_OTROS: 3333Palabras encontradas ambiguas OTROS: 310Palabras diacríticas cuya tilde queremos conocer: 103169Palabras interrogativas: 83706
Porcentaje de acierto (%): 81.258347
Fecha y Hora de finalización del programa: Fri Mar 31 10:02:47 2000
Tiempo de ejecución(seg): 45525.0
Capítulo 4. Pruebas y validación del sistema
116
La diferencia entre las palabras totales y las palabras procesadas más las
diacríticas (no procesadas) son las palabras que no pertenecen al cuerpo central de las
noticias. Y el porcentaje de acierto refleja el tanto por ciento de palabras encontradas no
ambiguas y con tilde acertada (1.379.941) junto a las palabras no encontradas pero con
terminación conocida y cuya tilde se ha acertado (6.610), frente a las palabras
procesadas (1.706.349), resultando el 81.26% reflejado en el fichero anterior. Este
porcentaje no representa el acierto global del sistema. El 18.74% restante no es un
porcentaje de error, sino que ahí están englobadas todas las no encontradas sin
terminación conocida, o con terminación conocida pero cuya tilde se ha errado, y todas
las palabras ambiguas: los distintos tipos de ambigüedades por categorías, interrogativas
y diacríticas cuya tilde queremos conocer. De ellas, las palabras ambiguas (incluyendo
las diacríticas e interrogativas) representan el 18.23% de todas las palabras procesadas.
Por tanto, las no encontradas erradas tan sólo constituyen el 0.53%. Sobre todas estas
palabras es sobre las que se van a aplicar técnicas MBL para mejorar los resultados.
En la Figura 4.3. se pueden apreciar los porcentajes de cada tipo obtenidos al
analizar las noticias de un mes completo:
Capítulo 4. Pruebas y validación del sistema
117
Figura 4.3. Porcentajes tras el procesado.
4.3. Resultados de las pruebas con el MBL.
Las primeras pruebas que se realizaron con el MBL fueron para comprobar su
correcto funcionamiento, cuando se estaba desarrollando. A partir de un silabicador ya
desarrollado en el Grupo de Tecnología del Habla, se probó el MBL para tareas de
silabicación. En un primer momento, se entrenaba al MBL con Diccionario de la Real
Academia Española, y se hacía evaluar a estas mismas palabras, consiguiendo
porcentajes de error prácticamente nulos. Posteriormente, para añadir algo de dificultad
a su tarea, se hizo que entrenara con el diccionario RAE sin tildar (previamente se
PALABRAS DELCUERPO DE LOS
TEXTOS¿Es diacrítica?
SI
No seprocesa
NO
¿Es diac_tilde ointerrogativa?
NO
SI
Búsqueda endiccionarios
¿Encontrada?
NO
SI
¿Terminaciónconocida?
SI
Ambigua
No Ambigua
Tipos de ambigüedades: *.rpt
Interrogativas: interrogativas.rpt
Diacríticas-tilde: diac_tildes.rpt
Palabras no encontradas sinterminación conocida:
no_encon.rpt
no_encon_term.rpt
NO
2.108.791
Porcentajes calculadossobre Palabras
Procesadas (100%)
1.706.34980.92%
Palabras Procesadas
Porcentajes calculadossobre Palabras
Procesadas (100%)diac_tildes.rptinterrogativas.rpt
311.06918.23%
1.382.75781.04%
Erradas: term_erradas.rpt
Acertadas
Erradas: erradas.rpt
Acertadas
2.8160.16%
1.379.94180.87%
402.44219.08%
12.5230.73%
6.6100.39%
EXITO1.386.55181.26%
5.7780.34%
124.1947.28%
103.1696.05%83.7064.91%
1350%
Capítulo 4. Pruebas y validación del sistema
118
desacentuaban todas las palabras del mismo) y que evaluase las palabras del diccionario
RAE tildadas, comprobando que los resultados también eran satisfactorios. Estas
pruebas servían también para ir estimando los tiempos de entrenamiento y de evaluación
del sistema. De este modo, se modificaron con posterioridad funciones de búsqueda en
los módulos de pesos y de evaluación, para agilizar los tiempos de los módulos más
lentos.
Posteriormente, y una vez se había probado la aplicación de procesado de textos
del diario El Mundo, se pasó a probar el MBL con los ficheros .rpt de ambigüedades
fruto de dicho procesado. Dichas pruebas pasan a describirse a continuación.
4.3.1. Entrenamiento con el RAE y evaluación de las palabras no
encontradas.
La primera prueba que se realizó fue la de intentar, entrenando con los ejemplos
obtenidos del diccionario RAE, estimar el tildado de las palabras procedentes del
fichero no_encon.rpt: aquellas palabras no encontradas en los diccionarios que no
poseían una de las terminaciones que consideramos con acentuación fija. Para ello, los
rasgos que se tomaron fueron letras, y las ventanas que se escogieron fueron de 5 y de
7 rasgos. Éstos resultados fueron prácticamente iguales que los que se obtuvieron al
añadir a los ejemplos un rasgo adicional: la distancia en número de sílabas de la que
contiene a la letra central de la ventana al final de la palabra. Por tanto, en esa prueba
los ejemplos contenían 6 y 8 rasgos.
Los resultados que se ofrecen en la Figura 4.4. corresponden a los realizados con
ejemplos de 6 rasgos (5 rasgos de la ventana de letras y el rasgo adicional de la distancia
silábica). Los que se realizaron sin dicho rasgo adicional (ventanas de 5 y de 7) fueron
bastante parecidos, ya que, como se puede apreciar en la Figura 4.5. (fichero de
estadísticas de los pesos), el último rasgo adicional ofrece una ganancia de entropía
mucho menor (en valor absoluto) que los demás. Tampoco se apreciaron grandes
diferencias entre los resultados obtenidos para ventanas de 5 y 7 rasgos, o entre
Capítulo 4. Pruebas y validación del sistema
119
ventanas de 6 y de 8. El añadir como rasgo una letra más a cada lado no afectaba apenas
a los resultados.
Figura 4.4. Resultados tildado.
Figura 4.5. Fichero de estadísticas de los pesos.
Si tenemos en cuenta que la probabilidad de encontrarnos con este tipo de
palabras entre las que se procesaron a partir de las noticias es de un 0.34%, y que se ha
obtenido una probabilidad de error para este tipo de palabras del 12.41%, la
contribución al error total de una de estas palabras es del 0.04%.
4.3.2. Entrenamiento y evaluación de palabras interrogativas.
Como ya se comentó anteriormente, todas las palabras que, como, cuando, quien
y quienes (o las correspondientes con tilde) que se procesaban, eran volcadas al fichero
interrogativas.rpt. A partir de dicho fichero, se diseñó un traductor que filtrase para
cada prueba una sola de las cinco palabras.
Estadísticas de la evaluación: Tasa de aciertos (en%): 87.587940 (1743 de 1990)
Peso rasgo nº 0 : 118942.398438Ganancia Entropía rasgo nº 0 : -118942.093750Peso rasgo nº 1 : 130264.210938Ganancia Entropía rasgo nº 1 : -130263.906250Peso rasgo nº 2 : 130688.203125Ganancia Entropía rasgo nº 2 : -130687.898438Peso rasgo nº 3 : 131019.187500Ganancia Entropía rasgo nº 3 : -131018.882812Peso rasgo nº 4 : 122938.359375Ganancia Entropía rasgo nº 4 : -122938.054688Peso rasgo nº 5 : 37257.785156Ganancia Entropía rasgo nº 5 : -37257.480469Entropía Información de la BD: 0.304138
Capítulo 4. Pruebas y validación del sistema
120
Se empezó entrenando al sistema con el mismo fichero que se quería evaluar (lo
que en las figuras de resultados aparece como ficheros no-disjuntos): todo el fichero de
interrogativas restringido a cada palabra en cada caso. Posteriormente, se entrenó al
sistema con una proporción del 80% de las palabras de uno de los cinco tipos que
existiesen en dicho fichero, y se evaluaba el restante 20%. Es decir, se entrenaba y se
evaluaba al MBL con ficheros disjuntos.
Por último, se hizo también una prueba con una combinación MBL y
probabilidad: como se conocía la probabilidad de encontrar cada una de estas palabras
con y sin tilde, para aquellos casos en los que no se hubiese encontrado un ejemplo
igual que el que se evaluaba (a distancia cero del mismo), la solución que se tomaría
sería la más probable, y no se tendría en cuenta la solución estimada por el MBL. Esta
prueba aparecerá en las figuras como MBL+PROB.
A continuación se expondrán en figuras las tablas de resultados obtenidas para
cada una de las palabras por separado. Se observará que para algunas de estas palabras,
como por ejemplo quienes, el número de ejemplos con los que se ha podido entrenar es
muy bajo. No ocurre lo mismo con la palabra que, por ejemplo.
Para todos estos casos los rasgos que se han empleado han sido palabras, y las
ventanas han sido siempre de 3 palabras, centradas sobre la palabra en estudio.
Capítulo 4. Pruebas y validación del sistema
121
4.3.2.1. Palabra que.
4.3.2.2. Palabra como.
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas430 22793 430 22793 23223 23185 99,83636912
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas130 7153 430 22793 7283 6958 95,53755321
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas130 7153 430 22793 7283 7153 98,21502128
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas231 2754 231 2754 2985 2966 99,36348409
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas69 893 231 2754 962 866 90,02079002
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas69 893 231 2754 962 893 92,82744283
Capítulo 4. Pruebas y validación del sistema
122
4.3.2.3. Palabra quien.
4.3.2.4. Palabra quienes.
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas16 147 16 147 163 163 100
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas2 34 16 147 36 32 88,88888889
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas2 34 16 147 36 34 94,44444444
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas91 360 91 360 451 445 98,66962306
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas31 101 91 360 132 94 71,21212121
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas31 101 91 360 132 101 76,51515152
Capítulo 4. Pruebas y validación del sistema
123
4.3.2.5. Palabra cuando.
Como puede apreciarse en los resultados, de la palabra quienes sólo hemos
podido evaluar 36 casos, por lo que no sabemos el grado de fiabilidad de dichos
porcentajes de acierto. Pero los más destacables son los de la palabra quien, ya que para
ficheros disjuntos se obtienen los peores resultados: sólo un 71.21% de acierto. Para
intentar mejorar estos resultados, y a la vista del bajo número de ejemplos quien de
entrenamiento, se decidió realizar la prueba que se explica el siguiente apartado.
4.3.2.6. Evaluación de quien entrenando con que.
Debido a cierta similitud de los contextos en los que las palabras que y quien se
acentuaban o no, se decidió entrenar el sistema con los ejemplos obtenidos de la palabra
que, ya que de esta palabra sí se disponía de un elevado número de ejemplos de
entrenamiento. Lo único que se realizó una vez el sistema había entrenado fue poner en
el fichero diccionario de pesos (pesos.dic), que genera el módulo de pesos, el peso del
rasgo central (palabra en estudio) a cero, ya que se trataba de palabras distintas.
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas8 890 8 890 898 896 99,77728285
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas4 263 8 890 267 263 98,50187266
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas4 263 8 890 267 263 98,50187266
Capítulo 4. Pruebas y validación del sistema
124
Una vez el sistema ha entrenado con dichos ejemplos, se le pasan los de la
palabra quien para que sean evaluados. Se obtuvieron los siguientes resultados:
Se puede apreciar que el porcentaje de acierto se elevó en un 12%. Se observa
también que la palabra con la que se obtuvieron peores resultados (quien) era la que
presentaba una menor desproporción entre casos acentuados y sin acentuar. De ahí que
esta fuese también con la que se obtuvieron peores resultados a la hora de combinar
técnicas con la solución más probable.
4.3.3. Entrenamiento y evaluación de diacríticas-tilde.
Recordemos que bajo dicha denominación englobamos aquellas palabras
diacríticas de las que nos interesa conocer la posición de la tilde porque dependiendo de
su existencia o no, la entonación de la palabra cambia considerablemente. Las palabras
que habíamos separado como tales son:
• aun/aún
• el/él
• mas/más
• mi/mí
• se/sé
• te/té
• tu/tú
A simple vista, es bastante sencillo predecir que las palabras mas y te, sin tildar,
van a aparecer bastante poco, por lo que con la simple utilización de una estrategia
basada en probabilidad se obtendrían resultados bastante satisfactorios. A continuación
Ficheros disjuntos (MBL)
Evaluación (QUIEN) Entrenamiento (QUE) Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas122 461 560 29946 583 495 84,90566038
Capítulo 4. Pruebas y validación del sistema
125
se detallan los resultados obtenidos para cada palabra en particular. Las condiciones de
entrenamiento y evaluación son las mismas que las ya expresadas para las palabras
interrogativas: ventanas de 3 rasgos, donde los rasgos representan palabras y una
proporción de 80/20% para la prueba con ficheros disjuntos.
4.3.3.1. Palabra aun.
4.3.3.2. Palabra el.
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas16 311 16 311 327 324 99,08256881
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas54 2 257 14 56 54 96,42857143
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas54 2 257 14 56 54 96,42857143
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas484 26248 484 26248 26732 26695 99,86158911
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas83 4313 401 21935 4396 4170 94,85896269
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas83 4313 401 21935 4396 4308 97,99818016
Capítulo 4. Pruebas y validación del sistema
126
4.3.3.3. Palabra mas.
4.3.3.4. Palabra mi.
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas3585 32 3585 32 3617 3608 99,75117501
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas540 5 27 3048 545 540 99,08256881
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas540 5 27 3048 545 540 99,08256881
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas103 413 103 413 516 513 99,41860465
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas18 69 85 344 87 71 81,6091954
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas18 69 85 344 87 69 79,31034483
Capítulo 4. Pruebas y validación del sistema
127
4.3.3.5. Palabra se.
4.3.3.6. Palabra te.
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas80 10517 80 10517 10597 10585 99,8867604
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas13 1831 67 8686 1844 1825 98,96963124
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas13 1831 67 8686 1844 1831 99,29501085
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas4 92 4 92 96 96 100
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas1 12 3 80 13 12 92,30769231
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas1 12 3 80 13 12 92,30769231
Capítulo 4. Pruebas y validación del sistema
128
4.3.3.7. Palabra tu.
Observando los casos anteriores se aprecia que los resultados con MBL+prob
empeoran cuando no existe desproporción entre el número de casos tildados y sin tildar.
Es decir, en aquellos casos en los que el número de casos acentuados y sin acentuar se
pone parejo, los resultados con dicha estrategia pueden llegar a empeorar
considerablemente.
Tampoco es muy conveniente tener en cuenta aquellos resultados de palabras
con las que se ha podido entrenar con escasos ejemplos, o el número de ellos que
evaluar es muy bajo, como puede ser el caso de la palabra tu, para la que se disponía
únicamente de 7 palabras que evaluar.
4.3.4. Entrenamiento y evaluación de demostrativos-otros.
Dentro de esta denominación nos encontramos únicamente con tres casos: los de
las palabras esta, este y estas. Como es fácil de suponer, no nos encontramos ante casos
triviales, ya que, para empezar, pueden presentar tres posiciones distintas de la tilde.
Como se verá cuando se muestren los resultados en sus respectivas tablas, éstos no son
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
AcentuadasNo-Acentuadas Acentuadas No-Acentuadas28 31 28 31 59 59 100
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
AcentuadasNo-Acentuadas Acentuadas No-Acentuadas3 4 25 27 7 5 71,42857143
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
AcentuadasNo-Acentuadas Acentuadas No-Acentuadas3 4 25 27 7 4 57,14285714
Capítulo 4. Pruebas y validación del sistema
129
satisfactorios para los casos de esta y estas. De ahí que, como se explicará más adelante,
estas dos palabras reciban un trato adicional: resolviendo la ambigüedad que presentan
respecto a su categoría (ambigüedad verbo_presente_indicativo-demostrativo) se
puede llegar a estimar su tildado, obteniendo resultados bastante más satisfactorios.
A continuación se muestran las estadísticas de los resultados obtenidos en la
realización de las pruebas con estas tres palabras. Las condiciones en las que se han
llevado a cabo son las mismas que las que se han explicado para los dos grupos de
palabras ya tratados anteriormente.
4.3.4.1. Palabra esta.
Como se puede ver en el cuadro anterior, los resultados para ficheros disjuntos
no resultaron satisfactorios, de ahí que se pensara en otra estrategia para este tipo de
palabras.
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas1355 1364 1355 1364 2719 2707 99,55866127
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas168 172 1187 1192 340 182 53,52941176
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas168 172 1187 1192 340 172 50,58823529
Capítulo 4. Pruebas y validación del sistema
130
4.3.4.2. Palabra este.
4.3.4.3. Palabra estas.
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas243 1958 243 1958 2201 2189 99,45479328
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas32 227 211 1731 259 221 85,32818533
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas32 227 211 1731 259 227 87,64478764
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas41 362 41 362 403 401 99,50372208
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas6 54 35 308 60 49 81,66666667
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas6 54 35 308 60 54 90
Capítulo 4. Pruebas y validación del sistema
131
4.3.5. Entrenamiento y evaluación de conjunciones-otros.
Al examinar este fichero generado tras el procesamiento de los textos del
periódico nos encontramos con que tan sólo aparece la palabra porque. Nos
encontramos ante una palabra con una baja probabilidad de que se encuentre tildada, por
lo que, en un principio, parece que los mejores resultados se deberían obtener de las
pruebas MBL+prob. A continuación se muestran los resultados obtenidos para dicha
palabra al realizar las pruebas en las mismas condiciones en las que se realizaron las
anteriores.
4.3.6. Entrenamiento y evaluación de preposiciones-otros.
En este caso nos encontramos frente a cuatro palabras: bajo, entre, hacia y
sobre. A primera vista, todo parece indicar que los resultados que se van a obtener para
las palabras sobre y entre van a ser los más elevados, ya que en los textos periodísticos
(que son con los que estamos entrenando y evaluando en estas pruebas) es muy difícil
encontrase con la palabra sobré. Y aunque no sea tan difícil encontrarse con la palabra
entré, la proporción de palabras entre va a ser siempre mucho más elevada, por lo que
se puede decir lo mismo de esta palabra.
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas8 920 8 920 928 928 100
Ficheros disjuntos (MBL)Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas1 123 7 797 124 122 98,38709677
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas1 123 7 797 124 123 99,19354839
Capítulo 4. Pruebas y validación del sistema
132
4.3.6.1. Palabra bajo.
4.3.6.2. Palabra entre.
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas18 249 18 249 267 266 99,62546816
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas3 122 15 227 25 22 88
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas3 122 15 227 25 22 88
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas1 1253 1 1253 1432 1432 100
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas0 178 1 1253 178 178 100
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas0 178 1 1253 178 178 100
Capítulo 4. Pruebas y validación del sistema
133
4.3.6.3. Palabra hacia.
4.3.6.4. Palabra sobre.
Se observa que los peores resultados se obtienen para la palabra hacia. Para este
caso se intentará también otra estrategia basada en la el empleo del MBL para la
correcta categorización de esta palabra, y a partir de este dato obtener su tildado.
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas76 310 76 310 386 386 100
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas3 27 73 283 30 21 70
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas3 27 73 283 30 27 90
Ficheros no-disjuntos
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas0 1688 0 1688 1688 1688 100
Ficheros disjuntos (MBL)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas0 218 0 1470 218 218 100
Ficheros disjuntos (MBL con probabilidad)
Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto
Acentuadas No-Acentuadas Acentuadas No-Acentuadas0 218 0 1470 218 218 100
Capítulo 4. Pruebas y validación del sistema
134
4.3.7. Entrenamiento y evaluación de pronombres-otros.
En este fichero nos encontramos con algunas palabras que no tienen mucho
sentido y que carecen de interés. Las palabras sobre las que vamos a realizar un estudio
son las siguientes: decimos, media, ultimo, ultima, varias. Sin embargo, los resultados
obtenidos con el sistema sobre estas palabras carecen de interés alguno. En todos los
casos, y para las cinco palabras, se obtuvo un 100% de aciertos. La razón es que en
todos los ejemplos de evaluación y de entrenamiento no se encontraba ninguna de éstas
palabras tildada. Esa es la razón por la que la elección de la solución resultase tan
sencilla.
4.3.8. Entrenamiento y evaluación de la categoría gramatical en textos
860.
Debido a que disponíamos de ficheros de ambigüedades en los que las palabras
que aparecían podían llevar la tilde en una u otra posición según su categoría
gramatical, se nos planteó el entrenar el sistema MBL para que fuese capaz de detectar
la correcta categoría de una de estas palabras. De este modo, seríamos capaces de
predecir su tildado.
Esto suponía cambios en el módulo traductor, como ya se explicó en el tercer
capítulo de la presente memoria. Ahora los rasgos serían binarios, y representarían cada
uno a un tipo de categoría asociado a la/s palabra/s anterior/es y posterior/es a la palabra
en estudio. Es decir, si la ventana que se está empleando es de tres palabras, las
ventanas serán de 21 rasgos, donde los 10 primeros representarán a 10 tipos de
categorías asociados a la palabra anterior, habrá uno central siempre a 0 para la palabra
central y otros 10 para la palabra posterior. El rasgo central es necesario ya que el
número de rasgos con los que se quiere que el sistema trabaje ha de ser impar. Los
valores que pueden tomar son únicamente CATEGORIA_SI Y CATEGORIA_NO. Si
la ventana es de cinco palabras, entonces las ventanas de rasgos serán de 41 rasgos.
Capítulo 4. Pruebas y validación del sistema
135
Si se disponía de ocho ficheros .aps (textos 860), se emplearon siete de ellos
para el entrenamiento del sistema, y se evaluaba uno de ellos. Se emplearon estos textos
porque eran los únicos de los que se disponía que estaban correctamente categorizados.
El problema es que el número de casos de palabras que nos interesen no es muy
elevado, por lo que a veces era necesario ser un poco menos selectivos a la hora de
elegir los corpus de entrenamiento y de evaluación.
Una vez se ha estimado la categoría, es necesario que el sistema estime también
la tilde que debería llevar asociada si la categoría de la palabra en estudio fuese la
predicha. Para ello hubo que realizar modificaciones sobre el módulo de evaluación.
Los resultados sobre tildado que se presentan en las tablas son calculados únicamente
para los casos en los que se ha acertado en la predicción de la categoría.
Las ambigüedades que se estudiaron con esta estrategia fueron las siguientes:
verbo-nombre, verbo-pronombre y verbo_presente_indicativo-demostrativo, y se pasan
a describir los resultados de cada caso por separado.
4.3.8.1. Ambigüedad verbo-nombre.
Ventana de 3 palabrasEvaluación Palabras Totales Categorías Acertadas Acierto categorias (%)
Verbos Nombres Total3991 9783 13774 13774 12057 87.53448526
Pruebas de tildado a Pal. tildadas Acertadas Acierto Tildado (%)partir de la cat. estimada 11976 99.32819109
Ventana de 5 palabrasEvaluación Palabras totales Categorías Acertadas Acierto categorias (%)
Verbos Nombres Total3991 9783 13774 13774 12524 90.92493103
Pruebas de tildado a Pal. tildadas Acertadas Acierto Tildado (%)partir de la cat. estimada 12435 99.28936442
Capítulo 4. Pruebas y validación del sistema
136
4.3.8.2. Ambigüedad verbo-pronombre.
4.3.8.3. Ambigüedad verbo_presente_indicativo-demostrativo (para las palabras
esta/s).
El caso de esta ambigüedad se debe a las pruebas realizadas para intentar
mejorar los resultados obtenidos para las palabras esta y estas, ya las ambigüedades
respecto a la categoría que pueden presentar dichas palabras son verbo en presente de
indicativo (verbo estar) o demostrativo (artículo o pronombre). El problema con el que
nos encontramos en este caso fue el bajo número de verbos estar en presente de
indicativo dentro de los ficheros de entrenamiento y evaluación. De ahí que se decidiese
entrenar con cualquier verbo en presente de indicativo, no sólo con el verbo estar,
además de con adjetivos y pronombres demostrativos.
El conocimiento tan en detalle de todas estas categorías de las palabras es
posible gracias al formato de las categorías de los textos 860, y que será explicado en un
anexo posterior. Las categorías 860 constan de 10 bytes. Las palabras que son presentes
de indicativo tienen el 4º y el 5º byte de la categoría con valor ‘01’, mientras que para
los demostrativos la categoría comienza con ‘A08’ para los adjetivos y con ‘R11’ para
los pronombres. A continuación se muestran los resultados obtenidos:
Ventana de 3 palabrasEvaluación Palabras Totales Categorías Acertadas Acierto categorias (%)
Verbos Pronombres Total3991 1172 5163 5163 4311 83.4979663
Pruebas de tildado a Pal. tildadas Acertadas Acierto Tildado (%)partir de la cat. estimada 3834 88.93528184
Ventana de 5 palabrasEvaluación Palabras totales Categorías Acertadas Acierto categorias (%)
Verbos Pronombres Total3991 1172 5163 5163 4389 85.00871586
Pruebas de tildado a Pal. tildadas Acertadas Acierto Tildado (%)partir de la cat. estimada 3962 90.27113238
Capítulo 4. Pruebas y validación del sistema
137
4.3.9. Entrenamiento con palabras no ambiguas y evaluación de
palabras ambiguas (ambigüedad verbo-nombre).
La última prueba que se realizó fue la siguiente, y sólo para el caso de
ambigüedades verbo nombre. Se quería que el sistema entrenase únicamente con verbos
o nombres, pero que no fuesen ambiguas. Es decir, que una palabra que apareciese
como verbo, podría aparecer como nombre posteriormente siempre que no presentase
una distinta posición de la tilde que en el caso anterior para ser considerada como
ejemplo de entrenamiento. Y viceversa.
Por el contrario, todas las palabras verbos o nombre que presentaran ambigüedad
respecto a la posición de la tilde y de su categoría, debían ser consideradas como
ejemplos de evaluación. Se realizó una única prueba, para la ambigüedad verbo-nombre,
y tanto con ventanas de tres como de cinco palabras, y estos fueron los resultados
obtenidos.
Ventana de 3 palabrasEvaluación Palabras Totales Categorías Acertadas Acierto categorias (%)
Verbos Pres. Ind. Demostrativos Total1160 207 1367 1367 1307 95.61082663
Pruebas de tildado a Pal. tildadas Acertadas Acierto Tildado (%)partir de la cat. estimada 1132 86.61055853
Ventana de 5 palabrasEvaluación Palabras totales Categorías Acertadas Acierto categorias (%)
Verbos Pres. Ind. Demostrativos Total1160 207 1367 1367 1303 95.31821507
Pruebas de tildado a Pal. tildadas Acertadas Acierto Tildado (%)partir de la cat. estimada 1131 86.79969302
Ventana de 3 palabrasEvaluación Palabras Totales Categorías Acertadas Acierto categorias (%)
Verbos Nombres Total2613 4176 6789 6789 5562 81.92664605
Pruebas de tildado a Pal. tildadas Acertadas Acierto Tildado (%)partir de la cat. estimada 5296 95.21754764
Ventana de 5 palabrasEvaluación Palabras totales Categorías Acertadas Acierto categorias (%)
Verbos Nombres Total2613 4176 6789 6789 5718 84.22448078
Pruebas de tildado a Pal. tildadas Acertadas Acierto Tildado (%)partir de la cat. estimada 5444 95.20811473