4. Pruebas y validación del sistema.lorien.die.upm.es/juancho/pfcs/JAA/capitulo4.pdf · Capítulo...

Capítulo 4. Pruebas y validación del sistema

98

4. Pruebas y validación del sistema.

4.1. Problemática del tildado en textos.

4.1.1. Introducción.

El proyecto realizado por Azucena Jiménez1 nos permitía contar con una

herramienta potente a la hora de depurar los textos en formato electrónico del diario El

Mundo. Con las funciones que desarrolló como complemento a las ya existentes en la

librería dicc, se puede procesar un elevado número de artículos de dicho periódico.

Además, las cadenas de palabras que nos van proporcionando se encuentran ya

depuradas: se han eliminado las cabeceras, titulares, firmas, etc. que vienen asociadas a

lo que es el texto de la noticia en sí. También se limpiaban los textos de todo tipo de

siglas, acrónimos, números romanos, abreviaturas, etc.

Nosotros tuvimos que adaptar ligeramente dichas funciones a nuestras

necesidades. Las funciones de búsquedas en diccionarios estaban pensadas para que dos

palabras que tan sólo se diferenciasen por la posición de la tilde se consideraran

distintas. Nuestro propósito consistía en procesar las palabras del texto de las noticias,

realizar la búsqueda en diccionario y devolver los resultados de la misma. Pero la

búsqueda tenía que realizarse sin tener en cuenta la tilde: dos palabras que sean iguales

1 [JIM99]


99

salvo porque se diferencian en la posición de la tilde, para nuestro estudio son la misma

palabra. Para ser más exactos, las consideramos variantes de la misma palabra

ambigua. Éste es el concepto principal en nuestro procesado de los textos de El Mundo.

Pero nuestro propósito no consistió únicamente en la obtención de estas palabras

ambiguas, que después intentarían resolverse con el sistema MBL implementado.

Adicionalmente, en algunos casos puntuales, se intentó la resolución del tildado

mediante la aplicación de reglas. Por ejemplo, para las palabras no encontradas en

ninguno de los diccionarios, se analizó que muchas de las palabras con misma

terminación tenían la misma forma de tildarse. Por tanto, para estas palabras no

encontradas se realizaron pruebas de tildado mediante el análisis de sus terminaciones.

4.1.2. Palabras ambiguas.

La palabra ambigua es una estructura que se definió para que contuviese toda la

información necesaria sobre la problemática que origina el hecho de que el tildado de la

misma no se pueda determinar mediante una búsqueda simple en diccionarios. Se

compone fundamentalmente de:

• La primera y más importante, es la posición de la tilde. Si no fuese porque

este campo varía dentro de una palabra ambigua, ésta no sería tal.

• La categoría de la palabra ambigua cuando la tilde se encuentra en una

posición determinada. Puede ocurrir que la categoría de la palabra sea la

misma aun cuando la posición de la tilde es distinta en cada uno de los casos.

A nosotros nos interesarán especialmente aquellos casos en los que la

categoría que tiene la palabra con la tilde en una posición es única y distinta

de la que tiene si la tilde se encuentra en otra posición. De esta forma, a

través del conocimiento de la categoría, seríamos capaces de determinar el

tildado de la palabra.


100

• La palabra encontrada en los diccionarios, y que supondrá una variante de la

palabra ambigua. Las palabras que se van leyendo de los textos de El Mundo

se buscan en una serie de diccionarios, que se detallarán en un anexo

posterior. Se guardan todas las variantes que se vayan encontrando de una

palabra, que quedan almacenadas en este campo.

• Un campo totalmente informativo es el diccionario en el que se ha

encontrado esa variante de la palabra ambigua. Se puede haber encontrado

en cualquiera de los diccionarios empleados.

• Para el caso de los verbos, se almacena también el nombre del supuesto

infinitivo del verbo. La forma de buscar una palabra que puede ser un

tiempo verbal es la siguiente: se le elimina la terminación, y con la raíz se

intenta reconstruir el infinitivo del verbo. Si ésta reconstrucción se encuentra

en alguno de los diccionarios de infinitivos, se considera la palabra como un

verbo. Pero a veces esta estimación puede ser errónea, por lo que es

conveniente almacenar el supuesto infinitivo del verbo en cuestión. Si se ha

cometido un error, se suele apreciar fácilmente porque el infinitivo generado

no suele tener relación con la supuesta forma verbal.

Todas las palabras ambiguas eran volcadas a fichero. En un principio todas iban

al mismo. Pero tras sucesivos análisis de los resultados obtenidos, se fueron separando

según las tipologías en distintos ficheros. El formato de todos los ficheros de

ambigüedades que se generan es el mismo (ficheros con extensión .rpt ). Cada línea se

corresponde con una palabra ambigua en su tildado, dentro de uno de los tipos

preestablecidos. El formato de cada línea es el siguiente (con cada campo separado por

un espacio en blanco): palabra en estudio, trío de palabras que forman el contexto

(anterior, central, posterior), primera posición de la tilde dentro de la palabra encontrada

(si es 0, no está tildada), categorías de la palabra con esa posición de tilde, segunda

posición de tilde y sus categorías, etc. Las formato de las categorías es el mismo que el

de los textos 860.


101

4.1.2.1. Tipología.

A continuación se enumeran los distintos tipos de ambigüedades a los que se ha

llegado. Hay que tener en cuenta que la selección de los tipos se hacía de manera

secuencial, en el orden en el que se van a enumerar. Es decir, que si una palabra

ambigua se ha enmarcado dentro de un tipo, es porque se ha visto que cumplía las

condiciones que se tenían que dar en las palabras de dicho tipo. Pero eso no quiere decir

que no pudiesen cumplir también los requisitos para estar dentro de otra tipología

posterior.

Para cada tipo de ambigüedad se muestra un ejemplo de los distintos ficheros de

ambigüedades obtenidos. Los tipos que se han tratado son los siguientes:

• Ambigüedad VERBO_NOMBRE_VERBO: se observó que se producía este caso

particular de la ambigüedad VERBO_NOMBRE y se decidió considerarlo aparte.

Se presenta cuando una palabra tiene la tilde en una determinada posición cuando es

un tiempo verbal o un nombre, y en otra cuando se trata de otro tiempo verbal.

• Ambigüedad VERBO_NOMBRE: cuando nos encontramos con una palabra

ambigua que puede ser verbo o nombre según la posición que ocupe la tilde, se

incluye en este tipo.

pasé Escándalo pasé día 4 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.M##sangre la sangre » 6 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.F##pasé los pasé a 4 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.M##secuestro del secuestro encanecida 0 V..01I.0.. N00##S.M## 9 V..41H.0..velas utilizaba velas para 0 V..01U.0.. V..01H.0.. V..02U.0.. N00##P.F## 2 V..01H.0..anunció , anunció ayer 0 V..01I.0.. N00##S.M## 7 V..41H.0..documento un documento interno 0 V..01I.0.. N00##S.M## 9 V..41H.0..serie una serie de 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.F##calle la calle » 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.F##apoyo con apoyo del 0 V..01I.0.. N00##S.M## 5 V..41H.0..silencio su silencio , 0 V..01I.0.. N00##S.M## 8 V..41H.0..título ellas título de 2 V..01I.0.. V..41H.0.. N00##S.M## 6 V0841H.0..anticipo su anticipo mortuorio 0 V..01I.0.. N00##S.M## 8 V..41H.0..


102

• Ambigüedad VERBO_ADJETIVO_VERBO: análogamente a lo ya comentado en el

primer tipo, se observó que se producía este caso particular de la ambigüedad

VERBO_ADJETIVO y se decidió considerarlo aparte. Se presenta cuando una

palabra tiene la tilde en una determinada posición cuando es un tiempo verbal o un

adjetivo, y en otra cuando se trata de otro tiempo verbal.

• Ambigüedad VERBO_ADJETIVO: se trata del caso en el que nos encontramos con

una palabra ambigua que puede ser verbo o adjetivo según la posición que ocupe la

tilde.

• Ambigüedad VERBO_VERBO: en este caso dos palabras se diferencian en el

tildado por ser dos tiempos verbales distintos.

sería eso sería « 4 V..01H.0.. V..02U.0.. V29044.0.. V2904H.0.. V..A3H.0.. V..A3W.0.. V..A3T.0.. 0 A11..S.F##primarias las primarias de 7 V..04U.0.. 0 A11..P.F##obvio Es obvio que 4 V..01I.0.. 5 V..A3H.0.. 0 A11..S.M##critica texto critica expresamente 0 V..02U.0.. V..83U.0.. 3 A11..S.F##publica hoy publica EL 0 V..02U.0.. V..83U.0.. 2 A11..S.F##sería porque sería muy 4 V..01H.0.. V..02U.0.. V29044.0.. V2904H.0.. V..A3H.0.. V..A3W.0.. V..A3T.0.. 0 A11..S.F##medios los medios de 4 V..41I.0.. 0 A12##P.M##solicitó Gobierno solicitó ayer 0 V..01I.0.. 8 V..41H.0.. 4 A11..S.M##continuó que continuó en 7 V..01I.0.. 8 V..A3H.0.. V0841H.0.. 0 A11..S.M##indicó , indicó que 6 V..41H.0.. 0 V..03T.0.. 1 A11..S.M##indicó , indicó que 6 V..41H.0.. 0 V..03T.0.. 1 A11..S.M##indicó , indicó que 6 V..41H.0.. 0 V..03T.0.. 1 A11..S.M##criticó Maturana criticó « 7 V..41H.0.. 0 V..03T.0.. 3 A11..S.M##medios los medios de 4 V..41I.0.. 0 A12##P.M##medios los medios de 4 V..41I.0.. 0 A12##P.M##

tenías no tenías siquiera 4 V..03W.0.. 0 N00##P.F##tenía no tenía nada 4 V..03U.0.. V..03H.0.. V..03Y.0.. V0881..0.. 0 N00##S.F##mentira era mentira podrida 7 V..83I.0.. 0 N00##S.F##colegio en colegio público 6 V..41I.0.. 0 N00##P.M##mentira una mentira plural 7 V..83I.0.. 0 N00##S.F##venía política venía de 4 V..01W.0.. V..01Y.0.. V..41I.0.. V1481..0.. 0 N00##S.F##Venía Venía de 4 V..01W.0.. V..01Y.0.. V..41I.0.. V1481..0.. 0 N00##S.F##interprete abertzale interprete cuál 10 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. 4 N00##S.N## N00##S.M##

público orden público y 2 V..41H.0.. V..03T.0.. V..A3H.0.. A11..S.M## 7 V0841H.0..pública televisión pública , 2 V..02U.0.. V..83U.0.. V..02T.0.. A11..S.F## 0 V0802U.0..turbio Un turbio asunto 0 V..01I.0.. A11..S.M## 6 V..41H.0..doble un doble fraude 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N##turbio al turbio trato 0 V..01I.0.. A11..S.M## 6 V..41H.0..secreto el secreto del 0 V..01I.0.. A11..S.M## 7 V..41H.0..ambiente el ambiente previo 8 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N##previo ambiente previo a 0 V..41H.0.. A11..S.M## 6 V0841H.0..frecuente - frecuente secuela 9 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N##firme ponen firme firme 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N##firme puesto firme : 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. A11..S.N##


103

• Ambigüedad VERBO_NOMBRE_ADJETIVO: con los tipos que vienen a

continuación ya no se es tan selectivo. Simplemente basta con que tengan las

categorías a las que hace referencia el nombre y estén asociadas a posiciones de tilde

distintas.

• Ambigüedad ADJETIVO_ADJETIVO: para todas las distintas posiciones de la tilde

nos encontramos ante adjetivos.

• Ambigüedad NOMBRE_NOMBRE: de forma análoga con los nombres.

explicó Klerk explicó que 7 V..41H.0.. 0 V..03T.0..llegó , llegó al 0 V..03I0.. V..03T.0.. 5 V..41H.0..completarán pocos completarán su 10 V..A1T.0.. 0 V..83T.0..llegó día llegó una 0 V..03I0.. V..03T.0.. 5 V..41H.0..eché Me eché a 4 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0..traté y traté de 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0..ocupe se ocupe de 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0..realizará que realizará el 9 V..02W.0.. V08A1H.0.. 0 V..02U.0.. V..02H.0.. V..02Y.0.. V0883..0..cree , cree que 4 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. V..41W.0.. V..A3H.0.. V0802U.0..protagonizó Feliu protagonizó ayer 0 V..01I.0.. 11 V..41H.0..contribuyó secuestro contribuyó a 0 V..01I.0.. 10 V..41H.0..contestó que contestó lo 0 V..01I.0.. 8 V..41H.0..aplazaran se aplazaran las 8 V..G.N.0.. 0 V..01U.0..motorizó se motorizó , 0 V..01I.0.. 8 V..41H.0..

interno documento interno que 0 V..01I.0.. N00##S.M## A11..S.M## 7 V..41H.0..caso el caso de 0 V..01I.0.. N00##S.M## A11..S.M## 4 V..41H.0..terció gasolinera terció : 0 V..01I.0.. N00##S.M## A11..S.M## 6 V..41H.0..caso el caso requería 0 V..01I.0.. N00##S.M## A11..S.M## 4 V..41H.0..interno documento interno elaborado 0 V..01I.0.. N00##S.M## A11..S.M## 7 V..41H.0..pagó y pagó ) 0 V..03I0.. V..03T.0.. N00##S.M## V0801I.0.. A11..S.M## 4 V..41H.0..baja se baja los 0 V..01H.0.. V..02U.0.. A11..S.F## 4 N00##S.M##interno funcionamiento interno y 0 V..01I.0.. N00##S.M## A11..S.M## 7 V..41H.0..presente estar presente a 8 V..41I.0.. 0 V..034.0.. V..03T.0.. N00##S.M## A11..S.N##

cardíacos masajes cardíacos , 5 A11..P.M## 0 A11..P.M##cardíaca actividad cardíaca hasta 5 A11..S.F## 0 A11..S.F##austriacos laboriosos austriacos para 0 A11..P.M## 6 A11..P.M##austriacas enfermeras austriacas que 0 A11..P.F## 6 A11..P.F##cardiacos ( cardiacos , 5 A11..P.M## 0 A11..P.M##dionisiaca masa dionisiaca y 0 A11..S.F## 7 A11..S.F##

plató el plató de 5 N00##S.M## 0 N00##S.M##cóctel un cóctel molotov 2 N00##S.M## 0 N00##S.M##chófer de chófer junto 3 N00##S.M## 0 N00##S.M##carné un carné de 5 N00##S.M## 0 N00##S.F##parque y parque eventual 0 N00##S.M## 6 N00##S.M##periodos los periodos de 4 N00##P.M## 0 N00##P.M##fútbol del fútbol que 2 N00##S.M## 0 N00##S.M##carné su carné español 5 N00##S.M## 0 N00##S.F##plato metiendo plato » 5 N00##S.M## 0 N00##S.M##cartel el cartel de 0 N00##S.M## 2 N00##S.M##cartel de cartel , 0 N00##S.M## 2 N00##S.M##carne de carne o 5 N00##S.M## 0 N00##S.F##


104

• Ambigüedad NOMBRE_ADJETIVO: para distintas posiciones de tilde aparecen

(únicamente) nombres y adjetivos.

• Ambigüedad CONJ_OTROS: para distintas posiciones de la tilde aparece una

conjunción y cualquier otra categoría.

• Ambigüedad PREP_OTROS: análogamente para preposiciones.

• Ambigüedad DEMOST_OTROS: en este tipo se encuadran las palabras ambiguas

que presentan cualquier tipo de categoría junto a un demostrativo, ya sea adjetivo o

pronombre. Para ello nos servimos de los formatos de las categorías 860 (ver anexo

posterior), que nos ayudan a distinguirlas. Un adjetivo demostrativo viene

representado por A08 en las tres primeras posiciones: “A08.....”. Y un pronombre

demostrativo, por R11: “R11.....”.

porque - porque la 0 C09##N.0## 6 R22##S.M## N00##S.M##porque - porque la 0 C09##N.0## 6 R22##S.M## N00##S.M##porque dimite porque eso 0 C09##N.0## 6 R22##S.M## N00##S.M##porque protestado porque , 0 C09##N.0## 6 R22##S.M## N00##S.M##porque , porque recuerdan 0 C09##N.0## 6 R22##S.M## N00##S.M##porque ocurrido porque son 0 C09##N.0## 6 R22##S.M## N00##S.M##porque , porque la 0 C09##N.0## 6 R22##S.M## N00##S.M##porque equivocada porque toda 0 C09##N.0## 6 R22##S.M## N00##S.M##porque es porque las 0 C09##N.0## 6 R22##S.M## N00##S.M##porque , porque no 0 C09##N.0## 6 R22##S.M## N00##S.M##Porque Porque si 0 C09##N.0## 6 R22##S.M## N00##S.M##porque dimito porque sería 0 C09##N.0## 6 R22##S.M## N00##S.M##Porque Porque la 0 C09##N.0## 6 R22##S.M## N00##S.M##porque va porque sería 0 C09##N.0## 6 R22##S.M## N00##S.M##porque acepte porque de 0 C09##N.0## 6 R22##S.M## N00##S.M##

leones los leones el 0 N00##P.M## 5 A11..P.M##leonés el leonés Jaime 0 N00##P.M## 5 A11..P.M##inglés en inglés , 5 A11..S.M## A11..P.M## 0 N00##P.F##danés Ministerio danés de 4 A11..S.M## A11..P.M## 0 N00##P.M##inglés en inglés de 5 A11..S.M## A11..P.M## 0 N00##P.F##austriaco al austriaco Thomas 0 N00##S.M## A11..S.M## 6 N00##S.M## A11..S.M##inglés delantero inglés Alan 5 A11..S.M## A11..P.M## 0 N00##P.F##austriaco piloto austriaco Roland 0 N00##S.M## A11..S.M## 6 N00##S.M## A11..S.M##tácita , tácita o 2 A11..S.F## 0 N00##S.F##

sobre advirtió sobre las 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.M## P00##N.0##entre frontera entre ambas 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. P00##N.0##entre , entre los 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. P00##N.0##hacía se hacía manifiesta 4 V..81I.0.. V..81H.0.. 0 P00##N.0##sobre especulaciones sobre la 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. N00##S.M## P00##N.0##bajo transparentes bajo el 0 V..01I.0.. N00##S.M## P00##N.0## B00..N.0## A11..S.M## 4 V..41H.0..entre editorialista entre el 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. P00##N.0##entre , entre otras 5 V..41I.0.. 0 V..034.0.. V..03I.0.. V..03H.0.. V..02H.0.. P00##N.0##


105

• Ambigüedad PRONOMBRE_OTROS: este tipo se creó para analizar las

ambigüedades de los pronombres (en el caso de que no hayan sido clasificadas ya en

alguno de los tipos anteriores).

• Ambigüedad OTROS: tipo que recoge todo lo que no ha sido seleccionado

anteriormente.

esta recuperar esta iniciativa 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##este , este canal 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M## 1 R11##S.M##Esta : Esta vieja 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##este « este proyecto 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M## 1 R11##S.M##este de este año 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M## 1 R11##S.M##está No está mal 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##esta recurrido esta vez 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##éste Si éste se 4 V..03I.0.. 1 V..A3I.0.. V..G.N.0.. R11##S.M## 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M##este aplicar este sistema 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M## 1 R11##S.M##estas de estas severas 4 V..01U.0.. 1 R11##P.F## 0 A08##P.F## R11##P.F##esta Es esta clase 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##este en este que 4 V..03I.0.. 0 V2901H.0.. R11##S.M## A11..N.N## A08##S.M## N00##S.M## 1 R11##S.M##está democracia está muy 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##esta qué esta ley 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##esta claramente esta ley 4 V..01H.0.. 0 R11##S.F## A08##S.F## 1 R11##S.F##

segundo lejano segundo puesto 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..varias durante varias semanas 4 V..01U.0.. 0 R14##P.F## A11..P.F##segundo un segundo plano 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..varias dio varias claves 4 V..01U.0.. 0 R14##P.F## A11..P.F##varias en varias ocasiones 4 V..01U.0.. 0 R14##P.F## A11..P.F##segundo el segundo para 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..varias de varias horas 4 V..01U.0.. 0 R14##P.F## A11..P.F##segundo En segundo lugar 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..segundo distante segundo lugar 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..segundo En segundo lugar 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..segundo el segundo político 0 V..01I.0.. R19##S.M## N00##S.M## A13##S.M## 7 V..41H.0..

estrictamente cumpliendo estrictamente con 0 B03..N.0## 5 B03..N.0##jamás Israel jamás cedería 0 V..01U.0.. 4 B01..N.0## B21..S.N##periódicamente reiteraba periódicamente por 0 B03..N.0## 5 B01..N.0##jamás comercial jamás visto 0 V..01U.0.. 4 B01..N.0## B21..S.N##jamás que jamás hubiera 0 V..01U.0.. 4 B01..N.0## B21..S.N##únicamente general únicamente por 1 B03..N.0## 0 B03..N.N##únicamente era únicamente la 1 B03..N.0## 0 B03..N.N##únicamente servido únicamente para 1 B03..N.0## 0 B03..N.N##jamás « jamás veían 0 V..01U.0.. 4 B01..N.0## B21..S.N##estrictamente razones estrictamente impositivas 0 B03..N.0## 5 B03..N.0##alias , alias « 3 V..01U.0.. 0 B21..S.N##únicamente cantar únicamente en 1 B03..N.0## 0 B03..N.N##jamás Nunca jamás he 0 V..01U.0.. 4 B01..N.0## B21..S.N##


106

4.1.2.2. Palabras diacríticas.

Las palabras diacríticas son aquellas que llevan la acentuación siempre en la

misma sílaba, independientemente de que estén o no tildadas. Por tanto, si la

acentuación es siempre la misma, no sería, en principio, necesario procesar estas

palabras, ya que el problema del presente proyecto se centra en el correcto tildado de las

palabras, pero orientado a que un sintetizador de voz conozca sin error la acentuación.

Debido a que las comparaciones entre palabras las realizamos siempre sin tener

en cuenta la tilde, las diacríticas se dejaron todas sin tilde en el diccionario de palabras

diacríticas. En dicho diccionario, se realiza una primera búsqueda al comienzo de la

clasificación, para determinar si una palabra es diacrítica. A este diccionario se le

añadieron palabras que, sin ser diacríticas, aparecían en los textos del diario tildadas o

no tildadas con las mismas características de éstas, sin serlo (o, incluida,...). Las

palabras que, por tanto, no se procesan por ser diacríticas (o por aparecer con un tildado

no influyente en la acentuación de la palabras) son:

Pero algunas de estas palabras, si bien siempre llevan la acentuación en la misma

sílaba, no poseen la misma entonación llevando y no llevando tilde. Por tanto, era

importante el conocimiento de dicho dato. Se decidió considerarlas como otro tipo más

de ambigüedad, siendo seleccionadas estas palabras antes de comenzar la selección de

tipos de ambigüedades explicada anteriormente. A estas palabras se las conoce dentro

del código como diac_tildes , y son las siguientes:

adondeaquelaquellaaquellasaquelloaquelloscualcuales

cuantacuantascuantocuantosdedondeesaese

esesesoesasesosestoestosincluidaincluido

incluidasincluidosoperiodosisolo


107

• aun/aún

• el/él

• mas/más

• mi/mí

• se/sé

• te/té

• tu/tú

Una muestra del fichero generado para estas palabras diacríticas cuya tilde sí nos

interesa conocer es el siguiente:

4.1.2.3. Palabras interrogativas.

Otro estudio separado merecían las palabras interrogativas. Éstas mantienen

algunas características comunes entre sí, por las que en el caso de encontrarse en un

contexto de frase interrogativa llevarían tilde. Por tanto, también antes de determinar si

la palabra pertenece a alguno de los tipos de ambigüedad ya descritos, se comprueba si

se trata de una de estas palabras, y si es así, se extraen a un fichero aparte.

Las palabras que nos ha interesado tratar dentro de esta tipología de

interrogativas son las siguientes:

• que/qué

• como/cómo

el sufrieron el miércoles 0 N00##S.M## D00##S.M## 1 R00##H.M##el quemarme el vello 0 N00##S.M## D00##S.M## 1 R00##H.M##El El presidente 0 N00##S.M## D00##S.M## 1 R00##H.M##el , el mantenimiento 0 N00##S.M## D00##S.M## 1 R00##H.M##el » el 27 0 N00##S.M## D00##S.M## 1 R00##H.M##El El primer 0 N00##S.M## D00##S.M## 1 R00##H.M##El El documento 0 N00##S.M## D00##S.M## 1 R00##H.M##el elaborado el pasado 0 N00##S.M## D00##S.M## 1 R00##H.M##el por el dirigente 0 N00##S.M## D00##S.M## 1 R00##H.M##El El balance 0 N00##S.M## D00##S.M## 1 R00##H.M##se , se mantiene 2 V..01I.0.. V2902U.0.. 0 V..41W.0.. V..A3H.0.. R02##..N##el mantiene el nivel 0 N00##S.M## D00##S.M## 1 R00##H.M##se no se contabiliza 2 V..01I.0.. V2902U.0.. 0 V..41W.0.. V..A3H.0.. R02##..N##se no se declara 2 V..01I.0.. V2902U.0.. 0 V..41W.0.. V..A3H.0.. R02##..N##el incumple el sistema 0 N00##S.M## D00##S.M## 1 R00##H.M##


108

• cuando/cuándo

• quien/quién

• quienes/quiénes

Un ejemplo del fichero de ambigüedades para estas palabras interrogativas se

muestra a continuación. Estas palabras serán posteriormente tratadas por el MBL de

manera individualizada: entrenará sólo con una de estas palabras para posteriormente

evaluar sólo esa misma palabra.

4.2. Búsqueda en diccionarios.

Para realizar un estudio sobre el correcto tildado de las palabras, se pensó que

primero se debía realizar un filtrado de las mismas. Las palabras que tienen una única

posición para la tilde (bien porque nunca se tilden, bien porque si lo hacen, la posición

de ésta sea siempre la misma) no son palabras que nos presenten mayor dificultad. Si

tenemos en cuenta que disponemos de una importante cantidad de información

almacenada en forma de diccionarios, la simple búsqueda de dichas palabras no

conflictivas (por no presentar ambigüedad respecto a la posición de la tilde) en los

diccionarios, nos puede resultar suficiente para conocer el correcto tildado de las

mismas.

que Administración que incumple 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que , que es 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que , que « 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que , que en 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que popular que llena 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##Como Como en 0 V..01I.0.. P..##N.0## B..##N.0## C..##N.0## B21..S.N## 2 R22##N.N## B07..N.0##que sabían que no 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que Ahora que la 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##quién ¿ quién diablos 0 R14##S.N## 4 R14##S.N##como , como pereciente 0 V..01I.0.. P..##N.0## B..##N.0## C..##N.0## B21..S.N## 2 R22##N.N## B07..N.0##que tendrían que recuperar 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que Aquella que , 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que saber que el 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que Y que ellos 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##que puesto que lo 3 R22##N.N## A09##N.0## N00##S.M## 0 C06##N.0## R20##N.N## B21..S.N##


109

Los distintos diccionarios que se han empleado en estas tareas serán descritos en

un anexo posterior. Aquí tan sólo mencionaremos que entre ellos se encuentra el

diccionario de la Real Academia Española, el diccionario de los textos 860, un

diccionario de nombre propios, de siglas, abreviaturas, etc. No todas las palabras leídas

de los textos de El Mundo son procesadas. En primer lugar, las palabras leídas son

filtradas haciendo uso de las funciones de la librería dicc para eliminar todas aquellas

que pertenezcan a cabeceras de noticias, pies de página, firmas, etc. Una vez dichas

funciones nos entregan únicamente las palabras que pertenecen al cuerpo de una noticia,

nosotros comprobamos si esa palabra es diacrítica de las que no deben ser procesadas.

Si no es así, se observa si se trata de una de las palabras diacríticas de las que sí nos

interesa conocer la tilde, y en caso afirmativo, se procesa como tal. Si no, se comprueba

si es una de las palabras que hemos considerado como interrogativas.

Para estas tres comprobaciones anteriores, se crearon los diccionarios

respectivos con las palabras de cada tipo, y se cargaron en memora al comienzo de la

ejecución junto a los demás. Para realizar estas comprobaciones se empleaba también la

función de búsqueda en diccionarios SuperBuscaPalabra2 , modificada para nuestros

propósitos. Si no nos encontrábamos ante ninguno de estos tres casos, entonces se

realizaba la búsqueda en todos los diccionarios cargados, sin tener en cuenta la tilde, y

se iba creando para cada palabra su estructura PalabraAmbigua , para ir almacenando

toda la información relativa a las posiciones de tilde encontradas para esa palabra, y

todas las posibles categorías asociadas a cada posición de la tilde, en el caso de que la

palabra fuese ambigua.

Por supuesto, la situación óptima para nuestros propósitos era que la palabra

buscada fuese encontrada en alguno de los diccionarios, y que no poseyera ningún tipo

de ambigüedad respecto a la posición de la tilde. Pero esto no ocurría en un número

importante de los casos. Incluso, existía la posibilidad de que no se encontraran en

ninguno de los diccionarios. Estas palabras que calificamos como palabras no

encontradas, fueron volcadas a un fichero distinto, para ver si se las podía realizar algún

tipo de tratamiento.


110

Hay que tener cuenta que el hecho de encontrar una palabra en los diccionarios,

y que ésta no presente ningún tipo de ambigüedad, no implica que obligatoriamente se

haya acertado en la resolución de su tildado al considerar como solución buena la que

figura en los diccionarios. Puede ocurrir, aunque con una probabilidad muy baja, que se

falle en ese dictamen. A esos casos les hemos dado el nombre de palabras encontradas

no ambiguas erradas.

4.2.1. Palabras no encontradas.

Con las palabras que no eran encontradas en ninguno de los diccionarios, se

pensó en la posibilidad de aplicar algún tipo de regla que permitiese predecir su tildado.

Se observó que las terminaciones o sufijos de las palabras podían ser determinantes a la

hora de estimar su acentuación: existen terminaciones para las que casi siempre la

acentuación de la palabra es la misma (aguda, llana o esdrújula). Por tanto, para las

palabras no encontradas, se examinó la terminación de las mismas, y si coincidía con

alguna de las que habíamos estudiado, se acentuaba la palabra según el modo o tipo de

acentuación asociado a cada terminación.

Las reglas se aplican a palabras poco comunes, de ahí que con pocas reglas

cubramos una amplio abanico de ellas, debido a que contamos con diccionarios grandes.

El hecho de que estas palabras no estén en los diccionarios indica que se usan menos, y

por tanto son más regulares. Suelen ser palabras raras inventadas, derivadas de otras.

Las palabras más irregulares, o excepciones a las reglas, ya se encuentran en los

diccionarios.

Las terminaciones que se emplearon, junto con los tipos de acentuación

asociados, se pueden apreciar en la Figura 4.1., donde se muestra la variable enumerada

term_acent_fija . Para realizar estas comprobaciones se crearon una serie de

funciones nuevas. La función EsTerminAcentConocida devuelve si la palabra termina

o no con alguno de los sufijos expresados en la figura. En caso afirmativo, rellena la

variable global acentuacion_term_palabra con la acentuación asociada a dicha


111

terminación, para que después, mediante la función

AcentuaPalabraSegunTerminacion , la palabra se acentúe como tal estimación, y, si es

pertinente, se tilde.

Figura 4.1. Terminaciones con acentuación conocida.

Los resultados obtenidos con esta estrategia, que se detallarán en apartados

posteriores, son bastante exitosos, alcanzando una tasa de acierto en la predicción del

tildado del 98%. También hay que decir que de las palabras no encontradas, sólo el 54%

posee alguna de estas terminaciones. Para aumentar ese porcentaje se deberían añadir

más terminaciones a esta lista.

TTerminacion_acent term_acent_fija[] = {{"acion",AGUDA},{"idad",AGUDA},{"idades",LLANA},{"ante",LLANA},{"antes",LLANA},{"oria",LLANA},{"orio",LLANA},{"orios",LLANA},{"orias",LLANA},{"ista",LLANA},{"istas",LLANA},{"ivo",LLANA},{"iva",LLANA},{"ivos",LLANA},{"ivas",LLANA},{"escas",LLANA},{"esco",LLANA},{"escos",LLANA},{"acia",LLANA},{"acias",LLANA},{"ismo",LLANA},{"ismos",LLANA},{"ente",LLANA},{"entes",LLANA},{"izar",AGUDA},{"grama",LLANA},{"um",LLANA},{"ez",AGUDA},{"ito",LLANA},{"itos",LLANA},{"ita",LLANA},{"itas",LLANA},{"ado",LLANA},{"ada",LLANA},{"ados",LLANA},{"adas",LLANA},{"dad",AGUDA},{"dades",LLANA},{"ancia",LLANA},{"ancias",LLANA},{"ador",AGUDA},{"adora",LLANA},

{"adores",LLANA},{"adoras",LLANA},{"ora",LLANA},{"oras",LLANA},{"eses",LLANA},{"illo",LLANA},{"illos",LLANA},{"illa",LLANA},{"illas",LLANA},{"isimo",ESDRUJULA},{"isima",ESDRUJULA},{"isimos",ESDRUJULA},{"isimas",ESDRUJULA},{"iendo",LLANA},{"ando",LLANA},{"oide",LLANA},{"oides",LLANA},{"ing",LLANA},{"arlo",LLANA},{"arlos",LLANA},{"arla",LLANA},{"arlas",LLANA},{"oso",LLANA},{"osos",LLANA},{"osa",LLANA},{"osas",LLANA},{"encia",LLANA},{"encias",LLANA},{"ano",LLANA},{"ana",LLANA},{"ane",LLANA},{"anos",LLANA},{"anas",LLANA},{"anes",LLANA},{"ensa",LLANA},{"enso",LLANA},{"ensas",LLANA},{"ensos",LLANA},{"ento",LLANA},{"entos",LLANA},{"arse",LLANA},{"erse",LLANA},{"irse",LLANA},{"ible",LLANA},

{"ibles",LLANA},{"able",LLANA},{"ables",LLANA},{"on",AGUDA},{"ones",LLANA},{"ona",LLANA},{"onas",LLANA},{"ial",AGUDA},{"iales",LLANA},{"iento",LLANA},{"ientos",LLANA},{"istica",ESDRUJULA},{"istico",ESDRUJULA},{"isticos",ESDRUJULA},{"isticas",ESDRUJULA},{"ogico",ESDRUJULA},{"ogicos",ESDRUJULA},{"ogica",ESDRUJULA},{"ogicas",ESDRUJULA},{"ico",LLANA},{"ica",LLANA},{"icos",LLANA},{"icas",LLANA},{"enta",LLANA},{"anza",LLANA},{"anzas",LLANA},{"ero",LLANA},{"era",LLANA},{"eros",LLANA},{"eras",LLANA},{"or",AGUDA},{"ores",LLANA},{"eiro",LLANA},{"eira",LLANA},{"eiros",LLANA},{"eiras",LLANA},{"inyo",LLANA},{"inya",LLANA},{"inyos",LLANA},{"inyas",LLANA},{"ete",LLANA},{"etes",LLANA},{"ette",LLANA},{"ettes",LLANA},

{"allo",LLANA},{"allos",LLANA},{"alla",LLANA},{"allas",LLANA},{"ar",AGUDA},{"er",AGUDA},{"ir",AGUDA},{"ares",LLANA},{"oj",AGUDA},{"ojs",AGUDA},{"itis",LLANA},{"erte",LLANA},{"erlo",LLANA},{"izan",LLANA},{"iza",LLANA},{""}};


112

4.2.2. Estructura de la clasificación.

A continuación se van a exponer de manera gráfica los distintos pasos por los

que va pasando una palabra que ya ha sido filtrada como palabra perteneciente al cuerpo

de la noticia. Es importante tener clara la probabilidad con la que nos podemos

encontrar en cada opción, pues también contribuye a la tasa de acierto total del sistema.

Es decir, al realizar la búsqueda en diccionarios ya estamos acertando con algunas de

ellas; y con las que no lo hacemos, posteriormente se aplicarán las técnicas MBL o

reglas para mejorar estas estadísticas.

En la Figura 4.2. se pueden apreciar las distintas decisiones que se van tomando

tras la búsqueda de una palabra en los diccionarios.

Figura 4.2. Búsqueda en diccionarios y clasificación.

PALABRAS DELCUERPO DE LOS

TEXTOS¿Es diacrítica?

SI

No seprocesa

NO

NO

SI

diac_tildes.rptinterrogativas.rpt

Búsqueda endiccionarios

¿Encontrada?

NO

SI

¿Terminaciónconocida?

SI

Ambigua

No Ambigua

Tipos de ambigüedades: *.rpt

Interrogativas: interrogativas.rpt

Diacríticas-tilde: diac_tildes.rpt

no_encon_term.rpt

NO

¿Es diac_tilde ointerrogativa?

Erradas: term_erradas.rpt

Acertadas

Erradas: erradas.rpt

AcertadasEXITO

Palabras no encontradas sinterminación conocida:

no_encon.rpt


113

La aplicación genera varios ficheros de extensión .rpt, aparte de los propios

ficheros de ambigüedades. De este modo, como se puede ver en la figura anterior, para

las palabras que se han encontrado sin ambigüedad pero con una posición de tilde

distinta a la que tenía la palabra leída en los textos, son volcadas al fichero erradas.rpt.

Una muestra del mismo puede apreciarse a continuación: la primera columna presenta

las palabras leídas de los textos, y en la segunda columna, las palabras encontradas en

los diccionarios.

Palabra leída--------Palabra encontrada

Pág pag

habia había

huído huido

Morán moran

bebés bebes

Parece que tiene algún problema con los plurales: la palabra bebés no ha sido

capaz de encontrarla como plural de bebé, sino únicamente como verbo. También se

aprecia algún error debido a los nombres propios: es el caso de Morán/moran. Éstos

último poseen una más fácil solución, que es ampliando el diccionario de nombres

propios con las palabras que se vayan encontrando. Sin embargo, el porcentaje de

palabras que se encuentran como no ambiguas y se yerran es muy bajo frente al total de

palabras no ambiguas encontradas: representan menos del 2%.

Así mismo, si la palabra no ha sido encontrada en los diccionarios y posee una

terminación “conocida”, se volcará al fichero no_encon_term.rpt y se procederá a

comprobar si se ha estimado correctamente la tilde. Un ejemplo del fichero anterior se

muestra a continuación:

gravísimas

tantísimos

autoimponerse

exhaustivamente

guerristas

felipismo

felipismo

horteridad


114

tracamandanas

españolísima

entendidísimo

judicialización

personajillos

autocompasiva

empecinadamente

Si para alguno de las palabras contenidas en el anterior fichero no se ha estimado

correctamente la tilde, estas palabras son volcadas al fichero term_erradas.rpt. Una

muestra del mismo se puede ver a continuación:

Palabra leída--------Palabra estimada

ring ríng

idearium ideárium

looping loóping

argumentum arguméntum

potissimum potissímum

zapping zápping

simposium simpósium

Como se puede ver, la mayoría de las palabras erradas cuando se ha detectado

una terminación “conocida” son extranjerismos, y la gran mayoría son anglicismos con

la terminación –ing. Dichas palabras no han sido encontradas porque no se emplearon

los diccionarios extranjeros, debido a los grandes requerimientos de recursos que se

necesitaban para cargarlos. Y se ha cometido error con ellos por intentar aplicar una

tildado del castellano a una palabra extranjera. Sin embargo, estos errores representan,

frente al total de palabras no encontradas con terminación “conocida”, tan sólo un 2%.

Finalmente, todas las palabras no encontradas en los diccionarios y que no han

sido enviadas a ninguno de los dos ficheros anteriores de palabras no encontradas, son

volcadas al fichero no_encon.rpt. El total de las palabras no encontradas en los

diccionarios representan tan sólo el 0.73% del total de palabras procesadas.

motorola

bravía

sociatas


115

light

rock

set

sets

plastilina

personajazos

apartheid

Finalmente, el fichero que produce la aplicación con todos los datos numéricos

de los tipos de palabras que van procesando se llama estadisticas.rpt. Todos los ficheros

y datos expresados en párrafos anteriores se han obtenido ejecutando la aplicación con

un fichero que contenía todas las noticias del mes de Mayo de 1994 del diario El

Mundo, así como el fichero de estadísticas que se muestra a continuación:

Fecha y Hora de comienzo del programa: Thu Mar 30 21:24:02 2000

Artículos procesados: 4317Frases: 100456Palabras totales: 2367439

Palabras diacríticas (no procesadas): 402442

Palabras procesadas: 1706349

Palabras no encontradas en los diccionarios: 12523Palabras no encontradas en los diccionarios sin terminación conocida: 5778Palabras no encontradas con terminación conocida y acertadas: 6610Palabras no encontradas con terminación conocida y erradas: 135

Palabras encontradas no ambiguas: 1382757Palabras encontradas no ambiguas acertadas: 1379941Palabras encontradas no ambiguas erradas: 2816

Palabras encontradas ambiguas: 311069Palabras encontradas ambiguas VERBO_NOMBRE: 7489Palabras encontradas ambiguas VERBO_NOMBRE_VERBO: 41591Palabras encontradas ambiguas VERBO_ADJET: 3519Palabras encontradas ambiguas VERBO_ADJET_VERBO: 8212Palabras encontradas ambiguas VERBO_VERBO: 19023Palabras encontradas ambiguas VERBO_NOMBRE_ADJET: 7833Palabras encontradas ambiguas ADJET_ADJET: 623Palabras encontradas ambiguas NOMBRE_ADJET: 3203Palabras encontradas ambiguas NOMBRE_NOMBRE: 1492Palabras encontradas ambiguas CONJ_OTROS: 2544Palabras encontradas ambiguas PREP_OTROS: 11738Palabras encontradas ambiguas DEMOST_OTROS: 13284Palabras encontradas ambiguas PRONOMBRE_OTROS: 3333Palabras encontradas ambiguas OTROS: 310Palabras diacríticas cuya tilde queremos conocer: 103169Palabras interrogativas: 83706

Porcentaje de acierto (%): 81.258347

Fecha y Hora de finalización del programa: Fri Mar 31 10:02:47 2000

Tiempo de ejecución(seg): 45525.0


116

La diferencia entre las palabras totales y las palabras procesadas más las

diacríticas (no procesadas) son las palabras que no pertenecen al cuerpo central de las

noticias. Y el porcentaje de acierto refleja el tanto por ciento de palabras encontradas no

ambiguas y con tilde acertada (1.379.941) junto a las palabras no encontradas pero con

terminación conocida y cuya tilde se ha acertado (6.610), frente a las palabras

procesadas (1.706.349), resultando el 81.26% reflejado en el fichero anterior. Este

porcentaje no representa el acierto global del sistema. El 18.74% restante no es un

porcentaje de error, sino que ahí están englobadas todas las no encontradas sin

terminación conocida, o con terminación conocida pero cuya tilde se ha errado, y todas

las palabras ambiguas: los distintos tipos de ambigüedades por categorías, interrogativas

y diacríticas cuya tilde queremos conocer. De ellas, las palabras ambiguas (incluyendo

las diacríticas e interrogativas) representan el 18.23% de todas las palabras procesadas.

Por tanto, las no encontradas erradas tan sólo constituyen el 0.53%. Sobre todas estas

palabras es sobre las que se van a aplicar técnicas MBL para mejorar los resultados.

En la Figura 4.3. se pueden apreciar los porcentajes de cada tipo obtenidos al

analizar las noticias de un mes completo:


117

Figura 4.3. Porcentajes tras el procesado.

4.3. Resultados de las pruebas con el MBL.

Las primeras pruebas que se realizaron con el MBL fueron para comprobar su

correcto funcionamiento, cuando se estaba desarrollando. A partir de un silabicador ya

desarrollado en el Grupo de Tecnología del Habla, se probó el MBL para tareas de

silabicación. En un primer momento, se entrenaba al MBL con Diccionario de la Real

Academia Española, y se hacía evaluar a estas mismas palabras, consiguiendo

porcentajes de error prácticamente nulos. Posteriormente, para añadir algo de dificultad

a su tarea, se hizo que entrenara con el diccionario RAE sin tildar (previamente se

PALABRAS DELCUERPO DE LOS

TEXTOS¿Es diacrítica?

SI

No seprocesa

NO

¿Es diac_tilde ointerrogativa?

NO

SI

Búsqueda endiccionarios

¿Encontrada?

NO

SI

¿Terminaciónconocida?

SI

Ambigua

No Ambigua

Tipos de ambigüedades: *.rpt

Interrogativas: interrogativas.rpt

Diacríticas-tilde: diac_tildes.rpt

Palabras no encontradas sinterminación conocida:

no_encon.rpt

no_encon_term.rpt

NO

2.108.791

Porcentajes calculadossobre Palabras

Procesadas (100%)

1.706.34980.92%

Palabras Procesadas

Porcentajes calculadossobre Palabras

Procesadas (100%)diac_tildes.rptinterrogativas.rpt

311.06918.23%

1.382.75781.04%

Erradas: term_erradas.rpt

Acertadas

Erradas: erradas.rpt

Acertadas

2.8160.16%

1.379.94180.87%

402.44219.08%

12.5230.73%

6.6100.39%

EXITO1.386.55181.26%

5.7780.34%

124.1947.28%

103.1696.05%83.7064.91%

1350%


118

desacentuaban todas las palabras del mismo) y que evaluase las palabras del diccionario

RAE tildadas, comprobando que los resultados también eran satisfactorios. Estas

pruebas servían también para ir estimando los tiempos de entrenamiento y de evaluación

del sistema. De este modo, se modificaron con posterioridad funciones de búsqueda en

los módulos de pesos y de evaluación, para agilizar los tiempos de los módulos más

lentos.

Posteriormente, y una vez se había probado la aplicación de procesado de textos

del diario El Mundo, se pasó a probar el MBL con los ficheros .rpt de ambigüedades

fruto de dicho procesado. Dichas pruebas pasan a describirse a continuación.

4.3.1. Entrenamiento con el RAE y evaluación de las palabras no

encontradas.

La primera prueba que se realizó fue la de intentar, entrenando con los ejemplos

obtenidos del diccionario RAE, estimar el tildado de las palabras procedentes del

fichero no_encon.rpt: aquellas palabras no encontradas en los diccionarios que no

poseían una de las terminaciones que consideramos con acentuación fija. Para ello, los

rasgos que se tomaron fueron letras, y las ventanas que se escogieron fueron de 5 y de

7 rasgos. Éstos resultados fueron prácticamente iguales que los que se obtuvieron al

añadir a los ejemplos un rasgo adicional: la distancia en número de sílabas de la que

contiene a la letra central de la ventana al final de la palabra. Por tanto, en esa prueba

los ejemplos contenían 6 y 8 rasgos.

Los resultados que se ofrecen en la Figura 4.4. corresponden a los realizados con

ejemplos de 6 rasgos (5 rasgos de la ventana de letras y el rasgo adicional de la distancia

silábica). Los que se realizaron sin dicho rasgo adicional (ventanas de 5 y de 7) fueron

bastante parecidos, ya que, como se puede apreciar en la Figura 4.5. (fichero de

estadísticas de los pesos), el último rasgo adicional ofrece una ganancia de entropía

mucho menor (en valor absoluto) que los demás. Tampoco se apreciaron grandes

diferencias entre los resultados obtenidos para ventanas de 5 y 7 rasgos, o entre


119

ventanas de 6 y de 8. El añadir como rasgo una letra más a cada lado no afectaba apenas

a los resultados.

Figura 4.4. Resultados tildado.

Figura 4.5. Fichero de estadísticas de los pesos.

Si tenemos en cuenta que la probabilidad de encontrarnos con este tipo de

palabras entre las que se procesaron a partir de las noticias es de un 0.34%, y que se ha

obtenido una probabilidad de error para este tipo de palabras del 12.41%, la

contribución al error total de una de estas palabras es del 0.04%.

4.3.2. Entrenamiento y evaluación de palabras interrogativas.

Como ya se comentó anteriormente, todas las palabras que, como, cuando, quien

y quienes (o las correspondientes con tilde) que se procesaban, eran volcadas al fichero

interrogativas.rpt. A partir de dicho fichero, se diseñó un traductor que filtrase para

cada prueba una sola de las cinco palabras.

Estadísticas de la evaluación: Tasa de aciertos (en%): 87.587940 (1743 de 1990)

Peso rasgo nº 0 : 118942.398438Ganancia Entropía rasgo nº 0 : -118942.093750Peso rasgo nº 1 : 130264.210938Ganancia Entropía rasgo nº 1 : -130263.906250Peso rasgo nº 2 : 130688.203125Ganancia Entropía rasgo nº 2 : -130687.898438Peso rasgo nº 3 : 131019.187500Ganancia Entropía rasgo nº 3 : -131018.882812Peso rasgo nº 4 : 122938.359375Ganancia Entropía rasgo nº 4 : -122938.054688Peso rasgo nº 5 : 37257.785156Ganancia Entropía rasgo nº 5 : -37257.480469Entropía Información de la BD: 0.304138


120

Se empezó entrenando al sistema con el mismo fichero que se quería evaluar (lo

que en las figuras de resultados aparece como ficheros no-disjuntos): todo el fichero de

interrogativas restringido a cada palabra en cada caso. Posteriormente, se entrenó al

sistema con una proporción del 80% de las palabras de uno de los cinco tipos que

existiesen en dicho fichero, y se evaluaba el restante 20%. Es decir, se entrenaba y se

evaluaba al MBL con ficheros disjuntos.

Por último, se hizo también una prueba con una combinación MBL y

probabilidad: como se conocía la probabilidad de encontrar cada una de estas palabras

con y sin tilde, para aquellos casos en los que no se hubiese encontrado un ejemplo

igual que el que se evaluaba (a distancia cero del mismo), la solución que se tomaría

sería la más probable, y no se tendría en cuenta la solución estimada por el MBL. Esta

prueba aparecerá en las figuras como MBL+PROB.

A continuación se expondrán en figuras las tablas de resultados obtenidas para

cada una de las palabras por separado. Se observará que para algunas de estas palabras,

como por ejemplo quienes, el número de ejemplos con los que se ha podido entrenar es

muy bajo. No ocurre lo mismo con la palabra que, por ejemplo.

Para todos estos casos los rasgos que se han empleado han sido palabras, y las

ventanas han sido siempre de 3 palabras, centradas sobre la palabra en estudio.


121

4.3.2.1. Palabra que.

4.3.2.2. Palabra como.

Ficheros no-disjuntos

Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto

Acentuadas No-Acentuadas Acentuadas No-Acentuadas430 22793 430 22793 23223 23185 99,83636912

Ficheros disjuntos (MBL)



Ficheros disjuntos (MBL con probabilidad)













122

4.3.2.3. Palabra quien.

4.3.2.4. Palabra quienes.



Acentuadas No-Acentuadas Acentuadas No-Acentuadas16 147 16 147 163 163 100

















123

4.3.2.5. Palabra cuando.

Como puede apreciarse en los resultados, de la palabra quienes sólo hemos

podido evaluar 36 casos, por lo que no sabemos el grado de fiabilidad de dichos

porcentajes de acierto. Pero los más destacables son los de la palabra quien, ya que para

ficheros disjuntos se obtienen los peores resultados: sólo un 71.21% de acierto. Para

intentar mejorar estos resultados, y a la vista del bajo número de ejemplos quien de

entrenamiento, se decidió realizar la prueba que se explica el siguiente apartado.

4.3.2.6. Evaluación de quien entrenando con que.

Debido a cierta similitud de los contextos en los que las palabras que y quien se

acentuaban o no, se decidió entrenar el sistema con los ejemplos obtenidos de la palabra

que, ya que de esta palabra sí se disponía de un elevado número de ejemplos de

entrenamiento. Lo único que se realizó una vez el sistema había entrenado fue poner en

el fichero diccionario de pesos (pesos.dic), que genera el módulo de pesos, el peso del

rasgo central (palabra en estudio) a cero, ya que se trataba de palabras distintas.











124

Una vez el sistema ha entrenado con dichos ejemplos, se le pasan los de la

palabra quien para que sean evaluados. Se obtuvieron los siguientes resultados:

Se puede apreciar que el porcentaje de acierto se elevó en un 12%. Se observa

también que la palabra con la que se obtuvieron peores resultados (quien) era la que

presentaba una menor desproporción entre casos acentuados y sin acentuar. De ahí que

esta fuese también con la que se obtuvieron peores resultados a la hora de combinar

técnicas con la solución más probable.

4.3.3. Entrenamiento y evaluación de diacríticas-tilde.

Recordemos que bajo dicha denominación englobamos aquellas palabras

diacríticas de las que nos interesa conocer la posición de la tilde porque dependiendo de

su existencia o no, la entonación de la palabra cambia considerablemente. Las palabras

que habíamos separado como tales son:

• aun/aún

• el/él

• mas/más

• mi/mí

• se/sé

• te/té

• tu/tú

A simple vista, es bastante sencillo predecir que las palabras mas y te, sin tildar,

van a aparecer bastante poco, por lo que con la simple utilización de una estrategia

basada en probabilidad se obtendrían resultados bastante satisfactorios. A continuación


Evaluación (QUIEN) Entrenamiento (QUE) Palabras totales Palabras Acertadas Porcentaje acierto



125

se detallan los resultados obtenidos para cada palabra en particular. Las condiciones de

entrenamiento y evaluación son las mismas que las ya expresadas para las palabras

interrogativas: ventanas de 3 rasgos, donde los rasgos representan palabras y una

proporción de 80/20% para la prueba con ficheros disjuntos.

4.3.3.1. Palabra aun.

4.3.3.2. Palabra el.




















126

4.3.3.3. Palabra mas.

4.3.3.4. Palabra mi.




















127

4.3.3.5. Palabra se.

4.3.3.6. Palabra te.




















128

4.3.3.7. Palabra tu.

Observando los casos anteriores se aprecia que los resultados con MBL+prob

empeoran cuando no existe desproporción entre el número de casos tildados y sin tildar.

Es decir, en aquellos casos en los que el número de casos acentuados y sin acentuar se

pone parejo, los resultados con dicha estrategia pueden llegar a empeorar

considerablemente.

Tampoco es muy conveniente tener en cuenta aquellos resultados de palabras

con las que se ha podido entrenar con escasos ejemplos, o el número de ellos que

evaluar es muy bajo, como puede ser el caso de la palabra tu, para la que se disponía

únicamente de 7 palabras que evaluar.

4.3.4. Entrenamiento y evaluación de demostrativos-otros.

Dentro de esta denominación nos encontramos únicamente con tres casos: los de

las palabras esta, este y estas. Como es fácil de suponer, no nos encontramos ante casos

triviales, ya que, para empezar, pueden presentar tres posiciones distintas de la tilde.

Como se verá cuando se muestren los resultados en sus respectivas tablas, éstos no son



AcentuadasNo-Acentuadas Acentuadas No-Acentuadas28 31 28 31 59 59 100



AcentuadasNo-Acentuadas Acentuadas No-Acentuadas3 4 25 27 7 5 71,42857143



AcentuadasNo-Acentuadas Acentuadas No-Acentuadas3 4 25 27 7 4 57,14285714


129

satisfactorios para los casos de esta y estas. De ahí que, como se explicará más adelante,

estas dos palabras reciban un trato adicional: resolviendo la ambigüedad que presentan

respecto a su categoría (ambigüedad verbo_presente_indicativo-demostrativo) se

puede llegar a estimar su tildado, obteniendo resultados bastante más satisfactorios.

A continuación se muestran las estadísticas de los resultados obtenidos en la

realización de las pruebas con estas tres palabras. Las condiciones en las que se han

llevado a cabo son las mismas que las que se han explicado para los dos grupos de

palabras ya tratados anteriormente.

4.3.4.1. Palabra esta.

Como se puede ver en el cuadro anterior, los resultados para ficheros disjuntos

no resultaron satisfactorios, de ahí que se pensara en otra estrategia para este tipo de

palabras.











130

4.3.4.2. Palabra este.

4.3.4.3. Palabra estas.




















131

4.3.5. Entrenamiento y evaluación de conjunciones-otros.

Al examinar este fichero generado tras el procesamiento de los textos del

periódico nos encontramos con que tan sólo aparece la palabra porque. Nos

encontramos ante una palabra con una baja probabilidad de que se encuentre tildada, por

lo que, en un principio, parece que los mejores resultados se deberían obtener de las

pruebas MBL+prob. A continuación se muestran los resultados obtenidos para dicha

palabra al realizar las pruebas en las mismas condiciones en las que se realizaron las

anteriores.

4.3.6. Entrenamiento y evaluación de preposiciones-otros.

En este caso nos encontramos frente a cuatro palabras: bajo, entre, hacia y

sobre. A primera vista, todo parece indicar que los resultados que se van a obtener para

las palabras sobre y entre van a ser los más elevados, ya que en los textos periodísticos

(que son con los que estamos entrenando y evaluando en estas pruebas) es muy difícil

encontrase con la palabra sobré. Y aunque no sea tan difícil encontrarse con la palabra

entré, la proporción de palabras entre va a ser siempre mucho más elevada, por lo que

se puede decir lo mismo de esta palabra.




Ficheros disjuntos (MBL)Evaluación Entrenamiento Palabras totales Palabras Acertadas Porcentaje acierto






132

4.3.6.1. Palabra bajo.

4.3.6.2. Palabra entre.




















133

4.3.6.3. Palabra hacia.

4.3.6.4. Palabra sobre.

Se observa que los peores resultados se obtienen para la palabra hacia. Para este

caso se intentará también otra estrategia basada en la el empleo del MBL para la

correcta categorización de esta palabra, y a partir de este dato obtener su tildado.




















134

4.3.7. Entrenamiento y evaluación de pronombres-otros.

En este fichero nos encontramos con algunas palabras que no tienen mucho

sentido y que carecen de interés. Las palabras sobre las que vamos a realizar un estudio

son las siguientes: decimos, media, ultimo, ultima, varias. Sin embargo, los resultados

obtenidos con el sistema sobre estas palabras carecen de interés alguno. En todos los

casos, y para las cinco palabras, se obtuvo un 100% de aciertos. La razón es que en

todos los ejemplos de evaluación y de entrenamiento no se encontraba ninguna de éstas

palabras tildada. Esa es la razón por la que la elección de la solución resultase tan

sencilla.

4.3.8. Entrenamiento y evaluación de la categoría gramatical en textos

860.

Debido a que disponíamos de ficheros de ambigüedades en los que las palabras

que aparecían podían llevar la tilde en una u otra posición según su categoría

gramatical, se nos planteó el entrenar el sistema MBL para que fuese capaz de detectar

la correcta categoría de una de estas palabras. De este modo, seríamos capaces de

predecir su tildado.

Esto suponía cambios en el módulo traductor, como ya se explicó en el tercer

capítulo de la presente memoria. Ahora los rasgos serían binarios, y representarían cada

uno a un tipo de categoría asociado a la/s palabra/s anterior/es y posterior/es a la palabra

en estudio. Es decir, si la ventana que se está empleando es de tres palabras, las

ventanas serán de 21 rasgos, donde los 10 primeros representarán a 10 tipos de

categorías asociados a la palabra anterior, habrá uno central siempre a 0 para la palabra

central y otros 10 para la palabra posterior. El rasgo central es necesario ya que el

número de rasgos con los que se quiere que el sistema trabaje ha de ser impar. Los

valores que pueden tomar son únicamente CATEGORIA_SI Y CATEGORIA_NO. Si

la ventana es de cinco palabras, entonces las ventanas de rasgos serán de 41 rasgos.


135

Si se disponía de ocho ficheros .aps (textos 860), se emplearon siete de ellos

para el entrenamiento del sistema, y se evaluaba uno de ellos. Se emplearon estos textos

porque eran los únicos de los que se disponía que estaban correctamente categorizados.

El problema es que el número de casos de palabras que nos interesen no es muy

elevado, por lo que a veces era necesario ser un poco menos selectivos a la hora de

elegir los corpus de entrenamiento y de evaluación.

Una vez se ha estimado la categoría, es necesario que el sistema estime también

la tilde que debería llevar asociada si la categoría de la palabra en estudio fuese la

predicha. Para ello hubo que realizar modificaciones sobre el módulo de evaluación.

Los resultados sobre tildado que se presentan en las tablas son calculados únicamente

para los casos en los que se ha acertado en la predicción de la categoría.

Las ambigüedades que se estudiaron con esta estrategia fueron las siguientes:

verbo-nombre, verbo-pronombre y verbo_presente_indicativo-demostrativo, y se pasan

a describir los resultados de cada caso por separado.

4.3.8.1. Ambigüedad verbo-nombre.

Ventana de 3 palabrasEvaluación Palabras Totales Categorías Acertadas Acierto categorias (%)

Verbos Nombres Total3991 9783 13774 13774 12057 87.53448526

Pruebas de tildado a Pal. tildadas Acertadas Acierto Tildado (%)partir de la cat. estimada 11976 99.32819109

Ventana de 5 palabrasEvaluación Palabras totales Categorías Acertadas Acierto categorias (%)




136

4.3.8.2. Ambigüedad verbo-pronombre.

4.3.8.3. Ambigüedad verbo_presente_indicativo-demostrativo (para las palabras

esta/s).

El caso de esta ambigüedad se debe a las pruebas realizadas para intentar

mejorar los resultados obtenidos para las palabras esta y estas, ya las ambigüedades

respecto a la categoría que pueden presentar dichas palabras son verbo en presente de

indicativo (verbo estar) o demostrativo (artículo o pronombre). El problema con el que

nos encontramos en este caso fue el bajo número de verbos estar en presente de

indicativo dentro de los ficheros de entrenamiento y evaluación. De ahí que se decidiese

entrenar con cualquier verbo en presente de indicativo, no sólo con el verbo estar,

además de con adjetivos y pronombres demostrativos.

El conocimiento tan en detalle de todas estas categorías de las palabras es

posible gracias al formato de las categorías de los textos 860, y que será explicado en un

anexo posterior. Las categorías 860 constan de 10 bytes. Las palabras que son presentes

de indicativo tienen el 4º y el 5º byte de la categoría con valor ‘01’, mientras que para

los demostrativos la categoría comienza con ‘A08’ para los adjetivos y con ‘R11’ para

los pronombres. A continuación se muestran los resultados obtenidos:


Verbos Pronombres Total3991 1172 5163 5163 4311 83.4979663



Verbos Pronombres Total3991 1172 5163 5163 4389 85.00871586



137

4.3.9. Entrenamiento con palabras no ambiguas y evaluación de

palabras ambiguas (ambigüedad verbo-nombre).

La última prueba que se realizó fue la siguiente, y sólo para el caso de

ambigüedades verbo nombre. Se quería que el sistema entrenase únicamente con verbos

o nombres, pero que no fuesen ambiguas. Es decir, que una palabra que apareciese

como verbo, podría aparecer como nombre posteriormente siempre que no presentase

una distinta posición de la tilde que en el caso anterior para ser considerada como

ejemplo de entrenamiento. Y viceversa.

Por el contrario, todas las palabras verbos o nombre que presentaran ambigüedad

respecto a la posición de la tilde y de su categoría, debían ser consideradas como

ejemplos de evaluación. Se realizó una única prueba, para la ambigüedad verbo-nombre,

y tanto con ventanas de tres como de cinco palabras, y estos fueron los resultados

obtenidos.


Verbos Pres. Ind. Demostrativos Total1160 207 1367 1367 1307 95.61082663



Verbos Pres. Ind. Demostrativos Total1160 207 1367 1367 1303 95.31821507








4. Pruebas y validación del sistema.lorien.die.upm.es/juancho/pfcs/JAA/capitulo4.pdf · Capítulo...

Documents

Transcript of 4. Pruebas y validación del sistema.lorien.die.upm.es/juancho/pfcs/JAA/capitulo4.pdf · Capítulo...