Post on 02-Oct-2018
Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos
meméticos
Martha Eliana Mendoza Becerra
Universidad Nacional de Colombia
Facultad de Ingeniería, Departamento de Ingeniería de Sistemas e Industrial
Bogotá D.C., Colombia
2015
Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos
meméticos
Martha Eliana Mendoza Becerra
Tesis de investigación presentada como requisito parcial para optar al título de:
Doctor en Ingeniería de Sistemas y Computación
Directora:
Ph.D. Elizabeth León Guzmán
Línea de Investigación:
Sistemas Inteligentes y Recuperación de la información
Grupo de Investigación:
MIDAS – Minería de datos
Universidad Nacional de Colombia
Facultad de Ingeniería, Departamento de Ingeniería de Sistemas e Industrial
Bogotá D.C., Colombia
2015
(Dedicada a)
Mi esposo Carlos Alberto por su amor,
comprensión, apoyo y ánimo en los
momentos difíciles.
Mi hija Laura Sofia por su amor y
ternura.
Agradecimientos
A la Dra. Elizabeth León por ofrecerme la oportunidad de realizar este trabajo bajo su
dirección, por su tiempo, soporte, ánimo y guía en el desarrollo de esta tesis doctoral.
A los profesores de la Universidad Nacional de Colombia –Dra. Jenny Sánchez y Dr. Luis
Fernando Niño–, y al profesor Alexander Gelbukh del Centro de Investigación en
Computo del Instituto Politécnico Nacional de México; por sus contribuciones, apoyo y
colaboración durante mi formación doctoral.
A los Decanos de Facultad de Ingeniería Electrónica y Telecomunicaciones de la
Universidad del Cauca –Mag. Rafael Rengifo Prado y Esp. Oscar Josué Calderón
Cortés–, a los Vicerrectores Académicos –Mag. Alvaro Nelson Hurtado Tejada y Mag.
Eduardo Rojas Pineda–, y a los rectores de la Universidad del Cauca –Mag. Danilo
Reinaldo Vivas Ramos y Mag. Juan Diego Castrillón Orrego–, por todo su apoyo y
colaboración.
A la Universidad Nacional de Colombia por ofrecerme los espacios y el conocimiento
durante el proceso de mi formación como investigadora a nivel doctoral en el programa
de Doctorado en Ingeniería de Sistemas y Computación.
A la Universidad del Cauca por apoyarme financieramente durante mi comisión de
estudios y por el apoyo en las demás actividades relacionadas con el desarrollo de este
programa doctoral.
Abstract y Resumen IX
Resumen
Recientemente los algoritmos basados en metaheurísticas han mostrado buenos
resultados para generar resúmenes automáticos comparados con otros métodos del
estado del arte, sin embargo, aunque los algoritmos meméticos han contribuido en la
resolución de diversos problemas de optimización combinatoria con excelentes
resultados, no han sido usados para resolver el problema de generación automática de
resúmenes. Esta tesis doctoral está enmarcada en el área de investigación de
generación automática de resúmenes de textos, y propone dos algoritmos meméticos
para generar automáticamente resúmenes extractivos, uno para un solo documento y
otro para múltiples documentos. Los algoritmos meméticos propuestos se componen de:
una función objetivo que busca que el resumen contenga las principales temáticas de los
documentos, esquemas de evolución a nivel de población (selección, cruce, mutación y
reemplazo de los agentes) buscando mantener un balance entre calidad y diversidad de
los agentes, y un algoritmo de búsqueda local que permite la explotación de la vecindad
de las soluciones generadas incluyendo conocimiento del problema. La experimentación
de los algoritmos se realiza sobre conjuntos de datos estándar, midiendo la calidad del
resumen generado (comparándolo con resúmenes de referencia) por medio de medidas
aceptadas por la comunidad científica. En la experimentación los algoritmos propuestos
se comparan con otros métodos del estado del arte, logrando que el algoritmo para un
documento ocupe el primer puesto y que el algoritmo para múltiples documentos se
ubique de segundo.
Palabras clave: Generación automática de resúmenes de un solo documento,
Generación automática de resúmenes de múltiples documentos, Algoritmos meméticos,
Búsqueda local guiada, Búsqueda local codiciosa.
X Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Abstract
Recently, algorithms based on metaheuristics have shown good results for generating
automatic summaries compared with other methods in published studies, however,
although the Memetic algorithms have contributed to solving a number of diverse,
combinatorial optimization problems, with excellent results. They have not been used for
solving the problem of automatic text summarization. This doctoral thesis falls within the
research area of automatic text summarization and proposes two memetic algorithms for
automatically generating extractive summaries - one for a single document and another
for multiple documents. The memetic algorithms proposed consist of an objective function
to ensure that the summary contains the main themes of the documents, an evolution
scheme at the population level (selection, crossover, mutation and replacement of
agents), seeking to maintain a balance between the quality and diversity of the agents,
and a local search algorithm that allows the exploitation of the vicinity of the generated
solutions, including knowledge of the problem. Testing of the algorithms is performed on
standard data sets, measuring the quality of the summary generated (compared to
reference summaries) through measures accepted by the scientific community. In the
testing, the proposed algorithms are compared to other published methods, with the
algorithm for a single document achieving first place and the algorithm for multiple
documents being placed second.
Keywords: Extractive single-document summarization, Extractive multi-document
summarization, Memetic algorithms, Guided local search, Greedy local search.
Contenido XI
Contenido
Pág.
Resumen ......................................................................................................................... IX
Abstract............................................................................................................................ X
Lista de Figuras ........................................................................................................... XIV
Lista de Tablas ............................................................................................................. XV
1 Introducción ............................................................................................................. 1 1.1 Definición del problema ................................................................................... 1 1.2 Justificación e importancia ............................................................................... 5 1.3 Objetivos.......................................................................................................... 6
1.3.1 Objetivo general .................................................................................... 6 1.3.2 Objetivos Específicos ............................................................................ 6
1.4 Metodología ..................................................................................................... 7 1.5 Resumen de contribuciones .......................................................................... 13 1.6 Organización del resto del documento ........................................................... 16
2 Estado del arte........................................................................................................ 19 2.1 Generación automática de resúmenes de textos ........................................... 19
2.1.1 Definición y Taxonomía ....................................................................... 19 2.1.2 Esquema general para resúmenes automáticos.................................. 21 2.1.3 Métodos de generación automática de resúmenes ............................. 23
2.2 Métodos para la generación resúmenes extractivos de un documento .......... 23 2.2.1 Estadísticos ......................................................................................... 24 2.2.2 Aprendizaje de máquina ...................................................................... 26 2.2.3 Conectividad de textos ........................................................................ 28 2.2.4 Grafos ................................................................................................. 31 2.2.5 Reducción algebraica .......................................................................... 33 2.2.6 Agrupamiento y modelos probabilísticos ............................................. 35
2.3 Métodos para la generación resúmenes extractivos de múltiples documentos36 2.3.1 Aprendizaje de máquina ...................................................................... 36 2.3.2 Conectividad de textos ........................................................................ 38 2.3.3 Grafos ................................................................................................. 40 2.3.4 Reducción algebraica .......................................................................... 42 2.3.5 Agrupamiento y modelos probabilísticos ............................................. 43 2.3.6 Otros ................................................................................................... 47
2.4 Métodos basados en metaheurísticas ............................................................ 48 2.4.1 Optimización de Pesos ........................................................................ 48
XII Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
2.4.2 Generación de resúmenes .................................................................. 51 2.5 Evaluación de resúmenes .............................................................................. 55
2.5.1 Conceptos de evaluación .................................................................... 55 2.5.2 Evaluación automática de resúmenes ................................................. 56
2.6 Algoritmos meméticos .................................................................................... 58 2.6.1 Definición ............................................................................................ 58 2.6.2 Esquema de un Algoritmo memético básico ........................................ 60 2.6.3 Consideraciones importantes en el diseño .......................................... 61 2.6.4 Búsqueda local .................................................................................... 64
2.7 CHC ............................................................................................................... 65
3 Algoritmo para la generación de resúmenes de un solo documento ................. 67 3.1 Características de la función objetivo ............................................................. 67
3.1.1 Posición de la oración ......................................................................... 67 3.1.2 Relación de la oración con el título ...................................................... 68 3.1.3 Longitud de la oración ......................................................................... 69 3.1.4 Cohesión ............................................................................................. 69 3.1.5 Cobertura ............................................................................................ 70
3.2 Algoritmo propuesto: MA-SingleDocSum ...................................................... 70 3.2.1 Representación del documento y medidas de similitud ....................... 71 3.2.2 Representación de la solución ............................................................. 72 3.2.3 Función objetivo .................................................................................. 72 3.2.4 Esquema de MA-SingleDocSum ......................................................... 73
4 Algoritmo para la generación de resúmenes de múltiples documentos ............ 81 4.1 Características de la función objetivo ............................................................. 81
4.1.1 Cobertura ............................................................................................ 81 4.1.2 Redundancia ....................................................................................... 82
4.2 Algoritmo propuesto: MA-MultiSumm ............................................................. 82 4.2.1 Representación del documento y medidas de similitud ....................... 83 4.2.2 Representación de la solución ............................................................. 83 4.2.3 Función objetivo .................................................................................. 84 4.2.4 Esquema de MA-MultiSumm ............................................................... 85
5 Resultados Experimentales ................................................................................... 91 5.1 Algoritmo MA-SingleDocSum ......................................................................... 91
5.1.1 Conjunto de datos ............................................................................... 91 5.1.2 Pre-procesamiento de datos ................................................................ 92 5.1.3 Métricas de evaluación ........................................................................ 93 5.1.4 Afinamiento de parámetros ................................................................. 94 5.1.5 Comparación con diferentes métodos ................................................. 94 5.1.6 Resultados y discusión ........................................................................ 96
5.2 Algoritmo MA-MultiSumm ............................................................................ 100 5.2.1 Conjunto de datos ............................................................................. 101 5.2.2 Pre-procesamiento de datos .............................................................. 101 5.2.3 Métricas de evaluación ...................................................................... 101 5.2.4 Afinamiento de parámetros ............................................................... 102 5.2.5 Comparación con diferentes métodos ............................................... 103 5.2.6 Resultados y discusión ...................................................................... 105
6 Conclusiones, Recomendaciones y Trabajo Futuro .......................................... 111 6.1 Conclusiones ............................................................................................... 111
Contenido XIII
6.1.1 Generación de resúmenes de un solo documento ............................ 111 6.1.2 Generación de resúmenes de múltiples documentos ........................ 113 6.1.3 Generales ......................................................................................... 115
6.2 Recomendaciones ....................................................................................... 116 6.3 Trabajo Futuro ............................................................................................. 117
Bibliografía .................................................................................................................. 119
Anexo A: Generación automática de resúmenes de múltiples documentos basada en la mejor búsqueda armónica global y búsqueda local codiciosa.
Anexo B: Generación automática de resúmenes de múltiples documentos basado en operadores genéticos y búsqueda local codiciosa.
Anexo C: Algoritmo memético para generación de resúmenes de múltiples documentos obtenido desde un enfoque hiperheurístico.
XIV Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Lista de Figuras
Figura 1-1: Metodología de investigación iterativa 7
Figura 1-2: Metodología y cronograma general 9
Figura 2-1: Generación de resúmenes extractivos para uno y múltiples documentos 21
Figura 2-2 Esquema general de generación automática de resúmenes 22
Figura 2-3 Métodos de generación automática de resúmenes 23
Figura 2-4 Métodos estadísticos para un solo documento 25
Figura 2-5 Técnicas de aprendizaje de máquina para un solo documento 28
Figura 2-6 Cadenas léxicas para un solo documento 29
Figura 2-7 Estructuras retóricas para un solo documento 30
Figura 2-8 Grafos para un solo documento 32
Figura 2-9 Reducción algebraica para un solo documento 35
Figura 2-10 Cadenas léxicas para múltiples documentos 39
Figura 2-11 Estructuras retóricas para múltiples documentos 40
Figura 2-12 Agrupamiento para múltiples documentos 47
Figura 2-13 Metaheurísticas para uno o múltiples documentos 55
Figura 2-14 Medidas de evaluación de resúmenes automáticos 56
Figura 2-15 Esquema general del algoritmo CHC 66
Figura 3-1 Procedimiento de búsqueda local guiada 78
Figura 3-2: Esquema del algoritmo MA-SingleDocSum 80
Figura 4-1 Cruce HUX 86
Figura 4-2 Procedimiento de búsqueda codiciosa 89
Figura 4-3 Esquema del algoritmo MA-MultiSumm 90
Contenido XV
Lista de Tablas
Tabla 1-1 Mejor Reporte ROUGE (Estado del arte vs Resumen Referencia) 3
Tabla 1-2 Producción de nuevo conocimiento y/o desarrollos tecnológicos 13
Tabla 1-3 Fortalecimiento de la comunidad científica 14
Tabla 1-4 Apropiación social del conocimiento 15
Tabla 5-1 Descripción de los conjuntos de datos usados 92
Tabla 5-2 Puntajes ROUGE con el conjunto de datos DUC2001 96
Tabla 5-3 Puntajes ROUGE con el conjunto de datos DUC2002 97
Tabla 5-4 Comparación de MA-SingleDocSum con otros métodos (ROUGE-2) 97
Tabla 5-5 Comparación de DE con otros métodos con DUC2001 (ROUGE-1) 98
Tabla 5-6 Comparación de DE con otros métodos con DUC2001 (ROUGE-1) 98
Tabla 5-7 Ordenamiento unificado de los métodos 99
Tabla 5-8 Descripción de los conjuntos de datos usados 101
Tabla 5-9 Puntajes ROUGE de los métodos con DUC2005 106
Tabla 5-10 Comparación de MA-MultiSumm con otros métodos con DUC2005 106
Tabla 5-11 Puntajes ROUGE de los métodos con DUC2006 107
Tabla 5-12 Comparación de MA-MultiSumm con otros métodos con DUC2006 107
Tabla 5-13 Ordenamiento unificado de los métodos 108
1 Introducción
En internet se encuentra gran cantidad de textos que tratan del mismo tópico, siendo de
gran utilidad contar con un resumen que contenga las principales temáticas abordadas
en los mismos. Por ejemplo, en los motores de búsqueda se necesita obtener los
resúmenes de cada página web recuperada en una consulta y en el agrupamiento de
documentos web, para resumir (etiquetar) los documentos que pertenecen a cada grupo.
El área de investigación de generación automática de resúmenes de textos apunta a
resolver este problema, abordándolo desde diferentes técnicas, como por ejemplo:
estadísticas, grafos, reducción algebraica, agrupamiento y probabilísticas,
metaheurísticos, entre otras. Teniendo en cuenta que los métodos del estado del arte
basados en metaheurísticas han obtenido recientemente los mejores resultados en la
solución del problema de generación automática de resúmenes y que los algoritmos
meméticos han contribuido en la resolución de diversos problemas de optimización
combinatoria, se plantea abordar la solución de este problema por medio de estos
algoritmos meméticos.
En esta investigación doctoral se proponen dos algoritmos para la generación automática
de resúmenes extractivos basados en algoritmos meméticos, un algoritmo para un solo
documento y el otro para múltiples documentos. Para la evaluación de estos algoritmos
se tiene en cuenta la calidad de los resúmenes generados en comparación con los
resultados obtenidos por otros métodos del estado del arte.
1.1 Definición del problema
Actualmente se encuentra gran cantidad de información en documentos de texto digitales
en internet y en las organizaciones. Cuando un usuario está interesado en profundizar en
una cierta temática, ésta puede estar contenida en gran cantidad de textos que
2 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
difícilmente pueden ser leídos en su totalidad, teniendo que invertir mucho tiempo y
esfuerzo para encontrar lo que está buscando; por esto, contar con un resumen, en el
cual se pueda identificar las principales temáticas contenidas en los documentos
disponibles es de gran ayuda para el usuario.
El área de investigación de generación automática de resúmenes de textos apunta a
resolver este problema, abordándolo desde diferentes técnicas. Sin embargo, se sigue en
la búsqueda de métodos que esencialmente generen un resumen de calidad, es decir,
muy similar al generado por un humano. La comunidad científica de ésta área acepta
realizar la evaluación de la calidad de los resúmenes generados, por medio de métricas
enfocadas en la coincidencia de N-gramas entre el resumen generado y los resúmenes
de referencia (ideales), conocidas como ROUGE (Recall-Oriented Understudy for Gisting
Evaluation). En el estado del arte se encuentran reportes que muestran que la calidad de
los resúmenes se puede seguir mejorando, es decir, proponer nuevos métodos que
generen resúmenes más similares a los hechos por un humano.
En la Tabla 1-1 se puede observar la diferencia entre el mejor reporte del estado del arte
(método automático) y el mejor reporte de los resúmenes de referencia (resumen de un
humano comparado con los demás resúmenes de referencia), basado en las medidas de
ROUGE (mayores valores significan mejor calidad) sobre dos conjuntos de datos de la
Conferencia de Entendimiento del Documento (Document Understanding Conference,
DUC). En el caso de generación automática de resúmenes de un solo documento, para
el conjunto de datos DUC2002, en la medida ROUGE-1 el mejor reporte del estado del
arte es de 0.4849, mientras que el mejor reporte de los resúmenes de referencia es
0.5164. Para el caso de múltiples documentos, en la medida ROUGE-2 el mejor reporte
del estado del arte es de 0.0822 y el mejor de los resúmenes de referencia es de 0.1179.
Como se observa en el capítulo 5 (Resultados Experimentales), por lo general las
diferencias entre los métodos se da por los dos últimos decimales en estas medidas y
una pequeña diferencia permite que un método se ubique como estado el arte en este
problema.
Algunas de las áreas de aplicación de la generación automática de resúmenes de un
documento, son: Motores de búsqueda [1], breve resumen del documento o página web;
E-learning [2], para seleccionar la información más importante desde un texto. En el caso
Introducción 3
de resúmenes de múltiples documentos encontramos: Noticias [3], información relevante
de un evento o desastre natural; Colecciones de E-mail [4], resúmenes de correos
electrónicos que contemplan el mensaje inicial del correo y las respuestas subsecuentes
a éste; Agrupamiento de documentos web, para la asignación de etiquetas a los grupos
[5]; Bodegas textuales, en las cuales los resúmenes de cada documento se realizan por
medio de términos o palabras claves del documento [6-8].
Tabla 1-1 Mejor Reporte ROUGE (Estado del arte vs Resumen Referencia)
Cantidad de
documentos
Conjunto
de datos Estado del arte Resumen de Referencia
Uno DUC2002 Rouge-1 Rouge-2 Rouge-1 Rouge-2
0.4849 0.2284 0.5164 0.2340
Múltiples DUC2005 Rouge-2 Rouge-SU4 Rouge-2 Rouge-SU4
0.0822 0.1418 0.1179 0.1780
En el estado del arte del área de generación automática de resúmenes se encuentran
diversos métodos (véase capítulo 2), entre los cuales se destacan: estadísticos que se
basan en características estadísticas como frecuencia de la palabra y de la oración;
basados en aprendizaje de máquina que buscan obtener la probabilidad de que una
oración sea incluida en un resumen; basados en conectividad de textos que establecen
conexiones entre las partes de un texto para llegar a resúmenes más coherentes y fáciles
de comprender; basados en grafos que obtienen el resumen teniendo en cuenta la
importancia de cada oración después de un proceso iterativo de convergencia del grafo;
basados en reducción algebraica que usan la descomposición matricial para obtener el
resumen; basados en agrupamiento y modelos probabilísticos, en los cuales se generan
grupos de documentos asociados a un tópico particular; y basados en metaheurísticas
que buscan optimizar una función objetivo para encontrar las oraciones que harán parte
del resumen.
De estos métodos, los basados en reducción algebraica, agrupamiento, modelos
probabilísticos y metaheurísticas, son independientes del lenguaje y no supervisados,
aspectos importantes para evitar la dependencia del lenguaje y tener que contar con
grupos para una fase de entrenamiento. Aunque estos métodos han obtenido buenos
resultados sobre otros métodos, investigaciones recientes muestran que los métodos
4 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
basados en metaheurísticas, tanto para un documento como para múltiples documentos
han mostrado mejores resultados, haciendo que la investigación en esta área sea
prometedora.
Estos métodos basados en metaheurísticas se han utilizado de dos formas: (1) para la
optimización de los pesos de las características que forman parte de la ecuación que
asigna un puntaje a cada oración del texto original (este puntaje define cuales oraciones
harán parte del resumen), por medio de algoritmos genéticos [9-12], programación
genética [13] y optimización de enjambres de partículas [14, 15]; y (2) para la
optimización de una función objetivo específica que permita obtener el mejor resumen
candidato, mediante algoritmos genéticos [16-18], búsqueda armónica [19], optimización
por enjambres de partículas [20-23] y más recientemente con evolución diferencial [24-
29].
Teniendo en cuenta que métodos del estado del arte basados en metaheurísticas han
obtenido buenos resultados en la solución del problema de generación automática de
resúmenes, que los algoritmos meméticos han contribuido en la resolución de diversos
problemas de optimización combinatoria, entre ellos, los problemas discretos [30, 31], y
que al inicio de esta tesis no habían sido usados para resolver el problema de generación
automática de resúmenes, se consideró apropiado abordar la solución de este problema
por medio de algoritmos meméticos. Además con los algoritmos meméticos se logra lo
siguiente:
Mejor balance entre la exploración y la explotación. Permitiendo que una mala
solución en una buena región puede ser mejorada, dirigiendo la búsqueda hacia esta
región, lo que normalmente no sucede con un algoritmo evolutivo.
Mejores resultados, dado que se usa conocimiento específico del problema (concepto
derivado del Non-free lunch theorem). En general, la precisión de los resultados
obtenidos con los algoritmos meméticos es mejor que cuando se usan por separado
los algoritmos evolutivos y la búsqueda local.
Mayor velocidad en la obtención de soluciones precisas, debido al incremento en la
velocidad de convergencia hacia las soluciones óptimas.
Introducción 5
Por lo anterior se planteó la siguiente pregunta de investigación: ¿Es posible generar
resúmenes automáticos para uno o múltiples documentos desde la perspectiva de un
algoritmo memético, que permita obtener resúmenes de mayor calidad o comparables a
los establecidos en el estado del arte?. En esta investigación se pretende resolver esta
pregunta, proponiendo dos algoritmos de generación automática de resúmenes
extractivos basado en algoritmos meméticos, uno para un solo documento y otro para
múltiples documentos.
La evaluación de los dos algoritmos propuestos se realizó sobre conjuntos de datos de
DUC, midiendo la calidad del resumen generado (comparándolo con resúmenes de
referencia) por medio de las medidas ROUGE, las cuales son reconocidas en la
comunidad científica para evaluar la calidad de los resúmenes. En la experimentación los
algoritmos propuestos se compararon con otros métodos del estado del arte, logrando
que el algoritmo para un documento ocupe el primer puesto en el estado del arte y que el
algoritmo para múltiples documentos se ubique de segundo.
1.2 Justificación e importancia
Esta investigación es importante desde el punto de vista teórico, porque plantea la
definición de dos nuevos algoritmos de generación automática de resúmenes extractivos
basado en algoritmos meméticos. El primero para un solo documento que se estableció
como el estado del arte, el segundo para múltiples documentos que se ubica muy cerca
del estado del arte. Teniendo en cuenta los resultados obtenidos, la investigación
alrededor de nuevos métodos basados en metaheurísticas es promisoria para la
comunidad científica de generación automática de resúmenes extractivos.
También es importante para la comunidad científica el conocimiento de los siguientes
componentes del algoritmo memético que tienen en cuenta las particularidades del
problema de generación automática de resúmenes tanto para uno como múltiples
documentos: una función objetivo que busca que el resumen contenga las principales
temáticas de los documentos; esquemas de evolución a nivel de población (selección,
cruce, mutación y reemplazo de los agentes) que buscan mantener un balance entre
calidad y diversidad de los agentes; y un algoritmo de búsqueda local que permite la
6 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
explotación de la vecindad de las soluciones generadas incluyendo conocimiento del
problema.
1.3 Objetivos
Los objetivos alcanzados con el desarrollo de esta tesis doctoral se presentan a
continuación.
1.3.1 Objetivo general
Proponer dos algoritmos de generación automática de resúmenes extractivos basados en
algoritmos meméticos, uno para un solo documento y otro para múltiples documentos,
que permita obtener resúmenes con resultados similares o mejores a los reportados en el
estado del arte.
1.3.2 Objetivos Específicos
Definir un algoritmo para la generación automática de resúmenes extractivos de un
solo documento, basado en algoritmos meméticos, que contemple:
o Una función objetivo compuesta por características estadísticas como: Posición y
Longitud de la oración; y de similitud entre oraciones como: Relación de la oración
con el título, Cohesión y Cobertura.
o Esquemas de selección basados en el rango y ruleta, cruce de un punto entre
agentes, mutación multi-bit y reemplazo basado en competencia restringida,
buscando mantener un balance entre calidad y diversidad de los agentes.
o Un algoritmo de búsqueda local guiada, que permita la explotación guiada de la
vecindad de los agentes generados incluyendo conocimiento del problema de un
solo documento.
Definir un algoritmo para la generación automática de resúmenes extractivos de
múltiples documentos, basado en algoritmos meméticos, que contemple:
o Una función objetivo compuesta por características de similitud como: Cobertura,
buscando que las oraciones del resumen tengan en cuenta los tópicos principales
contenidos en el conjunto de documentos y Redundancia que evite oraciones
similares en el resumen.
Introducción 7
o Esquemas de selección aleatoria con prevención de incesto, cruce HUX y
reemplazo elitista, permitiendo realizar una exploración del espacio de búsqueda
de la solución manteniendo la diversidad de los agentes.
o Un algoritmo de búsqueda local codiciosa, permitiendo realizar la explotación de
la vecindad de los agentes incluyendo conocimiento del problema de múltiples
documentos.
Medir la calidad promedio de los resúmenes generados por los dos algoritmos
propuestos, usando conjuntos de datos estándar de la Conferencia de Entendimiento
de Documentos (Document Understanding Conference) y medidas ROUGE; y
comparar los resultados con métodos del estado del arte.
1.4 Metodología
Para el desarrollo de esta investigación se utilizó la metodología de investigación iterativa
propuesta por Pratt en 2009 [32], diseñada especialmente para proyectos de
investigación de Ciencias de la Computación que involucran una solución computacional.
Cada iteración está compuesta por cuatro etapas, que son: Observación, Identificación
del problema, Desarrollo de la solución y Prueba de la solución (ver Figura 1-2).
Figura 1-1: Metodología de investigación iterativa
Estas etapas se desarrollan de forma iterativa. En la etapa 1 (Observación), se estudia
de acuerdo al componente del algoritmo memético, las características (función objetivo),
operadores (esquemas de reproducción) y algoritmos (búsqueda local). En la etapa 2
(Identificación del problema) se hace la selección de los componentes previamente
estudiados teniendo en cuenta las particularidades de la tarea generación automática de
resúmenes de textos. Luego con esta selección en la etapa 3 (Desarrollo de la solución)
8 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
se construye o modifica la solución computacional; y finalmente en la etapa 4 (Prueba de
la solución) se realiza la evaluación de los resúmenes obtenidos con esta solución con
respecto a otros métodos del estado del arte. Al terminar un ciclo se tienen en cuenta los
resultados obtenidos en la evaluación del algoritmo para definir los componentes a
estudiar en el siguiente ciclo (etapa 1) y así repetir nuevamente el proceso hasta
completar los ciclos necesarios para obtener el algoritmo final.
Para el algoritmo de generación automática de resúmenes de un solo documento basado
en algoritmos meméticos, se realizaron dos iteraciones (cada una con cuatro ciclos),
donde cada iteración generó un nuevo algoritmo. En la primera iteración basado en un
algoritmo genético y en la segunda basado en la mejor búsqueda armónica global
(Global-best Harmony Search, GHS). Los mejores resultados se obtuvieron con el
algoritmo basado en el genético.
Para el algoritmo de generación automática de resúmenes de múltiples documentos, se
realizaron cinco iteraciones. Las iteraciones 3, 5 y 6 se basaron en algoritmos genéticos y
la 2 en GHS. La primera iteración permitió la exploración en el área de aplicación de
Bodegas textuales. Nuevamente los mejores resultados se obtuvieron con el algoritmo
memético basado en genéticos.
En cada iteración se logró obtener un producto específico (ver Figura 1-2), estos fueron:
(1) un modelo multi-dimensional para una bodega de documentos con medidas de texto
(DW-TM), (2) un algoritmo GHS con búsqueda local codiciosa para generación de
resúmenes para múltiples documentos (GHS-MultiDocument), (3) un algoritmo basado en
operadores genéticos y búsqueda codiciosa para generación de resúmenes de múltiples
documentos (MA-MultiDocument), (4) un algoritmo basado en operadores genéticos y
búsqueda local guiada para generar resúmenes para un solo documento (MA-
SingleDocSum), (5) un algoritmo basado en CHC (Cross-generational elitist selection,
Heterogeneous recombination, Cataclysmic mutation) y búsqueda local codiciosa para
generación de resúmenes de múltiples documentos (MA-Multisumm), (6) un algoritmo
basado en un enfoque hiper-heurístico para múltiples documentos (HH-MultiDocument),
(7) un algoritmo basado en GHS y búsqueda local codiciosa para generar resúmenes
para un solo documento (ESDS-GHS-GLO).
Introducción 9
Figura 1-2: Metodología y cronograma general
En la primera iteración (1-DW-TM) se realizó una exploración de la generación
automática de resúmenes para múltiples documentos en una bodega de documentos por
medio de medidas textuales y probabilidades de tópicos de cada documento (Motivación
de la tesis). Pero teniendo en cuenta las observaciones de los jurados realizadas a la
propuesta doctoral, se limitó el alcance de la propuesta a un sistema de procesamiento
fuera de línea. El desarrollo de este modelo permitió: (1) Explorar la generación
automática de resúmenes de múltiples documentos en un sistema de procesamiento en
línea como las bodegas textuales. (2) Definir un modelo multidimensional de bodegas
que incluye medidas textuales. (3) Identificar dificultades a nivel de modelamiento
multidimensional y de herramientas OLAP para soportar y manejar las medidas textuales.
(4) Realizar el proceso de adquisición de datos y pre-procesamiento de artículos
científicos. (5) Obtener una evaluación de tiempos de ejecución para consultas con: una
y dos jerarquías de dimensión; esquemas acoplado y matriz. Además, una evaluación de
satisfacción del usuario con respecto al tiempo de ejecución y la facilidad de uso. (6)
Realizar un artículo con los resultados obtenidos que fue publicado en una revista
internacional (categoría A1 según PUBLINDEX-COLCIENCIAS y JCR-Q1:2014 con un
factor de impacto de 2.313) [33] y recibir la correspondiente retroalimentación de pares
internacionales.
10 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
En la segunda iteración (2-GHS-MultiDocument) se definió un algoritmo para generación
de resúmenes de múltiples documentos basado en GHS (y sus variaciones) con
búsqueda local codiciosa, evitando inicialmente la definición de esquemas evolutivos
(selección, cruce, mutación y reemplazo), generalmente necesaria en la definición de un
algoritmo genético. Con el desarrollo de este algoritmo se logró lo siguiente: (1) Adaptar
una función objetivo que combinaba algunas características de dos algoritmos ya
existentes, uno basado en la búsqueda armónica (Harmony Search, HS) para un solo
documento y otro en optimización por enjambres de partículas (Particle Swarm
Optimization, PSO) para múltiples documentos. (2) Comparar los resultados obtenidos
con otras variaciones de HS y con otros algoritmos del estado del arte. (3) Realizar el
proceso de adquisición de datos y pre-procesamiento para los conjuntos de datos de
DUC2005 y DUC2007. (4) Analizar los resultados obtenidos en las medidas ROUGE-2 y
ROUGE-SU4. Debido a que los resultados no superaron los métodos del estado del arte
(Ver Anexo A), no se realizó publicación de los resultados en evento/revista.
En la tercera iteración (3-MA-MultiDocument) se definió un algoritmo memético para
generación de resúmenes de múltiples documentos basado en operadores genéticos y
búsqueda codiciosa. El desarrollo de este algoritmo permitió: (1) Realizar un estudio de
las características utilizadas en el estado del arte para la generación de resúmenes de
múltiples documentos. (2) Definir una función objetivo con las características de
Cobertura y la Redundancia, por medio de similitudes semánticas entre oraciones. (3)
Estudiar diferentes operadores de selección, cruce, mutación y reemplazo, y de estos
seleccionar un conjunto de cada operador tratando de equilibrar la diversidad y la presión
selectiva en el algoritmo memético para múltiples documentos. (4) Definir una
combinación de operadores adecuada para el problema de resúmenes de múltiples
documentos. (5) Estudiar diferentes algoritmos de búsqueda local y seleccionar el más
adecuado para este problema. (6) Comparar la calidad de los resúmenes generados por
MA-MultiDocument con otros métodos del estado del arte encontrando para el conjunto
de datos DUC2005 mejores resultados que para el conjunto de datos DUC2007. Debido
a que los resultados no superaron los métodos del estado del arte (Ver Anexo B), no se
realizó publicación de los resultados en evento/revista.
En la cuarta iteración (4-MA-SingleDocSum) se definió un algoritmo de generación de
resúmenes extractivos de un solo documento basado en operadores genéticos y
Introducción 11
búsqueda local guiada. Con el desarrollo de este algoritmo se logró: (1) Realizar un
estudio de las características utilizadas en el estado del arte para generación de
resúmenes de un solo documento. (2) Definir una función objetivo con características
estadísticas como: Posición y Longitud de la oración; y de similitud semántica entre
oraciones como: Relación de la oración con el título, Cohesión y Cobertura. (3) Estudiar
diferentes operadores de selección, cruce, mutación y reemplazo, y de estos seleccionar
un conjunto de cada operador tratando de equilibrar la diversidad y la presión selectiva
en el algoritmo. (4) Definir una combinación de operadores adecuada para el problema
de resúmenes de un solo documento. (5) Estudiar diferentes algoritmos de búsqueda
local y seleccionar el más adecuado para este problema. (6) Realizar el proceso de
adquisición de datos y pre-procesamiento para los conjuntos de datos de DUC2001 y
DUC2002. (7) Comparar la calidad de los resúmenes generados con otros métodos del
estado del arte encontrando que MA-SingleDocSum supera éstos métodos con los
conjuntos de datos DUC2001 y DUC2002. (8) Encontrar que la aplicación de algoritmos
meméticos en el problema de un solo documento presenta resultados prometedores,
dando espacio a una mayor exploración en este tipo de algoritmos. (9) Realizar un
artículo con estos resultados que fue publicado en una revista internacional (categoría A1
según PUBLINDEX-COLCIENCIAS y JCR-Q1:2014 con un factor de impacto de 2.240)
[34] y recibir la correspondiente retroalimentación de pares internacionales.
En la quinta iteración (5-MA-Multisumm) se definió un algoritmo memético para
generación de resúmenes de múltiples documentos basado en CHC y búsqueda
codiciosa. Con el desarrollo de este algoritmo se logró lo siguiente: (1) Adaptar el
algoritmo CHC al problema de múltiples documentos, manteniendo la diversidad en la
población. (2) Realizar el proceso adquisición de datos y pre-procesamiento para el
conjunto de datos de DUC2006. (3) Comparar la calidad de los resúmenes generados
con otros algoritmos sobre los conjuntos de datos DUC2005 y DUC2006; encontrando
que MA-Multisumm ocupa el segundo lugar entre los métodos del estado del arte, pero el
algoritmo que ocupa el primer puesto excede en tres veces las evaluaciones de la
función objetivo establecida en MA-MultiSumm (50.000 vs 15.000). (4) Encontrar que la
aplicación de algoritmos meméticos en el problema de múltiples documentos presenta
resultados prometedores, dando espacio a una mayor exploración en este tipo de
algoritmos. (5) Realizar un artículo con estos resultados que fue publicado en un evento
internacional (Lecture Notes in Computer Science, categoría A2 según PUBLINDEX-
12 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
COLCIENCIAS y SJR-Q2:2014 con un factor de impacto de 0.339) [35] y recibir la
correspondiente retroalimentación de pares internacionales.
En la sexta iteración (6-HH-MultiDocument) se definió un algoritmo memético para
generación de resúmenes de múltiples documentos obtenido desde un enfoque
hiperheurístico. El desarrollo de este algoritmo permitió: (1) Seleccionar las heurísticas de
alto nivel que permiten seleccionar las heurísticas de bajo nivel. (2) Seleccionar las
heurísticas de bajo nivel para realizar la selección, cruce, reemplazo y búsqueda local.
(3) Definir una combinación de operadores para el algoritmo memético en el problema de
resúmenes de múltiples documentos. (4) Comparar la calidad de los resúmenes
generados por HH-MultiDocument con otros métodos del estado del arte encontrando
nuevamente que para el conjunto de datos DUC2005 se obtiene mejores resultados que
para el conjunto de datos DUC2007. Debido a que los resultados no superaron los
métodos del estado del arte (Ver Anexo C), no se realizó publicación de los resultados en
evento/revista.
En la séptima iteración (7-GHS-SingleDocSum) se definió un nuevo algoritmo para
generación de resúmenes de un solo documento basado en GHS y búsqueda codiciosa.
El desarrollo de este algoritmo permitió: (1) Adaptar el algoritmo GHS para generar
resúmenes para un solo documento. (2) Comparar la calidad de los resúmenes
generados con otros métodos del estado del arte sobre los conjuntos de datos DUC2001
y DUC2002; encontrando que GHS-SingleDocSum ocupa el segundo puesto (ganando el
algoritmo propuesto previamente MA-SingleDocSum). (3) Realizar un artículo con estos
resultados que fue publicado en un evento internacional (Lecture Notes in Computer
Science, categoría A2 según PUBLINDEX-COLCIENCIAS y SJR-Q2:2014 con un factor
de impacto de 0.339) [36] y recibir la correspondiente retroalimentación de pares
internacionales.
Paralelamente se realizó una etapa relacionada con tareas de documentación y
divulgación de la investigación. Las actividades desarrolladas en esta etapa permitieron
lo siguiente: (1) la sistematización del proceso y de los productos obtenidos a lo largo del
desarrollo del proyecto compilada en la monografía de la tesis doctoral; (2) una revisión
continua del estado del arte, obteniendo como resultado una publicación en una revista
nacional [37] (categoría B según PUBLINDEX-COLCIENCIAS); y (3) la publicación de los
Introducción 13
resultados obtenidos en algunas de las iteraciones de la metodología en revistas
internacionales y la presentación en eventos internacionales.
Además se realizaron tareas complementarias como: (1) Dirección de ocho proyectos de
grado en Ingeniería de Sistemas relacionados con el área de investigación. (2) Dirección
de dos tesis de Maestría en Computación uno en el área de investigación y el otro en un
área complementaria. (3) Orientación como profesora de dos cursos relacionados con
Fundamentos de metaheurísticas y Algoritmos meméticos en pregrado y posgrado. (4)
Realización de una estancia de corta duración (pasantía de investigación) en la
Universidad de Granada (España) por dos meses y medio. (5) Evaluación de dos
artículos internacionales, tres artículos nacionales y una propuesta de investigación
nacional. (6) Colaboración como investigadora en un trabajo que buscaba una nueva
forma de realizar agrupamiento de resultados de búsqueda web basado en la
metaheurística de la búsqueda cuco y criterio de información bayesiana balanceada,
publicado en una revista internacional ISI (indexada categoría A1 según PUBLINDEX-
COLCIENCIAS y JCR-Q1 con un factor de impacto de 4.038) [38]. (7) Colaboración como
investigadora de una nueva forma para usar conceptos de un sistema de recomendación
basado en descomposición de valores singulares aplicado a patrones pedagógicos,
publicado en una revista internacional ISI (indexada categoría A1 según PUBLINDEX-
COLCIENCIAS y JCR-Q3 con un factor de impacto de 1.069) [39].
1.5 Resumen de contribuciones
La Tabla 1-2 presenta los resultados logrados en esta investigación en relación a la
generación de nuevo conocimiento y/o desarrollos tecnológicos, con sus respectivos
indicadores. Similarmente, la Tabla 1-3 muestra los productos obtenidos relacionados
con el fortalecimiento de la comunidad científica, y la Tabla 1-4 presenta los productos
alcanzados relacionados con el proceso de apropiación social del conocimiento en el
desarrollo de la investigación.
Tabla 1-2 Producción de nuevo conocimiento y/o desarrollos tecnológicos
Productos Indicador
Dos nuevos algoritmos de generación automática de resúmenes extractivos, uno de
Monografía de tesis doctoral.
14 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
un solo documento y otro para múltiples documentos.
Artículos en eventos y revistas a nivel nacional e internacional, indexadas.
1 artículo en revista nacional categoría B según COLCIENCIAS. 2 artículos en revista internacional JCR Q1. 2 artículos en evento internacional con memoria en revista indexada SJR Q2. 2 artículos en revista internacional JCR Q1/Q2 en temas complementarios a la tesis.
Dos algoritmo meméticos para generación automática de resúmenes extractivos, uno de solo documento y otro para múltiples documentos.
Código Fuente del algoritmo memético. Conjunto de datos utilizados en los experimentos (Documentos originales y resúmenes ideales)
Tabla 1-3 Fortalecimiento de la comunidad científica
Productos Indicador
Formación de talento humano a nivel profesional
Dirección de proyectos de pregrado en Ingeniería de Sistemas:
Terminados. 5 proyectos de grado (8 estudiantes).
En desarrollo. 3 proyectos de grado (5 estudiantes).
Formación de talento humano a nivel de posgrado
Tesis doctoral terminada: Un (1) estudiante de doctorado en Ingeniería de sistemas y computación. Dirección de dos (2) tesis de Maestría en Computación, en desarrollo, uno en el área de investigación y el otro en un área complementaria.
Orientación de cursos formales a nivel de pregrado y posgrado en el área de investigación
Curso electivo sobre Algoritmo meméticos, en el programa de Maestría en Computación de la Universidad del Cauca. Curso electivo sobre Fundamentos de Meta-heurísticas, en el programa de Ingeniería de Sistemas de la Universidad del Cauca.
Evaluación de artículos científicos nacionales/internacionales y propuestas de investigación
Dos artículos internacionales de la revista Expert Systems with Applications Categoría A1 por PUBLINDEX-COLCIENCIAS y JCR (Q1:2014), relacionado con Técnicas extractivas de generación de resúmenes de textos. Un artículo nacional de la revista Ingeniería y Competitividad de la Universidad del Valle, Categoría A2 en PUBLINDEX-COLCIENCIAS, relacionado con Inteligencia de negocios-Minería de datos. Dos artículos nacionales en la revista UIS Ingenierías
Introducción 15
Categoría B en PUBLINDEX-COLCIENCIAS, relacionado con Inteligencia de negocios-Bodegas de datos. Una propuesta de investigación relacionada con Inteligencia de negocios en consultorios jurídicos, para la Vicerrectoría de investigaciones de la Universidad Industrial de Santander.
Tabla 1-4 Apropiación social del conocimiento
Productos Indicador
Tres artículos en revistas Nacionales/Internacionales indexadas relacionados directamente con la tesis doctoral
Mendoza, M., Alegría, E., Maca, M., Cobos, C., and León, E. Multidimensional analysis model for a document warehouse that includes textual measures. Decision Support Systems (2015). 72, 44-59. ISSN: 0167-9236. JCR (ISI) International Journal (2014:Q1). IF (2014): 2.313. Categoría A1 según PUBLINDEX-COLCIENCIAS. Mendoza, M., Bonilla, S., Noguera, C., Cobos, C., León, E. Extractive single-document summarization based on genetic operators and guided local search. Expert Systems with Applications (2014). 41(9), 4158-4169. ISSN: 0957-4174. JCR (ISI) International Journal (2014:Q1). IF (2014): 2.240. Categoría A1 según PUBLINDEX-COLCIENCIAS. Mendoza, M., León. Una revisión de la generación automática de resúmenes extractivos. Revista UIS Ingenierías (2013). Universidad Industrial de Santander. Volumen 12 No.1 Junio de 2013. pp. 7-27. ISSN: 1657-4583. Categoría B según PUBLINDEX-COLCIENCIAS.
Dos presentaciones en conferencias internacional relacionados directamente con la tesis doctoral
Mendoza, M., Cobos, C., León, E. Extractive Single-Document Summarization Based on Global-best Harmony Search and a Greedy Local Optimizer. In 14th Mexican International Conference on Artificial Intelligence (2015). LNCS journal: Springer. SJR (SCImago) International Journal (2014:Q2). IF (2014): 0.339. Categoría A2 según PUBLINDEX-COLCIENCIAS. Mendoza, M., Cobos, C., León, E., Lozano, M., Rodríguez, F., Herrera-Viedma, E. A New Memetic Algorithm for Multi-Document Summarization based on CHC Algorithm and Greedy Search. In 13th Mexican International Conference on Artificial Intelligence (2014). LNCS journal: Springer. SJR (SCImago) International Journal (2014:Q2). IF (2014): 0.339. Categoría A2 según PUBLINDEX-COLCIENCIAS.
Dos artículos en revistas JCR, como trabajo
Cobos, C., Muñoz-Collazos, H., Urbano-Muñoz, R., Mendoza, M., Leon, E., Herrera-Viedma, E. Clustering of Web Search
16 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
complementario a la tesis doctoral
Results based on the Cuckoo Search Algorithm and Balanced Bayesian Information Criterion. Information Sciences, 281(0), 248-264, October 2014. ISSN: 0020-0255. JCR (ISI) International Journal (2014:Q1). IF (2014): 4.038. Categoría A1 según PUBLINDEX-COLCIENCIAS. Cobos, C., Rodríguez, O., Rivera, J., Betancourt J., Mendoza, M., León, E., and E. Herrera-Viedma. A hybrid system of pedagogical pattern recommendations based on singular value decomposition and variable data attributes. Information Processing & Management (2013), 49 (3), 607-625. ISSN: 1657-4583. JCR (ISI) International Journal (2013:Q3). FI (2013): 1.069. Categoría A1 según PUBLINDEX-COLCIENCIAS.
1.6 Organización del resto del documento
El resto del documento está organizado de la siguiente forma:
Capítulo 2: Estado del arte. En este capítulo se presentan conceptos básicos de la
generación automática de resúmenes extractivos de textos, de los algoritmos meméticos
y del algoritmo CHC. También el estado del arte de la generación automática de
resúmenes extractivos de textos de uno y de múltiples documentos. Además algunos de
los sistemas de medidas más utilizados para evaluar la calidad de los resúmenes
generados de forma automática.
Capítulo 3: Algoritmo para generación de resúmenes de un solo documento. Este
capítulo presenta la descripción del nuevo algoritmo memético propuesto para generar
resúmenes extractivos de un solo documento basado en operadores genéticos y
búsqueda local guiada. Esta descripción incluye las características de la función objetivo,
representación del documento y de la solución, y el esquema general con la
configuración del algoritmo memético.
Capítulo 4: Algoritmo para generación de resúmenes de múltiples documento. En este
capítulo se hace la descripción del nuevo algoritmo memético propuesto para generar
resúmenes extractivos de múltiples documentos basado en CHC y búsqueda local
codiciosa. En la descripción se presenta, las características de la función objetivo,
representación de la colección de documentos y de la solución, y el esquema con la
configuración del algoritmo memético.
Introducción 17
Capítulo 5: Resultados experimentales. Este capítulo muestra los resultados obtenidos
en las experimentaciones realizadas, tanto para el algoritmo memético propuesto para
generación de resúmenes de un solo documento como para múltiples documentos. Se
presentan los conjuntos de datos de DUC sobre los cuales se realizó la experimentación
y las medidas ROUGE que se utilizaron para medir la calidad de los resúmenes
generados. Además la comparación con otros algoritmos del estado del arte y el análisis
de los resultados obtenidos.
Capítulo 6: Conclusiones, Recomendaciones y Trabajo futuro. En este capítulo se
presenta un resumen breve de lo logrado con el desarrollo de esta tesis doctoral y sus
principales contribuciones. También se presentan las recomendaciones y el trabajo futuro
en esta línea de investigación.
Finalmente, se presentan todas las referencias bibliográficas usadas en el desarrollo de
la presente tesis doctoral.
2 Estado del arte
Este capítulo presenta conceptos básicos de la generación automática de resúmenes
extractivos de textos, el estado del arte de los algoritmos usados para la generación
automática de resúmenes extractivos de textos de uno y de múltiples documentos, con
especial énfasis en algoritmos basados en metaheurísticas. Además se presentan
algunos de los sistemas de medidas más utilizados para evaluar la calidad de los
resúmenes generados de forma automática. Finalmente, se presentan los conceptos de
los algoritmos meméticos y del algoritmo CHC (Cross-generational elitist selection,
Heterogeneous recombination, Cataclysmic mutation).
2.1 Generación automática de resúmenes de textos
2.1.1 Definición y Taxonomía
La generación automática de resúmenes de textos es una tarea del área de
procesamiento de lenguaje natural [40], que tiene por objetivo resumir el contenido de un
documento conservando la información más importante en un texto corto. Esta tarea se
puede realizar sobre un único documento o múltiples documentos. La generación
automática de resúmenes de textos se puede definir como la creación de una “breve pero
exacta representación del contenido de un documento” [40].
Existen diferentes taxonomías para los resúmenes [40-42], basadas en la forma como se
genera el resumen, la audiencia a la que va dirigido el resumen, la cantidad de
documentos que se van a resumir, entre otros.
De acuerdo a la forma como el resumen es generado puede ser extractivo o abstractivo.
Los resúmenes extractivos son formados a partir de la reutilización de porciones del texto
original por lo cual presentan problemas de consistencia y coherencia, sin embargo, son
muy utilizados por su sencillez computacional, además por los resultados satisfactorios
20 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
que se han obtenido en aplicaciones con gran cantidad de documentos, especialmente
en generación de resúmenes de múltiples documentos [43]. Por su parte, los resúmenes
abstractivos, se forman con secuencias de palabras que no necesariamente están
presentes en el documento original, produciendo resúmenes que requieren de
herramientas de análisis lingüístico para construir nuevas oraciones a partir de las ya
extraídas, además es más difícil replicar o extender a otros dominios.
Con respecto a la audiencia a la que va dirigido, los resúmenes pueden ser: genéricos,
basados en consultas, enfocados en el usuario o en tópicos. Los genéricos no dependen
de la audiencia a la que va dirigido el resumen, en cambio, los basados en consultas
responden una consulta realizada por el usuario. Los enfocados en el usuario generan
resúmenes que se adaptan al interés de un usuario en particular, mientras los resúmenes
enfocados en tópicos enfatizan estos resúmenes en tópicos específicos de los
documentos.
Además teniendo en cuenta la cantidad de documentos que procesa para generar el
resumen puede ser para un documento o múltiples documentos. Con respecto al
lenguaje del documento, ellos pueden ser monolenguaje o multilenguaje; y con respecto
al género del documento pueden ser: artículo científico, noticias, blogs, entre otros.
Esta tesis doctoral se enfoca en los resúmenes extractivos, genéricos, monolenguaje, de
uno y múltiples documentos. En la Figura 2-1, se muestra un esquema general cuando la
generación del resumen se realiza de forma extractiva. En el caso de generación
automática de resúmenes de un solo documento, el resumen extractivo está conformado
por oraciones que están presentes en el documento original, buscando que contengan la
información más relevante del documento. En este caso, forman parte del resumen del
documento uno, las oraciones: dos, seis, doce, diecisiete, veinticinco, entre otras. En el
caso de múltiples documentos, el resumen extractivo obtenido está compuesto por
oraciones que existen en la colección de documentos. En este caso, M es el número de
documentos que conforman la colección de documentos, O1,N1 es la última oración del
primer documento, OK,NK es la última oración del k-esimo documento y OM,NM es la última
oración del último documento. En este caso, las oraciones que forman parte del resumen
son: tres y ocho del primer documento; cinco y nueve del segundo documento; dos y
quince del k-esimo documento; siete y diecisiete del último documento (M), entre otras.
Estado del arte 21
Figura 2-1: Generación de resúmenes extractivos para uno y múltiples documentos
2.1.2 Esquema general para resúmenes automáticos
Para la generación automática de resúmenes de textos se necesita realizar los siguientes
procesos [41]: Pre-procesamiento y representación de los documentos y oraciones,
ponderación de las oraciones originales, selección de las oraciones que harán parte del
resumen, generación del resumen y evaluación de la calidad del mismo. En la Figura 2-2
se presenta un esquema general que contempla estos procesos en la generación
automática de resúmenes para un documento Figura 2-2(a) y para múltiples documentos
Figura 2-2(b). La diferencia fundamental entre estos dos esquemas es que en el primer
caso, todo el proceso se hace solo con un documento y en el otro esquema se cuenta
con una colección de documentos. Sin embargo, para el problema de múltiples
documentos, como los documentos tratan de la misma temática, se debe tener en cuenta
aspectos como: evitar la redundancia en el resumen generado, la secuencialidad de los
hechos presentados en los documentos, entre otros.
El primer proceso de Pre-Procesamiento y Representación, incluye tareas de
procesamiento de lenguaje natural utilizadas en el área de recuperación de la
22 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
información como [44]: Segmentación, que consiste en dividir el texto en unidades
significativas (normalmente oraciones); Eliminación de caracteres especiales y etiquetas
(por ejemplo HTML); Conversión a minúsculas; Eliminación de palabras vacías, aquellas
palabras que por su bajo contenido semántico, no contribuyen a la discriminación de las
oraciones más importantes de un texto; Lematización, que detecta variantes morfológicas
de un mismo término y reemplaza por el término raíz, reduciendo el tamaño del
vocabulario, o stemming que reduce los términos a su raíz léxica sin asegurar que el
termino obtenido pertenezca al vocabulario oficial del idioma. Además en este proceso se
contempla la definición de la representación de los documentos, que por lo general, se
realiza usando el modelo espacio vectorial.
Figura 2-2 Esquema general de generación automática de resúmenes
En el segundo proceso de Ejecución del Algoritmo de generación automática de
resúmenes, se incluye la ponderación de las oraciones originales de acuerdo a ciertas
características, la selección de las oraciones teniendo en cuenta un orden de importancia
de cada una de ellas y la generación del resumen. El algoritmo define uno o más
enfoques para realizar estas tres tareas.
El último proceso de Evaluación de la calidad del resumen, permite comparar el resumen
generado con uno o varios resúmenes ideales (realizados por humanos) por medio de
Estado del arte 23
métricas utilizadas para la evaluación de resúmenes automáticos (típicamente medidas
ROUGE). Estos resultados obtenidos generalmente se comparan con otros algoritmos
presentes en el estado del arte, para ser publicados a la comunidad científica.
2.1.3 Métodos de generación automática de resúmenes
En el área de investigación de la generación automática de resúmenes extractivos tanto
de un solo documento como de múltiples documentos, se encuentran métodos que
aplican diferentes enfoques, los cuales se pueden apreciar en la Figura 2-3.
Figura 2-3 Métodos de generación automática de resúmenes
2.2 Métodos para la generación resúmenes extractivos de un documento
Existe gran cantidad de investigaciones que proponen métodos de generación
automática de resúmenes extractivos de un solo documento, entre ellos están: los
métodos estadísticos, basados en técnicas de aprendizaje de máquina, basados en
conectividad de textos, basados en grafos, basados en técnicas de reducción algebraica,
basados de agrupamiento y modelos probabilísticos, y basados en metaheurísticas
24 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
(estos últimos se detallan en la sección 2.3.6). Entre las áreas de aplicación están:
Motores de búsqueda [1], cuyo objetivo es encontrar resultados relevantes de acuerdo a
una consulta del usuario, estos resultados generalmente van acompañados de un breve
resumen del documento o página web llamado snippet, que busca que los resultados
sean más descriptivos y compresivos para el usuario de manera que éste decida si es de
utilidad o no para sus necesidades de información especifica; Noticias [3], información
relevante de eventos o desastres naturales; E-learning [2], para seleccionar la
información más importante desde un texto, permitiendo a los estudiantes decidir si el
documento es relevante o irrelevante en sus investigaciones. A continuación se
presentan las investigaciones más representativas de estos métodos.
2.2.1 Estadísticos
Entre los primeros trabajos de generación automática de resúmenes se encuentran los
desarrollados por los investigadores de IBM, Luhn [45] y Baxendale [46] en 1958, el
primero bajo la premisa de que un escritor repite ciertas palabras cuando está
escribiendo sobre un tópico específico, se basa en características estadísticas como
frecuencia de la palabra y de la oración, para extraer las oraciones más importantes del
texto. Por su parte Baxendale, asume que las oraciones más importantes del documento
se encuentran en las primeras y últimas oraciones de cada párrafo. Unos años después
Edmundson [47] en 1969, para la extracción de oraciones utiliza la frecuencia de las
palabras y la posición de la oración, junto con otras dos características: presencia de
palabras de referencia (como “importante” o “relevante”) y presencia de palabras del
título del documento.
Luego la tradicional fórmula de recuperación de información en un espacio vectorial,
denominada tf-idf fue usada para la creación de resúmenes por Salton en 1988 [48], en
este caso, tf es la frecuencia de cada término en la oración e idf es la frecuencia invertida
de las oraciones que contienen este término. El cálculo de la relevancia de las oraciones
se realiza sumando los pesos obtenidos por cada término contenido en la oración, las
oraciones con puntaje superior a un valor se seleccionan para ser parte del resumen.
Más adelante Lin y Hovy [49] en 1997 estudiaron la importancia de una única
característica, la posición de la oración. Basados en que cada género o dominio
específico presenta regularidades en la estructura del discurso, y que las oraciones del
Estado del arte 25
tópico central tienden a ocurrir en algunos lugares específicos (por ejemplo, “en
resumen”, “en conclusión”, etc.), adaptaron el método de posición hacia el óptimo de un
género, llamándolo la política de posición óptima (OPP).
Más recientemente, Youngjoong y Jungyun [50] en el 2008 proponen un método que
combina características estadísticas con información contextual (oraciones seudo bi-
grama, es decir, dos oraciones adyacentes). Primero a las oraciones seudo bi-grama
(usando la técnica de ventana deslizante) les calculan su puntaje como la combinación
de dos características estadísticas (similitud al título y posición); y el 50% de éstas seudo
oraciones son seleccionadas como las más importantes. Luego estas seudo oraciones
son separadas en las dos oraciones originales y se puntúa cada oración por medio de las
características estadísticas de similitud al título, posición, junto con el método de similitud
agregada (suma de similitudes de cada oración con las demás oraciones). Las oraciones
con mejor puntaje son seleccionadas como parte del resumen. Si los documentos no
tienen título se utiliza la similitud a la consulta.
El proceso general de estos métodos estadísticos se muestra en la Figura 2-4: primero
se realiza la extracción de las palabras clave o de las oraciones, después se realiza el
cálculo del puntaje de cada oración de acuerdo a las características estadísticas
seleccionadas (por ejemplo: frecuencia de palabra significativa, posición de la oración en
el documento, etc.), luego se ordenan y se seleccionan las oraciones de acuerdo al
puntaje obtenido por cada una de estas, y por último se obtiene el resumen con las
oraciones que obtuvieron los puntajes más altos.
Figura 2-4 Métodos estadísticos para un solo documento
26 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
2.2.2 Aprendizaje de máquina
Entre los métodos de aprendizaje de máquina se encuentran los que usan clasificadores
bayesianos para definir la probabilidad de que una oración sea incluida en un resumen,
asumiendo independencia de las características y con un conjunto de datos de
entrenamiento. Kupiec [51] en 1995, trata la generación de resúmenes como un
problema de clasificación estadístico, ajustando las características propuestas por
Edmundson e incluyendo la longitud de la oración y la presencia de palabras en
mayúsculas; a cada oración se le asignó una puntuación de acuerdo a la fórmula
bayesiana y sólo las oraciones con puntajes más altos son extraídas. Aone et al. [52] en
1999, utilizan el clasificador Naive Bayes, pero con más características, durante la
evaluación con un conjunto de datos encontraron mejores resultados con las palabras
significativas y la información posicional, pero con otra fuente de datos los resultados
fueron diferentes, sugiriendo que los resultados de la generación automática de
resúmenes de textos depende del tipo de documentos que se procesa.
En 1999 Lin [53], sin asumir que las características son independientes entre sí
(probabilidad de que la oración i este en el resumen no es independiente de si la oración
i-1 está en el resumen), modela el problema de extracción de las oraciones usando
árboles de decisión, examinando diversas características y su efecto sobre la extracción
de oraciones. Este sistema extrae las oraciones de los documentos de acuerdo a una
consulta. Algunas de las nuevas características que incluyeron fueron: el query signature
(número de palabras de la consulta que contiene la oración), IR signature (las m palabras
más destacados en el conjunto de documentos), datos numéricos, nombre propio,
pronombre o adjetivo, día de la semana o mes y cita; encontrando que la construcción
del resumen es sensible al tópico del conjunto de documentos y a los términos de las
consultas. Osborne [54] en el 2002, tampoco asume independencia de características y
usa como clasificador un modelo de entropía máxima (modelos log-lineales), adicionando
una probabilidad previa (prior) no uniforme y para encontrar los pesos óptimos de las
características usan el método de gradiente descendiente conjugado.
En 2001, Conroy y O'leary [55], se basan en un modelo oculto de Markov que tampoco
asume independencia de las características, usan datos de entrenamiento para estimar
la probabilidad máxima de cada probabilidad de transición y así obtener la matriz de
Estado del arte 27
transición de la cadena de Markov, luego con la probabilidad posterior se seleccionan las
oraciones más probables a ser incluidas en el resumen.
Más adelante en 2007, Svore et al. [56] basado en redes neuronales, entrena un modelo
a partir de etiquetas que identifican las mejores oraciones y teniendo los valores de las
características para cada oración del documento, de esta forma el sistema aprende del
conjunto de entrenamiento la distribución de las características de las mejores oraciones
y se obtiene una lista ordenada de las oraciones de un documento. El ordenamiento es
realizado por medio de RankNet, un algoritmo de redes neuronales que es usado para
ordenar un conjunto de entradas, en este caso, el conjunto de oraciones del documento.
Este trabajo incluye nuevas características como la similitud de una oración con el título y
características que se producen de información desde registros de consultas de motores
de búsqueda de noticias de Microsoft y entradas de Wikipedia.
En el mimo 2007, Shen et al. [57], usan los campos aleatorios condicionales (Conditional
Random Fields, CRF), tratando el problema de generación de resúmenes como un
problema de etiquetamiento de secuencias, cuyo objetivo es producir una etiqueta de
secuencia que denote si la oración se debe incluir en el resumen. Para esto, maximiza
toda la secuencia de oraciones (maximizando la probabilidad de la secuencia de la
etiqueta global y la consistencia entre las diferentes etiquetas en la secuencia), la
etiqueta de una oración depende de la asignación de etiquetas de las demás. La
secuencia de oraciones es representada por características estadísticas y otras que
tienen en cuenta la dependencia entre las oraciones.
Todos estos métodos de aprendizaje de máquina son supervisados y el proceso general
se muestra en la Figura 2-5 así: primero se realiza una etapa de entrenamiento con un
conjunto de datos para obtener el modelo de clasificación. Luego se realiza una etapa de
prueba sobre otro conjunto de datos, en la cual: primero se extraen las unidades de texto
u oraciones y se obtiene el vector de características para cada oración, después se
aplica el modelo de clasificación y se seleccionan las oraciones con probabilidad más
alta, y por último se obtiene el resumen.
28 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Figura 2-5 Técnicas de aprendizaje de máquina para un solo documento
Luego en 2008, Wong K-F et al. [58] usa máquinas de soporte vectorial probabilísticas
(PSVM), y aprendizaje semi-supervisado por medio del co-entrenamiento de PSVM y el
clasificador Naive Bayes; además proponen la combinación de características
(superficiales, contenido, relevancia, evento), cuyos pesos se obtienen por medio de
aprendizaje supervisado. Luego utilizan un algoritmo de ordenamiento y las oraciones
con los puntajes más altos son incluidas en el resumen.
2.2.3 Conectividad de textos
Otros trabajos han aplicado enfoques basados en conectividad de texto, con el fin de
establecer las conexiones que puedan existir entre diversas partes de un texto para tratar
de llegar a resúmenes más coherentes y fáciles de comprender.
Barzilay y Elhadad [59] en el 1997, hacen uso de las cadenas léxicas. Este enfoque inicia
con la segmentación del texto original y continúa con la construcción de las cadenas
léxicas, así, la identificación de las cadenas más fuertes y la extracción de las oraciones
más significativas finalizan el proceso de producción del resumen.
Más recientemente en el año 2014, Pal y Saha [60], proponen un método basado en
WordNet. Primero aplica un algoritmo que usa WordNet para encontrar el sentido de una
palabra en un contexto particular, cuando la palabra puede tener más de un sentido. Con
éste algoritmo encuentran el peso de cada oración, luego las oraciones se ordenan de
Estado del arte 29
forma descendente de acuerdo a los pesos obtenidos y por último se obtienen las
oraciones que harán parte del resumen teniendo en cuenta la tasa de compresión.
Los métodos basados en conectividad de textos con cadenas léxicas, no son
supervisados y son dependientes del lenguaje. El proceso general se muestra en la
Figura 2-6: primero se realiza la extracción de palabras del documento que existan en el
diccionario semántico, se pondera cada oración de acuerdo a la técnica semántica
específica, por último las oraciones mejor calificadas se seleccionan para ser parte del
resumen.
Figura 2-6 Cadenas léxicas para un solo documento
Ono et al. [61] en 1994, proponen un método que se basa en la estructura retórica del
discurso, por medio de un árbol binario que representa las relaciones entre las oraciones.
Los pasos de extracción de la estructura retórica son: análisis de la oración, extracción
de las relaciones retóricas, segmentación de expresiones retóricas, generación de todas
las posibles estructuras retóricas y selección de la estructura candidata con el puntaje de
penalidad más bajo. Luego el sistema calcula la importancia de cada oración basado en
la importancia relativa de las relaciones retóricas, y de forma iterativa se podan nodos del
árbol de acuerdo a las penalidades. La lista de los nodos de la estructura final produce el
resumen. Los resultados para los artículos técnicos fueron buenos, debido a que estos
contienen expresiones retóricas y claves lingüísticas que permiten que el sistema pueda
extraer la estructura retórica.
Luego Marcu en 1998 [62, 63], utiliza la Teoría de la estructura retórica entre dos piezas
de texto que no se superponen: el núcleo y el satélite; el núcleo de una relación retórica
30 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
se puede comprender independiente del satélite, pero no a la viceversa. Define para un
texto varias estructuras retóricas, a las cuales se les calcula un puntaje de acuerdo a una
fórmula establecida (una combinación lineal de pesos de ciertas métricas o la aplicación
de ciertas funciones de similitud sobre el árbol con la estructura retórica), la estructura
retórica con el mayor puntaje es seleccionada para generar el resumen. Uno de sus
trabajos se enfocó en encontrar el valor de los pesos de siete métricas para calcular el
puntaje de cada estructura del discurso.
Estos métodos basados en conectividad de textos con manejo de estructuras retóricas
también dependientes del lenguaje y no son supervisados. El proceso general se
presenta en la Figura 2-7: primero se realiza la extracción de segmentos retóricos del
documento original, luego por medio de un algoritmo se generan las diferentes
estructuras retóricas, se procede a establecer el puntaje de cada estructura retórica de
acuerdo a las métricas que defina el algoritmo, y se selecciona la estructura que obtenga
el mayor puntaje, después se ordenan los segmentos retóricos de la estructura retórica
seleccionada para generar el resumen del documento de acuerdo con este orden.
Figura 2-7 Estructuras retóricas para un solo documento
Estado del arte 31
2.2.4 Grafos
También los grafos han sido adaptados a la generación automática de resúmenes, donde
las secuencias de una o más unidades léxicas extraídas de un texto y las relaciones
entre ellas, constituyen los vértices y arcos del grafo. En los algoritmos de ordenamiento
de grafos, la importancia de un vértice dentro del grafo es iterativamente calculada desde
el grafo completo.
Mihalcea [64] en el 2004 utiliza el modelo basado en grafos, por medio de un algoritmo
llamado TextRank, para la extracción de palabras clave y la extracción de oraciones. En
el primer caso, un vértice es una unidad (secuencia de una o más unidades léxicas
extraídas del texto), y los bordes definen las relaciones entre las unidades; un borde es
adicionado entre dos unidades léxicas que co-ocurren dentro de una ventana de máximo
N palabras. Luego se ejecuta iterativamente el algoritmo de ordenamiento hasta que
converja. Por último se ordenan descendentemente los nodos (vértices) del grafo de
acuerdo a los puntajes y se seleccionan los que tienen puntajes más altos. Para la
segunda tarea de extracción: un vértice es una oración del texto y los bordes definen las
conexiones entre las oraciones. Estas conexiones son definidas usando una relación de
similitud (el solapamiento de dos oraciones puede ser determinado como el número de
palabras comunes entre las representaciones léxicas de dos oraciones). Luego el
algoritmo es aplicado sobre las oraciones del grafo y se ordena de acuerdo a los puntajes
de los vértices, de igual forma las oraciones que se ubican en los vértices de la parte de
arriba del grafo se incluyen en el resumen.
Un enfoque particular basado en grafos es el propuesto por Wan [65] en el 2010, en el
cual realizan al mismo tiempo la generación automática del resumen de uno y de
múltiples documentos, haciendo uso de una importancia local que indica la relevancia de
una oración dentro de un documento y de la importancia global que indica la relevancia
de una oración pero a nivel de la colección de documentos, además tienen en cuenta la
posición de la oración en el documento y en el conjunto de documentos. En este
algoritmo primero se construyen los grafos de afinidad para reflejar las diferentes
relaciones entre las oraciones, luego iterativamente calcula los puntajes de importancia
local y global de las oraciones. Finalmente, cuando el algoritmo converge, las oraciones
con los puntajes más altos de importancia local en un documento específico son
escogidas como el resumen de este y las oraciones con los puntajes más altos de
32 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
importancia global en la colección son escogidas como el resumen de la colección de
documentos.
Más recientemente en el año 2015, Chatterjee y Sahoo [66], proponen un enfoque
basado en grafos y en indexación aleatoria. A cada palabra distinta del documento se le
asigna un vector índice, con el cual se calcula los vectores de contexto (formados por
cada palabra en el documento con la ayuda de una ventana bi-direccional de tamaño 2),
luego las oraciones son mapeadas al espacio de palabra usando los vectores contexto.
Después las oraciones se representan en un grafo como los nodos y los bordes
representan la proximidad entre las oraciones (calculada de dos formas: similitud de
coseno y distancia euclidiana). Por último con el algoritmo de ponderación de PageRank
se determina la importancia de una oración en todo el documento, iterando hasta que los
pesos de los nodos converjan y en el caso de similitud de coseno los nodos con los
pesos más altos son considerados como parte del resumen.
Estos métodos basados en grafos no son supervisados y son independientes del
lenguaje. El proceso general se muestra en la Figura 2-8: primero se realiza la extracción
de palabras claves o de las oraciones, luego se crean uno o varios grafos, donde los
vértices son las oraciones y los bordes la relación entre las oraciones, cada grafo es
iterado hasta que converja y por último se ordenan los grafos de acuerdo al puntaje
obtenido en cada vértice, para de esta forma obtener el resumen.
Figura 2-8 Grafos para un solo documento
Estado del arte 33
2.2.5 Reducción algebraica
En el caso de la reducción algebraica, el método más utilizado dentro de la generación
automática de resúmenes de texto es el basado en el Análisis Semántico Latente (Latent
Semantic Analysis, LSA), el cual permite extraer, representar y comparar significados de
palabras mediante el análisis algebraico-estadístico de un texto, cuya hipótesis básica es
que el significado de una palabra está determinado por su aparición frecuente junto a
otras palabras. Gong y Liu [67] en 2001, proponen usar LSA para la generación
automática de resúmenes genéricos, aplicando la descomposición de valores singulares
(Singular Value Decomposition, SVD). El proceso de análisis semántico está compuesto
por dos pasos. El primero es la creación de una matriz de términos por oración
A=[A1,A2,…,An], donde cada columna Ai representa un vector con el peso de la frecuencia
de términos de la oración 𝑖 en el documento. Si hay m términos y n oraciones en el
documento, entonces la matriz A para el documento será de m×n (donde m>=n). Esta
matriz A es dispersa porque cada término aparece esporádicamente en cada oración. El
siguiente paso consiste en aplicar SVD a la matriz A, así, A = UΣVT, donde, U= [uij] es
una matriz de columnas ortonormales de m×n cuyas columnas son llamadas vectores
singulares de izquierda, Σ = diag (σ1,σ2,...,σn) es una matriz diagonal de n×n, cuyos
elementos diagonales son valores singulares no negativos en orden descendente
(σ1>=σ2..>=σr>σr+1=..=σn=0) y V=[vij] es una matriz ortonormal de n×n, cuyas columnas se
denominan vectores singulares derechos. La dimensionalidad de las matrices es
reducida a las r dimensiones más importantes y, por tanto, U' es m×r, Σ’ es r×r y VT es
una matriz de r×n. Si un patrón de combinación de palabra es destacado y recurrente en
un documento, este patrón es capturado y representado por uno de los vectores
singulares, la magnitud de este vector indica el grado de importancia de este patrón
dentro del documento. Las oraciones que contengan este patrón de combinación de
palabras serán proyectadas en este vector singular, y la oración que mejor represente
este patrón tendrá el valor del índice más grande dentro del vector. Partiendo de que
cada patrón de combinación de palabras describe un tópico en el documento, cada
vector singular representa cada tópico y la magnitud de su valor singular representa el
grado de importancia de este tópico. Para el resumen, este método selecciona las
oraciones cuya representación vectorial tengan la longitud más grande, escogiendo la
oración con el ponderado más grande a través de todos los tópicos.
34 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Un enfoque similar es presentado por Steinberger y Ježeken [68] en 2004, pero
cambiando el criterio selección para incluir en el resumen las oraciones cuya
representación vectorial en la matriz tengan la "longitud" más grande, en lugar de las
oraciones que contiene el mayor valor del índice para cada “Tópico”, permitiendo incluir
más de una oración relacionada con un tópico importante, en lugar de una oración para
cada tópico. Yeh et al [69] en 2005, propone otro método de generación automática de
resúmenes que usa LSA y un mapa de relaciones de texto (Text Relationship Map, TRM)
para derivar semánticamente las estructuras más destacadas de un documento, en el
cual después de realizar SVD sobre la matriz de términos por oración y reducir la
dimensionalidad del espacio latente, reconstruyen una matriz adicional en la que cada
columna denota la representación semántica de la oración, luego un algoritmo de
ordenamiento es aplicado al grafo resultante. Por otro lado, Steinberger y Ježeken en
2006 [70] se combina el sistema propuesto en [68], con un algoritmo de compresión de
oraciones que elimina las partes poco importantes de una oración.
Luego en el 2009, Lee et al. [71] proponen usar la factorización de matriz-no-negativa
(Non-negative matrix factorization, NMF) para seleccionar las oraciones a incluir en el
resumen. NMF representa objetos individuales como una combinación lineal no negativa
de información extraída desde un volumen grande de objetos. NMF puede trabajar con
un volumen de información grande de manera eficiente, debido a que la matriz original no
negativa se descompone en dos matrices no negativas dispersas y distribuidas. NMF
descompone una matriz A no negativa de m×n, en la multiplicación de una matriz de
característica no negativa (NSFM) de m×r (W) y una matriz de semántica variable no
negativa (NSVM) de r×n (H), donde r es más pequeño que m o n, de forma que los
tamaños de W y H son más pequeñas que la matriz A. Se usa una función objetivo para
satisfacer la aproximación de A=WH, luego W y H son actualizados de forma iterativa
hasta que convergen al umbral o exceden el número de repeticiones definidos.
Inicialmente se parte de una matriz A con los ponderados de la frecuencia del término en
la oración, se aplican NMF para obtener la matriz W y H; y se define la relevancia
genérica de la oración que hace referencia a cuánto la oración refleja los tópicos
principales (esto es representado por las características semánticas) y por último
selecciona las k oraciones con los valores más altos de relevancia genérica. NMF logro
mejores resultados que LSA, seleccionando oraciones más significativas que los
Estado del arte 35
métodos relacionados con LSA, además NMF encuentra características semánticas que
son más fáciles de interpretar y entender la estructura innata de los documentos.
Los métodos basados en reducción algebraica no son supervisados y son
independientes del lenguaje. El proceso general se presenta en la Figura 2-9: primero se
realiza la extracción de las oraciones, luego se crea la matriz de términos por oración y
se realiza la descomposición matricial, por último se seleccionan las oraciones con los
valores más altos, para de esta forma obtener el resumen.
Figura 2-9 Reducción algebraica para un solo documento
2.2.6 Agrupamiento y modelos probabilísticos
En el año 2012, Nagesh y Murty [72], usa un modelo de tópicos basado en la asignación
latente de Dirichlet (Latent Dirichlet allocation, LDA), identificando los temas que mejor
describen el documento (solo pocos tópicos tienen alta probabilidad en la distribución
tópico-documento). Construyen una matriz de similitudes de los párrafos por cada tópico
identificado, que es usada para puntuar los tópicos y seleccionar los de mayor puntaje
como los “tópicos resumen”. Luego agrupan los párrafos en cada “tópico resumen” para
ponderar cada tópico, por último usando el teorema de Bayes obtienen el peso de cada
oración de los “tópicos resumen” y las oraciones con pesos más altos forman parte del
resumen.
36 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
2.3 Métodos para la generación resúmenes extractivos de múltiples documentos
También existe gran cantidad de investigaciones que proponen métodos de generación
automática de resúmenes extractivos de múltiples documentos, entre ellos: métodos
basados aprendizaje de máquina, basados en conectividad de textos, basados en grafos,
basados en técnicas de reducción algebraica, basados en agrupamiento y modelos
probabilísticos, basados en metaheurísticas (estos últimos se detallan en la sección
2.3.6) y Otros. Algunas áreas de aplicación son resúmenes de: Noticias y reportes [3],
información relevante de un evento o desastre natural, cuyo reporte se encuentra en
múltiples documentos de noticias; Colecciones de E-mail [4], resúmenes de hilos de e-
mail que contemplan el mensaje inicial del correo electrónico y las respuestas
subsecuentes a éste; Asignación de etiquetas a grupos generados en el agrupamiento de
documentos web [73]; Bodegas textuales [6-8], resumiendo documentos por medio de
términos o palabras claves del mismo. A continuación se presentan las investigaciones
más representativas de estos métodos.
2.3.1 Aprendizaje de máquina
Las técnicas de aprendizaje de máquina también han sido utilizadas para entrenamiento
de datos en la generación de resúmenes para múltiples documentos, para permitir
identificar las características que presentan mayor impacto en la selección de las
oraciones que conformarán el resumen.
Ravindra et al. [74] en el 2004, usa la entropía como medida para ordenar las oraciones
de acuerdo a la relevancia (basado en el conocimiento pasado en un dominio en
particular). Los documentos disponibles en un dominio forman el conjunto de datos de
entrenamiento. Los valores de entropía calculados son aplicados a cada una de las
oraciones en el conjunto de documentos y se ordenan las oraciones. Antes de aplicar la
fórmula de entropía, para detectar y remover la redundancia utilizaron la representación
de un grafo dirigido, cada nodo es una oración y se establece un enlace entre oraciones
si más de tres palabas no vacías son comunes a ellas.
En el 2007, Dunlavy et al. [75], proponen un método orientado a consulta, en el cual,
dada una consulta, los documentos recuperados son agrupados por tópico (usando k-
Estado del arte 37
means). Usan el modelo oculto de Markov para calcular la probabilidad de que una
oración sea buena para hacer parte del resumen y de esta forma producir los resúmenes
de cada documento. Luego estas oraciones son consideradas para incluirlas en el
resumen del grupo de documentos removiendo la redundancia.
Wang M. et al. [76] en el 2008 proponen un método basado en el descubrimiento de la
característica de la palabra, teniendo en cuenta siete características. Para extraer la
palabra del tópico y del evento: si la palabra aparece en diferentes párrafos del mismo
documento es una palabra de evento; si la palabra aparece distribuida en todos los
documentos es una palabra de tópico. Primero utilizando el modelo de regresión,
calculan los valores de las características para cada palabra. Luego construyen el
modelo espacio vectorial y para calcular el valor de una oración suman el valor de cada
palabra que ésta contiene. Por último, seleccionan las oraciones del resumen y calculan
el valor de similitud de las oraciones extraídas, eliminando las oraciones redundantes.
En el 2009, Amini y Usunier [77], utilizan un modelo para aprender funciones de
clasificación. Primero, identifica los tópicos en la colección de documentos para identificar
un conjunto de oraciones relevantes y otro de oraciones irrelevantes a la pregunta. Luego
se entrena una función de clasificación sobre estos dos conjuntos para optimizar un
modelo previo basado en palabras clave. Para esto utilizan un algoritmo de clasificación
transductivo (usa datos etiquetados y no etiquetados en el estado de aprendizaje)
compuesto de un modelo de conocimiento previo y una arquitectura que sigue el
paradigma de auto-aprendizaje, que permite encontrar oraciones relevantes y no
relevantes, repitiendo el proceso hasta el criterio de terminación.
Bollegala et al. [78] en el 2010 proponen un enfoque de abajo hacia arriba para ordenar
las oraciones extraídas en la generación automática de resúmenes de múltiples
documentos. Esta tarea la abordan como un problema de clasificación binaria y emplean
máquinas de soporte vectorial para modelar la función. El algoritmo propuesto
iterativamente concatena segmentos de texto (una secuencia de oraciones) hasta que un
segmento es ordenado con todas las oraciones. Para poder definir el orden y la
asociación de dos segmentos de texto definen cuatro criterios: cronología, orden
cronológico de las oraciones por fecha de publicación o por orden en el documento;
cercanía de temas, se refiere a la asociación de dos segmentos basado en su similitud
38 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
temática; precedencia, una oración seleccionada puede presuponer información de otras
oraciones que no fueron seleccionadas; sucesión, evalúa la cobertura de la información
posterior al segmento. Luego utilizan resúmenes humanos como datos de entrenamiento
para encontrar la combinación óptima de los criterios propuestos y definen la función que
representa la asociación de dirección y fuerza de dos segmentos.
Más adelante, en el 2011, Ouyang et al. [79] usan el modelo de regresión de soporte de
vector para estimar la importancia de una oración en un colección de documentos, por
medio de un conjunto de características específicas, para eliminar redundancia en el
resumen utilizan la Relevancia marginal máxima (Maximal Marginal Relevance, MMR)
durante el proceso de selección de las oraciones.
Más recientemente, Fattah [80] en 2014, propone un algoritmo de aprendizaje de
máquina híbrido, en el modo de entrenamiento se extraen las características y son
usadas para entrenar el modelo de máxima entropía, uno de Naive Bayes y uno de
máquinas de soporte vectorial. Luego en el modo de prueba se usa el vector de
características como entrada del modelo hibrido que combina los tres métodos de
aprendizaje de máquina, buscando la probabilidad máxima de los tres métodos para
clasificar una oración como que pertenece o no al resumen.
Estos métodos de aprendizaje de máquina son supervisados, el proceso general es
similar al mostrado en la Figura 2-5, pero agregando un proceso de eliminación de
redundancia antes de la generación del resumen, debido a que se pueden presentar
oraciones similares en varios documentos que tratan el mismo tópico.
2.3.2 Conectividad de textos
También la conectividad de textos, específicamente las cadenas léxicas han sido usadas
el caso de múltiples documentos. Chen et al. [81] en el 2005 proponen la generación de
resúmenes de múltiples textos basado en cadenas léxicas, aplicando el método de
generación de resúmenes de un solo documento [59] revisado anteriormente para cada
documento, generando de esta forma un resumen de resúmenes. Para el manejo de
redundancia de oraciones en los documentos, toma la oración con puntaje más alto,
luego la siguiente y se calcula la similitud entre estas dos oraciones, si esta similitud es
menor a un umbral se deja en el resumen; y se repite nuevamente el procedimiento.
Estado del arte 39
En la Figura 2-10, se muestra el proceso general que se lleva a cabo para este método,
este proceso es igual al mostrado en la Figura 2-6 para un solo documento, pero
agregando un proceso de eliminación de redundancia, por tratarse de múltiples
documentos que tratan el mismo tópico.
Figura 2-10 Cadenas léxicas para múltiples documentos
Más recientemente, Atkinson y Muñoz (2013) [82], proponen un enfoque de roles
retóricos, en el cual, se realiza el pre-procesamiento y limpieza de los datos, luego
identifican los roles o funciones retóricas (realizada con un clasificador de campos
aleatorios condicionales), extraen las oraciones relevantes usando un modelo de
distribución que mide la ocurrencia de las palabras en una página web, calculan el
puntaje de cada oración basados en los pesos de las palabras, ordenan las oraciones
teniendo en cuenta el puntaje obtenido, agrupan las oraciones de acuerdo a los roles
retóricos (ordenadas en cada grupo por similitud), por último son seleccionadas las
oraciones que serán parte del resumen teniendo en cuenta la preferencia de los roles
retóricos definidos (ver Figura 2-11).
40 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Figura 2-11 Estructuras retóricas para múltiples documentos
2.3.3 Grafos
Como ocurre en la generación de resúmenes de un solo documento, las unidades de
texto (palabras clave u oraciones) se representan en los vértices del grafo y la similitud
entre las unidades de texto por medio de los bordes, pero en este caso, las unidades de
texto corresponden a todos los documentos de la colección. El resumen se obtiene de los
primeros vértices después de un proceso iterativo de convergencia del grafo.
Mihalcea [83] en el 2005, propone un método que utiliza los mismos principios del
ordenamiento basado en grafos que fueron aplicados en generación automática de
resúmenes de un solo documento [64]. Primero se realiza el resumen de cada
documento y luego se resumen los resúmenes de los documentos individuales utilizando
el mismo método de grafos. Con respecto a la similitud entre las oraciones, manejan un
umbral máximo de similitud entre oraciones.
Erkan y Radev [84] en el 2004, con su trabajo LexRank, calcula la importancia de la
oración basado en el concepto de prestigio en redes sociales, representando la red como
un grafo, donde los nodos son las oraciones y los enlaces la relación entre los nodos. En
el 2008, Zhang et al. [85] proponen GSPSummary, que permite obtener los sub-tópicos
importantes en la colección de documentos, para esto crea un grafo que representa esta
colección, y luego selecciona las oraciones más centrales con GSPRank, obteniendo los
sub-tópicos más importantes en el grafo global de forma iterativa, finalmente el resumen
se forma con las oraciones más destacadas de los diferentes sub-tópicos. Una variación
Estado del arte 41
de LexRank es propuesta por Otterbacher et al. [86] en 2009, en el cual se obtiene un
puntaje inicial de las oraciones basado en LexRank y luego se sesga el camino aleatorio
sobre el grafo basado en una distribución a priori. Se visita una oración con una
probabilidad proporcional a su relevancia con respecto a la consulta y con una
probabilidad específica el camino aleatorio salta a una oración vecina, sesgando de esta
forma el camino hacia las oraciones vecinas más relevantes en el grafo. Otro trabajo
enfocado a la consulta de usuario es propuesto por Zhao et al. [87] en 2009, define un
algoritmo de ordenamiento basado en grafos, ordenando las oraciones de los
documentos usando la consulta original, ejecutan expansión de consulta, ejecutan
nuevamente el algoritmo de ordenamiento con la nueva consulta y colocan una penalidad
de redundancia a las oraciones para obtener el puntaje final.
En el 2008, Wenjie et al. [88] proponen un algoritmo para ordenamiento de oraciones por
medio de grafos para actualización de resúmenes, basado en refuerzo positivo y negativo
de las oraciones de una colección de documentos vieja y una nueva, construyen cuatro
matrices de afinidad entre las oraciones de las dos colecciones incluyendo la consulta del
usuario, luego iteran el grafo y obtienen el ordenamiento de las oraciones para cada
colección, las oraciones en la nueva colección con el puntaje más alto son seleccionadas
para ser incluidas en el resumen y por último se remueven las oraciones redundantes.
En el mismo 2008, Wei et al. [89], proponen un algoritmo basado en grafos que utiliza
cadenas de refuerzo mutuo (entre documentos, oraciones y términos) sensible a la
consulta del usuario. Primero construyen las nueve matrices de afinidad entre
documentos, oraciones y términos, luego iteran el grafo hasta obtener el orden de
oraciones y por último remueven oraciones redundantes del resumen.
Luego en el 2010, Wan X. [65] propone un algoritmo para uno y múltiples documentos
basado en grafos usando el concepto de importancia local y global (Se explicó
anteriormente en 2.2.4).
Recientemente, Ferreira et al. [90] en el 2014 evalúan tres diferentes métodos de
puntuación de oraciones: palabra (asignando puntaje a las palabras más importantes),
oración (características de las oraciones) y grafo (analizando la relación entre oraciones).
Luego crean un grafo que tiene en cuenta estos métodos de puntuación y calculan la
42 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
importancia de cada oración por medio de un puntaje TextRank, la oración con mayor
puntaje se selecciona como el vértice principal. Entonces, por medio de un umbral
identifican los vértices líderes, luego para que cada vértice identifique el vértice líder más
cercano calculan el camino más corto (algoritmo de Dijkstra) entre cada vértice y cada
vértice líder. De esta forma, obtienen n grafos (uno por cada vértice líder) representando
n grupos y por último se seleccionan las oraciones con mayor puntaje de cada grupo
para ser parte del resumen.
El proceso general que se lleva a cabo para estos métodos (no supervisados e
independiente del lenguaje), es igual al presentado en la Figura 2-8 para un solo
documento.
2.3.4 Reducción algebraica
Estos hacen uso de la descomposición matricial para encontrar las oraciones que mejor
representan el documento. Hachey et al. [91], proponen un enfoque orientado a consulta,
el cual para determinar la relevancia y redundancia de las oraciones a formar parte del
resumen, utiliza MMR y LSA para evitar que dos oraciones comparten los mismos
términos no sean consideradas similares. Antes de aplicar MMR, se aplica LSA teniendo
en cuenta las siguientes restricciones: Tiempo (preservar el orden temporal de los
eventos), Secuencia (preservar el orden original de las oraciones), Grupos (grupos con
oraciones similares), Contexto (recrear el contexto precedente original). El algoritmo
optimiza localmente de la bolsa de oraciones extraídas, determina la oración con mayor
puntaje y la mueve al final del resumen destino, y repite el proceso hasta que todas las
oraciones de la bolsa son insertadas.
En el 2007, Steinberger y Křišťan [92] proponen una extensión de LSA, en éste, primero
se crea una matriz de términos por oración que incluye todas las oraciones del conjunto
de documentos, el puntaje se calcula de la misma forma que se hace para un único
documento, y se seleccionan las oraciones con mayor puntuación para el resumen. Para
evitar la redundancia, antes de incluir una oración en el resumen, se revisa si ya existe
una oración similar, que debe estar cerca a la consulta del usuario. Este método favorece
las oraciones largas, porque estas probablemente contendrán más términos importantes
que una corta.
Estado del arte 43
Park y Cha [93] en el 2008, proponen un método que utiliza agrupamiento por medio del
algoritmo NMF, para identificar los grupos de tópicos en el conjunto de documentos y las
oraciones relacionadas con cada tópico. Luego, eliminan grupos que son ruido, aplican
nuevamente NMF a la nueva matriz, clasifican las oraciones en cada grupo, se ordenan
las oraciones desde el conjunto de oraciones candidatas para obtener el resumen.
Por el mismo camino y en el mismo 2008, Wang et al. [94], proponen un trabajo basado
en el análisis semántico a nivel de la oración y la NMF simétrica. Primero se calcula las
similitudes oración-oración utilizando el análisis semántico y la matriz de similitudes.
Luego la factorización de la matriz simétrica es usada para agrupar oraciones dentro de
grupos. Por último, las oraciones más informativas desde cada grupo son seleccionadas
para formar el resumen.
El proceso general que se lleva a cabo para estos métodos (no supervisados e
independientes del lenguaje), es igual al mostrado en la Figura 2-9 para un solo
documento, agregando un proceso de eliminación de redundancia.
2.3.5 Agrupamiento y modelos probabilísticos
Radev et al. [95] en el 2004, proponen un generador de resúmenes llamado MEAD, que
usa los centroides de grupo producidos por un sistema de detección y seguimiento de
tópicos. Antes de generar el resumen, identifican los artículos sobre un evento, este
proceso es llamado Detección y seguimiento de tópico (TDT). MEAD utiliza MMR para
eliminar la redundancia en el resumen y recibe como entrada n oraciones de un grupo de
documentos y la tasa de compresión; y como salida n*r oraciones del grupo con los
puntajes más altos. El puntaje de cada oración tiene en cuenta características como:
valor del centroide, valor posicional y solapamiento con la primera oración. A este valor
se le resta una penalidad por redundancia. Cada documento de cada grupo se califica y
se ordena la oración de cada documento de acuerdo al puntaje.
En el 2008, Wang D. et al. [96] proponen un modelo de lenguaje denominado,
factorización con bases dadas (Factorization with Given Bases, FGB), que
simultáneamente hace agrupamiento y generación de resúmenes, por medio de la matriz
de términos por documento y la matriz de términos por oración. Los autores buscan
minimizar la divergencia entre los documentos dados y el modelo de reconstrucción de
44 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
términos, este proceso de minimización obtiene dos matrices que representan las
probabilidades de los documentos y de las oraciones dado los grupos, lo que permite
asignar cada documento al tópico con la más alta probabilidad y el resumen se forma por
las oraciones con la más alta probabilidad en el tópico. Al inicio del proceso, después de
tener las dos matrices, el sistema ejecuta factorización no negativa sobre la matriz de
términos por documento usando como base la matriz de términos por oración, dando
lugar a la matriz de documento por tópico y la matriz de oración por tópico, por último se
asigna cada documento al tópico con la probabilidad más alta y el resumen se genera
con las oraciones con la probabilidad más alta en cada tópico.
Ali et al. [97] en el 2009 propone dos técnicas, la primera técnica consiste en adicionar
las características de similitud con la primer oración en el método MEAD (CPSL), y la
segunda técnica es combinar CPSL con LEAD (se escoge la primera y la última oración
del párrafo, este método es bueno para los artículos de noticias). La técnica CPSL se
basa en MEAD, con la variación que calculan la similitud entre cada oración y la primera
oración (por medio de la ley de cosenos). La técnica LESM, aplica por aparte los
métodos LEAD y CPSL para obtener el resumen, luego se extraen solo las frases
comunes a estos dos resúmenes para obtener el resumen, pero para completar el
porcentaje de las oraciones del resumen, aplican nuevamente LEAD sobre las oraciones
que no concuerdan con el resumen, las ordena y toma la primera oración que no
concuerde del primer documento, luego chequea si ya se cumple con el porcentaje
deseado como criterio de terminación del algoritmo, si no se logra el porcentaje, se toma
la primera oración que no concuerda del segundo documento y así sucesivamente,
cuando ya se han seleccionado las primeras oraciones de todos los documentos, se
sigue el proceso pero con la última oración de cada documento (teniendo en cuenta que
oraciones consecutivas pueden tratar de temas similares).
En el mismo 2009, Xiao-Chen et al. [98] proponen un algoritmo de agrupamiento
orientado a consulta, para ello se trata la consulta como si perteneciera al conjunto de
documentos, los grupos se mezclan en un solo grupo y utilizan MMR modificada para
extraer las oraciones del resumen. El algoritmo de agrupamiento realiza las siguientes
tareas: construir la matriz de oraciones (se incluye la oración de la consulta) por términos,
construir la matriz de similitud entre las oraciones (ley de cosenos), se generan los
centroides iniciales de grupo (aleatoriamente una oración es el primer centroide y luego
Estado del arte 45
la oración menos similar a ésta es el segundo, los otros se escogen de forma que sean
los más lejanos a los actuales), para determinar si una oración debe estar en un
centroide del grupo se hace por medio de la similitud entre la oración y el centroide (en
cada paso iterativo el valor de similitud de las oraciones del grupo es re-calculada), si el
valor es mayor o igual al umbral la oración se coloca en el centroide, si el valor es menor
al umbral entonces se remueve del centroide del grupo.
Hennig [99] en el 2009 propone un método orientado a consulta basado en PLSA, el cual
permite representar las oraciones y las consultas como distribuciones de probabilidad
sobre tópicos latentes. PLSA permite modelar los documentos como una mezcla de
tópicos. El resumen se produce en tres pasos: (1) Crear la matriz de términos por oración
y entrenar el modelo PLSA sobre esta matriz; (2) Calcular las diferentes características a
nivel de oración basado en la similitud de las distribuciones de las oraciones y de la
consulta sobre los tópicos latentes; (3) Calcular el puntaje de la oración como la
combinación lineal de los puntajes de las características y ordenar las oraciones de
acuerdo al puntaje, luego utilizar MMR para seleccionar las oraciones y penalizar las
oraciones candidatas basado en su similitud con el resumen parcial.
En el 2009, Wang D. et al. [100] proponen un modelo de tópicos bayesiano basado en las
oraciones (Bayesian Sentence-based Topic Models, BSTM), usando la matriz de
términos por documento y la matriz de términos por oración. Este es un modelo
probabilístico generativo, el algoritmo recibe como entradas la matriz de términos por
documento, términos por oración y el número de tópicos latentes; y como salida se
obtiene una matriz de oraciones por tópico y una matriz auxiliar de documentos por
tópico. El artículo presenta las distribuciones de probabilidad para seleccionar las
oraciones dados los tópicos, además usa un algoritmo bayesiano variacional para
estimar los parámetros del modelo. El BSTM se diferencia del FGB (de los mismos
autores [96]), en que la ubicación de documento-tópico es marginalizada (en el algoritmo
esto se refleja en el ajuste de Dirichlet), lo cual incrementa la estabilidad en la estimación
de los parámetros de oración-tópico.
Tang et al. [101] en el 2009 proponen un enfoque basado en modelos probabilísticos
llamado TMR (Modelación de tópicos con Regularización). Primero recupera los
documentos relevantes a la consulta, luego para modelar la consulta y el grupo de
46 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
documentos utiliza dos estrategias probabilísticas (PLSA y LDA) para descubrir los
tópicos orientados a la consulta. Después usa cuatro métodos de puntuación para
calcular la importancia de cada oración en el grupo de documentos. Finalmente genera el
resumen con las oraciones con puntuación más alta y removiendo la redundancia.
En el 2009, Haghighi y Vanderwende [102] proponen un método que utiliza un modelo
jerárquico estilo-LDA para representar la especificidad del contenido como una jerarquía
de distribuciones de vocabulario de tópicos, denominado Hiersum, que divide la
distribución del contenido en múltiples sub-tópicos. Así como se generan distribuciones
de contenido específico, se genera una distribución de contenido general para una
colección de documentos. Las palabras de contenido en cada oración pueden ser
generadas ya sea por el tópico de contenido general o los sub-tópicos de contenido para
esa oración, y las palabras desde la distribución de contenido general son consideradas
cuando se construye el resumen.
En el 2011 Cai, X. y W. Li [103] proponen un método que simultáneamente agrupa y
ordena las oraciones. Este método utiliza una estructura que representa el grupo de
oraciones, que permite identificar las oraciones que comparten el mismo contenido como
aquellas que son proyectadas sobre esta estructura y como las oraciones más
importantes dentro del grupo aquellas que poseen longitudes de proyección más
grandes. Para generar el resumen, extraen las oraciones más sobresalientes desde cada
grupo hasta completar el tamaño del resumen.
Recientemente, Mei y Chen [104] en el 2012, propone un enfoque de agrupamiento
difuso de los mismos autores, para agrupar las oraciones en subconjuntos y se calcula
un peso de cada oración con respecto al grupo. Además para obtener el puntaje final de
cada oración se suma puntaje obtenido por la posición de la oración. Las oraciones con
mayor puntaje harán parte del resumen teniendo en cuenta que la similitud entre las
oraciones candidatas esté por debajo de un umbral.
Meng y Xinlai [105] también en el 2012 proponen un algoritmo genético híbrido para
hacer agrupamiento de las oraciones. En este enfoque se obtienen los conceptos de las
oraciones usando la herramienta HowNet, en lugar de las palabras para la
representación en el modelo espacio vectorial. El algoritmo genético inicializa dos
Estado del arte 47
poblaciones donde cada gen es la oración centroide, después el algoritmo k-means se
utiliza para agrupar las oraciones de la población inicial, luego el algoritmo evoluciona y
el resumen se obtiene de la mejor solución de cada población.
El proceso general que se lleva a cabo para estos métodos (no supervisados e
independientes del lenguaje), es mostrado en la Figura 2-12.
Figura 2-12 Agrupamiento para múltiples documentos
2.3.6 Otros
Celikyilmaz et al. [106] en el 2010 proponen un modelo híbrido para generar resúmenes
de múltiples documentos, compuesto de dos pasos: un modelo generativo para descubrir
patrones y un modelo de regresión para hacer inferencia. Los autores usan un modelo de
tópicos jerárquico para obtener las características latentes de las oraciones y calcular el
puntaje de éstas en el grupo de documentos. Luego entrenan un modelo de regresión
basado en las características léxicas y estructurales de las oraciones. Por último se usa
el modelo para puntuar oraciones de nuevos conjuntos de documentos para generar el
resumen.
En este mismo año, Wei et al. [107] proponen un enfoque no supervisado llamado
ordenamiento interactivo (iRANK). Este diseña dos estrategias de refinamiento de
ordenamiento usa la retroalimentación para soportar el aprendizaje mutuo entre dos
algoritmos de ordenamiento base con el fin de mejorar los resultados finales del
48 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
ordenamiento global. Este proceso continúa hasta que los algoritmos de ordenamiento
base no pueden aprender del otro.
Wang y Li [108] en el 2010 proponen un método de consenso ponderado que combina
los resultados de diferentes métodos de generación automática de resúmenes de un solo
documento (WCS), para ello el método resuelve un problema de optimización de función
cuadrática, que busca encontrar la distancia mínima ponderada entre una lista de
ordenamiento de las oraciones y las listas de ordenamiento de las oraciones de cada
método. El algoritmo recibe como entrada la lista de oraciones ordenadas por cada
generador de resúmenes, luego de forma iterativa: calcula una lista que es un consenso
de estas listas con un ponderado fijo para cada generador de resúmenes y luego calcula
la distancia euclidiana entre estas listas y la lista consensuada para obtener un nuevo
valor ponderado para cada generador de resúmenes. Esto se repite hasta que el
algoritmo converge y se ordenan la lista de forma ascendente.
2.4 Métodos basados en metaheurísticas
Los métodos basados en metaheurísticas abordan el problema de generación de
resúmenes como un problema de optimización combinatoria, para lo cual han sido
utilizado de dos formas: 1) para la optimización de los pesos de las características de una
ecuación, que asigna la puntuación a cada oración del texto original (ecuación propuesta
por los mismos u otros autores del método), basándose en algoritmos genéticos,
programación genética y optimización de enjambres de partículas; 2) para la generación
automática de resúmenes, optimizando una función objetivo que busca generar un buen
resumen, utilizando algoritmos genéticos, búsqueda armónica, y más recientemente con
optimización de enjambres de partículas y evolución diferencial.
2.4.1 Optimización de Pesos
Entre los métodos basados en metaheurísticas para la optimización de los pesos de las
características, se encuentran los siguientes:
Kiani y Akbarzadeh [12] en el 2006, usan un Algoritmo genético (Genetic Algorithm, GA)
para optimizar las funciones de membresía de un sistema difuso y la Programación
genética (Genetic Programming, GP) para optimizar el conjunto de reglas de este
Estado del arte 49
sistema. Esta optimización es una entrada para la fuzzification y la decisión de acuerdo a
las reglas si-entonces del sistema difuso; estas reglas tienen en cuenta el valor de seis
características estadísticas medidas para cada oración del documento.
En el 2009, Fattah y Ren [11] proponen varios modelos para generación de resúmenes:
basados en GA, regresión matemática, una red neuronal hacia adelante, una red
neuronal probabilística y un modelo mixto gaussiano. Los cinco modelos se entrenan
para obtener los pesos de diez características; y luego se calculan las características
para cada oración teniendo en cuenta estos pesos calculados en el modo de
entrenamiento. Las oraciones con el puntaje más alto son seleccionadas para hacer
parte del resumen. En el GA, un cromosoma es representado como la combinación de
los pesos de las diez características, en cada generación se producen miles de
soluciones, evalúan la función objetivo de cada solución y conservan las diez más aptas
para cruzarlas con las nuevas en la siguiente generación.
Dehkordi et al. [13] en el 2009, usan GP con cadenas de caracteres de longitud fija, los
cuales se expresan como árboles de expresión (ET). GP inicia con una población de
soluciones candidatas aleatorias en forma de cromosomas, los cuales se mapean a ET,
luego se evalúan y seleccionan basados en la función objetivo para reproducirse con
operadores de modificación genética. La función objetivo está conformada por ocho
características y un peso para cada una de ellas. Para cada generación se producen
miles de soluciones, se evalúa la aptitud de cada solución y se conservan las ocho más
aptas para cruzarse en la siguiente generación. Luego se aplica esta combinación de
pesos a todas las oraciones del documento y son organizadas en forma descendente de
acuerdo al puntaje obtenido, las oraciones con puntajes más altos son seleccionadas
para ser parte del resumen basado en una tasa de compresión.
En el 2009, Binwahlan et al. [14], proponen usar optimización por enjambres de
partículas (Particle Swarm Optimization, PSO) [109] para obtener los pesos para ajustar
los puntajes de las características, luego estos puntajes son la entrada del sistema de
inferencia difuso para producir el puntaje final de las oraciones, las cuales se ordenan de
acuerdo a este puntaje y las primeras n oraciones son seleccionadas para el resumen.
50 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Luego, en el 2010, Song et al. [9] proponen un modelo de optimización evolutivo difuso
llamado FEOM para hacer agrupamiento de documentos y generación de resúmenes. El
método de generación automática de resúmenes se basa en el concepto de
agrupamiento de oraciones, luego se seleccionan las oraciones más importantes de cada
grupo para obtener el resumen. FEOM utiliza un GA, para generar soluciones para
agrupamiento, donde cada individuo de la población es una cadena de números reales.
Se aplican tres parámetros de control (coeficiente de distribución, distancia relativa y
efecto de evolución) para regular la probabilidad de cruce y de mutación de cada
solución.
En el 2010, nuevamente Binwahlan et al. [15], proponen un modelo híbrido que combina
tres métodos basados en: diversidad, PSO y difuso-PSO. El método basado en
diversidad, hace grupos de oraciones que son ordenadas en un árbol binario de acuerdo
a los puntajes, luego aplica importancia marginal máxima, para seleccionar las oraciones
a incluir en el resumen. El método basado en PSO binario es usado para optimizar el
peso correspondiente a cada característica de la función objetivo; la posición de la
partícula es una cadena de bits, donde uno significa que la característica correspondiente
es seleccionada y un cero lo contrario; después de tener los pesos se calcula el puntaje
para cada oración y se escogen las oraciones con el mayor puntaje para ser incluidas en
el resumen. En el método basado en enjambres y lógica difusa, el algoritmo difuso
calcula el puntaje de la oración a través de un sistema de inferencia, que parte de los
pesos encontrados con PSO, luego convierte el resultado del proceso de inferencia
(puntajes finales de las oraciones), y al final se ordenan las oraciones de acuerdo al
puntaje obtenido y se obtiene el resumen. Al final se utiliza otro procedimiento para
seleccionar las oraciones de los resúmenes obtenidos por cada uno de los tres métodos
anteriores.
En el mismo año Litvak et al. [10] proponen un enfoque basado en la optimización lineal
de diferentes características usando un GA denominado MUSE. El GA es usado para
optimizar la combinación de pesos lineales de treinta y una características que son
usadas para puntuar las oraciones. En el entrenamiento, la función objetivo mide la
calidad del vector representado por medio de la medida de recuerdo de ROUGE-1. En la
etapa de inicialización, la población es aleatoria y cada gen representa el peso de la
característica. Luego se selecciona una proporción de los más aptos de la población para
Estado del arte 51
generar nuevos hijos. En la reproducción conservan algunas soluciones de la actual a la
siguiente generación, manejan una probabilidad para el operador de cruce y de mutación.
Al final el puntaje de cada oración es calculado con los valores de las características y los
pesos de cada una de ellas.
2.4.2 Generación de resúmenes
Entre los métodos basados en metaheurísticas que permiten la generación directa de
resúmenes, encontramos los siguientes trabajos más representativos:
Carbonell y Goldstein [110] en 1998, proponen un método para un solo documento
basado en MMR, que busca que la extracción de oraciones tenga en cuenta la relevancia
y la redundancia. En este método primero se segmenta el documento en oraciones y
luego se usa MMR con la métrica de similitud de coseno para reordenar las oraciones del
resumen de acuerdo a la consulta del usuario. Las oraciones con el puntaje más alto son
presentadas en el resumen de acuerdo al orden en el documento original. En el 2000
Goldstein et al. [111], hacen una adaptación de MMR a múltiples documentos, después
de identificar las oraciones relevantes a la consulta, aplican MMR adaptado a múltiples
documentos y por último obtienen las oraciones del resumen usando criterios de
cohesión definidos en el mismo artículo.
En el 2006, Liu et al. [16], proponen un método para múltiples documentos basado en GA
que maximiza la cobertura de tópicos y minimiza la redundancia de contenidos. Primero,
realizan la detección de conceptos y del tema central en toda la colección de
documentos. Luego el puntaje de cada oración se obtiene del ponderado de dos
aspectos: entropía de la información y el peso de la oración en el documento al que
pertenece (tópicos contenidos en la oración, conceptos en el título contenidos en la
oración, posición de la oración); multiplicados por la importancia del documento que
contiene la oración en toda la colección y la marca de tiempo de los eventos del
documento. La función objetivo maximiza el puntaje ponderado obtenido por la oración
menos la similitud de la oración con las oraciones seleccionadas. El GA utiliza esquemas
de selección por ruleta, cruce de un punto y dos operadores de mutación.
Luego en el 2008 Qazvinian et al. [17], proponen un método para un solo documento
basado en un GA, que define un buen resumen como la colección de oraciones legibles
52 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
que están relacionadas y discuten acerca del título del documento. Por lo tanto
contemplan tres factores en la función objetivo: (i) Factor relación con el tópico: medido
como la similitud de las oraciones del resumen hacia el título del documento. (ii) Factor
de cohesión: como la similitud entre las oraciones del resumen. (iii) Factor de legibilidad:
como la similitud de una oración del resumen con la siguiente. En el proceso evolutivo, se
generan soluciones aleatorias, y esta población se usa para generar los hijos. Luego
todos los padres y los hijos se colocan juntos, y por medio de la función objetivo se
escoge la mitad de la nueva población, esta mitad son los padres de la nueva
generación. Se cruzan dos padres que generan dos hijos y la mutación usada es de un
bit.
Más recientemente en el año 2013, García-Hernández y Ledeneva [18], proponen un
algoritmo para un solo documento basado en GA, cuya función objetivo es la
multiplicación de un factor de relevancia de una palabra y la posición de la oración. El GA
utiliza el operador de selección de ruleta, un cruce aleatorio dando mayor probabilidad a
los genes con valor a uno en ambos padres y el operador de mutación inversa es usado
dos veces.
De otra parte y basado en la metaheurística de HS, Shareghi y Hassanabadi [19] en el
2008 proponen un método para un solo documento, contemplando la misma función
objetivo de [17]. El vector solución o armonía es de longitud n (cantidad de oraciones en
el documento), una entrada en el vector de cero significa que esa oración no pertenece al
resumen y un uno que si pertenece. Se ejecuta el algoritmo de búsqueda armónica hasta
que se cumpla el criterio de terminación, entonces la solución que se encuentra en la
memoria armónica con el mejor valor de la función objetivo se selecciona y se obtiene el
resumen.
Basado en la metaheurística de PSO discreto, Aliguliyev [20] en el 2010 propone un
método para múltiples documentos, también basado en técnicas de agrupamiento. La
función objetivo tiene en cuenta el agrupamiento de las oraciones y la similitud entre las
oraciones se realiza por medio de la medida de similitud de google. En el 2011 Alguliev et
al. [21], proponen un modelo basado en máxima cobertura y mínima redundancia,
modelando la generación de textos como un problema de programación lineal entera.
Para obtener un buen resumen optimizan las siguientes tres propiedades: Relevancia,
Estado del arte 53
unidades de información que son relevantes al usuario; Redundancia, no contener
unidades de texto que transmitan la misma información; Longitud, se limita la longitud del
resumen. La función objetivo busca maximizar la similitud entre las oraciones del
resumen y las oraciones de todos los documentos, pero eliminando la redundancia,
similitud entre las oraciones del resumen; con una restricción por la longitud del resumen.
Entonces la función objetivo y la restricción, se plantea como un problema de
programación lineal entera; cuya función objetivo final es una combinación lineal de ésta
función basada en la similitud de coseno y basada en la medida de similitud de google.
Como algoritmos para resolver el problema de encontrar la mejor solución utilizaron:
ramificación y poda (si el tamaño del problema es limitado, algunas veces se puede
obtener una solución exacta dentro de un tiempo aceptable); y el algoritmo PSO binario.
En el mismo año Alguliev et al. [22], proponen un algoritmo para múltiples documentos,
cuya función objetivo se basa en cobertura y redundancia; y basado en PSO incorpora un
operador de mutación de acuerdo a una distribución marginal estimada. Luego Alguliev et
al. [23] en el 2013, proponen un modelo orientado a restricción, un enfoque orientado a la
cobertura y otro orientado a la diversidad; el problema es formulado como programación
entera cuadrática y también resuelven el problema con PSO.
Además basado en evolución diferencial adaptativa, Alguliev et al. en el 2011 [24]
proponen un algoritmo para múltiples documentos, cuya función objetivo es la división
entre cobertura y redundancia. Luego en el 2012 Alguliev et al. [25] basado también en
evolución diferencial, para definir la función objetivo utilizan el problema de las p-
medianas y tienen en cuenta los siguientes factores: relevancia (oraciones relevantes al
contenido principal de los documentos), cobertura del contenido (oraciones que traten los
subtópicos del documento), diversidad (evitar oraciones redundantes que tratan la misma
información) y longitud del resumen (definido por el tamaño definido para el resumen); en
el 2013 Alguliev et al. [26] proponen este mismo algoritmo con una variación en la función
objetivo propuesta en [24].
En el 2012 Alguliev et al. [27], también usando evolución diferencial modelan la
generación automática de resúmenes de múltiples documentos como un problema de
programación cuadrática booleano (Quadratic Boolean Programing, QBP), donde la
función objetivo es una combinación ponderada de los objetivos de cobertura del
contenido y redundancia. Esta función evalúa los posibles resúmenes basados en las
54 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
oraciones importantes identificadas y el solapamiento de información entre las oraciones
seleccionadas. También, en el mismo año, propusieron un nuevo algoritmo evolutivo
diferencial basado en parámetros de mutación y cruce auto-adaptativo, donde el modelo
es representado como un problema de p-medianas modificado [25]. El enfoque propuesto
no solo expresa la relación oración-oración, sino también las relaciones resumen-
documento y resumen-subtópicos.
Más recientemente en el año 2013, Abuobieda et al. [28] proponen un algoritmo para un
solo documento basado en evolución diferencial. La función objetivo tiene en cuenta dos
factores: similitud intra-grupo, grado de similitud entre las oraciones agrupadas en un
grupo determinado; disimilitud inter-grupo, grado de disimilitud entre las oraciones de un
grupo con respecto a otro grupo. Las medidas de similitud usadas en la función objetivo
son distancia de Google normalizada y coeficiente Jaccard.
En el 2010, Huang et al. [112] aborda la generación de resúmenes de documentos como
un problema de optimización multi-objetivo, planteando cuatro funciones objetivo, la
cobertura de la información, la importancia, la redundancia y la coherencia del texto. Los
posibles resúmenes son medidos basados en los términos centrales y tópicos principales
identificados. Usando un enfoque lexicográfico, los objetivos son optimizados en orden
de prioridad.
El proceso general para generación de resúmenes usado por los métodos basados en
metaheurísticas es como se muestra en la Figura 2-13: primero se realiza la extracción
de palabras claves o de las oraciones, luego se define la función objetivo (utilizando
características estadísticas y de similitud) y se ejecuta el algoritmo metaheurístico, por
último se seleccionan las oraciones del vector solución con el mejor valor de aptitud, para
de esta forma obtener el resumen.
Estado del arte 55
Figura 2-13 Metaheurísticas para uno o múltiples documentos
2.5 Evaluación de resúmenes
Después de tener un panorama de los métodos más relevantes para la generación
automática de resúmenes de textos, es importante revisar algunos sistemas de
evaluación que se pueden aplicar a esta tarea y qué medidas son las más aceptadas
para realizar la evaluación de la calidad de los resúmenes generados.
2.5.1 Conceptos de evaluación
En evaluación de la generación automática de resúmenes, existen dos tipos de
evaluación importantes [113]: intrínseca que busca medir la calidad del resumen creado y
extrínseca que mide que tan bien se ejecuta el resumen dentro de una tarea en
particular. La evaluación intrínseca parte de que existe un estándar para comparar, que
puede ser un conjunto de datos (texto/resumen) existente o con un resumen “ideal”
creado por un humano. Este tipo de evaluación presenta el problema de variabilidad del
ser humano al realizar esta tarea, por lo que se requiere de un diseño y análisis
experimental. De otro lado la evaluación extrínseca requiere seleccionar una tarea que
puede utilizar la generación automática de resúmenes y medir el efecto de utilizar
resúmenes automáticos en lugar del texto original. En esta evaluación los problemas son
la selección de la tarea y los indicadores para la medición.
Las medidas más utilizadas en la literatura para evaluar la calidad de los resúmenes
generados por un sistema automático de generación de resúmenes se muestran en la
Figura 2-14.
56 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Figura 2-14 Medidas de evaluación de resúmenes automáticos
2.5.2 Evaluación automática de resúmenes
Jing, et al. [114] en 1998, analizaron tanto la evaluación intrínseca como la extrínseca.
Para reducir la subjetividad en el primer caso, ya que se utiliza un resumen “ideal”,
utilizan el modelo estadístico para partir de varios resúmenes hechos por humanos y de
estos construyen el resumen “ideal”, los autores demuestran que la longitud del resumen
afecta el resultado en este caso, ya que en la experimentación encontraron que medidas
como la precisión y el recuerdo son sensibles a la longitud del resumen, cuando el
resumen es corto los resultados son más fiables que cuando son más largos, también
indican que la precisión y el recuerdo no son las mejores medidas para calcular la calidad
del resumen (un pequeño cambio en la salida del resumen, por ejemplo, reemplazar una
oración por otra también buena) puede afectar significativamente el puntaje del sistema.
En el caso de la evaluación extrínseca (basada en una tarea) escogieron una tarea de
recuperación de información basada en la consulta del usuario, sin embargo, como no
disponían de generadores de resúmenes basados en consultas, utilizaron generadores
genéricos involucrando la consulta del usuario dentro del tópico principal del documento.
Los criterios de evaluación fueron: tiempo requerido, precisión de la decisión y
confidencia de la decisión. La experimentación mostró que no hay co-relación entre la
longitud y el mejoramiento de la tarea.
Estado del arte 57
En el 2002 Harman y Over [113] presentan un reporte de evaluaciones de generación
automática de resúmenes del 2001 en DUC, el tipo de resúmenes a evaluar fueron
genéricos y el tipo de evaluación fue intrínseca. Los documentos que se escogieron
fueron artículos de noticias, con al menos 10 oraciones cada documento. La
implementación contemplo: 60 conjuntos de documentos con aproximadamente 10
documentos, analistas de información retirados del Instituto Nacional de Estándares y
Tecnología (National Institute of Standards and Technology, NIST) definieron los
conjuntos de documentos y crearon resúmenes manuales de 100 palabras para cada
documento y resúmenes de cada conjunto de documentos con cuatro longitudes (50,
100, 200, 400), los sistemas generadores de resúmenes también crearon resúmenes
genéricos de 100 palabras para cada documento, y resúmenes de cada conjunto de
documentos con las mismas cuatro longitudes. Treinta conjuntos de documentos (con los
resúmenes manuales) se destinaron a entrenamiento y los otros treinta conjuntos (sin los
resúmenes) se utilizaron para la prueba. Luego el NIST presento los resultados de esta
evaluación, que realizó el mismo personal que creo los resúmenes manuales y se basó
en una comparación manual de los resúmenes realizados por los generadores de
resúmenes con los resúmenes construidos por los humanos. Esta comparación manual
se realizó con el apoyo de una herramienta, para evaluar dos áreas: la calidad del
resumen (gramaticalidad, cohesión y organización/coherencia), y la cobertura del
resumen con respecto al contenido del documento. Esta evaluación fue muy importante
ya que fue la primera evaluación intrínseca a gran escala de generación automática de
resúmenes para uno y múltiples documentos.
En el 2004 Lin [115] introduce una herramienta llamada ROUGE (Recall-Oriented
Understudy for Gisting Evaluation) que incluye medidas para automáticamente
determinar la calidad de un resumen generado con un resumen ideal, midiendo la
similitud entre resúmenes por medio de N-gramas. Además presenta variaciones de
ROUGE entre las que están: ROUGE-N (Estadísticas de co-ocurrencia de N-gramas) que
es un N-grama de recuerdo entre un resumen candidato y uno de referencia, donde N es
la longitud del N-grama; ROUGE-L (Subsecuencia común más larga) que toma el
resumen como una secuencia de palabras e incluye la secuencia común más larga de n-
gramas; ROUGE-W (Subsecuencia común más larga ponderada) que otorga un peso
mayor a la secuencia más larga de N-gramas pero donde estos sean secuenciales en el
texto. Para evaluar la eficacia de ROUGE utilizaron los juicios humanos hechos en DUC
58 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
en los años 2002 y 2003, sobre resúmenes de un solo documento (100 palabras),
resúmenes de un solo documento muy cortos (10 palabras) y resúmenes de múltiples
documentos (10, 50, 100, 200, 400 palabras). Como resultado encontraron que ROUGE-
2, ROUGE-L, ROUGE-W y ROUGE-S; lograron muy buena correlación con los juicios
humanos de los datos de DUC 2001 y 2002, trabajando bien para tareas de generación
automática de resúmenes de un solo documento. ROUGE-1, ROUGE-L, ROUGE-W,
ROUGE-SU4 y ROUGE-SU9 obtuvieron los mejores resultados para los resúmenes muy
cortos. Y por último ROUGE-1, ROUGE-2, ROUGE-S4, ROUGE-S9, ROUGE-SU4 y
ROUGE SU9, funcionaron razonablemente bien para múltiples documentos.
Más recientemente He et al. [116] (2008) proponen una variación de ROUGE, llamada
ROUGE-C, que permite evaluar resúmenes sin tener resúmenes humanos de referencia,
reemplazando estos resúmenes de referencia con el documento fuente y aplicando
ROUGE-C-N, para los puntajes de similitud. Para la evaluación tomaron los datos de
DUC de 2001 a 2005, algunas de los aspectos encontrados fue que para la generación
automática de resúmenes de un solo documento. ROUGE-C se ejecutó mejor para
resúmenes de 10 palabras, y para múltiples documentos la co-relación aumento cuando
el tamaño del resumen era más grande. Encontraron que con restricciones de las
condiciones apropiadas y una aceptable disminución de la eficiencia ROUGE-C se co-
relaciona bien con métodos que dependen de los resúmenes de referencia (incluyendo
los juicios humanos).
2.6 Algoritmos meméticos
Los algoritmos meméticos hoy son el estado del arte en la resolución de diversos
problemas de optimización combinatoria discreta [31], algunos de ellos son: el vendedor
viajero, asignación cuadrática, particionamiento de grafos y la cadena de suministro.
2.6.1 Definición
Los algoritmos meméticos [117] (Memetic Algorithms, MA) son métodos de búsqueda
híbridos basados en población (como los algoritmos genéticos) y búsqueda local de
vecindad (como por ejemplo búsqueda tabú). Los MA combinan estos dos métodos de
búsqueda para tomar las ventajas de estas dos estrategias, la búsqueda basada en
Estado del arte 59
población que permite la exploración de soluciones y la búsqueda local basada en
vecindad que permite la explotación sobre soluciones prometedoras.
Un MA básico [118] parte de una población inicial y luego repite cíclicamente los
siguientes pasos:
Selección de padres, que determina las soluciones candidatas que serán usadas
para crear las nuevas soluciones, basado en el valor de la función de aptitud o un
criterio de diversidad. Algunas de las estrategias de selección más comunes son:
ruleta, torneo y elitismo. La selección también puede realizarse de acuerdo a un
criterio de diversidad, en este caso se permiten individuos distantes para la
reproducción.
Cruce de padres para generar la descendencia, que crea nuevas soluciones
candidatas prometedoras, dirigiendo el proceso de optimización a nuevas áreas de
búsqueda que permiten encontrar mejores soluciones, para lograr esto es necesario
capturar conocimiento del problema. El operador de combinación debe crear
diversidad en la descendencia. Un diseño cuidadoso del operador de cruce influye en
el éxito del MA.
Mutación, el operador de mutación puede ser aplicado para reforzar la diversidad de
la población, aunque no es necesario debido a que la búsqueda local puede ser vista
como un operador de macro mutación guiada.
Mejora local, mejora la calidad de la descendencia iterativamente reemplazando la
solución actual por una solución tomada de la vecindad, este proceso se detiene para
obtener la mejor solución cuando se cumple con una condición de parada. La
búsqueda local juega el rol de intensidad de la búsqueda, explotando caminos de
búsqueda delimitados por una vecindad. Al igual que el cruce es un componente
clave que influye en el éxito del MA.
Reemplazo de la población, este paso decide si la nueva solución debe ser parte de
la población y cuál solución de la población debe ser reemplazada, buscando calidad
y diversidad. Una regla de actualización basada en la calidad reemplaza la peor
solución de la población, mientras que una regla basada en la diversidad sustituye
60 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
una solución similar teniendo en cuenta la medida de distancia. Las políticas
empleadas para manejar la población son muy importantes para mantener una
diversidad de la población adecuada y prevenir que el proceso de búsqueda converja
prematuramente.
2.6.2 Esquema de un Algoritmo memético básico
Un algoritmo memético básico se ejecuta a lo largo de poblaciones de individuos, que en
este contexto, son conocidos como agentes [118]. Un agente es una representación de
una solución, o en algunos casos de varias, y se caracteriza por su comportamiento
activo en la resolución del problema que aborda. Los agentes de una población compiten
y cooperan mutuamente durante la evolución, siendo esto, una característica
sobresaliente dentro de los MA. La estructura por medio de la cual se representa la
información genotípica de un agente es la estructura cromosómica. El MA inicia con una
población de ps agentes n-dimensionales, el i-ésimo agente de la población en un tiempo
o generación g tiene n componentes (memes) como se observa en la Ecuación (2-1).
psigxgxgxgX niiii ,...,2,1)],(),...,(),([)( ,2,1, (2-1)
El paso generacional de una población en un tiempo g a otra en g+1, se lleva a cabo
mediante los procesos de selección, reproducción, cruce y reemplazo de agentes. Antes
de la reproducción, se seleccionan dos (o más) agentes Xp(g) y Xm(g), con base en los
valores de aptitud obtenidos a partir de la función objetivo, los cuales actuarán como
padres de un nuevo agente (o más) en la nueva generación. En la fase de reproducción,
a través de un operador de cruce, se intercambia la información entre Xp(g) y Xm(g) para
dar origen a un nuevo agente Yi(g). En el estado de la reproducción, se lleva a cabo
también la inclusión de información ajena al agente generado mediante un operador de
mutación, el cual toma a Yi(g), para modificarlo parcialmente y generar un agente Zi(g).
La mutación se ejecuta con base en una probabilidad de mutación Mr, como se observa
en la Ecuación (2-2).
otherwisegY
MrURandifgYMutategz
i
ii
)(
))1,0(())(()( (2-2)
Estado del arte 61
Donde el método Mutate() modifica uno o más memes de un agente.
Así mismo, el agente generado es también optimizado, mediante un operador de
búsqueda local, con base en una probabilidad de optimización Opr, de acuerdo a la
Ecuación (2-3).
otherwisegZ
OprURandifgZBLgA
i
ii
)(
))1,0(())(()( (2-3)
Donde el método BL() es el operador de búsqueda local que mejora un agente.
La población es actualizada, sustituyendo un agente Xr(g), de acuerdo a una técnica de
reemplazo específica, por el nuevo descendiente de acuerdo a su valor de aptitud, como
se muestra en la Ecuación (2-4).
otherwisegX
gXFgAFifgAgX
r
riii
)(
))(())(()()1( (2-4)
Donde F() es la función objetivo a ser optimizada.
La selección, reproducción, mutación y reemplazo se ejecuta hasta completar el tamaño
de la población ps. El proceso generacional de competencia y cooperación descrito es
repetido hasta satisfacer un criterio de parada.
2.6.3 Consideraciones importantes en el diseño
La diversidad de la población es un aspecto importante en el diseño de un MA efectivo,
que busca promover y mantener diversidad durante el proceso de búsqueda, ya que si
ésta no se maneja adecuadamente la población puede converger prematuramente y el
proceso de búsqueda local terminar en un óptimo local. Esta diversidad puede ser
medida por medio de una métrica de similitud aplicada a los miembros de la población,
que puede ser definida así: a nivel de la representación de la solución (genotipo),
usualmente es independiente del problema y puede o no reflejar la diversidad intrínseca
de una población con respecto al objetivo de optimización específico; a nivel de la
62 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
solución (fenotipo), esta métrica es definida sobre el espacio de solución y por lo tanto es
más probable que mida la diversidad real de la población. Par obtener una diversidad de
la población adecuada, es importante primero definir la métrica de distancia o similitud
más apropiada con respecto al objetivo de optimización. La diversidad de la población
puede ser promovida y manejada en diferentes niveles de un MA: definir reglas de
selección para favorecer la selección de padres diferentes; variación de operadores que
favorezcan la generación de descendencia diversa (solo generar un hijo si está a la
misma distancia de ambos padres) y la calidad de la solución; estrategias de aceptación
y reemplazo de los hijos, la aceptación de un hijo se condiciona no solo a la calidad de la
solución sino también a la distancia con las soluciones existentes, de la misma forma, se
considera la calidad y la diversidad para seleccionar la solución que será reemplazada
por un hijo.
El rendimiento computacional de un MA también depende de la representación del
espacio de solución y del diseño de sus componentes clave: operadores de cruce y
mejora local. Una fase de búsqueda local larga o corta después de cada cruce podría
cambiar las trayectorias de búsqueda. Del mismo modo un procedimiento de búsqueda
local muy eficaz puede debilitar el papel del operador de cruce, mientras que un operador
de cruce muy fuerte puede hacer que sea menos importante un procedimiento de mejora
local altamente eficiente. Por esto es muy importante que el diseño del MA integre
conocimiento específico del problema para asegurar la explotación agresiva y la
exploración guiada.
Además la eficiencia en tiempo de ejecución de un MA depende en gran parte de la
elección de las estructuras de datos utilizados para implementar los distintos
componentes de los MA. Un ejemplo de esto, son los procedimientos de mejora local que
exploran las soluciones candidatas de la vecindad y representan la mayor parte del
tiempo de consumo de un MA, en este caso, la definición de estructuras de datos
apropiadas puede agilizar la evaluación de la vecindad. De otro modo, los costos
computacionales pueden poner en peligro el poder del método de búsqueda.
Un aspecto importante en el diseño del MA es el diseño y evaluación de la vecindad que
se explota durante la búsqueda local [118]:
Estado del arte 63
1. Diseño de la vecindad. El éxito del algoritmo de búsqueda local depende
considerablemente de su vecindad, ya que esta define el sub-espacio del problema
de búsqueda para ser explotado por el método. Para problemas binarios, dos
ejemplos de vecindarios son: los definidos por los operadores de movimiento k-flip,
que cambia los valores de k variables, y cualquier vecino tiene una distancia
hamming específica con la solución; y swap, intercambia los valores de dos variables
que tiene valores diferentes.
2. Evaluación de la vecindad. La búsqueda local se mueve iterativamente de la solución
actual a una nueva solución escogida de una vecindad. El valor del movimiento indica
si la calidad relativa de la nueva solución es mejor, peor o igual a la solución actual.
Esta evaluación se puede hacer de las siguientes formas:
Incremental. En la cual se deriva el valor de la función objetivo de la nueva
solución desde el valor de la función objetivo de la solución actual (actualizando el
valor de la función), esto partiendo de que la nueva solución es un vecino cercano
de la solución actual y es posible actualizar solo una parte de la función objetivo
actual.
Completa. En este caso, se almacenan los valores de movimiento de todos los
vecinos de la solución actual, de esta forma, se conoce la calidad de cada vecino
y se puede decidir en cada iteración cuál vecino escoger. La utilidad práctica de
este enfoque depende de la complejidad y el número de actualizaciones
necesarias después de cada movimiento. Esta evaluación es muy útil en métodos
como búsqueda tabú, donde se necesita identificar el mejor vecino.
Aproximativa. En esta evaluación se reemplaza la función de evaluación inicial
por una más rápida, que es una función de evaluación aproximativa; esto es útil si
es muy costoso computacionalmente el cálculo de la función de evaluación o si la
función objetivo es poco clara.
Orden de evaluación. Si la vecindad no se tiene completamente, se debe decidir
el orden en el cual la vecindad será explotada. Esto sucede con la técnica
descendente del primer mejor, que se mueve al mejor vecino, pero si existen
varios mejores, se escoge el primer mejor que se encuentre de acuerdo al orden
en el que se examina la vecindad.
64 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
2.6.4 Búsqueda local
El mejoramiento local es uno de los componentes más importantes de los MA,
permitiendo explotar el vecindario de algunas de las soluciones para encontrar óptimos
locales. A nivel de diseño se debe definir: donde se van a aplicar el optimizador
(población inicial, al final de ciclo reproductivo, en cada generación o cada cierto número
de generaciones); la frecuencia de aplicación del optimizador (a todos los agentes o solo
a algunos) y la intensidad de explotación del espacio de búsqueda. Entre los algoritmos
de búsqueda local más importantes están:
2.6.4.1 Búsqueda local iterada
En la búsqueda local iterada [118], primero se construye una solución inicial a la que se
le aplica un algoritmo de búsqueda local que proporcione un óptimo local, luego mientras
que no se cumpla la condición de terminación se repite lo siguiente: para pasar de un
óptimo local a otro cercano dentro del sub-espacio de soluciones se aplica una
perturbación a la solución optimizada (intensa para escapar del óptimo local, pero no tan
alta que haga que la búsqueda se vuelva aleatoria), a esta nueva solución se le aplica el
algoritmo de búsqueda para alcanzar un nuevo óptimo local, si esta nueva solución
supera el criterio de aceptación, esta nueva solución se toma para realizar la nueva
iteración. La efectividad del algoritmo de búsqueda local iterada depende de: la elección
de la búsqueda local, la perturbación y el criterio de aceptación. Se obtiene mejores
resultados si las perturbaciones tienen en cuenta propiedades específicas del problema,
el criterio de aceptación puede usarse para controlar el balance entre intensificación y
diversificación de la búsqueda.
2.6.4.2 Búsqueda local de vecindad variable
La búsqueda local de vecindad variable [119], se basa en el cambio sistemático de
vecindad. El algoritmo empieza con una solución inicial y busca en la primera estructura
de vecindad una mejor solución, si la encuentra, reemplaza la solución actual por la
nueva y vuelve a buscar en la primera estructura. En caso contrario, repite el proceso
buscando en la siguiente estructura de vecindad hasta encontrar una mejor solución a la
actual. En este algoritmo es muy importante la definición de las estructuras de vecindad.
2.6.4.3 Búsqueda local guiada
La búsqueda local guiada [120], se centra en las regiones prometedoras del espacio de
búsqueda. En este algoritmo la función objetivo del problema se aumenta al incluir un
conjunto de penalizaciones, inicialmente todos los parámetros de penalización se
Estado del arte 65
establecen en cero, luego hasta que se cumpla una condición de terminación: se aplica
un algoritmo de búsqueda local para encontrar un mínimo local de la función objetivo
aumentada, luego se realiza una acción de modificación (incrementar en uno los
parámetros de penalización de una o más de las características del mínimo local) sobre
la función objetivo aumentada y en la siguiente iteración se usa el algoritmo de búsqueda
local iniciando desde el mínimo local previamente encontrado.
2.6.4.4 Búsqueda Tabú
La búsqueda Tabú [121] utiliza memoria para almacenar las soluciones que no deben ser
elegidas. El término tabú significa “marcada porque constituye un riesgo”. Una solución
pertenece al conjunto “Elite” (un óptimo local pertenece a este conjunto) dependiendo de
su puntaje, el cual está relacionado con la función objetivo de la mejor solución
encontrada durante la búsqueda. La característica que distingue la Búsqueda Tabú de
las otras metaheurísticas de búsqueda es el uso de la memoria, que tiene una estructura
basada en una lista tabú y unos mecanismos de selección del siguiente movimiento. En
la lista tabú se registran aquellas soluciones o atributos de soluciones que no deben ser
elegidas, además puede contener: soluciones visitadas recientemente, movimientos
realizados recientemente, atributos o características que tenían las soluciones visitadas.
Al igual que las costumbres sociales pueden cambiar con el tiempo, las soluciones tabú
pueden dejar de serlo sobre la base de una memoria cambiante, para esto, debe haber
una forma de “olvido estratégico”, es decir, que una solución o atributo pueda salir de la
lista tabú antes de que se cumpla su plazo. Esto se implementa a través del Criterio de
aspiración, el cual permite que un movimiento sea admisible aunque esté clasificado
como tabú. El algoritmo genera una solución inicial y mientras no se cumpla la condición
de terminación: se identifica el vecindario de la solución, la lista tabú, y el conjunto de
aspirantes, luego se determina el vecindario reducido (el vecindario inicial menos la lista
tabú y se le suma la lista de aspirantes), se escoge la mejor solución y si mejora la
solución conocida se guarda y se actualiza la lista tabú, y se repite nuevamente la
iteración con la mejor solución.
2.7 CHC
Eshelman propuso el algoritmo original CHC (Cross-generational elitist selection,
Heterogeneous recombination, Cataclysmic mutation) para problemas binarios [122], que
combina una estrategia de selección elitista con un cruce perturbador, promoviendo una
66 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
alta diversidad en la población. El algoritmo CHC usa un mecanismo de prevención de
incesto: antes del cruce, en la población padre, calcula la distancia de Hamming entre los
padres potenciales, si la mitad de esta distancia no supera un umbral diferencial d, no se
cruzan y ningún descendiente es creado. CHC usa un mecanismo de recombinación
perturbador llamado Cruce Uniforme Medio (Half Uniform Crossover, HUX) que combina
exactamente la mitad de los alelos no coincidentes, donde los bits a ser intercambiados
son escogidos al azar. Este garantiza que los dos descendientes siempre están a una
distancia de Hamming máxima de sus padres, introduciendo una alta diversidad en la
nueva población y evitando el riesgo de convergencia prematura.
La siguiente población es construida usando un mecanismo de selección elitista: p
miembros de la población actual son mezclados con la descendencia generada y los
mejores p individuos son seleccionados para conformar la nueva población (p es el
tamaño de la población). Cuando un padre y un hijo tienen el mismo valor de aptitud, el
padre es seleccionado. El umbral de diferencia d es usualmente inicializado en L/4 (L es
la longitud del cromosoma). Si no se genera un descendiente en una generación, d se
decrementa en uno, indicando que la población está convergiendo. Cuando el umbral de
diferencia llega a cero, se ejecuta un proceso de reinicio que sustituye el operador usual
de mutación. En este paso consiste en la reinicialización de la población: el mejor
individuo es conservado y los individuos restantes son creados por un porcentaje
aleatorio (definido por el radio de divergencia dr) de los bit’s de los mejores individuos. La
Figura 2-15 presenta el esquema general de este algoritmo.
Figura 2-15 Esquema general del algoritmo CHC
t=0; d=L/4; Inicialización (P(t)); // Inicialización aleatoria. Evaluación (P(t)); // Calcular la aptitud para cada individuo de la población. While no se cumpla el criterio de parada do
t=t+1; Copiar ((P(t-1), C(t)); // Copiar la población actual en C(t). Cruce (C(t),C’(t)); // Aplicar el cruce HUX en C(t), con un mecanismo de // prevención de incesto. Selección (P(t), C’(t), P(t-1)); // Seleccionar los mejores p individuos. If P(t) =P(t+1) Then d--1; // Si ningún descendiente es obtenido en esta generación, // d es decrementado. If d < 0 Then Cataclismo; // Si el umbral de diferencia d llega a cero, un proceso de // reinicio es ejecutado.
End while;
3 Algoritmo para la generación de resúmenes de un solo documento
En este capítulo se describe el nuevo algoritmo memético propuesto para la generación
de resúmenes extractivos de un solo documento, basado en operadores genéticos y
búsqueda local guiada. Primero se explica las características de la función objetivo y
luego se hace la descripción del algoritmo memético.
3.1 Características de la función objetivo
La generación automática de resúmenes de un documento, busca seleccionar las
oraciones más relevantes de un documento, por esto, es importante establecer las
características que ayuden a identificar estas oraciones y de esta forma mejorar la
calidad de los resúmenes generados. En esta investigación se utilizó un conjunto de
características, independientes del dominio y del lenguaje, para determinar la calidad de
un resumen con base en las oraciones que lo conforman, ellas son: (1) la posición de las
oraciones en el documento, (2) la relación de las oraciones con el título, (3) la longitud de
las oraciones, (4) la cohesión entre las oraciones del resumen y (5) la cobertura de las
oraciones del resumen. Estas características forman parte de la función objetivo que fue
optimizada por el algoritmo memético propuesto y se describen a continuación.
3.1.1 Posición de la oración
Si todas las oraciones de un documento tuvieran la misma importancia, al reducir el
tamaño del documento para generar un resumen se perdería información significativa.
Sin embargo, según estudios previos, la información relevante en un documento, sin
importar su dominio [49], tiende a encontrarse en ciertas secciones como títulos,
encabezados, oraciones iniciales de los párrafos, párrafos iniciales, etc. Para evaluar una
oración con base en su posición, se define un criterio de selección que utiliza la distancia
existente entre la oración y el inicio del documento, asignando un mayor valor a las
68 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
oraciones iniciales. En recuperación de la información se han aplicado diferentes técnicas
basadas en la posición de las oraciones, que han probado su efectividad para determinar
la relevancia de una oración [11, 95, 123]. Uno de estos esquemas es el utilizado por
Bossard et al. [123], donde se aplica un cálculo normalizado de la posición basado en la
Ecuación (3-1).
SummarySii q
POS1
(3-1)
Donde qi indica la posición de la oración Si en el documento, y POS es el resultado del
cálculo para todas las oraciones del resumen candidato. De esta forma POS tendrá un
valor alto cuando las oraciones del resumen pertenecen a las primeras oraciones del
documento, y por el contrario POS tendrá un valor bajo cuando las oraciones del
resumen pertenecen a las últimas oraciones del documento.
3.1.2 Relación de la oración con el título
Esta característica se basa en el supuesto de que un buen resumen contiene oraciones
similares al título del documento [80, 124]. Para calcular esta similitud, se parte de su
representación a través del modelo de espacio vectorial y se utiliza la medida de similitud
de coseno [17] como se observa en la Ecuación (3-2).
RT
RTRTF
O
tssimRT
Summary
ss
Summarys
is
i
max
),(cos
(3-2)
Donde simcos(Si,t) es la similitud de coseno de la oración Si con el título t, O es la cantidad
de oraciones del resumen, RTs es el promedio de la similitud de todas las oraciones del
resumen (S) con el título, RTsummarymax es el promedio de los valores máximos obtenidos
de las similitudes de todas las oraciones del documento con el título (el promedio de las
O similitudes más altas de todas las oraciones con el título), y RTFs es el factor de
similitud de las oraciones de S con el título. RTF es cercano a uno cuando las oraciones
del resumen están muy relacionadas con el título, y tiende a cero cuando estas oraciones
son muy distintas al título.
Algoritmo para la generación de resúmenes de un solo documento 69
3.1.3 Longitud de la oración
Algunos estudios han concluido que las oraciones más cortas de un documento deberían
tener menos probabilidad de aparecer en el resumen [51]. Un estudio reciente realiza una
normalización basada en la función sigmoidea para el cálculo de esta característica [125].
Esta estimación tiene en cuenta la distribución estándar de los datos para alcanzar una
evaluación más balanceada, que sigue privilegiando las oraciones más largas, pero no se
descarta completamente aquellas de longitud media o baja, presumiendo que también
puedan tener información relevante para el resumen. De esta forma, teniendo en cuenta
que la distribución estándar representa la tendencia de los datos a variar por encima o
por debajo del valor medio, se espera que una oración con una longitud no muy corta
obtenga una buena calificación en esta característica. Basado en estas premisas, la
Ecuación (3-3) muestra el cálculo de longitud para las oraciones de un resumen.
SummaryS
lstd
lSl
lstd
lSl
i i
i
e
eLON
)(
)()(
)(
)()(
1
1
(3-3)
Donde l(si) es la longitud de la oración Si (medida en palabras), (l) es el promedio de la
longitud de las oraciones del resumen y std(l) es la desviación estándar de estas
longitudes.
3.1.4 Cohesión
La cohesión es una característica que determina el grado de relación de las oraciones
que conforman un resumen [17, 19]. Idealmente, la conexión entre las ideas expresadas
en las oraciones debe ser tal, que permita dar una unidad conceptual al resumen, es
decir, altamente acopladas. Para su cálculo se utiliza la medida de similitud de coseno
entre dos oraciones del resumen (ver Ecuación (3-4)).
NjijiSimM
OON
N
SSsim
C
M
CCoH
ss
SummarySSji
s
s
ji
,),,(max
2
)1()(,
),(
)19log(
)19log(
cos
,cos
(3-4)
70 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Donde CoH corresponde a la cohesión de un resumen, Cs es el promedio de la similitud
de todas las oraciones en el resumen S, simcos(Si,Sj) es la similitud de coseno entre las
oraciones Si y Sj, Ns es la cantidad de relaciones de similitud diferentes de cero en el
resumen, O es la cantidad de oraciones del resumen, M corresponde a la máxima
similitud de las oraciones del documento y N es la cantidad de oraciones en el
documento. De esta forma, CoH tiende a cero cuando las oraciones del resumen son
muy diferentes entre sí, mientras que CoH tiende a uno cuando estas oraciones son muy
similares entre sí. Así, esta característica tiende a favorecer los resúmenes que
contienen oraciones que tratan de la misma temática.
3.1.5 Cobertura
La cobertura intenta medir el grado en que un resumen proporciona al lector la
información más importante del documento original, a través del contenido de las
oraciones que lo constituyen [21]. De esta manera, esta característica se define como la
similitud entre las oraciones que componen un resumen y el documento completo. Así
pues, el documento, al igual que cada una de sus oraciones, es representado a través
del modelo vectorial y es pesado a través del cálculo de frecuencia relativa de acuerdo a
la Ecuación (3-5).
SummaryS ijSummarySji
i j
SDsimSDsimCov,
coscos )],(),([ (3-5)
Donde D es el vector de los pesos de los términos del documento, y Si y Sj son los
vectores de pesos de los términos de las oraciones Si y Sj, respectivamente, que
pertenecen al resumen.
3.2 Algoritmo propuesto: MA-SingleDocSum
El algoritmo memético (Memetic Algorithms, MA) propuesto en esta investigación, busca
optimizar la combinación lineal de las características presentadas en las Ecuaciones
(3-1) a (3-5). Este tipo de algoritmos combinan una búsqueda global basada en
población, con una búsqueda local heurística aplicada a cada agente (o una parte de
ellos), es decir, evolución genética con el aprendizaje que los individuos logran durante
su período de existencia [118]. El principal objetivo de los MA, al incorporar
Algoritmo para la generación de resúmenes de un solo documento 71
optimizaciones individuales y procesos de cooperación y competencia poblacional, es
direccionar la exploración hacia las regiones más prometedoras del espacio de
búsqueda. Un proceso de competencia, involucra técnicas de selección de individuos,
mientras que un proceso de cooperación se refiere a la generación de nuevos individuos
a través del intercambio de información.
3.2.1 Representación del documento y medidas de similitud
La representación del documento se realiza según el Modelo de Espacio Vectorial
propuesto por Salton [44]. En ese sentido, un documento es representado por el conjunto
D={S1,S2,…,Sn} donde Si corresponde a la i-ésima oración del documento y n es la
cantidad de oraciones que lo conforman.
Así mismo, una oración del documento es representada por el conjunto
Si={ti1,ti2,…,tik,…,tim}, donde tik es el k-ésimo término de la oración Si y m es el número
total de términos en todo el documento. De esta manera, la representación vectorial de
una oración del documento es Si={wi1,wi2,…,wik,…,wim}, donde wik es el peso o
ponderación del término tk en la oración Si. Este peso es calculado como la frecuencia
relativa del término en el documento [44] y se calcula de acuerdo a la Ecuación (3-6).
))1(log()( kiikik nnMaxFreqfw (3-6)
Donde fik es la frecuencia del término k en la oración Si, MaxFreqi es un factor de ajuste
que indica la cantidad de ocurrencias del término más frecuente dentro de la oración Si y
nk es la cantidad de oraciones donde aparece el término tk.
En ese sentido, el objetivo de generar un resumen de un documento consiste en
encontrar un subconjunto de oraciones de D que contengan la información principal del
documento. Para ello, se utilizan características cuyo propósito es evaluar el subconjunto
de oraciones para determinar el grado en que abarcan la información más relevante del
documento. Algunas de esas características están basadas en medidas de similitud entre
las oraciones. La similitud entre dos oraciones Si y Sj, de acuerdo a la representación
vectorial descrita, es calculada como la similitud de coseno [44] que se relaciona con el
ángulo de los vectores Si y Sj y se calcula de acuerdo a la Ecuación (3-7).
72 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
m
kjk
m
kik
m
kjkik
ji
ww
wwSSsim
1
2
1
2
1cos ),( (3-7)
Donde m es el número total de términos del documento, wik se refiere al peso del término
k en la oración Si y wjk es el peso del término k en la oración Sj.
3.2.2 Representación de la solución
En MA-SingleDocSum, la codificación de una solución o agente se realiza mediante un
vector binario. De esta manera, si un documento está formado por n oraciones
{S1,S2,…,Sn}, el agente candidato se compone de n memes, donde cada uno representa
una oración del documento, tomando el valor de uno si la oración pertenece al resumen
representado por el agente, o de cero en caso contrario. Por ejemplo, si se tiene un
documento con n = 10, es decir, con diez oraciones, el vector solución
[0,1,1,0,1,0,0,1,0,0] indica que el resumen representado por este agente está conformado
por la segunda, tercera, quinta y octava, oración del documento original. En ese sentido,
el c-ésimo agente de la población actual (generación g) es representado como se
observa en la Ecuación (3-8).
)](),...,(),...,(),([)( ,,2,1, gxgxgxgxgX ncscccc (3-8)
Donde xc,s(g) {0,1} es un entero binario; y n es el número de oraciones del documento;
c=1,2,…,ps; ps es el tamaño de la población.
3.2.3 Función objetivo
La definición de la función objetivo es uno de los pasos más importantes dentro del
diseño de los MA, ya que ayuda a guiar el mecanismo de exploración y explotación. La
función objetivo se encarga de asignar y evaluar un valor de aptitud a los agentes de la
población, basado en su capacidad para resolver el problema abordado. Para evaluar la
calidad de un resumen representado por un agente Xk, se requiere de una función
objetivo, la cual será maximizada de acuerdo a la Ecuación (3-9), cuyos componentes
corresponden a las fórmulas matemáticas de las Ecuaciones (3-1) a (3-5). Estas fórmulas
Algoritmo para la generación de resúmenes de un solo documento 73
son las características que se quieren maximizar para cada agente. Los coeficientes de
la función objetivo deben cumplir la restricción de la Ecuación (3-10). Además debe
contemplar la restricción de cantidad de palabras del resumen de la Ecuación (3-11).
)()()()()())(( kkkkkk XCobXCoHXLONXRTXPOSXfMax (3-9)
Sujeto a
1 (3-10)
n
iii Lxl
1 (3-11)
En la Ecuación (3-12), , , , , , son coeficientes que permiten dar un peso ponderado
a cada característica de la función objetivo. Y en la Ecuación (3-11), li es la longitud de la
oración Si (medida en palabras), xi toma un valor de uno si la oración hace parte del
resumen y cero si no lo es, L es el número máximo de palabras permitidas en el resumen
generado.
3.2.4 Esquema de MA-SingleDocSum
Inicialización de la población. La estrategia más común para inicializar la
población (tiempo g = 0) es generar aleatoriamente cada agente. Para que todas
las oraciones del documento tengan la misma probabilidad de formar parte del
agente, se define un número aleatorio entre uno y n (número de oraciones del
documento). Se escoge el gen que corresponde a este valor y se coloca un valor
de uno, indicando que esta oración hace parte del resumen candidato en el
agente actual. De este modo, el c-ésimo agente de la población inicial queda
creado como se aprecia en la Ecuación (3-12).
sscncccc axxxxX )0()],0(),...,0(),0([)0( ,,2,1, (3-12)
Donde as es un entero binario {0,1}, c=1,2,…,ps y s=1,2,…,n.
Cuando un valor xc,s(0) toma el valor de uno, se verifica la condición de longitud del
resumen representado por el agente basada en la Ecuación (3-11).
74 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Selección. El paso generacional inicia con este proceso, seleccionando una
cantidad determinada de agentes de la población actual (tiempo g), por medio de
una estrategia elitista, para que pasen sin modificación a la siguiente generación
(tiempo g+1). Así, si Pob(g)={X1(g),X2(g),…,Xps(g)} es la población actual
ordenada descendentemente de acuerdo a los valores de aptitud de sus
miembros, el grupo de agentes escogidos para pasar a la siguiente generación
corresponden a E(g+1)={X1(g),X2(g),…,Xe(g)} donde E(g+1) Pob(g), e<ps y e es
un parámetro predefinido que especifica la cantidad de agentes elegidos por
elitismo. El resto de la población es creada seleccionando dos padres.
Para seleccionar el primer padre Xp(g), se utiliza la estrategia Basada en Rango
[126], primero se ordenan los agentes de la población actual descendentemente por
sus valores de aptitud y se calcula el rango para el i-ésimo agente de acuerdo a la
Ecuación (3-13).
)1(
)1)(1(2))((
ps
jssgXr i (3-13)
Donde ps es el tamaño de la población, j es la posición del agente en la población
ordenada, s es la presión selectiva que puede determinarse como la relación entre el
individuo más apto y el individuo medio. Con base en los valores de rango, se
calcula probabilidad del i-ésimo agente por medio de la Ecuación (3-14).
ps
gXrgXprb i
i
))(())(( (3-14)
Luego se genera un valor aleatorio a en el rango de [0,1], el primer agente cuya
probabilidad prb() supere el valor de a, es seleccionado como padre.
Para seleccionar el segundo padre Xm(g), se hace por medio de la estrategia de
Ruleta [126], primero se calcula la probabilidad acumulada de la población actual
usando la Ecuación (3-15).
Algoritmo para la generación de resúmenes de un solo documento 75
))((1
gXFaPacups
ii
(3-15)
Donde F(Xi(g)) es el valor de aptitud del i-ésimo agente de la población actual y a es
un valor aleatorio en el rango de [0,1].
Luego se recorre secuencialmente la población acumulando progresivamente los
valores de aptitud de los agentes, de tal manera que dicha suma al llegar al i-ésimo
agente corresponde a la Ecuación (3-16). El primer agente para el cual Sumacu()
excede el valor de probabilidad Pacu, es seleccionado como el segundo padre.
))(())((1
gXFgXSumi
jjiacu
(3-16)
Cruce. Para generar un descendiente se utiliza la estrategia de cruce de Un punto
[126]. Así, los padres seleccionados Xp(g) y Xm(g) intercambian parte de sus
cadenas después de un punto seleccionado aleatoriamente para generar el
agente Yi(g), de tal modo que su s-ésimo meme Yi,s(g) es calculado como en la
Ecuación (3-17).
modgx
ptCsifgxgY
sm
spsi ..)(
),()(
,
,, (3-17)
Donde xp,s(g) es el s-ésimo meme del primer padre Xp(g), xm,s(g) es el s-ésimo meme
del segundo padre Xm(g) y ptC es un número entero que representa el punto de corte
seleccionado aleatoriamente entre [1, n], siendo n el tamaño del agente (número de
oraciones). Para generar un segundo hijo, se sigue este mismo proceso
intercambiando el rol de los padres. Para cada hijo se verifica la restricción de
longitud del resumen representado por el agente basado en la Ecuación (3-11). Si
esta restricción no se cumple se elimina una de las oraciones de forma aleatoria y se
vuelve a repetir el proceso hasta que se cumpla con la restricción.
Mutación. Un agente Yi(g) es mutado de acuerdo a la Ecuación (2-2), presentada
anteriormente. La técnica de mutación aplicada corresponde a una estrategia
Multi-bit, en la cual, se decide si un meme del agente debe o no ser mutado con
76 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
base en una segunda probabilidad de mutación Mr2, conforme a la Ecuación
(3-18). Antes de mutar (colocar el gen en uno) se verifica la restricción de longitud
del resumen representado por el agente basado en la Ecuación (3-11), si la
restricción no se cumple el meme no es mutado.
modgy
gyMrURandifgZ
si
sisi ..)(
0)())1,0((1)(
,
,2, (3-18)
Donde Rand(U(0,1) es un número real aleatorio entre [0,1].
Búsqueda local. Un agente Zi(g) es optimizado con base en la Ecuación (2-3),
para obtener un agente Ai(g). La estrategia utilizada está basada en la Búsqueda
Local Guiada (Guided local search, GLS) [127]. En ese sentido, las características
de la GLS son representadas por todas las oraciones de un documento, de tal
forma que si un documento está formado por n oraciones, el conjunto de
características GLS es igual a n. El vector que representa si un agente Xb posee o
no alguna característica es Kb={kb,1,kb,2,…,kb,i,…,kb,n}, donde kb,i{0,1}. Así, si
n=10, un vector Kb={1,0,1,00,1,0,1,00} indica que el agente Xb posee las
características (u oraciones) uno, tres, seis y ocho. Los costos asociados a las
características son representados por un vector constante C={c1,c2,…,ci,…,cn},
calculado al inicio de la ejecución del algoritmo memético, donde el costo ci de la
i-ésima característica GLS es calculado como se ve en la Ecuación (3-19).
),(),...,,((
),(1
coscos
cos
tSsimtSsimMax
tSsim
qc
ni
i
ii (3-19)
Donde qi es la posición de la característica (u oración) Si en el documento, simcos(Si,t)
es la similitud de coseno de la característica Si con el título y MAX(simcos(S1,t), …,
simcos(Sn,t)) es la máxima similitud coseno con el título de las oraciones del
documento.
Las penalizaciones de la GLS son representadas por un vector constante
P={p1,p2,…,pi,…,pn}, cuyos valores son cero al iniciar la búsqueda y se incrementa su
valor cuando se llega a un óptimo local X0, de tal forma que si K0 es el vector de
Algoritmo para la generación de resúmenes de un solo documento 77
características de dicho óptimo local, el valor de penalización pi de la i-ésima
característica es modificado de acuerdo a la Ecuación (3-20).
modp
dddMinkifpp
i
amajaioii
..
),...,,...,(11 1, (3-20)
Donde di es la función de decisión que determina si la característica Si debe ser o no
penalizada, y es calculada de acuerdo a la Ecuación (3-21), daj es el valor de decisión
de la j-ésima característica cuyo valor k0j es igual a uno, MIN(da1,da2,…, dam) es el
valor mínimo de la función de decisión evaluada en las m características cuyo valor
es uno en K0.
i
ii
p
cd
1 (3-21)
Por otro lado, la función objetivo disminuida es calculada como se muestra en la
Ecuación (3-22).
n
iriirr kpXFXG
1)()( (3-22)
Donde es un parámetro de regularización que controla la importancia relativa de las
penalizaciones con respecto al costo F(Xr) de la solución.
Como en el algoritmo MA-SingleDocSum, la función objetivo se está maximizando,
entonces el algoritmo de búsqueda local guiada disminuye el valor de la función de
objetivo en cada iteración, por medio de la penalización de algunas de las
características. En cada iteración se realiza un ajuste al agente de la iteración
anterior hasta cumplir con el criterio de parada (número máximo de optimizaciones).
Este ajuste consiste, en quitar la oración del agente actual (resumen) con la menor
similitud al documento, es decir la de menor cobertura, luego incluir una oración que
tengan la mayor cobertura y que no estén ya en el resumen, y repetir este proceso
hasta que se cumpla con la restricción de restricción de longitud del resumen
(Ecuación (3-11)). Luego las características presentes en el agente ajustado son
penalizadas de acuerdo a la función de decisión y la función objetivo disminuida es
78 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
afectada para la siguiente iteración. En la Figura 3-1 se presenta el esquema general
del procedimiento de búsqueda local guiada para MA-SingleDocSum.
Figura 3-1 Procedimiento de búsqueda local guiada
g: Función objetivo disminuida; f: Función objetivo original; N: Características del agente; P: Vector de penalizaciones de las características (oraciones); C: Vector de costos de las características; K: Vector indicador de la presencia de características;
j = 0; // Índice inicial agente original. Inicialización (P); // Las penalizaciones se colocan en cero. Costos(C); // Cálculo del vector de costos de las características. Indicador(K); // Cálculo del vector indicador de presencia de las // características para el agente original.
g = f - Pi Ki; // Cálculo de la función objetivo disminuida para el agente // original. While Criterio de parada do Xj+1 = Ajuste(Xj, g) // A la solución actual (Xj ) se le aplica un ajuste (Xj+1) // usando la función objetivo disminuida. Indicador(K); // Cálculo del vector indicador de presencia de las // características para el agente ajustado. For i=1 until N do; // Para cada característica del agente ajustado.
Di = Ki(Xj+1) Ci / (1 + Pi); // Cálculo función decisión para cada característica. Penalizar (U); // Penaliza las características con el menor valor en la función de // decisión. j = j + 1; // Índice para el siguiente agente ajustado. End While
Reemplazo. El agente optimizado Ai(g) es incluido en la población de acuerdo a la
Ecuación (2-4). En ese sentido, para seleccionar el agente de reemplazo Xr(g) se
utiliza un enfoque basado en competencia restringida, en el cual, primero se
escoge aleatoriamente un conjunto de m agentes competidores de la población
actual, Comp={Xr1(g),Xr2(g),…,Xrm(g)}, donde m<ps, donde Xr(g) Comp y cumple
con la expresión de la Ecuación (3-23).
CompgXgXFgXF rjrjr )()),(())(( (3-23)
Donde Xrj(g) Xr(g).
Convergencia de la población. La convergencia de la población es evaluada tras
la generación de una nueva descendencia. Para determinar la tendencia de
aptitudes entre los agentes de la población actual, se determina el conjunto de
agentes Ev, cuya aptitud varía en un porcentaje (en este caso 5%) con respecto
Algoritmo para la generación de resúmenes de un solo documento 79
al valor medio de aptitud de la población actual como se observa en la Ecuación
(3-24).
]}05.1*)(,95.0)([))((|)({ FFgXFgXEv rr (3-24)
Donde (F) es el valor medio de las aptitudes de la población actual. Si COUNT(Ev)
representa la cantidad de elementos en Ev, la evaluación de convergencia se define
como se muestra en la Ecuación (3-25).
...
9.0)(
modfalse
psEvCOUNTiftrueiaConvergenc (3-25)
Si la población converge, se reinicia la población en forma similar al proceso de
inicialización de la población, pero manteniendo una cantidad predefinida Er de los
mejores agentes del población actual.
Criterio de parada. La ejecución del algoritmo memético termina cuando se
cumple con la condición de parada, la cual fue establecida como un número
máximo de evaluaciones de la función objetivo.
En la Figura 3-2, se presenta en forma general el esquema del algoritmo MA-
SingleDocSum descrito anteriormente, el cual está basado en el enfoque presentado por
Hao [118].
80 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Figura 3-2: Esquema del algoritmo MA-SingleDocSum
Inicialización (Pt(N)) // Inicialización aleatoria de la población. Evaluación ((Pt(N)); // Cálculo de la función de aptitud. Optimización ((Pt(N), Búsqueda local guiada); // Optimización local. Repeat
P t+1(N)=Elitist (Pt(N), E); // Selección por Elitismo. For n = 1 to ((N-E)/2) do
Selección (Padre1, Rango); // Selección por Rango del primer padre. Selección (Padre2, Ruleta); // Selección por Ruleta del segundo padre. Hijo1=Cruce (Padre1, Padre2, Un punto); // Generación primer hijo con Cruce de un punto. Mutación (Hijo1, Multi-bit); // Mutación Multi-bit del primer hijo. Optimización (Hijo1, Búsqueda local guiada); // Búsqueda local guiada del primer hijo. P t+1(N)= Competencia restringida (Hijo1, (Pt(N)); // Reemplazo primer hijo. Hijo2= Cruce (Padre2, Padre1, Un punto); // Generación segundo hijo. Mutación (Hijo2, Multi-bit); // Mutación Multi-bit del segundo hijo. Optimización (Hijo2, Búsqueda local guiada); // Búsqueda local guiada del segundo hijo. P t+1(N)= Competencia restringida (Hijo2, (Pt(N)); // Reemplazo segundo hijo.
End For; Evaluación-Convergencia (P t+1(N)); // Evaluación de convergencia de la población. t=t+1;
Until (Número máximo de evaluaciones de la función objetivo); // Criterio de parada.
4 Algoritmo para la generación de resúmenes de múltiples documentos
En este capítulo se describe el nuevo algoritmo memético propuesto para la generación
de resúmenes extractivos de múltiples documentos basado en el algoritmo CHC (Cross-
generational elitist selection, Heterogeneous recombination, Cataclysmic mutation) y
búsqueda local codiciosa. Para ello primero se explica las características de la función
objetivo y luego se hace la descripción del algoritmo memético.
4.1 Características de la función objetivo
La generación automática de resúmenes de múltiples documentos, al igual que para un
documento, busca seleccionar las oraciones más relevantes de múltiples documentos,
pero en este caso, como los documentos tratan del mismo tópico, es importante tener en
cuenta que las oraciones escogidas para ser parte del resumen no sean iguales o
similares (es decir que sean lo menos redundantes posible). En esta investigación se
utilizaron dos características, independientes del dominio y del lenguaje, para determinar
la calidad de un resumen con base en las oraciones que lo conforman, ellas son: (1) la
cobertura de las oraciones del resumen y (2) la redundancia que presenta las oraciones
del resumen. Estas características forman parte de la función objetivo que fue optimizada
por el algoritmo memético propuesto y se describen a continuación.
4.1.1 Cobertura
Un resumen debe contener los aspectos principales de los documentos con la menor
pérdida de información, por lo tanto, las oraciones seleccionadas deben abarcar la mayor
cantidad de información contenida dentro del conjunto de oraciones de la colección de
documentos. Para esto, el factor de cobertura se calcula teniendo en cuenta la similitud
de coseno entre el texto del resumen candidato (todas las oraciones candidatas del
82 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
resumen) y las oraciones de toda la colección de documentos como se muestra en la
Ecuación (4-1).
),(cos DRsimFc (4-1)
Donde R, representa el texto con todas las oraciones del resumen candidato; D,
representa todas las oraciones de la colección de documentos (en este caso, es el
centroide de la colección); y simcos(R,D), es la similitud de coseno entre el vector de
términos de R y el vector de términos de D. Por lo tanto este factor toma valores entre
cero y uno.
4.1.2 Redundancia
El manejo de la redundancia es un factor muy importante, debido a que el resumen
generado debe evitar contener información repetida en el mismo, es decir, tener la menor
redundancia posible, especialmente cuando se está tratando el problema de generación
de resúmenes de múltiples documentos que tratan un mismo tópico. Para eliminar la
redundancia en las oraciones del resumen, este factor se calcula tomando como base lo
planteado en [21], pero haciendo una normalización, para que este factor tome valores
entre cero y uno, al igual que el factor de cobertura (ver Ecuación (4-2)).
1
1 1cos ),(
)1(
2 n
i
n
ijji SSsim
nnFr (4-2)
Donde Si y Sj son oraciones del resumen, simcos(Si, Sj) es la similitud entre las dos
oraciones y n es la cantidad de oraciones que hay en el resumen.
4.2 Algoritmo propuesto: MA-MultiSumm
El algoritmo memético (Memetic Algorithms, MA) propuesto en esta investigación para
múltiples documentos, busca optimizar la combinación lineal de las características de las
Ecuaciones (4-1) y (4-2), adaptando el algoritmo CHC al problema de múltiples
documentos y realizando optimización local por medio del algoritmo de búsqueda local
codiciosa.
Algoritmo para la generación de resúmenes de múltiples documentos 83
4.2.1 Representación del documento y medidas de similitud
La representación se realiza basada en el modelo de espacio vectorial propuesto por
Salton [44] al igual que para un documento, pero en este caso, por tratarse de un
problema de múltiples documentos, se representa como el conjunto de todas las
oraciones que conforman la colección de documentos, así: D={S1, S2,…, Si,…,Sn}, donde
Si corresponde a la i-ésima oración de la colección de documentos y n es el número total
de oraciones en ésta.
Además, una oración de la colección de documentos es representada por el conjunto
Si={ti1,ti2,…,tik,…,tim}, donde tik es el k-ésimo término de la oración Si, y m es el número
total de términos distintos en la colección de documentos. Y la representación vectorial
de una oración de la colección de documentos es un vector con los pesos de los
términos, como se observa en la Ecuación (4-3).
},...,,...,,{ 21 imikiii wwwws (4-3)
Donde wik es el peso o ponderación del término tk en la oración Si y m es el número total
de términos de la colección de documentos. Este peso es calculado como la frecuencia
relativa del término en la colección de documentos [44] y se calcula de acuerdo a la
Ecuación (3-6) usada para un solo documento.
El objetivo de generar un resumen de múltiples documentos al igual que para un
documento es obtener un subconjunto de D con las oraciones que contengan la
información principal, en este caso, de la colección de documentos. Para ello, se utilizan
características cuyo propósito es evaluar el subconjunto de oraciones para determinar el
grado en que abarcan la información más relevante de la colección de documentos. Para
medir la similitud entre dos oraciones, al igual que para un documento, se hace de
acuerdo a la representación vectorial descrita en [44], y se mide como la similitud de
coseno de acuerdo a la Ecuación (3-7).
4.2.2 Representación de la solución
En el algoritmo memético propuesto al igual que para un documento, la codificación de
una solución o agente se realiza mediante un vector binario. Pero en este caso, el agente
84 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
candidato representa las n oraciones de la colección de documentos, así: {S1,S2,…,Sn}, el
agente candidato se compone de n memes, donde cada uno representa una oración de
la colección de documentos, tomando el valor de uno si la oración pertenece al resumen
representado por el agente, o de cero en caso contrario. En ese sentido similar a un
documento, el c-ésimo agente de la población actual (generación g) es representado
como se observa en la Ecuación (4-4), con la diferencia de que en este caso se trata de
oraciones de una colección de documentos.
)](),...,(),...,(),([)( ,,2,1, gxgxgxgxgX ncscccc (4-4)
Donde xc,s(g) {0,1} es un entero binario; y n es el número de oraciones la colección de
documentos; c=1,2,…,ps; ps es el tamaño de la población.
4.2.3 Función objetivo
La función objetivo se define como la combinación lineal de los factores de cobertura (Fc)
y redundancia (Fr) (ver Ecuación (4-5)). Además debe contemplar la restricción de
cantidad de palabras del resumen de la Ecuación (4-6). El factor de redundancia se resta
en la ecuación para evitar que el resumen generado contenga oraciones iguales o
similares. El coeficiente lambda (λ) da flexibilidad a la función objetivo permitiendo que se
le dé mayor o menor peso a cada uno de los factores. El coeficiente λ varía entre cero y
uno.
1
1 1coscos ),(
)1(
2)1()),(()(
n
i
n
ijji SSsim
nnDRsimxf (4-5)
n
iii Lxl
1 (4-6)
Donde, li es la longitud de la oración Si (medida en palabras), xi toma un valor de uno si la
oración hace parte del resumen y cero si no lo es, L es el número máximo de palabras
permitidas en el resumen generado.
Algoritmo para la generación de resúmenes de múltiples documentos 85
4.2.4 Esquema de MA-MultiSumm
Inicialización de la población. Este paso al igual que el algoritmo MA-
SingleDocSum descrito en el capítulo 3 se realiza de forma aleatoria, usando las
Ecuaciones (3-12) y (3-11).
Evaluación y Optimización de la población inicial. Después de generar la
población inicial de forma aleatoria, se calcula el valor de aptitud de cada agente,
por medio de las ecuaciones (4-5) y (4-6). Luego un porcentaje (op) de la
población es optimizado por medio de búsqueda local codiciosa, que se explica
más adelante. Por último se calcula nuevamente el aptitud, y se ordena la
población resultante de mayor a menor basado en este nuevo valor de aptitud.
Selección. El paso generacional inicia con el operador de selección, y se repite
p/2 veces para mantener igual el tamaño de la población, debido a que cada
pareja de padres generan dos hijos. Los dos agentes padres se seleccionan de
forma aleatoria de la población actual validando que no se repitan como se
observa en la Ecuación (4-7).
),0((,);()( psURandjitXtX ji (4-7)
Donde, Xi(t) es el primer padre seleccionado aleatoriamente y Xj(t) es el segundo
padre, Rand(U(0,ps)) es un número aletorio entre 1 y ps, y ps es el tamaño de la
pobla-ción.
Prevención de incesto. Este mecanismo permite calcular la distancia de hamming
entre los dos agentes padres, para validar que el total de genes distintos entre
ellos sea menor a un umbral d (mínimo de genes distintos permitidos) y de esta
forma evitar el incesto (ver Ecuación (4-8)). Si no se cumple con este umbral se
seleccionan nuevos padres.
LdtXtXCOUNTdif ji %5.2));(),(( (4-8)
86 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Donde, COUNTdif(Xi(t), Xj(t)) cuenta el número de genes distintos que existen entre
el primer padre Xi(t) y el segundo padre Xj(t).
Cruce HUX. Para generar los dos descendientes se utiliza la estrategia de cruce
HUX entre los dos padres seleccionados. De esta forma, los genes que se
encuentran iguales en ambos padres harán parte también de los hijos y la mitad
de los genes que no son iguales (diferentes) se intercambian. En la Figura 4-1, se
puede observar un ejemplo de este tipo de cruce. Además, para cada hijo se
valida el cumplimiento de la restricción de cantidad máxima de palabras permitida
en el resumen (controlando de esta forma el número de oraciones), si se supera
el máximo, en forma repetida se elimina una oración de forma aleatoria hasta que
se cumpla la restricción.
Figura 4-1 Cruce HUX
Para calcular el s-ésimo gen del primer descendiente Y1(t) se usa la Ecuación (4-9),
el segundo descendiente Y2(t) es calculado de la misma forma.
5.0))1,0(()()(),(
)()(),()(
,,,
,,,,1 URandandtxtxiftx
txtxiftxtY
sjsisj
sjsisis (4-9)
Donde xi,s(t) es el s-ésimo gen del primer padre Xi(t); xj,s(t) es el s-ésimo gen del
segundo padre Xj(t) y Rand(U(0,1)) es un número aleatorio distribuido uniformemente
entre cero y uno.
Optimización de descendientes. Se genera un número aleatorio uniforme entre
cero y uno, si este valor es menor a la probabilidad de optimización (op), el
descendiente generado por el cruce HUX es optimizado, mediante un operador de
búsqueda local codiciosa, como se muestra en la Ecuación (4-10).
Algoritmo para la generación de resúmenes de múltiples documentos 87
...),(
))1,0(()),(()(
modtx
opUrandiftxGStZ
i
ik (4-10)
Donde GS() es el operador de búsqueda local codiciosa que mejora un agente.
Si el valor de la función objetivo del agente optimizado es mejor que el valor de
aptitud del agente sin optimizar, se reemplaza el agente actual por el agente
optimizado (ver Ecuación (4-11)).
...)(
))(())(()()(
modtX
tXFtZFiftZtZ
i
ikkk (4-11)
Donde F(Zk(t)) es el valor optimizado de la función objetivo y F(Xi(t)) es el valor de la
función objetivo del agente originalmente generado y sin optimizar.
Reemplazo. Si en la nueva generación no existen descendientes se decrementa
el valor de d, para permitir que los agentes seleccionados como padres sean más
parecidos y se puedan generar hijos. El reemplazo se realiza cuando ya se tiene
completa la población de agentes generados uniéndola con la población actual,
que ha sido previamente ordenada de acuerdo al valor de aptitud. Entonces, la
nueva población se conforma con los p mejores agentes de la unión de las dos
poblaciones, dando prioridad a los descendientes cuando estos tienen igual
aptitud que los padres.
Para seleccionar los agentes de la nueva población (t1), se utiliza una estrategia
elitista. Teniendo en cuenta que P(t)={X1(t),X2(t),…,Xi(t),…Xp(t)} es la población actual
ordenada descendentemente de acuerdo al valor de aptitud, y
P(t1)={Z1(t),Z2(t),…,Zk(t),…,Zp(t)} es la población de agentes generados también ordenada
por este valor. La nueva población será E(t1)={A1(t),A2(t),…,Ap(t)} donde E(t1) P(t) P(t1)
y sus elementos tienen los p mejores valores de aptitud de acuerdo a la Ecuación
(4-12).
88 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
...)(
))(())((),(
modtX
tXFtZFiftZ
k
ikk (4-12)
Donde F(Zk(t)) es el valor de la función objetivo del descendiente y F(Xi(t)) es el valor
del agente de la población actual.
Cataclismo. Después de generar una nueva descendencia, se evalúa si se debe
generar un cataclismo en la población, para esto, se verifica si el mínimo número
de genes distintos que evitan el incesto es menor o igual a cero (ver Ecuación
(4-13). Cuando ocurre el cataclismo, se conservan los dos agentes con el mayor
valor de aptitud de la generación actual y los agentes restantes se generan
totalmente aleatorios de acuerdo al proceso explicado en la generación de la
población inicial (ver Ecuaciones (3-12) y (3-11)).
...
0min)
modfalse
gendififtrueCataclysm (4-13)
Donde mingendif=2.5%L, y L es la longitud del agente.
Criterio de parada. La ejecución del MA termina cuando se cumple con la
condición de parada, la cual fue establecida como un número máximo de
evaluaciones de la función objetivo.
Búsqueda codiciosa. En cuanto a la búsqueda local, el MA utiliza búsqueda
codiciosa del primer mejor [128], teniendo en cuenta la probabilidad de
optimización (op) definida para la población. El agente se optimiza un número de
veces definido (Numaxop), adicionando y eliminando una oración del resumen,
teniendo en cuenta la cantidad máxima de palabras que puede contener el
resumen, controlando así la cantidad de oraciones del agente. Si el valor de
aptitud del nuevo agente mejora, el anterior agente se reemplaza, de lo contrario
se deja el agente anterior, luego se hace nuevamente un movimiento en el
vecindario, repitiendo los pasos anteriores (Ver Figura 4-2).
Algoritmo para la generación de resúmenes de múltiples documentos 89
El vecindario se generó basado en un esquema de elitismo, en el cual, la oración que se
coloca en uno (se incluye en el resumen candidato), se selecciona de una lista ordenada
de acuerdo a la similitud de la oración con toda la colección de documentos (mayor
cobertura); y la oración que se coloca en cero (se elimina del resumen candidato), es la
que tiene menor similitud con toda la colección de documentos (menor cobertura). Esto
quiere decir, que el factor de cobertura es el criterio que se utiliza para incluir o eliminar
una oración del resumen candidato.
Figura 4-2 Procedimiento de búsqueda codiciosa
Lss: Lista de oraciones ordenadas por similitud con la colección de documentos; Numaxop: Número máximo de optimizaciones; AgenteOriginal: Agente original (agente a optimizar);
For i=1 … Numaxop do AgenteActual = Copy (AgenteOriginal); // Copia del agente a optimizar. Adicionar_oración (AgenteActual); // Se activa en el agente una oración con el valor // más alto de similitud de la lista Lss. Borrar_oración (AgenteActual); // Se desactiva en el agente una oración con el // valor más bajo de similitud de la lista Lss. Restricción_longitud(AgenteActual); // Restricción de la longitud del resumen es // ejecutada. Evaluación (AgenteActual); // Cálculo de la aptitud para el agente actual. If (Aptitud (AgenteActual) > Aptitud (AgenteOriginal)) Then AgenteOriginal = AgenteActual; // Reemplazo del Agente original si se // encuentra un valor de la función de aptitud mayor. End For
En la Figura 2-15, se mostró el esquema general del MA propuesto para generar
automáticamente resúmenes extractivos basado en CHC [124] y búsqueda codiciosa,
MA-MultiSumm. Las modificaciones más importantes con respecto al algoritmo original
CHC, son: (1) el valor inicial de d es más pequeño (do=0.025×L) que en el algoritmo
original de CHC (0.25×L), debido a que el agente es representado en este problema por
muchos ceros y pocos unos, haciendo que los agentes sean muy similares entre ellos;
(2) se aplica un algoritmo de búsqueda local a algunos agentes para encontrar el óptimo
local; y (3) en el cataclismo, se preservan los dos mejores individuos, los demás
individuos son creados aleatoriamente, y el umbral d toma el valor inicial do. En la Figura
4-3 se muestra el esquema general del algoritmo MA-MultiSumm.
90 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Figura 4-3 Esquema del algoritmo MA-MultiSumm
L: longitud del agente; p: tamaño de la población; d: umbral de diferencia; op: probabilidad de optimización; dh: distancia de hamming; nofe: número de evaluaciones de la función objetivo; mnofe: número máximo de evaluaciones de la función objetivo;
t = 0;
d = do // Mínimo de genes diferentes (oraciones), el valor de do es 0.025L. Inicialización (P(t)); // Inicialización aleatoria de la población. Evaluación (P(t)); // Calcula la aptitud de cada agente en la población. Optimización (P(t)); // Solo un porcentaje de población es optimizada. While nofe < mnofe do For i= 1… p/2 do Selección (p1, p2, P(t)); // Selecciona los dos padres de forma aleatoria. If (dh (p1, p2) < d) Then Continue; // Mecanismo de prevención de incesto usando // distancia de hamming. Cruce_HUX (p1, p2); // Cruce HUX entre p1 and p2 para obtener dos hijos. For each Hijo do Evaluación (Hijo); // Calcula la aptitud para cada hijo. If (U(0,1) < op) Optimización (Hijo); // De acuerdo a una probabilidad op es optimizado // el hijo. P(t+1)=Add (Hijo); // Adiciona el hijo a la nueva población. End For each; End For; If (P(t+1) = empty) Then d = d – 1; // Permite padres más similares.
P(t+1) = P(t+1) P(t); // Mezcla los miembros de la población actual con los // hijos generados. Preserva_Mejores_Agentes P(t+1); // Cuando un padre y un descendiente tiene el mismo // valor de aptitud, el hijo es seleccionado. If (d = 0) Cataclismo(); // Los dos mejores individuos permanecen, los demás se // generan aleatoriamente. t = t +1; End while; Return (BestAgent); // El agente con mayor aptitud en la última población es retornado.
5 Resultados Experimentales
Este capítulo presenta los resultados obtenidos al evaluar la calidad de los resúmenes
generados por medio de medidas ROUGE, sobre conjuntos de datos de DUC, tanto para
el algoritmo de un solo documentos como para el de múltiple documentos.
5.1 Algoritmo MA-SingleDocSum
En esta sección, se presentan los resultados obtenidos con el algoritmo MA-
SingleDocSum y la comparación de éste con otros métodos del estado del arte.
5.1.1 Conjunto de datos
Para la evaluación de MA-SingleDocSum, se utilizaron conjuntos de datos de la
Conferencia de Entendimiento del Documento (Document Understanding Conference,
DUC) de los años 2001 y 2002, producto de investigaciones del Instituto Nacional de
Estándares y Tecnología (NIST) en el área de generación automática de resúmenes.
Estos archivos están constituidos por noticias periodísticas en inglés, tomadas de
periódicos y agencias de noticias como Financial Times, Associated Press o Wall Street
Journal. La colección de datos de DUC2001 consiste de 30 conjuntos de
aproximadamente 10 documentos de noticias periodísticas en inglés, completando un
total de 309 documentos, los cuales abarcan temáticas como acontecimientos de
desastres naturales, información biográfica sobre un individuo, entre otros. Cada conjunto
está acompañado por resúmenes de referencia para uno y múltiples documentos. Los
resúmenes de referencia para un sólo documento, están conformados por 100 palabras
aproximadamente. Por su parte, la colección de DUC2002 consta de 567 documentos
divididos en 59 conjuntos. Al igual que DUC2001, cada conjunto cuenta con resúmenes
de referencia para uno y múltiples documentos, con una longitud cercana a 100 palabras,
ver Tabla 5-1.
92 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Tabla 5-1 Descripción de los conjuntos de datos usados
Ítem DUC 2002 DUC 2001
Número de tópicos 59 30
Número de documentos 567 309
Fuente de datos TREC1 TREC
Longitud del resumen (en palabras) 100 100
5.1.2 Pre-procesamiento de datos
Antes de proceder a la generación automática de un resumen se realiza el pre-
procesamiento del documento que incluye técnicas lingüísticas como segmentación de
oraciones, eliminación de palabras vacías, eliminación de mayúsculas y signos
ortográficos, stemming e indexación [44].
5.1.2.1 Segmentación
El proceso de segmentación consiste en dividir el texto en unidades significativas, en
este caso, oraciones [44], para ello se hace uso de una herramienta de segmentación de
código abierto denominada “splitta” (disponible en http://code.google.com/p/splitta) [129].
5.1.2.2 Eliminación de palabras vacías
Las palabras vacías son aquellas palabras que, por su bajo contenido semántico, no
contribuyen a la discriminación de las oraciones más importantes de un texto [44], como
por ejemplo, preposiciones, artículos, pronombres, etc. Dichas palabras son muy
frecuentes dentro de un texto y son consideradas como términos ruidosos o diccionario
negativo, por lo que su eliminación puede ser realmente útil antes de la ejecución de una
tarea de procesamiento de lenguaje natural. Tal eliminación suele realizarse mediante un
filtrado de palabras con la ayuda de una lista de palabras vacías. En este trabajo, se
utilizó la lista construida para el sistema de recuperación de información SMART
(disponible en ftp://ftp.cs.cornell.edu/pub/smart/english.stop).
5.1.2.3 Stemming
El stemming es un procedimiento computacional que reduce las palabras con la misma
raíz, o steam, a una forma común, eliminando los sufijos variables [44]. Entre los
algoritmos de stemming más destacados se encuentra el de Porter y el de Lovins, ambos
1 http://trec.nist.gov/overview.html
Resultados experimentales 93
realizan una eliminación de sufijos y posteriormente recodifican la cadena de texto
tratada. El algoritmo de Porter fue utilizado para esta tarea.
5.1.2.4 Lucene
Lucene es una librería de código abierto bajo la licencia Apache Software Licence, cuyo
objetivo es facilitar la indexación y búsqueda en tareas de recuperación de información.
Fue implementada originalmente en Java, pero en la actualidad ha sido adaptada a otros
lenguajes de programación como C#, C++, Delphi, PHP, Phyton y Ruby. Una de las
características principales de esta herramienta, es la abstracción de los documentos
como un conjunto de campos de texto, muy útil para el acoplamiento con sistemas
basados en el modelo de espacio vectorial para la representación de los documentos. En
esta propuesta, la librería de Lucene ha sido utilizada para la indexación de los términos,
a la vez que contribuye a las tareas de eliminación de mayúsculas y signos ortográficos,
eliminación de palabras vacías y stemming.
5.1.3 Métricas de evaluación
La evaluación de la calidad de los resúmenes generados por el algoritmo MA-
SingleDocSum propuesto en esta investigación, fue realizada por medio de las métricas
proporcionadas por la herramienta de evaluación ROUGE [115] en su versión 1.5.5, la
cual ha sido manejada ampliamente por DUC en la evaluación de resúmenes
automáticos. ROUGE es una herramienta que mide la calidad del resumen con el conteo
de unidades solapadas entre el resumen de referencia y el resumen candidato,
basándose en el recuerdo de n-gramas entre un resumen generado y un conjunto de
resúmenes de referencia. La Ecuación (5-1) muestra el cálculo de esta medida.
ref
ref
Summs SgramN
Summs SgramNmatch
gramNCount
gramNCount
NROUGE)(
)(
(5-1)
Donde N representa la longitud del n-grama (N - gram) y Countmatch(N - gram) es el
número máximo de n-gramas coincidentes entre un resumen candidato y un conjunto de
resúmenes de referencia. El denominador de esta fórmula corresponde a la suma de la
cantidad de n-gramas en el resumen de referencia. En estos experimentos N toma el
valor de 1 y 2, esto es, métrica de unigrama ROUGE-1 y métrica bigrama ROUGE-2.
94 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
5.1.4 Afinamiento de parámetros
El afinamiento de parámetros se realiza teniendo en cuenta un algoritmo Meta evolutivo
[130] usando una versión del algoritmo de la búsqueda armónica [131]. La configuración
de los parámetros que se obtuvo para MA-SingleDocSum es la siguiente; Tamaño de la
población ps=30, probabilidad de mutación Mr=0.4, probabilidad de optimización Opr=1,
cantidad de agentes elegidos por elitismo e=1, cantidad de agentes elegidos por elitismo
en reiniciación er=1, cantidad de agentes competidores en reemplazo gr=4, parámetro de
regularización GLS =0.5.
El número de evaluaciones de la función objetivo se establece en 1600. Los resultados
presentados en esta sección fueron obtenidos evaluando resúmenes generados con 100
palabras, y promediando 30 ejecuciones del algoritmo, el cual fue ejecutado sobre un PC
Pentium 4 CPU 3.00GHz, 2.99GHz con 1GB de RAM en Windows XP.
En cuanto al proceso de afinación de pesos de la función objetivo de MA-SingleDocSum,
éste se divide en dos etapas. En la primera se diseña un algoritmo genético (GA), con el
fin de obtener varios rangos para cada peso, que son evaluados en la función objetivo
con MA-SingleDocSum, para encontrar la mejor combinación de pesos. En la segunda
etapa, se parte de este conjunto de pesos, para generar nuevos rangos por cada peso y
obtener el mejor desempeño de la función objetivo. Los pesos encontrados para la
función objetivo son: =0.35, =0.35, =0.29, =0.005, =0.005; que corresponden a las
características de Posición (P), Relación con el título (RT), Longitud (L), Cohesión (CoH)
y Cobertura (Cob), respectivamente.
5.1.5 Comparación con diferentes métodos
Los resultados obtenidos con MA-SingleDocSum se compararon con otros métodos del
estado del arte en generación de resúmenes automáticos de un solo documento.
UnifiedRank [65]: En este método enfocado en grafos, la generación automática
de resúmenes de un solo documento y de múltiples documentos se realiza al
mismo tiempo. En el grafo se incorporan dos medidas relacionadas con estas dos
tareas: la importancia local que indica la relevancia de una oración dentro de un
documento y la importancia global que indica la relevancia de una oración pero a
Resultados experimentales 95
nivel de la colección de documentos. Cada oración obtiene un puntaje y es
clasificada de acuerdo a estas dos medidas.
DE [29]: Este método utiliza la evolución diferencial para optimizar la asignación
de oraciones a grupos, representando un individuo por medio de permutaciones
que indican los grupos donde quedara ubicada cada oración correspondiente a un
gen. Después del proceso evolutivo, para seleccionar las oraciones que harán
parte del resumen, evalúan la centralidad de cada oración con respecto al grupo
que pertenece y extraen las oraciones más importantes de cada grupo.
FEOM [9]: En este trabajo proponen un modelo de optimización evolutiva difusa,
que realiza el agrupamiento de las oraciones y las más relevantes de cada grupo
son seleccionadas obteniendo el resumen. FEOM utiliza algoritmos genéticos
para la generación de vectores solución de los grupos, y aplica tres parámetros
de control para regular la probabilidad de cruce y mutación de cada solución.
NetSum [56]: Este enfoque usa el algoritmo de aprendizaje RankNet, que entrena
un clasificador de oraciones basado en pares de oraciones, para puntuar cada
oración del documento e identificar las oraciones más importantes. Este método
realiza la generación automática basado en redes neuronales.
CRF [57]: Este trabajo aborda la tarea de generación de resúmenes como un
problema de etiquetamiento de secuencias, usando campos aleatorios
condicionales (Conditional Random Fields, CRF). De esta forma, cada documento
es una secuencia de oraciones y el procedimiento de generación etiqueta las
oraciones usando 1 y 0. Este trabajo.
QCS [75]: En este artículo proponen un método orientado a consulta (Query,
Cluster, Summarize, QCS), en el cual, dada una consulta, separan los
documentos recuperados en grupos de tópicos y se crea un resumen único para
cada clúster. Análisis Semántico Latente (Latent Semantic Analysis, LSA) es
usado para la recuperación, k-means para la agrupación de los documentos y un
modelo oculto de Markov para calcular la probabilidad de que cada oración sea
una buena oración para el resumen. Las oraciones con probabilidades más altas
son escogidas para ser parte del resumen.
SVM [69]: Este trabajo propone dos métodos para lograr generación automática
de textos: el enfoque basado en corpus modificado y el mapa de relaciones de
texto basado en LSA. El primero está basado en un puntaje de una función
combinada con el análisis de características salientes y un algoritmo genético
96 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
para descubrir las combinaciones adecuadas de los pesos de las características.
El segundo usa LSA y (Text Relationship Map, TRM) para derivar las estructuras
semánticas más salientes de un documento.
Manifold Ranking [132]: Este proceso de clasificación tiene en cuenta dos
aspectos para el puntaje de las oraciones: Riqueza de la información, la relación
entre cada oración y la colección de oraciones, y un tópico; Novedad de la
información, de la oración con respecto a las oraciones del resumen. Luego un
algoritmo codicioso es usado para imponer una penalidad de diversidad sobre
cada oración. Las oraciones con puntaje más alto son escogidas para el resumen.
5.1.6 Resultados y discusión
En la Tabla 5-2 se presentan los resultados obtenidos en las medidas de ROUGE para el
conjunto de datos de DUC2001, por MA-SingleDocSum y los otros métodos del estado
del arte. Los resultados presentados aquí son el promedio de 30 ejecuciones. En esta
tabla, la mejor solución está en negrita y el número entre paréntesis en la tabla muestra
el orden obtenido por cada método. En la Tabla 5-3 se presenta la información para
DUC2002.
Tabla 5-2 Puntajes ROUGE con el conjunto de datos DUC2001
Método ROUGE-1 ROUGE-2
MA-SingleDocSum 0.44862 (6) 0.20142 (1)
DE 0.47856 (1) 0.18528 (3)
FEOM 0.47728 (2) 0.18549 (2)
UnifiedRank 0.45377 (5) 0.17646 (6)
NetSum 0.46427 (3) 0.17697 (5)
QSC 0.44852 (7) 0.18523 (4)
CRF 0.45512 (4) 0.17327 (7)
SVM 0.44628 (8) 0.17018 (8)
Manifold Ranking 0.43359 (9) 0.16635 (9)
De acuerdo a los datos presentados en la Tabla 5-2 y Tabla 5-3, se puede observar que
MA-SingleDocSum en la medida de ROUGE-2 supera todos los métodos, para ambos
conjuntos de datos (DUC2001 y DUC2002). En la medida ROUGE-1 para DUC2002, MA-
SingleDocSum es segundo, superado solo por UnifiedRank; y en el caso de DUC2001 es
superado por cinco métodos.
Resultados experimentales 97
Tabla 5-3 Puntajes ROUGE con el conjunto de datos DUC2002
Método ROUGE-1 ROUGE-2
MA-SingleDocSum 0.48280 (2) 0.22840 (1)
DE 0.46694 (3) 0,12368 (5)
FEOM 0.46575 (4) 0,12490 (4)
UnifiedRank 0.48487 (1) 0,21462 (2)
NetSum 0.44963 (5) 0.11167 (6)
QSC 0.44865 (6) 0.18766 (3)
CRF 0.44006 (7) 0.10924 (7)
SVM 0.43235 (9) 0.10867 (8)
Manifold Ranking 0.42325 (8) 0.10677 (9)
En la Tabla 5-4 se muestra la mejora del MA-SingleDocSum con respecto a los otros
métodos, en la medida ROUGE-2 sobre los datos DUC2001 y DUC2002, calculada por
medio de la Ecuación (5-2). Como se observa con DUC2001, comparado con el método
FEOM muestra que MA-SingleDocSum mejora el rendimiento en 8.59% y con respecto a
DE la mejora es de 8.71%; sobre los datos DUC2002 comparado con UnifiedRank, MA-
SingleDocSum mejora el rendimiento en un 6.42% y con DE en un 84.67%.
100
OtroMetodo
OtroMetodooNuevoMetod (5-2)
Tabla 5-4 Comparación de MA-SingleDocSum con otros métodos (ROUGE-2)
Método Mejora obtenida por MA-SingleDocSum (%)
DUC2001 DUC2002
DE 8.71 84.67
FEOM 8.59 82.87
UnifiedRank 14.14 6.42
NetSum 13.82 104.53
QSC 8.74 21.71
CRF 16.25 109.08
SVM 18.36 110.18
Manifold Ranking 21.08 113.92
La Tabla 5-5 muestra la mejora obtenida por el método DE en la medida ROUGE-1 sobre
los datos de DUC2001, con respecto a los otros métodos. Como se observa, en
98 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
comparación con FEOM, DE mejora el rendimiento tan solo en un 0.27% y con respecto
a MA-SingleDocSum la mejora es de 6.67%.
Tabla 5-5 Comparación de DE con otros métodos con DUC2001 (ROUGE-1)
Método Mejora obtenida por el método DE (%)
DUC2001
MA-SingleDocSum 6.67
FEOM 0.27
UnifiedRank 5.46
NetSum 3.08
QSC 6.70
CRF 5.15
SVM 7.23
Manifold Ranking 10.37
En la Tabla 5-6 se muestra la mejora obtenida por el método UnifiedRank en la medida
ROUGE-1 sobre los datos de DUC2002, con respecto a los otros métodos. Como se
observa UnifiedRank mejora el rendimiento de MA-SingleDocSum en un 0.41% y con
respecto a DE lo mejora en un 3.82%.
Tabla 5-6 Comparación de DE con otros métodos con DUC2001 (ROUGE-1)
Método Mejora obtenida por el método UnifiedRank (%)
DUC2002
MA-SingleDocSum 0.41
DE 3.82
FEOM 4.09
NetSum 7.82
CRF 10.16
QSC 8.05
SVM 12.13
Manifold Ranking 14.54
Teniendo en cuenta que ROUGE-2 evalúa bi-gramas coincidentes entre el resumen
generado y los resúmenes de referencia, y ROUGE-1 evalúa uni-grama, MA-
SingleDocSum en el resumen presenta más parejas de palabras juntas que se
encuentran en los modelos de referencia que los otros métodos del estado del arte con
los que se realizó la comparación.
Resultados experimentales 99
Sin embargo, como los resultados obtenidos no permiten identificar que método obtiene
los mejores resultados en ambos conjuntos de datos, se plantea un ordenamiento
unificado de todos los métodos, que tiene en cuenta el puesto que ocupa el método en
cada medida. Para obtener el orden de los métodos, la Tabla 5-2 y la Tabla 5-3 se
transforman en la Tabla 5-7. El orden final en esta tabla (la última columna) fue calculado
de acuerdo a la Ecuación (5-3) [133].
9
19
)19()(
r
rRrmethodRan (5-3)
Donde Rr denota el número de veces que el método aparece en el puesto r-ésimo. El
número nueve es la cantidad de métodos con los cuales se hizo la comparación.
Tabla 5-7 Ordenamiento unificado de los métodos
Método Rr= Orden
Final 1 2 3 4 5 6 7 8 9
MA-SingleDocSum 2 1 0 0 0 1 0 0 0 3.33
DE 1 0 2 0 1 0 0 0 0 3.11
FEOM 0 2 0 2 0 0 0 0 0 3.11
UnifiedRank 1 1 0 0 1 1 0 0 0 2.89
NetSum 0 0 1 0 2 1 0 0 0 2.33
QSC 0 0 1 1 0 1 1 0 0 2.22
CRF 0 0 0 1 0 0 3 0 0 1.67
SVM 0 0 0 0 0 0 0 3 1 0.78
Manifold Ranking 0 0 0 0 0 0 0 1 3 0.56
Teniendo en cuenta los resultados de la Tabla 5-7, se puede observar lo siguiente:
El método MA-SingleDocSum ocupa el primer lugar en el ordenamiento unificado,
superando métodos como DE y UnifiedRank, a pesar de que en la medida de
ROUGE-1, estos métodos obtenían mejores valores.
El puntaje de los métodos de DE y FEOM es el mismo, estos métodos al igual que
MA-SingleDocSum también abordan la generación automática de resúmenes como
un problema de optimización, pero DE y FEOM utilizan el concepto de agrupamiento
en la representación de la solución.
El método UnifiedRank basado en grafos, supera métodos supervisados como
NetSum y CRF, probabilísticos como QCS, de reducción algebraica como SVM y
100 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Manifold Ranking. Sin embargo, es superado por los métodos basados en modelos
evolutivos.
Los métodos supervisados NetSum basado en redes neuronales y CRF basado en
etiquetamiento de secuencias, al igual que QSC basado en modelos probabilístico,
superaron los de reducción algebraica como SVM y Manifold Ranking.
Los resultados experimentales indican que la optimización que combina la búsqueda
global basada en población, con una búsqueda local para cada agente, acoplando de
esta forma la evolución genética con el aprendizaje de los individuos, como ocurre con el
método MA-SingleDocSum, es una línea de investigación prometedora. En este método
la representación de las soluciones es binaria, indicando la presencia o ausencia de la
oración en el resumen; mientras que en el caso de los métodos DE y FEOM la
representación es entera, indicando el grupo al cual pertenece la oración. Al final estos
métodos deben realizar otro proceso para la selección de las oraciones que conformarán
el resumen, esto hace que los métodos DE y FEOM realicen un proceso adicional para
obtener el resumen que no es necesario en el caso de MA-SingleDocSum.
Es importante resaltar que el método de ordenamiento unificado no tiene en cuenta el
porcentaje de mejora. En el caso de ROUGE-2, MA-SingleDocSum con DUC2002,
mejoró los métodos DE y FEOM con porcentajes considerablemente altos de 84.67% y
82.87%, respectivamente; y con DUC2001 a UnifiedRank, ED y FEOM en un 14.14%,
8.71% y 8.59%, respectivamente. De otro lado, MA-SingleDocSum es superado por
porcentajes más pequeños en la medida ROUGE-1, de 6.67%, 0.41% para DUC2001 y
DUC2002 respectivamente. Por lo anterior, si los porcentajes de mejora del MA-
SingleDocSum sobre los otros métodos se tuvieran en cuenta, la diferencia en el
ordenamiento unificado sería más amplia.
5.2 Algoritmo MA-MultiSumm
En esta sección, se presentan los resultados obtenidos del método MA-MultiSumm y la
comparación de éste con otros métodos del estado del arte.
Resultados experimentales 101
5.2.1 Conjunto de datos
Para la evaluación del algoritmo MA-MultiSumm se utilizaron los conjuntos de datos de la
Document Understanding Conference (DUC) de los años 2005 y 2006. La colección de
DUC2005 está conformada por cincuenta tópicos, cada uno contiene entre 25 y 50
documentos; y DUC2006 comprende cincuenta tópicos, cada uno con 25 documentos.
Además el resumen generado debe ser menor a 250 palabras, y se cuenta con varios
resúmenes de referencia para cada tópico. Para cada tópico el algoritmo se ejecutó
treinta veces (30) para obtener el promedio de cada medida para cada conjunto de datos.
La Tabla 5-8 presenta una breve descripción del conjunto de datos.
Tabla 5-8 Descripción de los conjuntos de datos usados
Ítem DUC 2005 DUC 2006
Número de tópicos 50 50
Número de documentos 1593 1250
Fuente de datos TREC2 AQUAINT
Longitud del resumen (en palabras) 250 250
5.2.2 Pre-procesamiento de datos
El pre-procesamiento de datos para múltiples documentos se realiza de acuerdo a lo
explicado para un documento en la sección 5.1.2.
5.2.3 Métricas de evaluación
La evaluación de la calidad de los resúmenes generados por el algoritmo MA-MultiSumm
propuesto en esta investigación, también fue realizada por medio de las métricas
proporcionadas por la herramienta de evaluación ROUGE [115] en su versión 1.5.5. Pero
en este caso, además de las medidas ROUGE-1 y ROUGE-2, se utiliza la medida
ROUGE-SU. Esta medida utiliza ROUGE-S (Lin 2004), la cual está basada en
estadísticas de co-ocurrencias de bigramas-skip. Un bigrama-skip se refiere a un par de
palabras, en el orden en que están en la oración, permitiendo saltos arbitrarios (palabras
intermedias) entre ellas. Este método mide la superposición de bigramas-skip entre un
2 http://trec.nist.gov/overview.html
102 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
resumen candidato y un conjunto de resúmenes de referencia. Dadas una oración de
referencia X, de longitud m, y una oración candidata Y, de longitud n, el cálculo de las
medidas precisión, recuerdo y F basada en bigramas-skip corresponde al cálculo de
ROUGE-S como se aprecia en las Ecuaciones (5-4) y (5-5).
)2,(
),(2
)2,(
),(222
mC
YXSKIPR
nC
YXSKIPP skipskip (5-4)
22
2
222
2
)1(
skipskip
skipskipskip
PR
PRF
(5-5)
Donde SKIP2(X,Y) es la cantidad de bigramas-skip que coinciden entre X e Y, se
encarga de controlar la importancia relativa de Pskip2 y Rskip2, y C es la función de
combinación que calcula la cantidad de bigramas-skip presentes en una oración.
ROUGE-SU adiciona el manejo de unigramas como conteo de unidades y un marcador al
inicio de las oraciones candidata y de referencia. En esta investigación se utiliza la
medida ROUGE-SU4.
5.2.4 Afinamiento de parámetros
El afinamiento de parámetros para múltiples documentos se realiza también teniendo en
cuenta un algoritmo Meta evolutivo [130] y usando una versión del algoritmo de la
búsqueda armónica [131]. La configuración de parámetros obtenida para el algoritmo
MA-MultiSumm es la siguiente: tamaño de la población ps=70 (número de agentes que
contiene la población), probabilidad de optimización op=0.25 (porcentaje de agentes de
la población que se optimiza), máxima longitud del resumen slm=275 (máximo de
palabras del resumen permitido durante el proceso evolutivo) y número máximo de
optimizaciones maxnumop=20 (número máximo que un agente es optimizado). Además,
un parámetro manejado en el pre-procesamiento llamado umbral de oraciones, el cual
asegura que cada oración del resumen tenga un mínimo de similitud a la colección de
documentos.
El número de evaluaciones de la función objetivo fue establecido en 15.000. Los
resultados presentados en esta sección fueron obtenidos evaluando resúmenes
Resultados experimentales 103
generados de 250 palabras, y promediando treinta ejecuciones del algoritmo, el cual fue
ejecutado sobre un PC Intel Core I3 CPU 2.99GHz con 3GB de RAM en Windows 7.
El proceso de afinación de pesos de la función objetivo de MA-MultiSumm, al igual que
para un documento, se divide en dos etapas (Referirse a la sección 5.1.4). Los pesos
encontrados para la función objetivo son: lambda =0.84 (peso ponderado que se asigna
al factor de cobertura de la función objetivo) y 1- (peso ponderado para el factor de
redundancia).
5.2.5 Comparación con diferentes métodos
DESAMC+DocSum [25]: Este trabajo propone un algoritmo de evolución diferencial
basado en parámetros de mutación y de cruce adaptativos, donde el modelo es
representado como un problema modificado de las p-medianas. Este enfoque
expresa la relación de oración con oración, resumen-a-documento y resumen-a-sub-
tópicos.
PLSA [99]: Este sistema propone un método basado en el análisis semántico latente
probabilístico, el cual permite representar las oraciones y las consultas como
distribuciones de probabilidad sobre los tópicos latentes. Este método combina
linealmente los puntajes de las características individuales en una puntuación global
de la oración para crear una clasificación, la cual es usada para seleccionar las
oraciones del resumen.
LFIPP [24]: El modelo es representado como un problema de optimización discreta.
En este artículo se propone un algoritmo de evolución diferencial adaptativo, con una
nueva estrategia de generación de vectores y un parámetro de tasa de cruce que es
adaptado gradualmente de acuerdo al proceso de búsqueda (la generación actual y
el máximo número de evaluaciones de la función objetivo).
MCMR [21]: MCMR (Máxima Cobertura y Mínima redundancia) es un enfoque
basado en optimización, que modela el resumen de textos como un problema de
programación lineal entera. Los algoritmos aplicados para resolver este problema son
Ramificación-y-poda, y optimización por enjambre de partículas binario. Este modelo
pretende optimizar la relevancia y la redundancia de forma simultánea.
HybHSum [106]: Este método plantea un modelo híbrido para la generación de
resúmenes de múltiples documentos como un modelo de predicción de dos pasos: un
104 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
modelo generativo para descubrir la jerarquía de tópicos y un modelo de regresión
para la inferencia. El método calcula los puntajes para las oraciones en los grupos de
documentos basado en sus características latentes mediante un modelo de tópicos
jerárquico. Luego, utilizando estas puntuaciones, un modelo de regresión es
entrenado con las características léxicas y estructurales de las oraciones, y las
puntuaciones de las oraciones son utilizadas para formar un resumen.
LEX [112]: Este enfoque realiza una ponderación de los términos de los documentos
para identificar los principales. Después hace agrupamiento de los términos usando
tres medidas (relaciones semánticas, similitudes e información mutua). Por último,
realiza optimización con dos enfoques: lineal, problema de un objetivo con pesos; y
lexicográfico, optimiza múltiples objetivos (la cobertura de la información, la
importancia, la redundancia y la coherencia del texto) en orden de prioridad.
SVR [79]: Este artículo presenta la aplicación de modelos de regresión en la
generación de resúmenes para múltiples documentos orientada a consulta. Este
trabajo usa la regresión de vectores soporte (SVR) para estimar la importancia de
una oración en un conjunto de documentos, que será resumido a través de un
conjunto de características predefinidas.
iRANK [107]: Este artículo propone un marco de trabajo de ordenamiento no
supervisado llamado ordenamiento interactivo (iRANK). Este diseña dos estrategias
de refinamiento de ordenamiento que permiten usar la retroalimentación para
soportar el aprendizaje mutuo entre los dos algoritmos de ordenamiento base con el
fin de mejorar los resultados finales del ordenamiento global. Este proceso de
refinamiento continúa hasta que los dos algoritmos de ordenamiento base no pueden
aprender del otro.
HierSum [102]: Este método utiliza un modelo jerárquico estilo LDA para representar
la especificidad del contenido como una jerarquía de distribuciones de vocabulario de
tópicos. Hiersum divide la distribución del contenido en múltiples sub-tópicos. Así
como se generan distribuciones de contenido específico, se genera una distribución
de contenido general para una colección de documentos. Las palabras de contenido
en cada oración pueden ser generadas ya sea por el tópico de contenido general o
los sub-tópicos de contenido para esa oración, y las palabras desde la distribución de
contenido general son consideradas cuando se construye el resumen.
Centroid [95]: Este artículo propone un generador de resúmenes llamado MEAD, que
usa los centroides de grupo producidos por un sistema de detección y seguimiento de
Resultados experimentales 105
tópicos. Este método extrae las oraciones más importantes de un conjunto de
oraciones basado en la combinación lineal de los puntajes de tres características:
centroide, posición y solapamiento con la primera oración. A este valor se le resta
una penalidad por redundancia. Cada documento de cada grupo se califica y se
ordena la oración de cada documento de acuerdo al puntaje.
SNMF +SLSS [94]: Este trabajo se basa en el análisis semántico a nivel de la oración
y la factorización de matriz no negativa simétrica. Primero se calcula las similitudes
oración-oración utilizando el análisis semántico y la matriz de similitudes. Luego la
factorización de la matriz simétrica es usada para agrupar oraciones dentro de
grupos. Por último, las oraciones más informativas desde cada grupo son
seleccionadas para formar el resumen.
TMR [101] : El método está compuesto por dos sub-procesos. El primer proceso
calcula la distribución de tópicos de los documentos y la consulta. El segundo
proceso ajusta la distribución de tópicos de manera que las distribuciones de los
tópicos relacionados con la consulta se fortalezcan.
MMR [110]: El método MMR selecciona una oración de forma iterativa con la mayor
similitud con la consulta y la similitud más baja con las oraciones ya seleccionadas,
con el fin de promover la novedad en el resumen.
5.2.6 Resultados y discusión
Comparación con DUC2005
La Tabla 5-9 presenta los resultados obtenidos en las medidas ROUGE1, ROUGE-2 y
ROUGE-SU4, para MA-MultiSumm y otros métodos del estado del arte para el conjunto
de datos DUC2005. Los resultados presentados aquí son el promedio de 30 ejecuciones.
Como se muestra en esta tabla, el algoritmo propuesto (MA-MultiSumm) mejora los otros
métodos en todas las medidas ROUGE.
La Tabla 5-10 muestra la mejora producida por MA-MultiSumm con respecto a los otros
métodos, en las medidas ROUGE sobre el conjunto de datos DUC2005, calculado
también por medio de la Ecuación (5-2). Comparando con DESAMC+DocSum (segundo
puesto), en esta tabla se muestra que MA-MultiSumm mejora el rendimiento en 1.63%
para ROUGE-1, 5.72% para ROUGE-2 y 1.13% para ROUGE-SU4.
106 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Tabla 5-9 Puntajes ROUGE de los métodos con DUC2005
Método ROUGE-1 ROUGE-2 ROUGE-SU4
DESAMC+DocSum 0.3937 (2) 0.0822 (2) 0.1418 (2)
MA-MultiSumm 0.4001 (1) 0.0868 (1) 0.1434 (1)
PLSA 0.3913 (3) 0.0811 (3) 0.1389 (5)
LFIPP 0.3905 (4) 0.0804 (4) 0.1403 (3)
MCMR 0.3891 (5) 0.0790 (6) 0.1392 (4)
HybHSum 0.3812 (8) 0.0749 (8) 0.1354 (7)
LEX 0.3760 (10) 0.0735 (10) 0.1316 (10)
SVR 0.3849 (7) 0.0757 (7) 0.1335 (8)
iRANK 0.3880 (6) 0.0802 (5) 0.1373 (6)
HierSum 0.3753 (11) 0.0745 (9) 0.1324 (9)
Centroid 0.3535 (12) 0.0638 (12) 0.1198 (12)
SNMF +SLSS 0.3501 (13) 0.0604 (13) 0.1172 (13)
TMR 0.3775 (9) 0.0715 (11) 0.1304 (11)
MMR 0.3479 (14) 0.0601 (14) 0.1134 (14)
Tabla 5-10 Comparación de MA-MultiSumm con otros métodos con DUC2005
Mejora obtenida por MA-MultiSumm (%)
Método ROUGE-1 ROUGE-2 ROUGE-SU4
DESAMC+DocSum 1.63 5.72 1.13
PLSA 2.25 7.15 3.24
LFIPP 2.46 8.08 2.21
MCMR 2.83 10.00 3.02
HybHSum 4.96 16.02 5.91
LEX 6.41 18.23 8.97
SVR 3.95 14.80 7.42
iRANK 3.12 8.35 4.44
HierSum 6.61 16.64 8.31
Centroid 13.18 36.21 19.70
SNMF +SLSS 14.28 43.87 22.35
TMR 5.99 21.54 9.97
MMR 15.00 44.59 26.46
Comparación con DUC2006
Con el conjunto de datos de DUC2006 (Tabla 5-11), los resultados de la evaluación
muestran que el método DESAMC+DocSum es el único que supera al algoritmo
propuesto MA-MultiSumm en la medida de ROUGE-2. En la medida ROUGE-1, MA-
Resultados experimentales 107
MultiSumm es superado por DESAMC+DocSum, PLSA, HybHSum y LFIPP. En el caso
de ROUGE-SU, es superado por los métodos DESAMC+DocSum, PLSA y LFIPP.
Tabla 5-11 Puntajes ROUGE de los métodos con DUC2006
Método ROUGE-1 ROUGE-2 ROUGE-SU4
DESAMC+DocSum 0.4345 (1) 0.0989 (1) 0.1569 (1)
MA-MultiSumm 0.4195 (5) 0.0986 (2) 0.1526 (4)
PLSA 0.4328 (2) 0.0970 (3) 0.1557 (2)
LFIPP 0.4209 (4) 0.0934 (4) 0.1534 (3)
MCMR 0.4184 (6) 0.0928 (5) 0.1512 (5)
HybHSum 0.4300 (3) 0.0910 (10) 0.1510 (6)
LEX 0.4030 (9) 0.0913 (8) 0.1449 (10)
SVR 0.4018 (10) 0.0926 (6) 0.1485 (8)
iRANK 0.4032 (8) 0.0912 (9) 0.1450 (9)
HierSum 0.4010 (11) 0.0860 (11) 0.1430 (11)
Centroid 0.3807 (13) 0.0785 (13) 0.1330 (13)
SNMF +SLSS 0.3955 (12) 0.0855 (12) 0.1429 (12)
TMR 0.4063 (7) 0.0913 (7) 0.1504 (7)
MMR 0.3716 (14) 0.0757 (14) 0.1308 (14)
En la Tabla 5-12 se muestra el mejoramiento de DESAMC+DocSum con respecto a los otros métodos, en cada una de las medidas sobre el conjunto de datos de DUC2006. Como se observa, para ROUGE-1 DESAMC+DocSum supera en 3.67% a MA-MultiSumm. En el caso de ROUGE-2, la diferencia entre estos dos métodos es solo de 0.30%, y para ROUGE-SU4 lo supera en 2.82%.
Tabla 5-12 Comparación de MA-MultiSumm con otros métodos con DUC2006
Mejora obtenida por DESAMC+DocSum (%)
Método ROUGE-1 ROUGE-2 ROUGE-SU4
MA-MultiSumm 3.67 0.30 2.82
PLSA 0.39 1.96 0.77
LFIPP 3.23 5.89 2.28
MCMR 3.85 6.57 3.77
HybHSum 1.05 8.68 3.91
LEX 7.82 8.32 8.28
SVR 8.14 6.80 5.66
iRANK 7.76 8.44 8.21
HierSum 8.35 15.00 9.72
Centroid 14.13 25.99 17.97
108 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
SNMF+SLSS 9.86 15.67 9.80
TRM 6.94 8.32 4.32
MMR 16.93 30.65 19.95
Debido a que los resultados obtenidos no permiten identificar cual método obtiene los
mejores resultados en ambos conjuntos de datos, se plantea nuevamente un método de
ordenamiento unificado con todos los métodos, teniendo en cuenta la Ecuación (5-3),
donde el nueve se reemplaza por catorce, porque se refiere a los métodos con los que se
está realizando la comparación. Para obtener este ordenamiento los resultados de la
Tabla 5-9 y la Tabla 5-11 se transforman en la Tabla 5-13.
Tabla 5-13 Ordenamiento unificado de los métodos
Rr= Orden
Final Métodos 1 2 3 4 5 6 7 8 9 10 11 12 13 14
DESAMC+DocSum 3 3 0 0 0 0 0 0 0 0 0 0 0 0 5.8
MA-MultiSumm 3 1 0 1 1 0 0 0 0 0 0 0 0 0 5.4
PLSA 0 2 3 0 1 0 0 0 0 0 0 0 0 0 5.1
LFIPP 0 0 2 4 0 0 0 0 0 0 0 0 0 0 4.9
MCMR 0 0 0 1 3 2 0 0 0 0 0 0 0 0 2.9
HybHSum 0 0 1 0 0 1 1 2 0 1 0 0 0 0 2.6
LEX 0 0 0 0 0 0 0 1 1 4 0 0 0 0 2.4
SVR 0 0 0 0 0 1 2 2 0 1 0 0 0 0 2.1
iRANK 0 0 0 0 1 2 0 1 2 0 0 0 0 0 2.1
HierSum 0 0 0 0 0 0 0 0 2 0 4 0 0 0 2.0
Centroid 0 0 0 0 0 0 0 0 0 0 0 3 3 0 1.1
SNMF +SLSS 0 0 0 0 0 0 0 0 0 0 0 3 3 0 1.1
TMR 0 0 0 0 0 0 3 0 1 0 2 0 0 0 1.0
MMR 0 0 0 0 0 0 0 0 0 0 0 0 0 6 0.4
Teniendo en cuenta los resultados de la Tabla 5-13, se puede observar lo siguiente:
El método DESAMC+DocSum ocupa el primer lugar en el ordenamiento, enfocando
la optimización en un problema de agrupamiento de oraciones. Durante el proceso
evolutivo realiza 50.000 evaluaciones de la función objetivo.
El método MA-MultiSumm ocupa el segundo lugar en el ordenamiento, en este caso,
la representación del problema se hace por medio de las oraciones que forman parte
del resumen y el número de evaluaciones de la función objetivo es de 15.000. MA-
MultiSumm supera métodos basados en agrupamiento y modelos probabilísticos
Resultados experimentales 109
como PLSA que es un que aplica (tercer puesto en el ordenamiento) - un modelo
probabilístico que aplica la técnica de agrupamiento - y HybHSum (sexto) que utiliza
un modelo probabilístico para obtener los tópicos y luego el aprendizaje de máquina
para entrenar un modelo de regresión lineal. También supera modelos evolutivos
como LFIPP (cuarto), basado en evolución diferencial y realiza 50.000 evaluaciones
de la función objetivo; y supera a MCMR (quinto) basado en el modelo de
optimización por enjambres de partículas binario que realiza 15.000 evaluaciones de
la función objetivo y para el cálculo de esta función utiliza la medida de similitud de
google y la ley de cosenos.
LEX es un método que utiliza agrupamiento de términos y supera los resultados de
algunos métodos probabilísticos, de reducción algebraica y métodos basados en
clasificación.
Los métodos SVR e iRANK, ocupan el mismo puesto en la clasificación, aunque SVR
es un método de reducción algebraica e iRANK combina dos métodos de
clasificación que se retroalimentan entre sí.
Los métodos Centroid y SNMF +SLSS, ocupan el mismo puesto con un rendimiento
muy similar en ambos conjuntos de datos, a pesar de que Centroid realiza
agrupamiento basado en centroides; y SNMF +SLSS hace análisis semántico a nivel
de oración (SLSS) y luego factorización de matrices no negativas simétricas (SNMF).
TMR solo supera a MMR, aunque utiliza un modelo probabilístico para estimar la
distribución de los tópicos y luego aprendizaje de máquina para estimación multi-
nomial, similar a HybHSum que ocupa el sexto lugar.
MMR ocupa el último lugar en la clasificación, obteniendo los peores resultados para
los dos conjuntos de datos en todas las medidas de ROUGE utilizadas.
Los resultados experimentales indican que la optimización que combina la búsqueda
global basada en población (CHC), con una búsqueda local heurística para algunos de
los agentes (búsqueda codiciosa), como es el caso del algoritmo memético MA-
MultiSumm, es un área de investigación prometedora para el problema de generación
automática de resúmenes para múltiples documentos. Esto debido a que aunque este
algoritmo propuesto ocupa el segundo puesto en la clasificación, el método que lo supera
(DESAMC+DocSum) realiza 50.000 evaluaciones de la función objetivo, excediendo tres
veces las evaluaciones de MA-MultiSumm (50.000 vs 15.000). Teniendo en cuenta que
110 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
las funciones objetivo planteadas por los dos métodos son parecidas, implica un tiempo
de ejecución mayor de este algoritmo frente al método MA-MultiSumm.
En el método MA-MultiSumm la representación de las soluciones es binaria, indicando la
aparición o no de la oración en el resumen; mientras que en el caso del método
DESAMC+DocSum la representación es entera, indicando el grupo al cual pertenece la
oración. Un proceso posterior de selección de las oraciones que conformarán el resumen
desde los grupos es necesario. Esto involucra que el método DESAMC+DocSum debe
realizar un proceso adicional para obtener el resumen que no es necesario en el caso de
MA-MultiSumm.
Es importante resaltar que el método de ordenamiento unificado no tiene en cuenta el
porcentaje de mejora. En el caso de DUC2005, MA-MultiSumm mejora el rendimiento de
DESAMC+DocSum en 1.63% para ROUGE-1, 5.72% para ROUGE-2 y 1.13% para
ROUGE-SU4. Para DUC2006, DESAMC+DocSum supera a MA-MultiSumm en 3.67%
para ROUGE-1, 0.30% para ROUGE-2 y 2.82% para ROUGE-SU4. Si estos porcentajes
de mejora sobre los otros métodos se tuvieran en cuenta, el algoritmo MA-MultiSumm
quedaría de primero con respecto a DESAMC+DocSum.
Finalmente, es importante mencionar que debido a que no se logró tener acceso a los
resultados obtenidos en las experimentaciones de los métodos del estado del arte, para
cada tópico de los conjuntos de datos, no se pudo realizar pruebas estadísticas no
paramétricas para evaluar la significancia estadística de los resultados obtenidos en los
dos algoritmos presentados en esta tesis. Tampoco se pudo replicar las
experimentaciones por no tener acceso público al código fuente de los algoritmos y las
implementaciones propias realizadas con base en la información reportada en los
artículos no lograron los resultados publicados por los autores de los mismos.
6 Conclusiones, Recomendaciones y Trabajo Futuro
6.1 Conclusiones
6.1.1 Generación de resúmenes de un solo documento
Con respecto al algoritmo para generación automática de resúmenes de un solo
documento, las conclusiones son las siguientes:
En esta tesis se propone un nuevo algoritmo para generación automática de resúmenes
de un solo documento (MA-SingleDocSum). Este algoritmo enfoca la generación de
resúmenes extractivos como un problema de optimización binaria, pero a diferencia de
los métodos del estado del arte, en esta propuesta se combina la búsqueda global
basada en población con una heurística de búsqueda local que utiliza conocimiento del
problema para re-direccionar la búsqueda hacia una mejor solución (enfoque memético).
El algoritmo MA-SingleDocSum fue comparado con otros métodos del estado del arte,
usando medidas de ROUGE sobre los conjuntos de datos DUC2001 y DUC2002, y los
resultados han mostrado que MA-SingleDocSum supera los métodos del estado del arte
con los que se comparó.
La definición de los operadores reproductivos del algoritmo MA-SingleDocSum
propuesto, se realizó combinando operadores que favorecen más la calidad (valor de
aptitud) de los agentes con otros que favorecen más la diversidad. De esta forma se
logró que en la población se mantuviera un balance entre la calidad y la diversidad de los
agentes, con los siguientes operadores: (1) Selección basada en el Rango para escoger
el primer padre de un nuevo descendiente, mediante el cual se pretende evitar el dominio
de los agentes más aptos, favoreciendo la diversidad en la población; (2) Selección por
Ruleta para escoger el segundo padre, a través de la cual se favorece mayormente la
112 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
presión selectiva; (3) Cruce de Un Punto para generar la descendencia, que también
favorece la presión selectiva mediante la conservación de gran parte del material
genético de los padres; (4) Mutación Multi-bit que ayuda a la diversidad de la población; y
(5) Reemplazo por Competencia Restringida cuya adaptación favorece la diversidad, con
la escogencia aleatoria del grupo y la presión selectiva al eliminar al peor.
El algoritmo de optimización local usado en MA-SingleDocSum es el de Búsqueda Local
Guiada, el cual mantiene una estrategia de explotación dirigida por la información del
problema, mejorando la calidad de los resúmenes obtenidos con respecto a otras
técnicas de optimización local evaluadas. El algoritmo de Búsqueda Local Guiada
incorpora estrategias para explotar las características (oraciones) con menor costo
(mayor aporte en la función objetivo), pero también permite que las oraciones que tienen
menor aporte no siempre sean penalizadas y puedan volver a ser parte de la solución
candidata, esto es importante, ya que hace menos probable que al generar los vecinos
se quede atrapado en un óptimo local. En este algoritmo es muy importante el costo de
las características y un parámetro de regularización (). Para la definición del costo se
tomó el valor de la función objetivo de las características cuyo cálculo depende solo de la
oración de forma individual, es decir, Posición y Relación con el título, ya que
características como Longitud, Cohesión y Cobertura dependen para su cálculo de todas
las oraciones que existen en el resumen (solución candidata). Por lo tanto, el costo es la
combinación de los valores de aptitud de Posición y Relación con el título. Este resultado
muestra la importancia de estas dos características, apoyando otras investigaciones que
también presentan estas características como importantes para el problema de un
documento. La configuración del parámetro de regularización () se define con un valor
de 0.5, dando un peso considerable a las penalizaciones en la función objetivo
disminuida, esto quiere decir, que cuando se encuentren oraciones penalizadas en la
solución el valor de la función objetivo va a ser menor.
Para la definición de la función objetivo en el algoritmo MA-SingleDocSum, se revisaron
características como: Posición (dos formas de cálculo), Longitud de la oración,
Frecuencia de las palabras en el contenido, Puntaje de la oración basada en sus
términos, Relación con el Título, Cohesión (dos formas de cálculo), Legibilidad, Cobertura
de términos y Cobertura de oraciones (dos formas de cálculo). Después de este proceso
de revisión, se definió una función objetivo que permite que el algoritmo MA-
Conclusiones, recomendaciones y trabajo futuro 113
SingleDocSum obtenga mejores resultados comparado con otros métodos del estado del
arte, conformada por las siguientes características: Posición, Relación con el título,
Longitud, Cohesión y Cobertura. Luego en el proceso de afinación de los pesos de la
función objetivo, se encontró que las características con mayor peso fueron la Posición y
Relación con el título, seguido de Longitud y por último de Cohesión y Cobertura. Este
resultado también apoya otras investigaciones previas que muestran la importancia de la
posición y la relación con el título para este problema de un solo documento, y aparece la
longitud que también está presenta en otras investigaciones pero con menos importancia.
La calidad de los resúmenes generados por el algoritmo MA-SingleDocSum propuesto se
evaluó por medio de las medidas ROUGE-1 y ROUGE-2, sobre los conjuntos de datos de
DUC2001 y DUC2002. Al compararse frente a otros métodos del estado del arte, con la
medida ROUGE-2 el algoritmo MA-SingleDocSum presenta los mejores resultados,
superando a FEOM (metaheurístico) en un 8.59% con DUC2001 y a UnifiedRank (grafos)
en un 6.42% con DUC2002. En el caso de la medida ROUGE-1 para el conjunto de
DUC2001 es superado por ED (metaheurístico) en un 6.67%; y para DUC2002 por
UnifiedRank en 0.41%. Además en la clasificación unificada de todos los métodos, el
algoritmo MA-SingleDocSum ocupa el primer lugar superando los métodos del estado del
arte con los que se realiza la comparación.
6.1.2 Generación de resúmenes de múltiples documentos
Con respecto al algoritmo para generación automática de resúmenes de múltiples
documento, las conclusiones son las siguientes:
En esta tesis se propone un nuevo algoritmo memético para generación automática de
resúmenes extractivos de múltiples documentos (MA-MultiSumm) basado en CHC y en
búsqueda local codiciosa. Las modificaciones más importantes con respecto al algoritmo
original CHC, son: (1) el valor inicial del umbral es más pequeño (0.025×L) que en el
algoritmo original de CHC (0.25×L), debido a que el agente es representado en este
problema por muchos ceros y pocos unos (oraciones seleccionadas en el resumen),
haciendo que los agentes sean muy similares entre ellos; (2) se aplica un algoritmo de
búsqueda local a algunos agentes para encontrar el mejor óptimo local; y (3) en el
cataclismo, se preservan los dos mejores individuos, los demás individuos son creados
aleatoriamente, y el umbral que evita el incesto entre los padres toma el valor inicial. En
114 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
el algoritmo de búsqueda local codiciosa del primer mejor usado como optimizador, se
incluye conocimiento del problema por medio del criterio para incluir o eliminar una
oración del resumen candidato, así: la oración con el valor más alto en el factor de
cobertura se incluye en el resumen y la del valor más bajo se elimina.
Para la definición de la función objetivo en el algoritmo MA-MultiSumm, se revisaron
características como: Posición, Longitud de la oración, Centralidad de los términos
representativos (tres formas de cálculo), Cobertura de oraciones (tres formas de cálculo)
y Redundancia (dos formas de cálculo). Después de este proceso, se definió una función
objetivo que permite que el algoritmo MA-MultiSumm obtenga resultados comparables a
los métodos del estado del arte, conformada por las siguientes características: Cobertura
y Redundancia. Luego en el proceso de afinación de los pesos de la función objetivo, se
encontró que la característica con mayor peso fue la de Cobertura. Este resultado apoya
otras investigaciones que muestran la importancia de la cobertura para este problema de
múltiples documentos, en el cual, como no se tiene un título (como ocurre para un
documento) se debe tratar de seleccionar las oraciones que más se parecen al contenido
general de toda la colección de documentos. Además también se muestra la importancia
de la Redundancia como una característica de la función objetivo, para evitar que el
resumen final tenga oraciones que repitan la misma información.
Teniendo en cuenta que para la generación automática de múltiples documentos basada
en algoritmos meméticos, es necesario definir: una función objetivo que busque que el
resumen contenga las principales temáticas de los documentos; esquemas de evolución
a nivel de población (selección, cruce, mutación y reemplazo de los agentes) que
busquen mantener un balance entre calidad y diversidad de los agentes; y un algoritmo
de búsqueda local que permita la explotación de la vecindad de las soluciones generadas
incluyendo conocimiento del problema. La metodología usada en el desarrollo de esta
tesis doctoral permitió, abordar este problema por medio de iteraciones, centrándose
inicialmente en el estudio de las características que harían parte de la función objetivo
con el uso de una heurística que no necesitaba definir esquemas de evolución ni
búsqueda local. Para luego centrarse en la definición de la configuración del algoritmo
memético (esquemas de evolución y algoritmo de búsqueda local).
Conclusiones, recomendaciones y trabajo futuro 115
La calidad de los resúmenes generados por el algoritmo MA-MultiSumm propuesto se
evaluó por medio de las medidas ROUGE-1, ROUGE-2 y ROUGE-SU4. Al compararse
frente a otros métodos del estado del arte sobre el conjunto de datos de DUC2005, el
algoritmo MA-MultiSumm supera todos los métodos en todas las medidas.
DESAMC+DocSum que queda de segundo es superado en un 1.63% con ROUGE-1, en
5.72% con ROUGE-2 y en 1.13% con ROUGE-SU4. Con respecto al conjunto de datos
de DUC2006, DESAMC+DocSum supera todos los métodos en todas las medidas, MA-
MultiSumm con ROUGE-2 es superado en un 0.30%; con ROUGE-1 es superado en un
3.67%; y con ROUGE-SU4 es superado en un 2.82%.
En la clasificación unificada realizada con los métodos que se comparó, el algoritmo MA-
MultiSumm ocupa el segundo lugar, superado sólo por DESAMC+DocSum. Sin embargo,
el resultado es prometedor, teniendo en cuenta que la diferencia es mínima y que el
tiempo de ejecución del algoritmo MA-MultiSumm es más corto que el de
DESAMC+DocSum, dado que el primero solo hace 15.000 evaluaciones de la función
objetivo y el segundo 50.000. Además DESAMC+DocSum enfoca la solución con un
proceso de agrupamiento y debe hacer un proceso posterior para escoger las oraciones
que deben ir en el resumen. En el caso de MA-MultiSumm las oraciones del resumen se
toman directamente de la mejor solución obtenida al final de la ejecución del algoritmo
evolutivo. El algoritmo MA-MultiSumm obtuvo mejores resultados en todas las medidas
con respecto a métodos del estado del arte basados en grafos, reducción algebraica,
probabilísticos, aprendizaje de máquina y centroide.
6.1.3 Generales
La función objetivo es un aspecto muy importante en el problema de la generación
automática de resúmenes de textos y además es uno de los de mayor complejidad, esto
debido a que no se cuenta con una definición exacta de las características que la deben
componer para obtener resúmenes de calidad, coherentes e independientes del tipo de
documento o colección que se espera resumir. Por lo tanto, las investigaciones
realizadas a la fecha definen características que permiten aproximarse a generar un buen
resumen, pero aún falta mucho trabajo por realizar en este sentido. En el desarrollo de
esta tesis doctoral se encontró que la variación en los componentes de la función objetivo
y en la forma de calcularla afectan considerablemente los resultados en la calidad de los
resúmenes.
116 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
En cuanto a la evaluación de calidad de los resúmenes generados, las medidas más
usadas y aceptadas por la comunidad científica, parten de resúmenes de referencia
(realizados por humanos) que no son exactos, es decir, cada resumen de referencia es
diferente a los otros, esto hace que la evaluación de un buen resumen sea también una
tarea muy compleja. Además no existe un sistema de evaluación que permita de forma
automática (como lo permite ROUGE) evaluar no solo la coincidencia de N-gramas sino
también la coherencia del resumen, aspecto muy importante para que los resultados de
la evaluación sean más confiables. El uso de jueces (evaluación extrínseca) para evaluar
la coherencia, hace que el proceso de evaluación sea muy costoso en tiempo y dinero, e
incorpora subjetividad en los resultados.
Debido a la complejidad que presenta el diseño de los algoritmos meméticos, por la
cantidad de combinaciones que se pueden presentar entre los esquemas seleccionados
de cada uno de los operadores, en el desarrollo de esta tesis, se utilizó un enfoque
hiperheurístico para orientar la selección de una combinación apropiada para el problema
de generación automática de resúmenes de textos, sin embargo, este enfoque no
encontró resultados comparables con los métodos de estado del arte, ya que fue
necesario reducir la cantidad de esquemas por cada operador para reducir de igual forma
el tiempo de ejecución del mismo. Por esto, aunque los algoritmos meméticos presentan
muy buenos resultados en esta tesis doctoral, para seguir trabajando con ellos, se hace
necesario encontrar alternativas que guíen el proceso de selección de estas
combinaciones, haciendo más efectivo y menos complejo su diseño.
6.2 Recomendaciones
Debido a la dificultad que se presentó para evaluar la significancia estadística de los
resultados obtenidos por los dos algoritmos propuestos con respecto a los métodos del
estado del arte, se recomienda que las investigaciones en el área de generación
automática de resúmenes de textos, hagan público los resultados obtenidos por cada
tópico de los conjuntos de datos y/o el código fuente para poder replicar las
experimentaciones.
Conclusiones, recomendaciones y trabajo futuro 117
6.3 Trabajo Futuro
Se espera continuar el trabajo de esta tesis doctoral, mediante las siguientes líneas de
acción:
Metaheurísticas. Teniendo en cuenta que los algoritmos para la generación
automática de uno y de múltiples documentos basados en metaheurísticas presentan
actualmente los mejores resultados, se hace necesario seguir abordando este
problema mediante el uso de otras metaheurísticas, como: procedimiento de
búsqueda del pescador, búsqueda Cuco, entre otras. Específicamente en algoritmos
meméticos, se espera proponer un enfoque hiperheurístico para estudiar otros
esquemas de selección, cruce, mutación, reemplazo y búsqueda local, no estudiados
hasta el momento y analizar los resultados que se obtengan de dicho trabajo.
Además, como la afinación de un algoritmo memético es muy compleja por la
cantidad de combinaciones que se pueden presentar entre los valores de los
parámetros, se espera explorar el uso de los arreglos de cobertura que se han
empezado a usar para disminuir la complejidad de dicha tarea.
Función objetivo. Inclusión de otras características en la función objetivo que
permitan obtener oraciones más relevantes y cercanas a los resúmenes de
referencia. Además tener en cuenta otras medidas de similitud entre oraciones como
la medida de coseno suave [134].
Conjuntos de datos. Evaluar la calidad de los resúmenes generados por los
algoritmos meméticos propuestos con otros conjuntos de datos de noticias, para
analizar su desempeño. También evaluar los algoritmos meméticos propuestos con
otros géneros de documentos (artículos científicos, blogs, entre otros), para revisar si
con la estructura de estos tipos de documentos la función objetivo y la configuración
de los algoritmos siguen reportando buenos resultados o se necesita realizar ajustes
a los mismos. Con respecto, a documentos de texto más grandes, como los artículos
de investigación, se hace necesario generar una base de datos, con los resúmenes
de referencia, que permita abordar de forma más amplia (en otro contexto) el
problema de generación automática extractiva de múltiples documentos. Además
generar bases de datos con los resultados de la calidad de los resúmenes detallados
118 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
por cada tópico de los conjuntos de datos, para realizar pruebas estadísticas no
paramétricas (Friedman y Wilcoxon), permitiendo evaluar la significancia estadística
de los resultados.
Resúmenes orientados a consulta. Realizar una propuesta para generación
automática extractiva de un solo documento basado en consulta, usando el enfoque
desarrollado en el algoritmo memético propuesto, y aplicarlo en la generación de
snippets que luego se muestren como resultados en un buscador o meta-buscador
web.
Bibliografía
[1] A. Porselvi and S. Gunasundari, "Survey on web page visual summarization," International Journal of Emerging Technology and Advanced Engineering, vol. 3, pp. 26-32, 2013.
[2] N. Kumaresh and B. Ramakrishnan, "Graph Based Single Document Summarization," in Data Engineering and Management. vol. 6411, R. Kannan and F. Andres, Eds., ed: Springer Berlin Heidelberg, 2012, pp. 32-35.
[3] K. Wu, L. Li, J. Li, and T. Li, "Ontology-enriched multi-document summarization in disaster management using submodular function," Information Sciences, vol. 224, pp. 118-129, 2013.
[4] D. M. Zajic, B. J. Dorr, and J. Lin, "Single-document and multi-document summarization techniques for email threads using sentence compression," Information Processing and Management, vol. 44, pp. 1600-1610, 2008.
[5] S. Osiński and D. Weiss, "A concept-driven algorithm for clustering search results," IEEE Intelligent Systems, vol. 20, pp. 48-54, 2005.
[6] F. S. C. Tseng and A. Y. H. Chou, "The concept of document warehousing for multi-dimensional modeling of textual-based business intelligence," Decision Support Systems, vol. 42, pp. 727-744, 2006.
[7] D. Zhang, C. Zhai, and J. Han, "Topic Cube: Topic Modeling for OLAP on Multidimensional Text Databases," in SIAM International Conference on Data Mining, Sparks, NV, USA, pp. 1124-1135, 2009.
[8] C. X. Lin, B. Ding, J. Han, F. Zhu, and B. Zhao, "Text Cube: Computing IR Measures for Multidimensional Text Database Analysis," in Eighth IEEE International Conference Data Mining (ICDM), Pisa, pp. 905-910, 2008.
[9] W. Song, L. Cheon Choi, S. Cheol Park, and X. Feng Ding, "Fuzzy evolutionary optimization modeling and its applications to unsupervised categorization and extractive summarization," Expert Systems with Applications, vol. 38, pp. 9112-9121, 2011.
[10] M. Litvak, M. Last, and M. Friedman, "A new approach to improving multilingual summarization using a genetic algorithm," in 48th Annual Meeting of the Association for Computational Linguistics (ACL), Uppsala, Sweden, 2010, pp. 927-936.
[11] M. A. Fattah and F. Ren, "GA, MR, FFNN, PNN and GMM based models for automatic text summarization," Computer Speech and Language, vol. 23, pp. 126-144, 2009.
[12] A. Kiani and M. R. Akbarzadeh, "Automatic Text Summarization Using Hybrid Fuzzy GA-GP," in IEEE International Conference on Fuzzy Systems, Vancouver, BC, pp. 977-983, 2006.
[13] P.-K. Dehkordi, F. Kumarci, and H. Khosravi, "Text Summarization Based on Genetic Programming," International Journal of Computing and ICT Research, vol. 3, pp. 57-64, 2009.
[14] M. S. Binwahlan, N. Salim, and L. Suanmali, "Fuzzy swarm based text summarization," Computer Sciences, vol. 5, pp. 338–346., 2009.
[15] M. S. Binwahlan, N. Salim, and L. Suanmali, "Fuzzy swarm diversity hybrid model for text summarization," Information Processing and Management, vol. 46, pp. 571-588, 2010.
[16] D. Liu, Y. Wang, C. Liu, and Z. Wang, "Multiple Documents Summarization Based on Genetic Algorithm," in Fuzzy Systems and Knowledge Discovery. vol. 4223, L. Wang, L. Jiao, G. Shi, X. Li, and J. Liu, Eds., ed: Springer Berlin Heidelberg, 2006, pp. 355-364.
120 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
[17] V. Qazvinian, L. Sharif, and R. Halavati, "Summarising text with a genetic algorithm-based sentence extraction," International Journal of Knowledge Management Studies (IJKMS), vol. 4, pp. 426-444, 2008.
[18] R. García-Hernández and Y. Ledeneva, "Single Extractive Text Summarization Based on a Genetic Algorithm," in Pattern Recognition. vol. 7914, J. Carrasco-Ochoa, J. Martínez-Trinidad, J. Rodríguez, and G. Baja, Eds., ed: Springer Berlin Heidelberg, 2013, pp. 374-383.
[19] E. Shareghi and L. S. Hassanabadi, "Text summarization with harmony search algorithm-based sentence extraction," in 5th international conference on Soft computing as transdisciplinary science and technology Cergy-Pontoise, France, 2008, pp. 226-231.
[20] R. M. Aliguliyev, "Clustering techniques and discrete particle swarm Optimization algorithm for multi-document," An international journal Computational Intelligence, vol. 26, pp. 420-448, 2010.
[21] R. M. Alguliev, R. M. Aliguliyev, M. S. Hajirahimova, and C. A. Mehdiyev, "MCMR: Maximum coverage and minimum redundant text summarization model," Expert Systems with Applications, vol. 38, pp. 14514-14522, 2011.
[22] R. M. Alguliev, R. M. Aliguliyev, and C. A. Mehdiyev, "An Optimization Model and DPSO-EDA for Document Summarization," I.J. Information Technology and Computer Science. Published Online November 2011 in MECS (http://www.mecs-press.org/), vol. 5, pp. 59-68, 2011.
[23] R. M. Alguliev, R. M. Aliguliyev, and N. R. Isazade, "CDDS: Constraint-driven document summarization models," Expert Systems with Applications, vol. 40, pp. 458-465, 2013.
[24] R. M. Alguliev, R. M. Aliguliyev, and C. A. Mehdiyev, "Sentence selection for generic document summarization using an adaptive differential evolution algorithm," Swarm and Evolutionary Computation, vol. 1, pp. 213-222, 2011.
[25] R. M. Alguliev, R. M. Aliguliyev, and N. R. Isazade, "DESAMC+DocSum: Differential evolution with self-adaptive mutation and crossover parameters for multi-document summarization," Knowledge-Based Systems, vol. 36, pp. 21-38, 2012.
[26] R. M. Alguliev, R. M. Aliguliyev, and N. R. Isazade, "Multiple documents summarization based on evolutionary optimization algorithm," Expert Systems with Applications, vol. 40, pp. 1675-1689, 2013.
[27] R. M. Alguliev, R. M. Aliguliyev, and M. S. Hajirahimova, "GenDocSum + MCLR: Generic document summarization based on maximum coverage and less redundancy," Expert Systems with Applications, vol. 39, pp. 12460-12473, 2012.
[28] A. Abuobieda, N. Salim, Y. Kumar, and A. Osman, "An Improved Evolutionary Algorithm for Extractive Text Summarization," in Intelligent Information and Database Systems. vol. 7803, A. Selamat, N. Nguyen, and H. Haron, Eds., ed: Springer Berlin Heidelberg, 2013, pp. 78-89.
[29] R. M. Aliguliyev, "A new sentence similarity measure and sentence based extractive technique for automatic text summarization," Expert Systems with Applications, vol. 36, pp. 7764-7772, 2009.
[30] C. Cobos, C. Montealegre, M. Mejía, M. Mendoza, and E. León, "Web Document Clustering based on a New Niching Memetic Algorithm, Term-Document Matrix and Bayesian Information Criterion," in IEEE Congress on Evolutionary Computation (IEEE CEC), Barcelona, Spain, 2010, pp. 4629-4636.
[31] F. Neri and C. Cotta, "Memetic algorithms and memetic computing optimization: A literature review," Swarm and Evolutionary Computation, vol. 2, pp. 1-14, 2012.
[32] K. S. Pratt, "Design Patterns for Research Methods: Iterative Field Research," in Association for the Advancement of Artificial Intelligence, 2009.
[33] M. Mendoza, E. Alegría, M. Maca, C. Cobos, and E. León, "Multidimensional analysis model for a document warehouse that includes textual measures," Decision Support Systems, vol. 72, pp. 44-59, 2015.
Bibliografía 121
[34] M. Mendoza, S. Bonilla, C. Noguera, C. Cobos, and E. León, "Extractive single-document summarization based on genetic operators and guided local search," Expert Systems with Applications, vol. 41, pp. 4158-4169, 2014.
[35] M. Mendoza, C. Cobos, E. León, M. Lozano, F. Rodríguez, and E. Herrera-Viedma, "A New Memetic Algorithm for Multi-Document Summarization based on CHC Algorithm and Greedy Search," in 13th Mexican International Conference on Artificial Intelligence. LNCS journal, 2014.
[36] M. Mendoza, C. Cobos, and E. León, "Extractive Single-Document Summarization Based on Global-best Harmony Search and a Greedy Local Optimizer," in 14th Mexican International Conference on Artificial Intelligence, 2015, pp. XX-XX.
[37] M. Mendoza and L. Elizabeth, "Una Revisión de la Generación Automática de Resúmenes Extractivos," Revista UIS Ingenierías., vol. 12, pp. 7-27, 2013.
[38] C. Cobos, H. Muñoz-Collazos, R. Urbano-Muñoz, M. Mendoza, E. León, and E. Herrera-Viedma, "Clustering of web search results based on the cuckoo search algorithm and Balanced Bayesian Information Criterion," Information Sciences, vol. 281, pp. 248-264, 2014.
[39] C. Cobos, O. Rodriguez, J. Rivera, J. Betancourt, M. Mendoza, E. León, and E. Herrera-Viedma, "A hybrid system of pedagogical pattern recommendations based on singular value decomposition and variable data attributes," Information Processing and Management, vol. 49, pp. 607-625, 2013.
[40] K. Ježek and J. Steinberger, "Automatic Text Summarization (The state of the art 2007 and new challenges)," in Znalosti 2008, Bratislava, Slovakia, 2008, pp. 1-12.
[41] A. Nenkova and K. McKeown, "A Survey of Text Summarization Techniques," in Mining Text Data, C. C. Aggarwal and C. Zhai, Eds., ed: Springer US, 2012, pp. 43-76.
[42] E. Lloret and M. Palomar, "Text summarisation in progress: a literature review," Artificial Intelligence Review, vol. 37, pp. 1-41, 2012.
[43] D. Das and A. F. T. Martins, "A Survey on Automatic Text Summarization," 2007. [44] C. Manning, P. Raghavan, and H. Schütze. (2008). Introduction to Information Retrieval.
Available: http://www-nlp.stanford.edu/IR-book/ [45] H. Luhn, "The automatic creation of literature abstracts," IBM Journal of Research and
Development, vol. 2, pp. 159-165, 1958. [46] P. B. Baxendale, "Machine-made index for technical literature: an experiment," IBM
Journal of Research Development, vol. 2, pp. 354-361, 1958. [47] H. P. Edmundson, "New Methods in Automatic Extracting," Journal of the ACM (JACM),
vol. 16, pp. 264-285, 1969. [48] G. Salton, "Automatic Text Processing," Addison-Wesley Publishing Company, 1988. [49] C.-Y. Lin and E. Hovy, "Identifying topics by position," in Fifth conference on Applied
natural language processing (ANLC), San Francisco, CA, USA, 1997, pp. 283-290. [50] Y. Ko and J. Seo, "An effective sentence-extraction technique using contextual information
and statistical approaches for text summarization," Pattern Recognition Letters, vol. 29, pp. 1366-1371, 2008.
[51] J. Kupiec, J. Pedersen, and F. Chen, "A trainable document summarizer," in 18th annual international ACM SIGIR conference on Research and development in information retrieval, Seattle, Washington, United States, pp. 68-73, 1995.
[52] C. Aone, M. E. Okurowski, J. Gorlinsky, and B. s. Larsen, "A trainable summarizer with knowledge acquired from robust NPL techniques," Advances in Automatic Text Summarization, vol. Mani, I. and Maybury, M. T., pp. 71-80, 1999.
[53] C.-Y. Lin, "Training a selection function for extraction," International Conference on Information and Knowledge Management (CIKM). New York, NY, USA, pp. 55-62, 1999.
[54] M. Osborne, "Using maximum entropy for sentence extraction," in ACL-02 Workshop on Automatic Summarization, Phildadelphia, Pennsylvania, 2002, pp. 1-8.
[55] J. Conroy and D. O'leary, "Text summarization via hidden Markov models," in 24th annual international ACM SIGIR conference on Research and development in information retrieval, New Orleans, Louisiana, United States, 2001, pp. 406-407.
122 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
[56] K. Svore, L. Vanderwende, and C. Burges, "Enhancing single-document summarization by combining RankNet and third-party sources," in Processing Empirical Methods in Natural Language (EMNLP-CoNLL), 2007, pp. 448-457.
[57] D. Shen, J.-T. Sun, H. Li, Q. Yang, and Z. Chen, "Document summarization using conditional random fields," in 20th international joint conference on Artifical intelligence, Hyderabad, India, 2007, pp. 2862-2867.
[58] K.-F. Wong, M. Wu, and W. Li, "Extractive summarization using supervised and semi-supervised learning," in 22nd International Conference on Computational Linguistics, Manchester, United Kingdom, 2008, pp. 985-992.
[59] R. Barzilay, Elhadad, M, "Using Lexical Chains for Text Summarization," in ACL/EACL Workshop on Intelligent Scalable Text Summarization, Madrid, Spain, 1997, pp. 10–17.
[60] A. R. Pal and D. Saha, "An approach to automatic text summarization using WordNet," in Advance Computing Conference (IACC), 2014 IEEE International, 2014, pp. 1169-1173.
[61] K. Ono, K. Sumita, and S. Miike, "Abstract generation based on rhetorical structure extraction," in 15th conference on Computational linguistics, Kyoto, Japan, 1994, pp. 344-348.
[62] D. Marcu, " Improving summarization through rhetorical parsing tuning," in Sixth Workshop on Very Large Corpora. Montreal, Canada, 1998, pp. 206-215.
[63] D. C. T. Marcu, "The rhetorical parsing, summarization, and generation of natural language texts," PhD thesis, University of Toronto. Adviser-Graeme Hirst, 1998.
[64] R. Mihalcea, Tarau, P, "Text-rank bringing order into texts," in Conference on Empirical Methods in Natural Language Processing, Barcelona, Spain, 2004.
[65] X. Wan, "Towards a Unified Approach to Simultaneous Single-Document and Multi-Document Summarizations," in 23rd International Conference on Computational Linguistics (COLING), Beijing, 2010, pp. 1137–1145.
[66] N. Chatterjee and P. K. Sahoo, "Random Indexing and Modified Random Indexing based approach for extractive text summarization," Computer Speech and Language, vol. 29, pp. 32-44, 2015.
[67] Y. Gong and X. Liu, "Generic text summarization using relevance measure and latent semantic analysis," in 24th annual international ACM SIGIR conference on Research and development in information retrieval, New Orleans, USA, 2001, pp. pp.19-25.
[68] J. Steinberger and K. Ježek, "Using latent semantic analysis in text summarization and summary evaluation," in 7th International Conference ISIM, 2004.
[69] J.-Y. Yeh, H.-R. Ke, W.-P. Yang, and I.-H. Meng, "Text summarization using a trainable summarizer and latent semantic analysis," Information Processing and Management, vol. 41, pp. 75–95, 2005.
[70] J. Steinberger and K. Ježek, "Sentence Compression for the LSA-based Summarizer," pp. 141–148, 2006.
[71] J.-H. Lee, S. Park, C.-M. Ahn, and D. Kim, "Automatic generic document summarization based on non-negative matrix factorization," Information Processing & Management, vol. 45, pp. 20-34, 2009.
[72] K. Nagesh and M. N. Murty, "Obtaining Single Document Summaries Using Latent Dirichlet Allocation," in Neural Information Processing. vol. 7666, T. Huang, Z. Zeng, C. Li, and C. Leung, Eds., ed: Springer Berlin Heidelberg, 2012, pp. 66-74.
[73] C. Carpineto, S. Osinski, G. Romano, and D. Weiss, "A survey of Web clustering engines," ACM Computing Surveys, vol. 41, pp. 1-38, 2009.
[74] G. Ravindra, N. Balakrishnan, and K. R. Ramakrishnan, "Multi-document Automatic Text Summarization Using Entropy Estimates," in SOFSEM 2004: Theory and Practice of Computer Science. LNCS. vol. 2932, P. Van Emde Boas, J. Pokorný, M. Bieliková, and J. Štuller, Eds., ed: Springer Berlin Heidelberg, 2004, pp. 289-300.
[75] D. M. Dunlavy, D. P. O'Leary, J. M. Conroy, and J. D. Schlesinger, "QCS: A system for querying, clustering and summarizing documents," Information Processing and Management, vol. 43, pp. 1588-1605, 2007.
Bibliografía 123
[76] M. Wang, X. Wang, C. Li, and Z. Zhang, "Multi-document Summarization Based on Word Feature Mining," in International Conference on Computer Science and Software Engineering, Wuhan, Hubei, 2008, pp. 743-746.
[77] M.-R. Amini and N. Usunier, "Incorporating prior knowledge into a transductive ranking algorithm for multi-document summarization," in 32nd annual ACM SIGIR conference on research and development in information retrieval, Boston, USA, pp.704–705, 2009.
[78] D. Bollegala, N. Okazaki, and M. Ishizuka, "A bottom-up approach to sentence ordering for multi-document summarization," Information Processing and Management, vol. 46, pp. 89-109, 2010.
[79] Y. Ouyang, W. Li, S. Li, and Q. Lu, "Applying regression models to query-focused multi-document summarization," Information Processing and Management, vol. 47, pp. 227-237, 2011.
[80] M. A. Fattah, "A hybrid machine learning model for multi-document summarization," Applied Intelligence, vol. 40, pp. 592-600, 2014.
[81] Y.-M. Chen, X.-L. Wang, and B.-Q. Liu, "Multi-document summarization based on lexical chains," in Proceedings of International Conference on Machine Learning and Cybernetics, Guangzhou, China, 2005, pp. 1937-1942 Vol. 3.
[82] J. Atkinson and R. Munoz, "Rhetorics-based multi-document summarization," Expert Systems with Applications, vol. 40, pp. 4346-4352, 2013.
[83] R. Mihalcea, Tarau, P., "An Algorithm for Language Independent Single and Multiple Document Summarization," in International Joint Conference on Natural Language Processing, Korea, 2005.
[84] G. Erkan and D. R. Radev, "Lexrank: Graph-based lexical centrality as salience in text summarization," Journal of Artificial Intelligence Research, vol. 22, pp. 457–479, 2004.
[85] J. Zhang, H. Xu, and X. Cheng, "GSPSummary: a graph-based sub-topic partition algorithm for summarization," in Asia information retrieval conference on Information retrieval technology, Springer-Verlag, Berlin, Heidelberg, pp. 321-334, 2008.
[86] J. Otterbacher, G. Erkan, and D. R. Radev, "Biased LexRank: passage retrieval using random walks with question-based priors," Information Processing and Management, vol. 45, pp. 42-54, 2009.
[87] L. Zhao, L. Wu, and X. Huang, "Using query expansion in graph-based approach for query-focused multi-document summarization," Information Processing and Management, vol. 45, pp. 35–41, 2009.
[88] W. Li, W. Furu, L. Qin, and H. Yanxiang, "PNR2: Ranking sentences with positive and negative reinforcement for query-oriented update summarization," in 22nd international conference on computational linguistics (COLING), Manchester, UK, August 18–22, vol.1, pp. 489–496, 2008.
[89] F. Wei, W. Li, Q. Lu, and Y. He, "Query-sensitive mutual reinforcement chain and its application in query-oriented multi-document summarization," in 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Singapore, Singapore, 2008, pp. 283–290.
[90] R. Ferreira, L. Cabral, F. Freitas, R. Lins, G. Silva, S. Simske, and L. Favaro, "A multi-document summarization system based on statistics and linguistic treatment," Expert Systems with Applications, vol. 41, pp. 5780-5787, 2014.
[91] B. Hachey, G. Murray, and D. Reitter, "The Embra System at DUC 2005: Query-oriented Multi-document Summarization with a Very Large Latent Semantic Space," in Document Understanding Conference (DUC), Vancouver, Canada, 2005.
[92] J. Steinberger and M. Křišťan, "LSA-Based Multi-Document Summarization," in 8th International PhD Workshop on Systems and Control, Balatonfured, Hungary, 2007.
[93] P. Sun and C. ByungRae, "Query-Based Multi-Document Summarization Using Non-Negative Semantic Feature and NMF Clustering," in Fourth International Conference on Networked Computing and Advanced Information Management (NCM), Gyeongju, 2008, pp. 609-614.
[94] D. Wang, T. Li, S. Zhu, and C. Ding, "Multi-Document Summarization via Sentence-Level Semantic Analysis and Symmetric Matrix Factorization," in 31st Annual International ACM
124 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
SIGIR Conference on Research and Development in Information Retrieval, Singapore, pp. 307-314, 2008.
[95] D. R. Radev, H. Jing, M. Stys, and D. Tam, "Centroid-based summarization of multiple documents," Information Processing and Management, vol. 40, pp. 919-938, 2004.
[96] D. Wang, S. Zhu, T. Li, Y. Chi, and Y. Gong, "Integrating clustering and multi-document summarization to improve document understanding," in 17th ACM conference on Information and knowledge management (CIKM), Napa Valley, California, USA, pp. 1435-1436, 2008.
[97] M. Ali, M. K. Ghosh, and A. Al-Mamun, "Multi-document Text Summarization: SimWithFirst Based Features and Sentence Co-selection Based Evaluation," in International Conference on Future Computer and Communication (ICFCC), Kuala Lumpar, 2009, pp. 93-96.
[98] M. Xiao-Chen, Y. Gui-Bin, and M. Liang, "Multi-Document Summarization Using Clustering Algorithm," in International Workshop on Intelligent Systems and Applications (ISA), Wuhan, pp. 1-4, 2009.
[99] L. Hennig, "Topic-based Multi-Document Summarization with Probabilistic Latent Semantic Analysis," in International Conference RANLP, Borovets, Bulgaria, pp. 144–149, 2009.
[100] D. Wang, S. Zhu, T. Li, and Y. Gong, "Multi-Document Summarization using Sentence-based Topic Model," in ACL-IJCNLP, Suntec, Singapore, 2009, pp. 297–300.
[101] J. Tang, L. Yao, and D. Chen, "Multi-topic based query-oriented summarization," in Ninth SIAM international conference on data mining, Nevada, USA, 2009, pp. 1148–1159.
[102] A. Haghighi and L. Vanderwende, "Exploring content models for multi-document summarization," in Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Boulder, Colorado, 2009, pp. 362-370.
[103] X. Cai and W. Li, "A spectral analysis approach to document summarization: Clustering and ranking sentences simultaneously," Information Sciences, vol. 181, pp. 3816-3827, 2011.
[104] J.-P. Mei and L. Chen, "SumCR: a new subtopic-based extractive approach for text summarization," Knowledge and Information Systems, vol. 31, pp. 527–545, 2012.
[105] M. Wang and X. Tang, "Extract summarization using Concept-Obtained and Hybrid Parallel Genetic Algorithm," in Eighth International Conference on Natural Computation (ICNC), Chongqing, 2012, pp. 662-664.
[106] A. Celikyilmaz and D. Hakkani-Tur, "A Hybrid Hierarchical Model for Multi-Document Summarization," in 48th Annual Meeting of the Association for Computational Linguistics, Uppsala, Sweden, pp. 815–824, 2010, pp. 815–824.
[107] F. Wei, W. Li, and S. Liu, "iRANK: a rank-learn-combine framework for unsupervised ensemble ranking," American Society for Information Science and Technology vol. 61, pp. 1232–1243, 2010.
[108] D. Wang and T. Li, "Many are better than one: improving multi-document summarization via weighted consensus," in 33rd international ACM SIGIR conference on Research and development in information retrieval, Geneva, Switzerland, 2010, pp. 809-810.
[109] M. S. Binwahlan, N. Salim, and L. Suanmali, "Swarm Based Text Summarization," in International Association of Computer Science and Information Technology - Spring Conference. (IACSITSC), Singapore, 2009, pp. 145-150.
[110] J. Carbonell and J. Goldstein, "The use of MMR, diversity-based reranking for reordering documents and producing summaries," in Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, Melbourne, Australia, pp. 335-336, 1998.
[111] J. Goldstein, V. Mittal, J. Carbonell, and J. Callan, "Creating and evaluating multi-document sentence extract summaries," in Ninth international conference on Information and knowledge management (CKIM), McLean, Virginia, United States, 2000, pp. 165-172.
Bibliografía 125
[112] H. Lei, H. Yanxiang, W. Furu, and L. Wenjie, "Modeling Document Summarization as Multi-objective Optimization," in Third International Symposium on Intelligent Information Technology and Security Informatics (IITSI), China, 382-386, 2010, pp. 382-386.
[113] D. Harman and P. Over, "The DUC summarization evaluations," in Second international conference on Human Language Technology Research, San Diego, California, 2002, pp. 44-51.
[114] H. Jing, R. Barzilay, K. Mckeown, and M. Elhadad, "Summarization Evaluation Methods: Experiments and Analysis," in AAAI Symposium on Intelligent Summarization 1998, pp. 51-60.
[115] C.-Y. Lin, "Rouge: a package for automatic evaluation of summaries," in ACL-04 Workshop on Text Summarization Branches Out, Barcelona, Spain, 2004, pp. 74-81.
[116] H. Tingting, C. Jinguang, M. Liang, G. Zhuoming, L. Fang, S. Wei, and W. Qian, "ROUGE-C: A fully automated evaluation method for multi-document summarization," in IEEE International Conference on Granular Computing, Hangzhou, 2008, pp. 269-274.
[117] C. Cotta, "Una Visión General de los Algoritmos Meméticos," Rect@: Revista Electrónica de Comunicaciones y Trabajos de ASEPUMA, vol. 3, pp. 139-166, 2007.
[118] J.-K. Hao, "Memetic Algorithms in Discrete Optimization," in Handbook of Memetic Algorithms. vol. 379, F. Neri, C. Cotta, and P. Moscato, Eds., ed: Springer Berlin Heidelberg, 2012, pp. 73-94.
[119] P. Hansen and N. Mladenović, "An introduction to variable neighborhood search," Metaheuristics, Advances and Trends in Local Search Paradigms for Optimization, pp. 433-458, 1999.
[120] C. Voudouris and E. Tsang, "Guided local search and its application to the traveling salesman problem," European Journal of Operational Research, vol. 113, pp. 469-499, 1999.
[121] J.-F. Cordeau and G. Laporte, "Tabu search heuristics for the vehicle routing problem," in Metaheuristic Optimization via Memory and Evolution: Tabu Search and Scatter Search, Boston, 2004, pp. 145–163.
[122] L. J. Eshelman, "The CHC Adaptive Search Algorithm: How to Have Safe Search When Engaging in Nontraditional Genetic Recombination," in Foundations of Genetic Algorithms, G. J. E. Rawlings, Ed., ed: Morgan Kaufmann, 1990, pp. 265-283.
[123] A. Bossard, M. Genereux, and T. Poibeau, "Description of the LIPN Systems at TAC 2008: Summarizing Information and Opinions," in In Notebook Papers and Results, Text Analysis Conference (TAC-2008), 2008.
[124] C. Silla, Jr., G. Pappa, A. Freitas, and C. A. Kaestner, "Automatic text summarization with genetic algorithm-based attribute selection," in LNCS Advances in Artificial Intelligence. vol. 3315, C. Lemaître, C. Reyes, and J. González, Eds., ed: Springer Berlin Heidelberg, 2004 pp. 305-314.
[125] V. Gupta, P. Chauhan, and S. Garg, "An Statistical Tool for Multi-Document Summarization," International Journal of Scientific and Research Publications, vol. 2, pp. 1-5, 2012.
[126] S. N. Sivanandam and S. N. Deepa, Introduction to Genetic Algorithms: Springer Publishing Company, Incorporated, 2008.
[127] C. Voudouris and E. Tsang, "Guided Local Search," in Handbook of Metaheuristics. vol. 57, F. Glover and G. Kochenberger, Eds., ed Colchester: Springer US, 2003, pp. 185-218.
[128] G. Ochoa, S. Verel, and M. Tomassini, "First-improvement vs. best-improvement local optima networks of NK landscapes," in LNCS Parallel Problem Solving from Nature. vol. 6238, R. Schaefer, C. Cotta, J. Kołodziej, and G. Rudolph, Eds., ed: Springer-Verlag, 2010, pp. 104-113.
[129] D. Gillick, "Sentence boundary detection and the problem with the U.S," presented at the Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Boulder, Colorado, pp. 241-244, 2009.
126 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
[130] A.E. Eiben and S. K. Smit, "Evolutionary Algorithm Parameters and Methods to Tune Them," in Autonomous Search, E. M. In Y. Hamadi, F. Saubion, Ed., ed: Springer Berlin Heidelberg, 2012, pp. 15-36.
[131] C. Cobos, D. Estupiñán, and J. Pérez, "GHS + LEM: Global-best Harmony Search using learnable evolution models," Applied Mathematics and Computation, vol. 218, pp. 2558-2578, 2011.
[132] X. Wan, J. Yang, and J. Xiao, "Manifold-ranking based topic-focused multi-document summarization," in 20th international joint conference on Artificial intelligence (IJCAI), Hyderabad, India, 2007, pp. 2903-2908
[133] R. M. Aliguliyev, "Performance evaluation of density-based clustering methods," Information Sciences, vol. 179, pp. 3583-3602, 2009.
[134] G. Sidorov, A. Gelbukh, H. Gómez-Adorno, and D. Pinto, "Soft Similarity and Soft Cosine Measure: Similarity of Features in Vector Space Model," Computación y Sistemas, vol. 18, 2014.
Generación automática de resú-menes extractivos de múltiples documentos basada en algorit-
mos meméticos
Martha Eliana Mendoza Becerra
ANEXOS
Directora:
Ph.D. Elizabeth León Guzmán
Doctorado en Ingeniería de Sistemas y Computación
Línea de Investigación:
Sistemas Inteligentes y Recuperación de la información
Grupo de Investigación:
MIDAS – Minería de datos
Universidad Nacional de Colombia
Facultad de Ingeniería, Departamento de Ingeniería de Sistemas e Industrial
Bogotá D.C., Colombia
2015
Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Anexo A
Título Generación automática de resúmenes de múltiples documentos basada en la mejor búsqueda armónica global y búsqueda local codiciosa.
Notas No publicado.
1
Generación automática de resúmenes de múltiples documentos
basada en la mejor búsqueda armónica global y búsqueda local
codiciosa
1 Representación de la colección de documentos
La colección de documentos se representa como el conjunto de todas las oraciones que la componen [1], es decir, D={s1, s2,…, sm} donde m es el número total de oraciones de la colección. El objetivo es obtener un subconjunto de D con las oraciones que satisfagan los factores definidos para generar el resumen. La oración es representada como un vector con los pesos de los términos, como se observa en la Ecuación (1).
si⃗⃗ = {𝑤𝑖1, 𝑤𝑖2, … , 𝑤𝑖𝑘 , … , 𝑤𝑖𝑚} (1)
Donde m es el número de oraciones de la colección de documentos, wim es el peso de término tm en la oración si. El componente wik se define usando la matriz de términos por oración tf-isf, la cual asigna un valor mediante la combinación de la frecuencia de términos y la frecuencia inversa de términos. El esquema asigna el peso como se observa en la Ecuación (2).
𝑤𝑖𝑘 = 𝑓𝑖𝑘x log(n/𝑛𝑘) (2)
Donde fik representa la frecuencia del término, nk denota el número de oraciones en las cuales aparece el término tk y log(n/nk) representa el factor isf.
2 Función Objetivo
Un resumen debe contener los aspectos principales de la colección de documentos con la menor pérdida de información, por tanto, las oraciones seleccionadas deben abarcar la mayor cantidad de información contenida dentro del conjunto de oraciones, es decir, tener la mayor cobertura posible. Además, el manejo de la redundancia es un factor crucial dado que un buen resumen debe evitar la información repetida en el mismo, es decir, tener la menor redundancia posible. La función objetivo que se usa en este trabajo contempla estos dos factores, cobertura y redundancia, en una única expresión como se muestra en la Ecuación (3).
Fc = ∑ ∑ [𝑠𝑖𝑚𝑐𝑜𝑠(𝐷, 𝑠𝑖) + 𝑠𝑖𝑚𝑐𝑜𝑠(𝐷, 𝑠𝑗) − 𝑠𝑖𝑚𝑐𝑜𝑠(𝑠𝑖, 𝑠𝑗)]𝑥𝑖,𝑗
𝑛
𝑗=𝑖+1
𝑛−1
𝑖=1
(3)
Donde D representa todas las oraciones de la colección de documentos (en este caso, es el
centroide de la colección); si y sj representan las oraciones del resumen; simcos(D,si) es la
similitud de cosenos entre el vector de términos de la oración si y el vector de términos de D;
simcos(D,sj) es la similitud de cosenos entre el vector de términos de la oración sj y el vector de
términos de D; simcos(si,sj) es la similitud entre las dos oraciones y n es la cantidad de oraciones
que hay en el resumen. Esta función objetivo debe cumplir con la restricción de la Ecuación (4).
2
SlSummarys
ii
(4)
Donde, li es la longitud de la oración si (medida en palabras) y S es el número máximo de
palabras permitidas en el resumen generado.
3 Algoritmo GHS-MultiDocument
El método propuesto para generación automática de resúmenes en este artículo está basado
en un algoritmo memético, buscando de esta forma mejores resultados que los obtenidos por
los algoritmos genéticos, dado que estos se concentran en explorar el espacio de soluciones,
mientras que los meméticos hacen exploración pero además hacen explotación buscando
encontrar a una mayor velocidad soluciones óptimas.
3.1 Esquema general
El algoritmo memético propuesto para generación automática de resúmenes presenta el
esquema general de la Figura 1, los pasos se explican a continuación.
HM.Inicializar: Generación de la memoria armónica inicial. La memoria está compuesta por
HMS (Tamaño de la memoria armónica) agentes que se generan de forma aleatoria. Cada
agente está compuesto de N memes cuya representación es binaria, donde un meme tiene un
uno para indicar la presencia de esa oración como parte del resumen candidato y un cero en
caso contrario. Cada vez que un meme se coloca en uno, se verifica que no se viole la
restricción de máxima de cantidad de palabras del resumen y de esta forma, se controla la
cantidad de oraciones que tendrá el agente generado. Si es necesario se aplica un proceso de
reparación, donde se quita (apaga) la oración que tiene menos aporte en el resumen (medido
en la similitud de cosenos de la oración frente a la colección de documentos dividido por la
longitud de la oración) y se siguen incluyen oraciones desde que no sobrepasen el tamaño
máximo del resumen, seleccionando primero las de mayor valor, es decir, las de mayor similitud
a la colección de documentos (mayor cobertura).
HM.Evaluar: Cálculo de la aptitud. Para cada agente presente en la memoria armónica se
calcula la función de aptitud (fitness) basado en la Ecuación (3).
HM.Optimizar: Optimización de la población inicial. Cada agente generado de forma aleatoria
en la población inicial, es optimizado de acuerdo a una probabilidad (op) por medio de
búsqueda local codiciosa. Luego se calcula el nuevo valor de aptitud y se ordena la población
de mayor a menor basado en este nuevo valor de aptitud.
Creación de la nueva armonía: Los pasos 8 a 22 permiten crear una nueva armonía. Esta
armonía es el resultado dimensión (oración) a dimensión de tres reglas principales definidas en
el algoritmo original (Global-best Harmony Search, GHS) propuesto en 2008 por Mahamed G.H.
Omran y Mehrdad Mahdavi [2]. Las reglas son: 1) Consideración de la memoria armónica, 2)
Ajuste de tono basado en conceptos de Optimización por Enjambres de Partículas (Particle
3
Swarm Optimization, PSO), y 3) Selección aleatoria del espacio de búsqueda de la dimensión
(En este caso es 0 o 1). Si se requiere se aplica el mismo proceso de reparación previamente
explicado. Luego a la nueva armonía se le calcula la aptitud y si es el caso se optimiza.
Finalmente, si la nueva armonía es mejor que la peor armonía de la memoria armónica, la
nueva armonía la remplaza en la memoria.
Figura 1 Esquema general del algoritmo GHS-MultiDocument
Creación de la nueva armonía: Los pasos 8 a 22 permiten crear una nueva armonía. Esta
armonía es el resultado dimensión (oración) a dimensión de tres reglas principales definidas en
el algoritmo original (Global-best Harmony Search, GHS) propuesto en 2008 por Mahamed G.H.
Omran y Mehrdad Mahdavi [2]. Las reglas son: 1) Consideración de la memoria armónica, 2)
Ajuste de tono basado en conceptos de Optimización por Enjambres de Partículas (Particle
Swarm Optimization, PSO), y 3) Selección aleatoria del espacio de búsqueda de la dimensión
(En este caso es 0 o 1). Si se requiere se aplica el mismo proceso de reparación previamente
explicado. Luego a la nueva armonía se le calcula la aptitud y si es el caso se optimiza.
Finalmente, si la nueva armonía es mejor que la peor armonía de la memoria armónica, la
nueva armonía la remplaza en la memoria.
01 HM.Inicializar; // Inicialización aleatoria de HMS agentes en la memoria armónica. 02 HM.Evaluar; // Cálculo de la aptitud de cada agente en la memoria armónica. 03 HM.Optimizar; // Optimización de un porcentaje op de agentes de la memoria armónica. 04 Mientras (nofe < mnfe) // nofe es el número de evaluaciones objetivos y mnfe el máximo. 05 ParActual = PAR(parmin, parmax, nofe, mnfe); 06 Calcular mejor y peor índice en la memoria armónica basado en la aptitud de los agentes. 07 Repetir 08 nuevaArmonia.Longitud = 0; // Inicializa nueva armonía vacía. 09 Mientras (nuevaArmonia.Longitud <= L) // Mientras no supere el máximo de palabras. 10 If (U(0,1) < hmcr) // Regla de consideración de la memoria. 11 i = rand(hms) // Selecciona una posición aleatoria de la memoria. 12 If (U(0,1) < ParActual) // Regla de ajuste de tono. 13 i=mejor; // Posición del mejor agente en la memoria. 14 End If 15 dimension = rand(HM[i].OracionesSeleccionadas) 16 Else // Regla de selección aleatoria. 17 dimension = rand(n); 18 End if 19 If (nuevaArmonia [dimension] = 1) Continuar Mientras; // Ignore dimensión. 20 nuevaArmonia [dimension] = 1; // Active esta oración (dimension). 21 nuevaArmonia.Longitud += LongitudDeOracion[dimension]; 22 Fin Mientras 23 nuevaArmonia.Evaluar; // Cálculo de la aptitud de la nueva armonía. 24 nuevaArmonia.Optimizar; // Trata de optimizar la nueva armonía. 25 If (nofe >= mnofe) Salir Mientras; 26 Mientras (HM.Exists(newHarmony) ) // Nueva armonía exista en memoria armónica. 27 If (nuevaArmonia.Fitness > HM[HMS].Fitness) 28 HM[peor] = nuevaArmonia; // Remplaza el peor agente por la nueva armonía. 29 End if 30 Fin Mientras 31 Provee el resumen con el mejor (agente) de la memoria armónica.
4
3.2 Búsqueda local
En cuanto a la búsqueda local, en el algoritmo memético se implementaron diversas variaciones
de la búsqueda local Codiciosa, a continuación sólo se presenta la estrategia que obtuvo
mejores resultados.
Codiciosa del primer mejor [3]: Para cada agente que se va a optimizar se remueve la
oración que tiene el peor valor de aptitud (medido en cobertura o similitud de coseno frente
a la colección de documentos), y se adiciona una oración más parecida a la colección de
documentos (por medio de la similitud de cosenos). Si el nuevo agente es mejor que el
anterior, se remplaza el anterior, sino, se repite el proceso tratando de incluir la segunda
oración con más cobertura y así sucesivamente.
4 Evaluación de la calidad de los resúmenes generados
4.1 Conjuntos de datos
Para la evaluación del algoritmo propuesto se utilizaron los conjuntos de datos DUC2005 y
DUC2007. La colección de DUC2005 está conformada por cincuenta tópicos, cada uno
contiene entre 25 y 50 documentos; y DUC2007 comprende cuarenta y cinco tópicos, cada uno
con 25 documentos. Además el resumen generado debe ser menor a 250 palabras, y se cuenta
con varios resúmenes de referencia para cada tópico. El resumen generado debe ser menor a
250 palabras.
4.2 Métricas de evaluación
Las medidas que se utilizaron fueron ROUGE-2 y ROUGE-SU4, las cuales fueron calculadas
por medio de la herramienta ROUGE-1.5.5. ROUGE es aceptado por DUC como la métrica de
evaluación de la calidad del resumen generado por un algoritmo comparándolo con otros
resúmenes creados por humanos, midiendo la calidad del resumen por medio del conteo de
unidades solapadas entre el resumen de referencia y el resumen generado automáticamente,
basándose en el recuerdo de n-gramas entre un resumen generado y un conjunto de
resúmenes de referencia.
4.3 Afinamiento de parámetros
Luego de evaluar diversos valores para los parámetros (a través de una malla de prueba), los
parámetros se configuraron de la siguiente forma:
Máxima longitud del resumen = 250
Umbral de oraciones = 0.1
Probabilidad de optimización = 0.4
Máximo número de optimizaciones = 10
Tamaño de la Memoria Armónica = 50
HMCR = 0.85
ParMin = 0.01
ParMax = 0.99
5
4.4 Comparación con otros métodos
El algoritmo propuesto GHS-MultiDocument fue comparado con métodos del estado del arte
como MCMR, que usa también la misma función objetivo, y utiliza dos algoritmos optimización
de enjambres de partículas (MCMR-PSO) y ramificación y poda (MCMR-B&B) [1]. También se
compara con métodos para el conjunto de datos de DUC2005 como: TranSumm [4], QEA [5],
Content-Term [6], Biased LexRank [7], Qs-MRC [8], TMR+TF [9]. Para el caso del conjunto de
datos de DUC2007 los otros métodos con los que se comparó fue: PNR2 [10], PPRSum [11],
GSPSum [12], AdaSum [13].
El algoritmo propuesto GHS-MultiDocument presenta resultados con dos valores del parámetro
de probabilidad de optimización, el primero con 0.4 (40%) y el segundo con 0 (0%), es decir sin
usar el optimizador local. Lo anterior permite analizar el aporte de la optimización local. En la
Tabla 1 se muestran los resultados de la evaluación con las medidas ROUGE-2 y ROUGE-SU4
sobre el conjunto de datos de DUC2005.
Tabla 1 Valores ROUGE de los métodos sobre DUC2005.
Métodos ROUGE-2 ROUGE-SU4
GHS-MultiDocument-0.4 0,0697 (9) 0,1268 (9) GHS-MultiDocument-0 0,0606 (10) 0,1178 (10) MCMR (B&B) 0.0790 (1) 0.1392 (1) MCMR (PSO) 0.0754 (4) 0.1360 (5) TranSumm 0.0755 (3) 0.1366 (2) QEA 0.0749 (6) 0.1333 (7) Content-term 0.0718 (7) 0.1338 (6) Biased LexRank 0.0753 (5) 0.1363 (4) Qs-MRC 0.0779 (2) 0.1366 (3) TMR+TF 0.0715 (8) 0.1304 (8)
Como se aprecia en la Tabla 1, el algoritmo memético propuesto (GHS-MultiDocument-0.4) con
búsqueda local codiciosa ocupa los últimos lugares para las medidas ROUGE en DUC-2005.
Los mejores resultados son para MCMR (B&B). El efecto del optimizador local es bueno, ya que
mejora los resultados frente al uso de la técnica global sin optimizador. Pruebas adicionales
sobre la función objetivo, usando la medida de google y la de cosenos al mismo tiempo
presentaron resultados similares que no se comparan con los mejores del estado del arte.
Tabla 2 Valores ROUGE de los métodos sobre DUC2007
Métodos ROUGE-2 ROUGE-SU4
GHS-MultiDocument-0.4 0,0987 (6) 0,1513 (6) GHS-MultiDocument-0 0,0932 (7) 0,1472 (7) MCMR (B&B) 0.1221 (1) 0.1753 (1) MCMR (PSO) 0.1165 (4) 0.1697 (3) PNR2 0.0895 (8) 0.1291 (8) PPRSum 0.1195 (2) 0.1710 (2) GSPSum 0.1110 (5) 0.1638 (5) AdaSum 0.1172 (3) 0.1692 (4)
Como se aprecia en la Tabla 2, el algoritmo memético GHS-MultiDocumentm también obtiene
los últimos lugares en las medidas ROUGE para el conjunto de datos de DUC-2007. Los
6
mejores resultados son para MCMR (B&B), pero al igual que en DUC-2005, el optimizador local
permite obtener mejores resultados que cuando se usa únicamente la estrategia de búsqueda
global, en este caso Global-best Harmoy Search.
5 Conclusión y Trabajo Futuro
El algoritmo memético propuesto con búsqueda local codiciosa del primer mejor (GHS-
MultiDocument) permitió modelar y evaluar un algoritmo para la generación de resúmenes de
múltiples documentos sin tener que definir esquemas evolutivos (selección, cruce, mutación y
reemplazo), generalmente necesarios en la definición de un algoritmo genético. Se logró
evaluar diversas funciones objetivos, pero se muestra en este reporte sólo la combinación de
dos factores, cobertura y redundancia, en una fórmula que no está normalizada.
El algoritmo MA-MultiDocument ocupa el último lugar sobre los dos conjuntos de evaluación
(DUC-2005 y DUC-2007) en las medidas ROUGE-2 y ROUGE-SU4. Luego de diversos análisis
se considera necesario evaluar otras expresiones para la función objetivo, que reflejen de una
mejor forma el proceso de generación de resúmenes y que a la vez relaciona de una mejor
manera la representación del agente y sus cambios, con los cambios en la función de aptitud.
Como trabajo futuro además se hace necesario explorar otras variaciones de explotación y
exploración de los algoritmos meméticos para los mismos conjuntos de datos, para evaluar si
un algoritmo memético puede obtener mejores resultados que los métodos del estado del arte.
Referencias
[1] R. M. Alguliev, R. M. Aliguliyev, M. S. Hajirahimova, and C. A. Mehdiyev, "MCMR: Maximum coverage and minimum redundant text summarization model," Expert Systems with Applications, vol. In Press, Corrected Proof, 2011.
[2] M. G. H. Omran and M. Mahdavi, "Global-best harmony search," Applied Mathematics and Computation, vol. 198, pp. 643-656, 2008.
[3] G. Ochoa, S. Verel, and M. Tomassini, "First-improvement vs. best-improvement local optima networks of NK landscapes," in LNCS Parallel Problem Solving from Nature. vol. 6238, R. Schaefer, C. Cotta, J. Kołodziej, and G. Rudolph, Eds., ed: Springer-Verlag, 2010, pp. 104-113.
[4] M.-R. Amini and N. Usunier, "Incorporating prior knowledge into a transductive ranking algorithm for multi-document summarization," in 32nd annual ACM SIGIR conference on research and development in information retrieval, Boston, USA, pp.704–705, 2009.
[5] L. Zhao, L. Wu, and X. Huang, "Using query expansion in graph-based approach for query-focused multi-document summarization," Information Processing and Management, vol. 45, pp. 35–41, 2009.
[6] T. He, W. Shao, F. Li, Z. Yang, and L. Ma, "The automated estimation of contentterms for query-focused multi-document summarization," in Proceedings of the 2008 fifth international conference on fuzzy systems and knowledge discovery (FSKD 2008), October 18–20, Jinan, China, vol. 5 (pp.580–584). 2008.
[7] J. Otterbacher, G. Erkan, and D. R. Radev, "Biased LexRank: passage retrieval using random walks with question-based priors," Information Processing and Management, vol. 45, pp. 42-54, 2009.
[8] F. Wei, W. Li, Q. Lu, and Y. He, "Query-sensitive mutual reinforcement chain and its application in query-oriented multi-document summarization," in 31st Annual
7
International ACM SIGIR Conference on Research and Development in Information Retrieval, Singapore, Singapore, 2008, pp. 283–290.
[9] J. Tang, L. Yao, and D. Chen, "Multi-topic based query-oriented summarization," in Ninth SIAM international conference on data mining, Nevada, USA, 2009, pp. 1148–1159.
[10] W. Li, W. Furu, L. Qin, and H. Yanxiang, "PNR2: Ranking sentences with positive and negative reinforcement for query-oriented update summarization," in 22nd international conference on computational linguistics (COLING), Manchester, UK, August 18–22, vol.1, pp. 489–496, 2008.
[11] L. Yong, W. Xiaolei, Z. Jin, and X. Hongbo, "Personalized PageRank Based Multi-document Summarization," in Semantic Computing and Systems, 2008. WSCS '08. IEEE International Workshop on, 2008, pp. 169-173.
[12] J. Zhang, H. Xu, and X. Cheng, "GSPSummary: a graph-based sub-topic partition algorithm for summarization," in Asia information retrieval conference on Information retrieval technology, Springer-Verlag, Berlin, Heidelberg, pp. 321-334, 2008.
[13] J. Zhang, X. Cheng, G. Wu, and H. Xu, "AdaSum: an adaptive model for summarization," presented at the Proceedings of the 17th ACM conference on Information and knowledge management, Napa Valley, California, USA, 2008.
Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Anexo B
Título Generación automática de resúmenes de múltiples documentos basado en operadores genéticos y búsqueda local codiciosa.
Notas No publicado.
1
Generación automática de resúmenes de múltiples documentos
basada en operadores genéticos y búsqueda local codiciosa
1 Representación de la colección de documentos
La colección de documentos se representa como el conjunto de todas las oraciones que la componen [1], es decir, D={s1, s2,…, sm} donde m es el número total de oraciones de la colección. El objetivo es obtener un subconjunto de D con las oraciones que satisfagan los factores definidos para generar el resumen. La oración es representada como un vector con los pesos de los términos, como se observa en la Ecuación (1).
si⃗⃗ = {𝑤𝑖1, 𝑤𝑖2, … , 𝑤𝑖𝑘 , … , 𝑤𝑖𝑚} (1)
Donde m es el número de oraciones de la colección de documentos, wim es el peso de término tm en la oración si. El componente wik se define usando la matriz de términos por oración tf-isf, la cual asigna un valor mediante la combinación de la frecuencia de términos y la frecuencia inversa de términos. El esquema asigna el peso como se observa en la Ecuación (2).
𝑤𝑖𝑘 = 𝑓𝑖𝑘x log(n/𝑛𝑘) (2)
Donde fik representa la frecuencia del término, nk denota el número de oraciones en las cuales aparece el término tk y log(n/nk) representa el factor isf.
2 Función Objetivo
La función objetivo contempla dos factores que son:
2.1 Factor de cobertura:
Un resumen debe contener los aspectos principales de la colección de documentos con la
menor pérdida de información, por tanto, las oraciones seleccionadas deben abarcar la mayor
cantidad de información contenida dentro del conjunto de oraciones. Este factor de cobertura se
calcula por medio de la Ecuación (3).
Fc = 𝑠𝑖𝑚𝑐𝑜𝑠(R, D) (3)
Donde R, representa el texto con todas las oraciones del resumen candidato; D, representa
todas las oraciones de la colección de documentos (en este caso, es el centroide de la
colección); y simcos(R,D), es la similitud de cosenos entre el vector de términos de R y el vector
de términos de D. Este factor toma valores entre cero y uno.
2.2 Factor de Redundancia
El manejo de redundancia es un factor crucial dado que un buen resumen debe evitar la
información repetida, es decir, tener la menor redundancia posible. Para eliminar la redundancia
en las oraciones del resumen, se plantea la Ecuación (4), basado en [1].
2
𝐹𝑟 =2
𝑛 × (𝑛 − 1)∑ ∑ 𝑠𝑖𝑚𝑐𝑜𝑠(𝑠𝑖, 𝑠𝑗)
𝑛
𝑗=𝑖+1
𝑛−1
𝑖=1
(4)
Donde si y sj son oraciones del resumen, simcos(si,sj) es la similitud entre las dos oraciones y n
es la cantidad de oraciones que hay en el resumen.
2.3 Función objetivo
La función objetivo que se quiere maximizar es como se muestra en la Ecuación (5).
f(x) = Fc − (1 − )Fr (5)
Donde Fc y Fr, se calculan por medio de la similitud de cosenos entre unidades textuales. Para
realizar el cálculo de la similitud entre dos oraciones si y sj, se aplica el modelo espacio
vectorial, en el cual, cada oración se representa como un vector de pesos de sus términos.
Esta función objetivo (Ecuación (6)) contempla los factores de cobertura y redundancia
calculados de acuerdo a la Ecuación (3) y (4), con una restricción para maximizar la información
incluida en el resumen seleccionando oraciones que contengan información relevante pero con
pocas palabras (Ecuación (7)).
𝑓(𝑥) = 𝑠𝑖𝑚𝑐𝑜𝑠(R, D) − (1 − )2
𝑛 × (𝑛 − 1)∑ ∑ 𝑠𝑖𝑚𝑐𝑜𝑠(𝑠𝑖, 𝑠𝑗)
𝑛
𝑗=𝑖+1
𝑛−1
𝑖=1
(6)
SlSummarys
ii
(7)
Donde, li es la longitud de la oración si (medida en palabras) y S es el número máximo de
palabras permitidas en el resumen generado.
3 Algoritmo MA-MultiDocument
El método para la generación automática de resúmenes propuesto en este artículo está basado
en un algoritmo memético, buscando de esta forma mejores resultados que los obtenidos por
los algoritmos genéticos, dado que estos se concentran en explorar el espacio de soluciones,
mientras que los meméticos hacen exploración pero además hacen explotación buscando
encontrar a una mayor velocidad soluciones óptimas.
3.1 Esquema general
El algoritmo memético propuesto para generación automática de resúmenes presenta el
esquema general de la Figura 1 y los pasos son los siguientes:
Paso 1: Generación de la población inicial. La población inicial, está compuesta por TP agentes
que se generan de forma aleatoria. Cada agente está compuesto de N memes cuya
representación es binaria, donde un meme tiene un uno para indicar la presencia de una
3
oración como parte del resumen candidato y un cero en caso contrario. Cada vez que un meme
se coloca en uno, se verifica que no se viole la restricción de la máxima cantidad de palabras en
el resumen y de esta forma, se controlar la cantidad de oraciones que tendrá el agente
generado.
Paso 2: Optimización de la población inicial. Cada agente generado de forma aleatoria en la
población inicial, es optimizado de acuerdo a una probabilidad y por medio de búsqueda local
codiciosa. Luego se calcula el nuevo valor de aptitud y se ordena la población de mayor a
menor basado en este nuevo valor.
Figura 1 Esquema general del algoritmo MA-MultiDocument
Paso 3: Paso generacional. Este proceso (instrucciones 03 a 15) se repite hasta que se cumpla
con las G generaciones definidas y se compone de los siguientes pasos:
Paso 4: Paso Elitismo. Los E agentes con los mejores valores de aptitud de la población actual
pasan directamente a la siguiente generación.
Paso 5: Paso de Generación de hijos. Como en la nueva generación ya se tienen E agentes, N-
E agentes restantes (hijos) se generan repitiendo (TP-2)/2 veces los pasos 5.1 al 5.5, para
generar dos hijos por cada par de padres. Es decir, al tamaño de la población inicial TP se le
restan los E agentes que pasan directamente a la siguiente generación y éste resultado se
divide en dos (2), debido a que cada padre y madre generan dos hijos, de esta forma se
mantiene el tamaño de la población inicial.
Paso 5.1: Paso Selección. El agente padre se selecciona de forma aleatoria, y el agente madre
se selecciona de un grupo de agentes generado aleatoriamente. Se escoge el agente que
menos se parece al padre (por razones de diversidad), esto se hace por medio de la similitud de
la aptitud de la madre candidata con el padre.
Paso 5.2: Paso Cruce. El cruce entre los agentes padre y madre seleccionados en el paso
anterior, se realiza como cruce de un punto, ya que este tipo de cruce se ajusta más al
01 Inicialización aleatoria de N agentes. 02 Optimización de cada agente de la población inicial y cálculo de la aptitud. 03 Repetir 04 Elitismo: Conservan E agentes de la población actual. 05 Repetir 05.1 Selección padres basado en Emparejamiento restringido. 05.2 Cruce de un punto del par de padres para generar dos hijos. 05.3 Mutación de un bit de algunos de los hijos de acuerdo a un porcentaje pm. Para cada hijo hacer 05.4 Optimización del hijo actual de acuerdo a un porcentaje po y cálculo del
valor de aptitud. 05.5 Reemplazo por Competencia restringida. Fin Para 14 Hasta (N-E)/2 15 Hasta se cumple con las G generaciones. 16 Provee el resumen (agente) de la última población con el mejor de aptitud.
4
problema de generación de resúmenes, debido a la restricción de la cantidad de palabras que
deben ir en el resumen, que como consecuencia hace necesario que se controlen la cantidad
de oraciones de cada hijo.
Paso 5.3: Paso Mutación. A un porcentaje pm de los agentes generados (nuevos hijos) se le
muta un bit (es decir, una oración) teniendo en cuenta como restricción nuevamente la cantidad
de palabras del resumen para controlar la cantidad de oraciones del hijo mutado.
Paso 5.4: Paso Optimización. Se realiza la optimización con la búsqueda local codiciosa a los
hijos generados de acuerdo a una probabilidad de optimización po. Nuevamente se tiene en
cuenta la restricción de cantidad de palabras del resumen. Si el valor de aptitud del agente
optimizado mejora el valor del agente original, se realiza el movimiento en el vecindario,
reemplazando el agente original por el agente optimizado, de otro modo no se modifica el
agente original para hacer el siguiente movimiento en el vecindario.
Paso 5.5: Paso Reemplazo. El reemplazo se hace utilizando el esquema de competencia
restringida, en la cual cada hijo generado, compite con un grupo aleatorio pequeño de la
población actual (por medio del valor de aptitud), para decidir cual queda en la nueva población.
El grupo debe ser pequeño para que el hijo tenga posibilidad de quedarse y darle diversidad a
la nueva población.
3.2 Búsqueda local
En cuanto a la búsqueda local, en el algoritmo memético se implementaron dos variaciones de
la búsqueda local Codiciosa: aleatoria y del primer mejor.
Codiciosa aleatoria [2]: Por cada agente que se va a optimizar se remueve la oración que
tiene el peor valor de aptitud, y se adiciona una oración del documento de forma aleatoria.
Codiciosa del primer mejor [3]: Para cada agente que se va a optimizar se remueve la
oración que tiene el peor valor de aptitud, y se adiciona la oración más parecida (que no
esté en el resumen) a la colección de documentos (por medio de la similitud de cosenos) de
una lista en la cual se encuentran todas las oraciones ordenadas de mayor a menor de
acuerdo a esta similitud.
4 Evaluación de la calidad de los resúmenes generados
4.1 Conjuntos de datos
Para la evaluación del método propuesto se utilizaron los conjuntos de datos DUC2005 y
DUC2007. La colección de DUC2005 está conformada por cincuenta tópicos, cada uno
contiene entre 25 y 50 documentos; y DUC2007 comprende cuarenta y cinco tópicos, cada uno
con 25 documentos. Además el resumen generado debe ser menor a 250 palabras, y se cuenta
con varios resúmenes de referencia para cada tópico.
4.2 Métricas de evaluación
Las medidas que se utilizaron fueron ROUGE-2 y ROUGE-SU4, las cuales fueron calculadas
por medio de la herramienta ROUGE-1.5.5. ROUGE es la métrica oficial para evaluación la
5
tarea de generación de resúmenes de textos. Estas medidas determinan la calidad del resumen
generado por un algoritmo comparándolo con otros resúmenes creados por humanos. ROUGE
es aceptado por DUC como la métrica de evaluación oficial de generación automática de
resúmenes de textos, que mide la calidad del resumen por medio del conteo de unidades
solapadas entre el resumen de referencia y el resumen generado automáticamente, basándose
en el recuerdo de n-gramas entre un resumen generado y un conjunto de resúmenes de
referencia. La Ecuación (8) muestra el cálculo de esta medida.
ref
ref
Summs SgramN
Summs SgramNmatch
gramNCount
gramNCount
NROUGE)(
)(
(8)
Donde N representa la longitud del n-grama (Ngrama) y Countmatch(Ngrama) es el número
máximo de n-gramas coincidentes entre un resumen candidato y un conjunto de resúmenes de
referencia. El denominador de esta fórmula corresponde a la suma de la cantidad de n-gramas
en el resumen de referencia, de ahí que su valor crecerá conforme al número de resúmenes de
referencia. En los experimentos realizados en este trabajo, N toma el valor de 2, que
corresponden a la medida ROUGE-2 (basado en bi-gramas).
Por su parte, ROUGE-SU es una medida basada en la medida ROUGE-S [4], la cual está
basada en estadísticas de co-ocurrencias de bigramas-skip. Un bigrama-skip se refiere a un par
de palabras, en el orden en que están en la oración, permitiendo saltos arbitrariamente. Este
método mide la superposición de bigramas-skip entre un resumen candidato y un conjunto de
resúmenes de referencia. Dadas una oración de referencia X, de longitud m, y una oración
candidata Y, de longitud n, el cálculo de las medidas precisión, recuerdo y F basada en
bigramas-skip corresponde al cálculo de ROUGE-S como se aprecia en las Ecuaciones (9) y
(10).
)2,(
),(2
)2,(
),(222
mC
YXSKIPR
nC
YXSKIPP skipskip (9)
22
2
222
2
)1(
skipskip
skipskipskip
PR
PRF
(10)
Donde SKIP2(X,Y) es la cantidad de bigramas-skip que coinciden entre X e Y, se encarga de
controlar la importancia relativa de Pskip2 y Rskip2, y C es la función de combinación que calcula la
cantidad de bigramas-skip presentes en una oración. ROUGE-SU adiciona el manejo de
unigramas como conteo de unidades y un marcador al inicio de las oraciones candidata y de
referencia. En esta investigación se utiliza la medida ROUGE-SU4.
4.3 Afinamiento de parámetros
Para el conjunto de datos de DUC2005, los parámetros se configuraron de la siguiente forma:
Máxima longitud del resumen (285), Umbral de oraciones (0.11), Lambda (0.84), Probabilidad
de optimización (0.7), Tamaño de la población (80). En el caso de DUC2007 la configuración
6
fue: Máxima longitud del resumen (265), Umbral de oraciones (0.14), Lambda (0.6),
Probabilidad de optimización (0.35), Tamaño de la población (40).
4.4 Comparación con otros métodos
El algoritmo propuesto MA-MultiDocument fue comparado con métodos del estado del arte
como MCMR, que propone también en la función objetivo los factores de máxima cobertura y
mínima redundancia, y utiliza dos algoritmos de optimización, uno por enjambres de partículas
(MCMR-PSO) y otro por ramificación y poda (MCMR-B&B) [1]. También se compara con
métodos para el conjunto de datos de DUC2005 como: TranSumm [5], QEA [6], Content-Term
[7], Biased LexRank [8], Qs-MRC [9], TMR+TF [10]. Para el caso del conjunto de datos de
DUC2007 los otros métodos con los que se comparó fue: PNR2 [11], PPRSum [12], GSPSum
[13], AdaSum [14].
El algoritmo propuesto MA-MultiDocument presenta dos algoritmos de búsqueda local, con cada
uno de ellos también se realizaron experimentos sobre los datos de DUC2005 y DUC207. En la
Tabla 1 se muestran los resultados de la evaluación con las medidas ROUGE-2 y ROUGE-SU4
sobre el conjunto de datos de DUC2005.
Tabla 1 Valores ROUGE de los métodos sobre DUC2005.
Métodos ROUGE-2 ROUGE-SU4
MA-MultiDocument-CM 0.0805 (1) 0.1390 (2) MA-MultiDocument-CA 0.0744 (8) 0.1334 (7) MCMR (B&B) 0.0790 (2) 0.1392 (1) MCMR (PSO) 0.0754 (5) 0.1360 (5) TranSumm 0.0755 (4) 0.1366 (3) QEA 0.0749 (7) 0.1333 (8) Content-term 0.0718 (9) 0.1338 (6) Biased LexRank 0.0753 (6) 0.1363 (4) Qs-MRC 0.0779 (3) 0.1366 (3) TMR+TF 0.0715 (10) 0.1304 (9)
Como se aprecia en la Tabla 1, para el conjunto de datos de DUC-2005, el algoritmo memético
propuesto con búsqueda local codiciosa del primer mejor (MA-MultiDocument-CM) obtiene
mejores resultados que el algoritmo con búsqueda local codiciosa aleatoria (MA-MultiDocument-
CA). Además, ocupa el primer puesto con respecto a la medida ROUGE-2, superando a todos
los métodos del estado del arte. En la medida ROUGE-SU4, el algoritmo MA-MultiDocument-
CM ocupa el segundo puesto y solo es superado por el método MCMR basado en ramificación
(MCMR (B&B)) y poda en 0.0002.
Como se aprecia en la Tabla 2, el algoritmo memético MA-MultiDocument-CM también obtiene
mejores resultados para el conjunto de datos de DUC-2007, que el algoritmo MA-
MultiDocument-CA. Sin embargo, MA-MultiDocument-CM ocupa el quinto puesto con respecto a
la medida ROUGE-2, siendo superado por los métodos MCMR (B&B), PPRSum, AdaSum y
MCMR (PSO); con MCMR (B&B) que ocupa el primer puesto por una diferencia de 0.0078. En
la medida ROUGE-SU4, el algoritmo MA-MultiDocument-CM nuevamente ocupa el quinto
puesto, superado por los mismos métodos de ROUGE-2, con MCMR (B&B) que ocupa
nuevamente el primer puesto por una diferencia de 0.01.
7
Tabla 2 Valores ROUGE de los métodos sobre DUC2007
Métodos ROUGE-2 ROUGE-SU4
MA-MultiDocument-CM 0.1143 (5) 0.1653 (5) MA-MultiDocument-CA 0.1105 (7) 0.1621 (7) MCMR (B&B) 0.1221 (1) 0.1753 (1) MCMR (PSO) 0.1165 (4) 0.1697 (3) PNR2 0.0895 (8) 0.1291 (8) PPRSum 0.1195 (2) 0.1710 (2) GSPSum 0.1110 (6) 0.1638 (6) AdaSum 0.1172 (3) 0.1692 (4)
5 Conclusión y Trabajo Futuro
El algoritmo memético propuesto con búsqueda local codiciosa del primer mejor (MA-
MultiDocument-CM) permitió para la generación de resúmenes de múltiples documentos:
estudiar diferentes características utilizadas en el estado del arte y definir una función objetivo
para este problema; estudiar y seleccionar diferentes operadores de selección, cruce, mutación
y reemplazo, permitiendo un balance entre diversidad y presión selectiva; estudiar y seleccionar
un algoritmo de búsqueda local, incorporando conocimiento de este problema.
El algoritmo MA-MultiDocument-CM para el conjunto de datos de DUC-2005, ocupa el primer
puesto con respecto a la medida ROUGE-2, superando a todos los métodos del estado del arte.
En la medida ROUGE-SU4, el algoritmo MA-MultiDocument-CM ocupa el segundo puesto y
solo es superado por el método MCMR basado en ramificación y poda en 0.0002.
Para el conjunto de datos de DUC-2007, MA-MultiDocument-CM ocupa el quinto puesto con
respecto a la medida ROUGE-2, siendo superado por los métodos MCMR (B&B), PPRSum,
AdaSum y MCMR (PSO); con MCMR (B&B) que ocupa el primer puesto por una diferencia de
0.0078. En la medida ROUGE-SU4, el algoritmo MA-MultiDocument-CM nuevamente ocupa el
quinto puesto, superado por los mismos métodos de ROUGE-2, con MCMR (B&B) que ocupa
nuevamente el primer puesto por una diferencia de 0.01.
Como trabajo futuro se hace necesario explorar otras variaciones de explotación y exploración
de los algoritmos meméticos para los mismos conjuntos de datos, para evaluar si un algoritmo
memético puede obtener mejores resultados que los métodos del estado del arte y que MCMR
basado en PSO.
Referencias
[1] R. M. Alguliev, R. M. Aliguliyev, M. S. Hajirahimova, and C. A. Mehdiyev, "MCMR: Maximum coverage and minimum redundant text summarization model," Expert Systems with Applications, vol. In Press, Corrected Proof, 2011.
[2] T. A. Feo and M. G. C. Resende, "Greedy Randomized Adaptive Search Procedures," Journal of Global Optimization, vol. 6, pp. 109-133, 1995.
[3] G. Ochoa, S. Verel, and M. Tomassini, "First-improvement vs. best-improvement local optima networks of NK landscapes," in LNCS Parallel Problem Solving from Nature. vol. 6238, R. Schaefer, C. Cotta, J. Kołodziej, and G. Rudolph, Eds., ed: Springer-Verlag, 2010, pp. 104-113.
8
[4] C.-Y. Lin, "Rouge: a package for automatic evaluation of summaries," in ACL-04 Workshop on Text Summarization Branches Out, Barcelona, Spain, 2004, pp. 74-81.
[5] M.-R. Amini and N. Usunier, "Incorporating prior knowledge into a transductive ranking algorithm for multi-document summarization," in 32nd annual ACM SIGIR conference on research and development in information retrieval, Boston, USA, pp.704–705, 2009.
[6] L. Zhao, L. Wu, and X. Huang, "Using query expansion in graph-based approach for query-focused multi-document summarization," Information Processing and Management, vol. 45, pp. 35–41, 2009.
[7] T. He, W. Shao, F. Li, Z. Yang, and L. Ma, "The automated estimation of contentterms for query-focused multi-document summarization," in Proceedings of the 2008 fifth international conference on fuzzy systems and knowledge discovery (FSKD 2008), October 18–20, Jinan, China, vol. 5 (pp.580–584). 2008.
[8] J. Otterbacher, G. Erkan, and D. R. Radev, "Biased LexRank: passage retrieval using random walks with question-based priors," Information Processing and Management, vol. 45, pp. 42-54, 2009.
[9] F. Wei, W. Li, Q. Lu, and Y. He, "Query-sensitive mutual reinforcement chain and its application in query-oriented multi-document summarization," in 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Singapore, Singapore, 2008, pp. 283–290.
[10] J. Tang, L. Yao, and D. Chen, "Multi-topic based query-oriented summarization," in Ninth SIAM international conference on data mining, Nevada, USA, 2009, pp. 1148–1159.
[11] W. Li, W. Furu, L. Qin, and H. Yanxiang, "PNR2: Ranking sentences with positive and negative reinforcement for query-oriented update summarization," in 22nd international conference on computational linguistics (COLING), Manchester, UK, August 18–22, vol.1, pp. 489–496, 2008.
[12] L. Yong, W. Xiaolei, Z. Jin, and X. Hongbo, "Personalized PageRank Based Multi-document Summarization," in Semantic Computing and Systems, 2008. WSCS '08. IEEE International Workshop on, 2008, pp. 169-173.
[13] J. Zhang, H. Xu, and X. Cheng, "GSPSummary: a graph-based sub-topic partition algorithm for summarization," in Asia information retrieval conference on Information retrieval technology, Springer-Verlag, Berlin, Heidelberg, pp. 321-334, 2008.
[14] J. Zhang, X. Cheng, G. Wu, and H. Xu, "AdaSum: an adaptive model for summarization," presented at the Proceedings of the 17th ACM conference on Information and knowledge management, Napa Valley, California, USA, 2008.
Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos
Anexo C
Título Algoritmo memético para generación automática de resúmenes de múltiples documentos obtenido desde un enfoque Hiperheurístico.
Notas No publicado.
Algoritmo memético para generación automática de resúmenes de
múltiples documentos obtenido desde un enfoque Hiperheurístico
1 Entorno Hiperheurístico
Las hiperheurísticas son un método de búsqueda que tienen como objetivo automatizar el proceso de selección o la combinación más simple de heurísticas para resolver problemas difíciles de búsqueda computacional [1]. Una breve definición de las hiperheurísticas es “heurísticas para elegir heurísticas”, la hiperheurística aplica la heurística correcta durante el proceso de resolución de problemas de acuerdo con el estado actual de la solución [2].
En este trabajo se propone una hiperheurística constructiva con aprendizaje en línea. Las hiperheurísticas con aprendizaje incluyen métodos que cambian dinámicamente la preferencia de cada heurística basada en su desempeño histórico. En este caso es aprendizaje en línea, porque se guardan los valores de las probabilidades de los esquemas de bajo nivel durante la ejecución de la hiperheurística: estos valores permiten realizar la selección de un esquema teniendo en cuenta su desempeño. Las hiperheurísticas constructivas construye una solución incremental de forma adaptativa seleccionando la heurística.
Como heurísticas de alto nivel se utilizaron dos esquemas de selección: Ruleta y Torneo Probabilístico; y como heurísticas de bajo nivel: dos esquemas de selección, dos de cruce y dos algoritmos de búsqueda local. Primero se utilizó un esquema de alto nivel y luego el otro. Al principio todas las heurísticas de bajo nivel tienen la misma probabilidad de ser seleccionadas, pero durante la ejecución con alguno de los esquemas de alto nivel, las probabilidades de éstas cambian.
La heurística de alto nivel selecciona los esquemas de selección, cruce y búsqueda local (Algoritmo memético) para la solución actual. Si el valor de la función objetivo para la nueva solución obtenida es bueno, se incrementa el contador en cada uno de los esquemas elegidos, en caso contrario el contador va disminuyendo; y se calculan las probabilidades que permiten a los esquemas de alto nivel elegir heurísticas de bajo nivel. En la Figura 1 se observa el esquema general del enfoque hiperheurístico propuesto.
Figura 1. Esquema general del enfoque hiperheurístico propuesto
2 Algoritmos meméticos
Los algoritmos meméticos (AM) fueron inspirados por modelos de adaptación en sistemas naturales que combinan la adaptación biológica o genética de una población con el aprendizaje que los miembros de esta población pueden lograr durante su tiempo de vida [3]. Los AM son considerados como una extensión de los Algoritmos Genéticos que aplican técnicas de búsqueda local e incluyen conocimiento del problema, para mejorar la calidad de las soluciones creadas por la evolución.
En la Figura 2 se presentan los pasos del AM propuesto con base al esquema presentado en [4], los pasos incluyen generar la población inicial y evaluar la función de aptitud de cada agente de la misma, seleccionar los padres que se van a cruzar para generar los hijos, optimizar los hijos por medio de búsqueda local y actualizar la población actual por los descendientes por medio del reemplazo.
Figura 2. Esquema general del Algoritmo Memético
2.1 Representación del agente
La representación vectorial del agente se muestra en la Figura 3, donde uno indica que la oración se incluye, cero que no se incluye y n es la cantidad de oraciones candidatas.
Figura 3. Representación vectorial del agente
2.2 Función objetivo
La selección de la función objetivo es muy importante en un AM para la generación de resúmenes debido a que de ella depende la puntuación que se le da a los resúmenes candidatos. La función objetivo que se plantea se basa en máxima cobertura y mínima redundancia, teniendo en cuenta que investigaciones que contemplan estos factores en la función objetivo han mostrado buenos resultados con respecto al estado del arte [5-8]. Una de estas investigaciones es el algoritmo basado en PSO cuya función objetivo está compuesta por estos dos factores (MCMR-PSO) [8].
La función objetivo es definida como la combinación lineal de los factores de cobertura (FC) y redundancia (FR), como se muestra en la Ecuación 1, los cuales están controlados por el
01 Población Inicial 02 Evaluación de la función de aptitud de cada agente de la población. 03 Mientras Parar Condición no se cumple hacer 03.1 Selección de dos padres 03.2 Cruce, dos hijos son generados 03.3 Mejorar los descendientes con la búsqueda local 03.4 Actualizar la población por medio del reemplazo 04 Fin mientras
coeficiente lambda (λ), el cual le da flexibilidad a la función objetivo permitiendo que se dé mayor o menor peso a cada uno de los factores. El coeficiente λ varía entre 0 y 1.
𝑓(𝑥) = 𝜆 ∗ 𝐹𝐶 − (1 − 𝜆) ∗ 𝐹𝑅 (1)
2.2.1 Factor de Cobertura (FC)
La cobertura busca seleccionar las oraciones más relevantes con respecto a las oraciones de los documentos, para lo cual es importante medir la similitud de cosenos entre el texto del resumen (todas las oraciones candidatas del resumen) y las oraciones de toda la colección de documentos. El factor de cobertura se calcula como se muestra en la Ecuación 2.
𝐹𝐶 = 𝑆𝑖𝑚 (𝑅, 𝐷) (2)
Donde R, representa el texto con todas las oraciones del resumen candidato; D, representa todas las oraciones de la colección de documentos (en este caso, es el centroide de la colección); y Sim(R,D), es la similitud de cosenos entre el vector de términos de R y el vector de términos de D. Este factor toma valores entre cero y uno.
2.2.2 Factor de Redundancia (FR)
Un resumen sin redundancia es aquel que contiene oraciones que no expresan la misma información, por el contrario, un resumen es redundante si las oraciones que están en el resumen tratan sobre el mismo tema. Este factor de redundancia se calcula teniendo en cuenta la similitud promedio de las oraciones del resumen candidato. Es deseable que el valor de este factor sea pequeño, porque quiere decir que las oraciones del resumen son distintas; si el valor es alto indicaría que las oraciones del resumen se parecen entre sí. Este factor de redundancia fue tomado de la misma forma como se planteó en MCMR-PSO [8], pero normalizando el valor para que tome valores entre cero y uno, al igual que el factor de cobertura (Ecuación 3).
𝐹𝑅 =2
𝑛 × (𝑛 − 1) ∑ ∑ 𝑆𝑖𝑚(𝑆𝑖, 𝑆𝑗)
𝑛
𝑗=𝑖+1
𝑛−1
𝑖=1
(3)
Donde Si y Sj son oraciones del resumen Sim(Si, Sj) es la similitud entre las dos oraciones y n es la cantidad de oraciones que hay el resumen.
3 Heurísticas de alto y bajo nivel
En esta sección se presentan en forma detallada los esquemas utilizados en las heurísticas de alto y bajo nivel del entorno hiperheurístico mostrado en la Figura 1.
3.1 Esquemas de selección de alto nivel
Se encargan de elegir una heurística de bajo nivel (selección, cruce y búsqueda local) teniendo en cuenta la probabilidad que tienen asignada. Sea n la cantidad de esquemas de un mismo grupo (ejemplo: selección), Néxitos la cantidad de veces que ha sido seleccionado el esquema y Téxitos el total de éxitos de los esquemas (selección, cruce o búsqueda local). La probabilidad asociada a su selección está dada por la Ecuación 4 que define la probabilidad de Laplace [9].
𝑃 = (1 + 𝑁é𝑥𝑖𝑡𝑜𝑠)/(𝑇é𝑥𝑖𝑡𝑜𝑠 + 𝑛) (4)
88
88
88
88
88
88
88
81
3.1.1 Selección por Ruleta
Esta heurística de selección permite que los mejores esquemas de bajo nivel sean elegidos con una mayor probabilidad. En la Figura 4 se pueden observar los pasos a seguir para la selección por ruleta.
Figura 4. Selección por Ruleta de Alto Nivel
3.1.2 Selección por Torneo Probabilístico
Al igual que la selección por ruleta elige una heurística de bajo nivel de cada conjunto, pero teniendo en cuenta los mejores y peores esquemas para ser elegidos, como se muestra en la Figura 5.
Figura 5. Selección por Torneo Probabilístico de Alto Nivel
3.2 Esquemas de bajo nivel
A continuación se describen los esquemas utilizados en el enfoque hiperheurístico para la construcción del AM.
3.2.1 Selección
El proceso de selección se encarga de elegir parejas de agentes1 de la población actual que serán padres de los nuevos agentes, los cuales podrán formar parte de la nueva población. Para la selección de estos esquemas se tuvo en cuenta la calidad por medio de la selección por ruleta que escoge los mejores agentes con una mayor probabilidad [10]; y con la selección por emparejamiento restringido promociona la diversidad al escoger padres aleatorios [11].
3.2.1.1 Selección por ruleta
Propuesto por DeJong, es posiblemente el método más utilizado desde los orígenes de los Algoritmos Genéticos [12]. Cada uno de los agentes de la población tiene un valor de la función objetivo proporcional a su calidad, de tal forma que la suma de estos agentes sea el total de la función objetivo de la población. Los mejores agentes recibirán una porción de la ruleta mayor que la recibida por los peores. Generalmente la población está ordenada en base al mejor valor de la función objetivo por lo que las porciones más grandes se encuentran al inicio de la ruleta. Para seleccionar un agente basta con generar un número aleatorio del intervalo [0..1] y devolver
1 Agente. es un vector con ceros y unos. Si es uno significa que la frase es tenida en cuenta para el resumen en caso contrario no lo es.
01 Escoger un número p esquemas (generalmente 2). 02 Compararlos en base a su probabilidad. 03 Para el ganador del “torneo” se genera un número aleatorio del intervalo
[0..1], si es mayor que un parámetro p (fijado para todo el proceso) se escoge el individuo más alto y en caso contrario el menos apto.
01 Calcular la suma del total de las probabilidades en cada grupo de los esquemas.
02 Repetir N veces (N es el tamaño del grupo). 03 Generar un número aleatorio r entre 0 y 1. 04 Recorrer secuencialmente los esquemas, sumando los valores esperados,
hasta que la suma sea mayor o igual a r. 05 El esquema que haga que la suma exceda el límite r es el seleccionado.
el agente situado en esa posición de la ruleta. Esta posición se suele obtener recorriendo los agentes de la población y acumulando sus proporciones de ruleta hasta que la suma exceda el valor obtenido. Para esta selección se manejan los mismos pasos de la Figura 4, pero en el paso uno se calcula la suma de la función objetivo de la población; en dos, N es el tamaño de la población; y los pasos cuatro y cinco se manejan agentes de la población en lugar de esquemas.
3.2.1.2 Selección por Emparejamiento Restringido
Se escoge una solución similar al primer padre de un grupo de selección [13], como se observa en la Figura 6. Además un ejemplo es mostrado en la Figura 7.
Figura 6. Pasos de la selección por Emparejamiento Restringido
Figura 7. Selección por Emparejamiento Restringido
3.2.2 Cruce
Es el intercambio de material genético entre dos agentes con el objetivo de dar origen a nuevos agentes [12]. El cruce de un punto genera menos diversidad en los hijos, en cambio el cruce uniforme genera más diversidad.
3.2.2.1 Cruce Unipunto
En este esquema se elige un punto intermedio aleatoriamente en los dos agentes padres, dividiendo los padres en ese punto de cruce, y creando los hijos mediante el intercambio de las colas de los agentes, como se puede observar en la Figura 8.
3.2.2.2 Cruce Uniforme
Dados dos agentes denominados Padre 1 y Padre 2, en este esquema el i-ésimo meme2 del primer agente hijo se elige al azar entre el Padre 1 y el Padre 2. Si el Padre 1 es seleccionado, entonces el i-ésimo meme del primer hijo será igual al i-esimo meme del Padre 1. Además, el i-ésimo meme del segundo hijo será igual al i-ésimo meme del Padre 2. Si el Padre 2 es seleccionado, la asignación de memes será inversa a la mencionada. Ver Figura 9.
2 Meme, es un valor 0 u 1 que están distribuidos en el agente.
Pasos: 01 El padre1 (P1), se escoge aleatoriamente de la población actual. 02 Se genera un grupo de tamaño pequeño, escogido aleatoriamente de la
población actual. 03 El padre2 (P2), se escoge del grupo de selección teniendo en cuenta que
sea similar a P1. Se utiliza la similitud de cosenos para escoger el P2.
Figura 8. Cruce Unipunto
Figura 9.Cruce Uniforme
3.2.3 Reemplazo
Los esquemas de reemplazo permiten decidir si el agente generado va a reemplazar un agente de la población actual.
3.2.3.1 Reemplazo por Competencia Restringida
En este esquema se forma un grupo de agentes aleatorios de la población actual, en este grupo se busca el peor agente para ser comparado con el descendiente. Si la función de aptitud del descendiente es mejor que el peor del grupo, el descendiente reemplaza al peor del grupo como se observa en la Figura 10, en este caso el descendiente es mejor y reemplaza al agente 5 de la población actual.
Figura 10. Ejemplo de Reemplazo por Competencia Restringida
3.2.3.2 Reemplazo de los Peores Individuos
En este reemplazo se elige un porcentaje aleatorio de los peores agentes de la población, los cuales serán reemplazados por los descendientes. En la Figura 11 se observa un ejemplo de este tipo de reemplazo.
Figura 11. Ejemplo del Reemplazo de los Peores Individuos
3.2.4 Búsqueda local
Los algoritmos de búsqueda local permiten hacer una explotación de los agentes buscando obtener el óptimo local de ese agente.
3.2.4.1 Búsqueda por vecindad variable
La búsqueda local de vecindad variable (VNS, por sus siglas en inglés Variable Neighbourhood Search) es una metaheurística para resolver problemas de optimización cuya idea básica es el cambio sistemático de vecindario dentro de una búsqueda local [14]. Los vecinos se generaron teniendo en cuenta la misma distancia de hamming3 (DH) entre la solución actual y la solución optimizada. Se definieron dos vecindarios: con DH uno, que cambia el valor de un meme en el agente actual; y con DH dos, que modifica dos memes del agente actual. El cambio consiste en cambiar de uno a cero, o viceversa.
El vecindario con DH uno codiciosa, es un conjunto de aquellas soluciones que a partir del agente inicial actual se le adiciona un meme con la cobertura más alta. Los memes se encuentran en una lista ordenados descendentemente por cobertura. A medida que se van generando más vecinos se adiciona el meme siguiente de la lista, siempre y cuando no se encuentre en la solución inicial actual.
El vecindario con DH dos, es un conjunto de soluciones que a partir del agente inicial actual se elimina un meme con peor cobertura y se adiciona un meme con la cobertura más alta. Los memes también se manejan con la lista ordenada por cobertura.
Se utilizaron dos búsquedas locales de vecindad:
Búsqueda por vecindad codiciosa con DH 1 y 2 (VNDDH1YDH2Codiciosa): encuentra una mejor solución a partir de los vecinos de la solución inicial actual (Ver Figura 12). La mejor solución es aquella que tenga el mayor valor de aptitud. Si no se obtiene mejora cambia a la estructura de vecinos dos, de otro modo vuelve a la estructura de vecinos uno.
3 Distancia de hamming, consiste en el número de bits que tienen que cambiarse para transformar una palabra de código válida en otra palabra de
código válida
Figura 12. Búsqueda por vecindad codiciosa con DH 1 y 2 (VNDDH1YDH2Codiciosa)
Búsqueda por vecindad aleatoria con DH 1 y 2 (VNDDH1YDH2Aleatorio): encuentra una solución aleatoria a partir de los vecinos de la solución inicial actual, cambiando a la estructura de vecinos dos si no se obtiene mejora y volviendo a la primera estructura de vecinos en otro caso. Se utilizan los mismos pasos de la Figura 12, el único cambio que presenta es el paso 03 dado que se realiza es la optimización por vecindad aleatoria.
3.2.4.2 Búsqueda Iterada
Es una metaheurística que usa una solución inicial, una búsqueda local y un procedimiento de perturbación. La perturbación consiste en realizar un cambio o alteración a la solución actual [15]. Se utilizaron cuatro algoritmos de búsqueda para la optimización de los agentes (búsqueda por vecindad codiciosa con DH uno y con DH dos, búsqueda por vecindad aleatorio con DH uno y con DH dos). Los pasos de la búsqueda local iterada son descritos en la Figura 13. En el punto uno no solo se tiene en cuenta la primera solución inicial, debido a que este es un problema poblacional donde se obtienen diferentes soluciones en cada iteración. En el punto 3, la perturbación se realiza si la solución se encuentra en la nueva población. Para este problema la perturbación consiste en generar un agente aleatorio.
Figura 13. Búsqueda Iterada
01 Solución actual. 02 Aplicar un algoritmo de búsqueda que proporcione un óptimo local s*. 03 Si solución optimizada s* está en la nueva población. 03.1 Aplicar una perturbación a la solución s* para transformarla en s’. 03.2 Emplear el algoritmo de búsqueda para obtener s*’.
4 Resultados Experimentales
4.1 Entorno hiperheurístico
El entorno hiperheurístico fue codificado en lenguaje c# .net y se ejecutó en un PC Intel Pentium IV con 1 GB de RAM. La mejor configuración para el AM para el conjunto de datos de DUC 2005 y otra para DUC 2007, se muestra en la Tabla 1.
Debido a que la mejor configuración en los dos conjuntos de datos no fue igual (esquemas de cruce y reemplazo diferentes), se realizaron otros experimentos para escoger la configuración con los mejores resultados en ambos conjuntos; seleccionando de esta forma la configuración de DUC2007.
01 Solución actual. 02 Repetir hasta encontrar mejor solución. 02.1 Vecindario con DH uno. 02.2 Mientras vecindario con DH menor que tres. 02.2.1 Optimización por vecindad codiciosa con DH actual (uno o dos). 0.2.2.2 Si solución optimizada es mejor que la actual 0.2.2.2.1 Volver al paso 02.1. 0.2.2.3 Sino. 0.2.2.3.1 Volver al paso 02.2 teniendo en cuenta el vecindario con DH dos. 0.2.3 Fin mientras. 0.3 Fin repetir.
Tabla 1. Mejores configuraciones DUC2005 y DUC2007
Parámetros DUC2005 DUC2007
Selección de Alto Nivel Ruleta Torneo Probabilístico
Selección Emparejamiento Restringido Emparejamiento Restringido
Cruce Uniforme Unipunto
Búsqueda Local Búsqueda de vecindad con distancia de hamming uno y dos Codiciosa
Búsqueda de vecindad con distancia de hamming uno y dos Codiciosa
Reemplazo Competencia Restringida Peores Individuos
4.2 Evaluación de la Calidad de los Resúmenes
Para evaluar la calidad de los resúmenes generados para múltiples documentos se compararon los resultados del AM obtenido desde el enfoque hiperheurístico para los conjuntos de datos de DUC2005 y DUC2007, con otros métodos del estado del arte que usaron los mismos conjuntos de documentos. En esta sección se describen los conjuntos de datos y métodos usados para la evaluación del AM obtenido.
4.2.1 Corpus de Evaluación
Para la evaluación de los resúmenes generados por el AM, se utilizaron los conjuntos de datos de DUC2005 y DUC2007. DUC2005 cuenta con 50 conjuntos de datos y cada conjunto contiene de 25 a 50 documentos, DUC2007 cuenta con 45 conjuntos y cada conjunto con 25 documentos. El algoritmo genera un resumen de no más de 250 palabras.
En cuanto al pre-procesamiento, todos los documentos fueron segmentados en oraciones y a cada una de las oraciones se le aplica lematización y eliminación de palabras vacías (stopwords) [16] por medio de la librería de lucene.net.
4.2.2 Métricas de Evaluación
Para la evaluación se usó la herramienta ROUGE 1.5.5 [17], que contemplan medidas creadas especialmente para evaluar la calidad de resúmenes de texto generados automáticamente. Estas medidas se empezaron a utilizar en DUC (Conferencia de Entendimiento del Documento), una conferencia en la que se presentaron diferentes sistemas generadores de resúmenes y pone a disposición de la comunidad científica varios conjuntos de documentos con sus correspondientes resúmenes ideales (generados por humanos) para evaluar la calidad de los resúmenes generados. Esta herramienta permite calcular diversas medidas, principalmente ROUGE-N, ROUGE-L y ROUGE-W. La primera se basa en el número de n-gramas de palabras que coinciden entre un resumen candidato y uno o más modelos de referencia. ROUGE-L se basa en obtener la subsecuencia común más larga (LCS por sus siglas en inglés, Longest Common Subsequence) entre dos textos, mientras que ROUGE-W [18] es similar a ROUGE-L con la diferencia de que utiliza una modificación de la LCS básica. Dicha modificación consiste en memorizar los tamaños de los emparejamientos consecutivos y quedarse con el mayor.
4.2.3 Afinación de parámetros
Los parámetros del AM obtenido desde el enfoque hiperheurístico que debieron ser afinados son: la probabilidad de optimización (PO), el tamaño de la población (TP), lambda de la función objetivo (LF), máxima longitud del resumen (MLR). La afinación se realizó tanto para el conjunto de datos de DUC2005, como para DUC2007, teniendo en cuenta el manejo de la misma configuración hiperheurística obtenida. El valor de la medida de ROUGE para cada conjunto de datos es el promedio obtenido de treinta ejecuciones del algoritmo. En la Tabla 2 se muestran
los resultados de la afinación, como se puede observar los valores del AM fueron diferentes en cada conjunto de documentos.
Tabla 2. Afinación de parámetros
Parámetros DUC2005 DUC2007
Probabilidad de Optimización 0.5 0.4
Tamaño de la Población 70 50
Lambda 0.86 0.86
Máxima Longitud del Resumen 290 270
4.2.4 Comparación diferentes métodos
Los métodos con los cuales se compararon los resultados obtenidos con el AM propuesto fueron: MCMR (B&B) y MCMR (PSO) [19], TMR +TF [20], TranSumm [21], Content-term [22], PolyU [23], Biased LexRank [24], QEA [25], Qs-MRC [26], SNMF +SLSS [27], PNRR [28], GSPSum [29], LexRank [30], SVR [31].
4.2.5 Resultados de la evaluación para DUC 2005
En la Tabla 3 se presentan los resultados del AM con 15.000 iteraciones, con el conjunto de datos de DUC2005, como se observa el algoritmo propuesto supera todos los métodos del estado del arte, incluyendo AM con 7.500 iteraciones y el algoritmo MCMR (PSO) que también es evolutivo y cuyo número de iteraciones es similar.
Tabla 3.Resultados de ROUGE para DUC2005
Algoritmo ROUGE-2 ROUGE-SU4
AM (15.000) 0.0812 (1) 0.1394 (1)
AM (7.500) 0.0807 (2) 0.1389 (3)
MCMR(B&B) 0.0790 (3) 0.1392 (2)
MCMR(PSO) 0.0754 (6) 0.1360 (6)
TMR + TF 0.0715 (11) 0.1304 (9)
TranSumm 0.0755 (5) 0.1366 (4)
Content-term 0.0718 (9) 0.1338 (7)
PolyU 0.0717 (10) 0.1297 (10)
Biased LexRank 0.0753 (7) 0.1363 (5)
QEA 0.0749 (8) 0.1333 (8)
Qs-MRC 0.0779 (4) 0.1366 (4)
SNMF +SLSS 0.0604 (12) 0.1230 (11)
En la Tabla 4, se puede observar que existe una mejora de AM con 15.000 en las medidas de ROUGE-2 en un 2.79% y en ROUGE-SU4 en un 0.14% con respecto a MCMR(B&B); y a SNMF +SLSS en un 34.43 y 13.34 respectivamente.
Tabla 4. Comparación AM con otros métodos para conjuntos de documentos DUC2005.
Métodos Mejora del método AM (%)
ROUGE-2 ROUGE-SU4
AM (7.500) 0.62 0.35
MCMR (B&B) 2.79 0.14
MCMR (PSO) 7.69 2.5
TMR + TF 13.57 6.90
TranSumm 7.55 2.05
Content-term 13.09 4.18
PolyU 13.25 7.48
Biased LexRank 7.83 2.27
QEA 8.41 4.58
Qs-MRC 4.23 2.05
SNMF +SLSS 34.43 13.34
4.2.6 Resultados de la evaluación para DUC 2007
En la Tabla 5 se presentan los resultados del AM (15.000), con el conjunto de datos de DUC 2007. En este caso, MCMR (PSO) ocupa el primer puesto, superando todos los métodos del estado del arte, incluyendo AM (15.000). A pesar de esto, los resultados obtenidos para AM (15.000) son promisorios ya que obtiene mejores resultados que los otros métodos del estado del arte.
Tabla 5. Resultados de ROUGE para DUC2007
Algoritmo ROUGE-2 ROUGE-SU4
AM(15.000) 0.1146 (2) 0.1660 (2)
AM(7.500) 0.1144 (3) 0.1656 (3)
MCMR(PSO) 0.1165 (1) 0.1697 (1)
PNR2 0.0895 (7) 0.1291 (7)
GSPSum 0.1110 (5) 0.1638 (4)
LexRank 0.0987 (6) 0.1487 (6)
SVR 0.1117 (4) 0.1628 (5)
Se puede apreciar en la Tabla 6, que los valores obtenidos en ROUGE-2 y ROUGE-SU4, por el AM con 15.000 iteraciones superan cuatro métodos y solo es superado por MCMR (PSO), el valor negativo así lo muestra. El AM con 15.000 iteraciones supera al método PNR2 en las medidas de ROUGE-2 y ROUGE-SU4 en un 28.04% y 28.58% respectivamente. El AM con 7.500 iteraciones supera a los métodos de PNR2, GSPSum, LexRank y SVR en las medidas de ROUGE-2 y ROUGE-SU4.
Tabla 6. Comparación AM con otros métodos para conjuntos de DUC2007
Métodos Mejora del método AM (%)
ROUGE-2 ROUGE-SU4
AM (7.500) 0.17 0.24
MCMR (PSO) -1.63 -2.18
PNR2 28.04 28.58
GSPSum 3.24 1.34
LexRank 16.10 11.63
SVR 2.59 1.96
5 Conclusiones y trabajo futuro
En este trabajo se propone un enfoque hiperheurístico para encontrar un algoritmo memético para generación de resúmenes de múltiples documentos; que permitió encontrar la mejor configuración entre los esquemas de selección por ruleta y por emparejamiento restringido; cruce unipunto y uniforme; búsqueda local iterada y por vecindad variable; reemplazo por competencia restringida y de los peores individuos. La función objetivo a optimizar está compuesta por un factor de cobertura, que mide la similitud entre el texto de las oraciones del resumen candidato y el centroide de las oraciones de la colección de documentos; y un factor
de redundancia que mide que tan similares son las oraciones que componen el resumen candidato.
El AM que se obtuvo desde el enfoque hiperheurístico propuesto, está definido por el esquema de selección por emparejamiento restringido, cruce unipunto, búsqueda por vecindad codiciosa con distancia de hamming 1 y 2 para optimizar los descendientes y para actualizar la población el reemplazo por peores individuos. La configuración encontrada para el AM, presento variaciones en algunos de los esquemas para los conjuntos de datos de DUC2005 y DUC2007, para obtener una única configuración del algoritmo memético se escogió la que permitió obtener los mejores resultados en ambos conjuntos de datos, esta fue la obtenida para el conjunto de datos de DUC2007. El proceso de afinación de los parámetros de probabilidad de optimización, tamaño de la población, lambda y máxima longitud del resumen permitió obtener mejores resultados en las medidas de ROUGE-2 y ROUGE-SU4 sobre los conjuntos de DUC2005 y DUC2007.
El AM obtenido desde el enfoque hiperheurístico se evaluó por medio de las medidas ROUGE-2 y ROUGE-SU4 sobre los conjuntos de datos de DUC2005 y DUC2007; al realizar la comparación del algoritmo propuesto con MCMR (PSO) se superaron los resultados tanto para DUC2005 como para DUC2007. También se superaron los resultados con respecto a los dos conjuntos de datos con diferentes métodos basados en grafos, reducción algebraica y aprendizaje de máquina. Los resultados obtenidos por el algoritmo memético propuesto en este artículo con los conjuntos de datos de DUC2005 y DUC2007 son promisorios ya que superan diferentes métodos del estado del arte.
Como trabajo futuro se espera incluir dentro del entorno hiperheurístico otros esquemas de selección, cruce y búsqueda local, para tratar de obtener mejores resultados que los presentados en este artículo. También, evaluar el algoritmo con otros conjuntos de datos de las conferencias de DUC y TAC, para analizar el comportamiento del AM en la tarea de generación automática de múltiples documentos. Además, explorar otros factores en la función objetivo u otras fórmulas matemáticas para los factores de cobertura y redundancia de esta propuesta, que permitan obtener mejores resultados de los resúmenes generados automáticamente.
Referencias
[1] E. K. Burke, M. R. Hyde, G. Kendall, G. Ochoa, E. Ozcan, and J. R. Woodward, "Exploring Hyper-heuristic Methodologies with Genetic Programming," in Computational Intelligence. vol. 1, C. L. Mumford and L. C. Jain, Eds., ed: Springer, 2009, pp. 177-201.
[2] A. García-Villoria, S. Salhi, A. Corominas, and R. Pastor, "Hyper-heuristic approaches for the response time variability problem," European Journal of Operational Research, vol. 211, pp. 160-169, 2011.
[3] C. Cotta Porras and P. Moscato, "Una Introducción a los Algoritmos Meméticos," Revista Iberoamericana de Inteligencia Artificial, vol. 7, Nº. 19, 2003, pp. 131-148, 2003.
[4] F. Neri, C. Cotta, P. Moscato, and J.-K. Hao, "Memetic Algorithms in Discrete Optimization," in Handbook of Memetic Algorithms. vol. 379, ed: Springer Berlin Heidelberg, 2011, pp. 73-94.
[5] M. Ryan, "A study of global inference algorithms in multi-document summarization," presented at the Proceedings of the 29th European conference on IR research, Rome, Italy, 2007.
[6] G. R. Saggion H, "Multi-document summarization by cluster/profile relevance and redundancy removal," presented at the Proceedings of the Document Understanding Conference 2004, Boston, USA, 2004.
[7] B. Hachey, G. Murray, and D. Reitter, "The embra system at duc 2005: Query-oriented multi-document summarization with a very large latent semantic space (2005)," in Proceedings of the Document Understanding Conference (DUC) 2005, 2005.
[8] R. M. A. Rasim M. Alguliev, Makrufa S. Hajirahimova, Chingiz A. Mehdiyev, "MCMR: Maximum coverage and minimum redundant text summarization model," 2011.
[9] K. Erwin, Ed., Matemáticas Avanzadas para Ingeniería. México: Limusa Wiley, 2003., p.^pp. Pages.
[10] R. Kumar and Jyotishree, "Blending Roulette Wheel Selection & Rank Selection in Genetic Algorithms " International Journal of Machine Learning and Computing, vol. 2, pp. 365-370, 2012.
[11] M. Melanie, An Introduction to Genetic Algorithms. London, England, 1998. [12] V. D. Yannibelli, "Algoritmos Genéticos y Meméticos," 2007. [13] C. Cobos, C. Montealegre, M. F. Mejía, M. Mendoza, and E. León, "Web Document
Clustering based on a New Niching Memetic Algorithm, Term-Document Matrix and Bayesian Information Criterion " Evolutionary Computation (CEC), 2010 IEEE Congress on, pp. 1-8, 2010.
[14] P. Hansen, N. Mladenovié, and J. A. M. Pérez, "Búsqueda de Entorno Variable," 2003. [15] O. C. M. H. R. Lourenco, and T. Stützle, "Iterated Local Search," Handbook of
Metaheuristics, vol. 7, pp. 321-353, 2003. [16] "Stoplist," ftp://ftp.cs.cornell.edu/pub/smart/english.stop, 05 de Noviembre de 2012. [17] C. Lin, "Rouge: a package for automatic evaluation of summaries," in Proceedings of the
Workshop on Text Summarization Branches Out, Barcelona, Spain, 2004. [18] J. Sjobergh, "Older versions of the ROUGE eval summarization evaluation system were
easier to fool," pp. 1500-1505, 2007. [19] R. M. Alguliev, R. M. Aliguliyev, M. S. Hajirahimova, and C. A. Mehdiyev, "MCMR:
Maximum coverage and minimum redundant text summarization model," Expert Systems with Applications, vol. In Press, Corrected Proof, 2011.
[20] L. Y. Jie Tang, Dewei Chen, "Multi-topic based Query-oriented Summarization," SIAM International Conference Data Mining, 2009.
[21] R. A. Massih and U. Nicolas, "Incorporating prior knowledge into a transductive ranking algorithm for multi-document summarization," presented at the Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, Boston, MA, USA, 2009.
[22] H. Tingting, S. Wei, L. Fang, Y. Zongkai, and M. Liang, "The Automated Estimation of Content-Terms for Query-Focused Multi-document Summarization," presented at the Proceedings of the 2008 Fifth International Conference on Fuzzy Systems and Knowledge Discovery - Volume 05, 2008.
[23] W. Li, W. Li, B. Li, Q. Chen, and M. Wu, "The Hong Kong Polytechnic University at DUC2005," Proceedings of the Document Understanding Conference 2005, 2005.
[24] O. Jahna, E. Gunes, and R. R. Dragomir, "Biased LexRank: Passage retrieval using random walks with question-based priors," Inf. Process. Manage., vol. 45, pp. 42-54, 2009.
[25] L. Zhao, L. Wu, and X. Huang, "Using query expansion in graph-based approach for query-focused multi-document summarization," Information Processing & Management, vol. 45, pp. 35-41, 2009.
[26] W. Furu, L. Wenjie, L. Qin, and H. Yanxiang, "Query-sensitive mutual reinforcement chain and its application in query-oriented multi-document summarization," presented at
the Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval, Singapore, Singapore, 2008.
[27] W. Dingding, L. Tao, Z. Shenghuo, and D. Chris, "Multi-document summarization via sentence-level semantic analysis and symmetric matrix factorization," presented at the Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval, Singapore, Singapore, 2008.
[28] W. Li, F. Wei, Q. Lu, and Y. He, "PNR2: ranking sentences with positive and negative reinforcement for query-oriented update summarization," presented at the Proceedings of the 22nd International Conference on Computational Linguistics - Volume 1, Manchester, United Kingdom, 2008.
[29] X. C. Jin Zhang, Hongbo Xu, "GSPSummary: A Graph-Based Subtopic Partition Algorithm for Summarization," Asia Information Retrieval Symposium - AIRS, pp. 321-334, 2008.
[30] E. Gunes and R. R. Dragomir, "LexRank: graph-based lexical centrality as salience in text summarization," J. Artif. Int. Res., vol. 22, pp. 457-479, 2004.
[31] S. Li, Y. Ouyang, W. Wang, and B. Sun, "Multi-document summarization using support vector regression," presented at the in Proceedings of the Document Understanding Conference, New York, 2007.