Generación automática de resúmenes extractivos de ... · Resumen Recientemente los algoritmos...

Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos

meméticos

Martha Eliana Mendoza Becerra

Universidad Nacional de Colombia

Facultad de Ingeniería, Departamento de Ingeniería de Sistemas e Industrial

Bogotá D.C., Colombia

Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos

meméticos

Tesis de investigación presentada como requisito parcial para optar al título de:

Doctor en Ingeniería de Sistemas y Computación

Directora:

Ph.D. Elizabeth León Guzmán

Línea de Investigación:

Sistemas Inteligentes y Recuperación de la información

Grupo de Investigación:

MIDAS – Minería de datos

(Dedicada a)

Mi esposo Carlos Alberto por su amor,

comprensión, apoyo y ánimo en los

momentos difíciles.

Mi hija Laura Sofia por su amor y

ternura.

Agradecimientos

A la Dra. Elizabeth León por ofrecerme la oportunidad de realizar este trabajo bajo su

dirección, por su tiempo, soporte, ánimo y guía en el desarrollo de esta tesis doctoral.

A los profesores de la Universidad Nacional de Colombia –Dra. Jenny Sánchez y Dr. Luis

Fernando Niño–, y al profesor Alexander Gelbukh del Centro de Investigación en

Computo del Instituto Politécnico Nacional de México; por sus contribuciones, apoyo y

colaboración durante mi formación doctoral.

A los Decanos de Facultad de Ingeniería Electrónica y Telecomunicaciones de la

Universidad del Cauca –Mag. Rafael Rengifo Prado y Esp. Oscar Josué Calderón

Cortés–, a los Vicerrectores Académicos –Mag. Alvaro Nelson Hurtado Tejada y Mag.

Eduardo Rojas Pineda–, y a los rectores de la Universidad del Cauca –Mag. Danilo

Reinaldo Vivas Ramos y Mag. Juan Diego Castrillón Orrego–, por todo su apoyo y

colaboración.

A la Universidad Nacional de Colombia por ofrecerme los espacios y el conocimiento

durante el proceso de mi formación como investigadora a nivel doctoral en el programa

de Doctorado en Ingeniería de Sistemas y Computación.

A la Universidad del Cauca por apoyarme financieramente durante mi comisión de

estudios y por el apoyo en las demás actividades relacionadas con el desarrollo de este

programa doctoral.

Abstract y Resumen IX

Resumen

Recientemente los algoritmos basados en metaheurísticas han mostrado buenos

resultados para generar resúmenes automáticos comparados con otros métodos del

estado del arte, sin embargo, aunque los algoritmos meméticos han contribuido en la

resolución de diversos problemas de optimización combinatoria con excelentes

resultados, no han sido usados para resolver el problema de generación automática de

resúmenes. Esta tesis doctoral está enmarcada en el área de investigación de

generación automática de resúmenes de textos, y propone dos algoritmos meméticos

para generar automáticamente resúmenes extractivos, uno para un solo documento y

otro para múltiples documentos. Los algoritmos meméticos propuestos se componen de:

una función objetivo que busca que el resumen contenga las principales temáticas de los

documentos, esquemas de evolución a nivel de población (selección, cruce, mutación y

reemplazo de los agentes) buscando mantener un balance entre calidad y diversidad de

los agentes, y un algoritmo de búsqueda local que permite la explotación de la vecindad

de las soluciones generadas incluyendo conocimiento del problema. La experimentación

de los algoritmos se realiza sobre conjuntos de datos estándar, midiendo la calidad del

resumen generado (comparándolo con resúmenes de referencia) por medio de medidas

aceptadas por la comunidad científica. En la experimentación los algoritmos propuestos

se comparan con otros métodos del estado del arte, logrando que el algoritmo para un

documento ocupe el primer puesto y que el algoritmo para múltiples documentos se

ubique de segundo.

Palabras clave: Generación automática de resúmenes de un solo documento,

Generación automática de resúmenes de múltiples documentos, Algoritmos meméticos,

Búsqueda local guiada, Búsqueda local codiciosa.

X Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos

Abstract

Recently, algorithms based on metaheuristics have shown good results for generating

automatic summaries compared with other methods in published studies, however,

although the Memetic algorithms have contributed to solving a number of diverse,

combinatorial optimization problems, with excellent results. They have not been used for

solving the problem of automatic text summarization. This doctoral thesis falls within the

research area of automatic text summarization and proposes two memetic algorithms for

automatically generating extractive summaries - one for a single document and another

for multiple documents. The memetic algorithms proposed consist of an objective function

to ensure that the summary contains the main themes of the documents, an evolution

scheme at the population level (selection, crossover, mutation and replacement of

agents), seeking to maintain a balance between the quality and diversity of the agents,

and a local search algorithm that allows the exploitation of the vicinity of the generated

solutions, including knowledge of the problem. Testing of the algorithms is performed on

standard data sets, measuring the quality of the summary generated (compared to

reference summaries) through measures accepted by the scientific community. In the

testing, the proposed algorithms are compared to other published methods, with the

algorithm for a single document achieving first place and the algorithm for multiple

documents being placed second.

Keywords: Extractive single-document summarization, Extractive multi-document

summarization, Memetic algorithms, Guided local search, Greedy local search.

Contenido XI

Contenido

Resumen ......................................................................................................................... IX

Abstract............................................................................................................................ X

Lista de Figuras ........................................................................................................... XIV

Lista de Tablas ............................................................................................................. XV

1 Introducción ............................................................................................................. 1 1.1 Definición del problema ................................................................................... 1 1.2 Justificación e importancia ............................................................................... 5 1.3 Objetivos.......................................................................................................... 6

1.3.1 Objetivo general .................................................................................... 6 1.3.2 Objetivos Específicos ............................................................................ 6

1.4 Metodología ..................................................................................................... 7 1.5 Resumen de contribuciones .......................................................................... 13 1.6 Organización del resto del documento ........................................................... 16

2 Estado del arte........................................................................................................ 19 2.1 Generación automática de resúmenes de textos ........................................... 19

2.1.1 Definición y Taxonomía ....................................................................... 19 2.1.2 Esquema general para resúmenes automáticos.................................. 21 2.1.3 Métodos de generación automática de resúmenes ............................. 23

2.2 Métodos para la generación resúmenes extractivos de un documento .......... 23 2.2.1 Estadísticos ......................................................................................... 24 2.2.2 Aprendizaje de máquina ...................................................................... 26 2.2.3 Conectividad de textos ........................................................................ 28 2.2.4 Grafos ................................................................................................. 31 2.2.5 Reducción algebraica .......................................................................... 33 2.2.6 Agrupamiento y modelos probabilísticos ............................................. 35

2.3 Métodos para la generación resúmenes extractivos de múltiples documentos36 2.3.1 Aprendizaje de máquina ...................................................................... 36 2.3.2 Conectividad de textos ........................................................................ 38 2.3.3 Grafos ................................................................................................. 40 2.3.4 Reducción algebraica .......................................................................... 42 2.3.5 Agrupamiento y modelos probabilísticos ............................................. 43 2.3.6 Otros ................................................................................................... 47

2.4 Métodos basados en metaheurísticas ............................................................ 48 2.4.1 Optimización de Pesos ........................................................................ 48

XII Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos

2.4.2 Generación de resúmenes .................................................................. 51 2.5 Evaluación de resúmenes .............................................................................. 55

2.5.1 Conceptos de evaluación .................................................................... 55 2.5.2 Evaluación automática de resúmenes ................................................. 56

2.6 Algoritmos meméticos .................................................................................... 58 2.6.1 Definición ............................................................................................ 58 2.6.2 Esquema de un Algoritmo memético básico ........................................ 60 2.6.3 Consideraciones importantes en el diseño .......................................... 61 2.6.4 Búsqueda local .................................................................................... 64

2.7 CHC ............................................................................................................... 65

3 Algoritmo para la generación de resúmenes de un solo documento ................. 67 3.1 Características de la función objetivo ............................................................. 67

3.1.1 Posición de la oración ......................................................................... 67 3.1.2 Relación de la oración con el título ...................................................... 68 3.1.3 Longitud de la oración ......................................................................... 69 3.1.4 Cohesión ............................................................................................. 69 3.1.5 Cobertura ............................................................................................ 70

3.2 Algoritmo propuesto: MA-SingleDocSum ...................................................... 70 3.2.1 Representación del documento y medidas de similitud ....................... 71 3.2.2 Representación de la solución ............................................................. 72 3.2.3 Función objetivo .................................................................................. 72 3.2.4 Esquema de MA-SingleDocSum ......................................................... 73

4 Algoritmo para la generación de resúmenes de múltiples documentos ............ 81 4.1 Características de la función objetivo ............................................................. 81

4.1.1 Cobertura ............................................................................................ 81 4.1.2 Redundancia ....................................................................................... 82

4.2 Algoritmo propuesto: MA-MultiSumm ............................................................. 82 4.2.1 Representación del documento y medidas de similitud ....................... 83 4.2.2 Representación de la solución ............................................................. 83 4.2.3 Función objetivo .................................................................................. 84 4.2.4 Esquema de MA-MultiSumm ............................................................... 85

5 Resultados Experimentales ................................................................................... 91 5.1 Algoritmo MA-SingleDocSum ......................................................................... 91

5.1.1 Conjunto de datos ............................................................................... 91 5.1.2 Pre-procesamiento de datos ................................................................ 92 5.1.3 Métricas de evaluación ........................................................................ 93 5.1.4 Afinamiento de parámetros ................................................................. 94 5.1.5 Comparación con diferentes métodos ................................................. 94 5.1.6 Resultados y discusión ........................................................................ 96

5.2 Algoritmo MA-MultiSumm ............................................................................ 100 5.2.1 Conjunto de datos ............................................................................. 101 5.2.2 Pre-procesamiento de datos .............................................................. 101 5.2.3 Métricas de evaluación ...................................................................... 101 5.2.4 Afinamiento de parámetros ............................................................... 102 5.2.5 Comparación con diferentes métodos ............................................... 103 5.2.6 Resultados y discusión ...................................................................... 105

6 Conclusiones, Recomendaciones y Trabajo Futuro .......................................... 111 6.1 Conclusiones ............................................................................................... 111

Contenido XIII

6.1.1 Generación de resúmenes de un solo documento ............................ 111 6.1.2 Generación de resúmenes de múltiples documentos ........................ 113 6.1.3 Generales ......................................................................................... 115

6.2 Recomendaciones ....................................................................................... 116 6.3 Trabajo Futuro ............................................................................................. 117

Bibliografía .................................................................................................................. 119

Anexo A: Generación automática de resúmenes de múltiples documentos basada en la mejor búsqueda armónica global y búsqueda local codiciosa.

Anexo B: Generación automática de resúmenes de múltiples documentos basado en operadores genéticos y búsqueda local codiciosa.

Anexo C: Algoritmo memético para generación de resúmenes de múltiples documentos obtenido desde un enfoque hiperheurístico.

XIV Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos

Lista de Figuras

Figura 1-1: Metodología de investigación iterativa 7

Figura 1-2: Metodología y cronograma general 9

Figura 2-1: Generación de resúmenes extractivos para uno y múltiples documentos 21

Figura 2-2 Esquema general de generación automática de resúmenes 22

Figura 2-3 Métodos de generación automática de resúmenes 23

Figura 2-4 Métodos estadísticos para un solo documento 25

Figura 2-5 Técnicas de aprendizaje de máquina para un solo documento 28

Figura 2-6 Cadenas léxicas para un solo documento 29

Figura 2-7 Estructuras retóricas para un solo documento 30

Figura 2-8 Grafos para un solo documento 32

Figura 2-9 Reducción algebraica para un solo documento 35

Figura 2-10 Cadenas léxicas para múltiples documentos 39

Figura 2-11 Estructuras retóricas para múltiples documentos 40

Figura 2-12 Agrupamiento para múltiples documentos 47

Figura 2-13 Metaheurísticas para uno o múltiples documentos 55

Figura 2-14 Medidas de evaluación de resúmenes automáticos 56

Figura 2-15 Esquema general del algoritmo CHC 66

Figura 3-1 Procedimiento de búsqueda local guiada 78

Figura 3-2: Esquema del algoritmo MA-SingleDocSum 80

Figura 4-1 Cruce HUX 86

Figura 4-2 Procedimiento de búsqueda codiciosa 89

Figura 4-3 Esquema del algoritmo MA-MultiSumm 90

Contenido XV

Lista de Tablas

Tabla 1-1 Mejor Reporte ROUGE (Estado del arte vs Resumen Referencia) 3

Tabla 1-2 Producción de nuevo conocimiento y/o desarrollos tecnológicos 13

Tabla 1-3 Fortalecimiento de la comunidad científica 14

Tabla 1-4 Apropiación social del conocimiento 15

Tabla 5-1 Descripción de los conjuntos de datos usados 92

Tabla 5-2 Puntajes ROUGE con el conjunto de datos DUC2001 96

Tabla 5-3 Puntajes ROUGE con el conjunto de datos DUC2002 97

Tabla 5-4 Comparación de MA-SingleDocSum con otros métodos (ROUGE-2) 97

Tabla 5-5 Comparación de DE con otros métodos con DUC2001 (ROUGE-1) 98

Tabla 5-6 Comparación de DE con otros métodos con DUC2001 (ROUGE-1) 98

Tabla 5-7 Ordenamiento unificado de los métodos 99

Tabla 5-8 Descripción de los conjuntos de datos usados 101

Tabla 5-9 Puntajes ROUGE de los métodos con DUC2005 106

Tabla 5-10 Comparación de MA-MultiSumm con otros métodos con DUC2005 106

Tabla 5-11 Puntajes ROUGE de los métodos con DUC2006 107

Tabla 5-12 Comparación de MA-MultiSumm con otros métodos con DUC2006 107

Tabla 5-13 Ordenamiento unificado de los métodos 108

1 Introducción

En internet se encuentra gran cantidad de textos que tratan del mismo tópico, siendo de

gran utilidad contar con un resumen que contenga las principales temáticas abordadas

en los mismos. Por ejemplo, en los motores de búsqueda se necesita obtener los

resúmenes de cada página web recuperada en una consulta y en el agrupamiento de

documentos web, para resumir (etiquetar) los documentos que pertenecen a cada grupo.

El área de investigación de generación automática de resúmenes de textos apunta a

resolver este problema, abordándolo desde diferentes técnicas, como por ejemplo:

estadísticas, grafos, reducción algebraica, agrupamiento y probabilísticas,

metaheurísticos, entre otras. Teniendo en cuenta que los métodos del estado del arte

basados en metaheurísticas han obtenido recientemente los mejores resultados en la

solución del problema de generación automática de resúmenes y que los algoritmos

meméticos han contribuido en la resolución de diversos problemas de optimización

combinatoria, se plantea abordar la solución de este problema por medio de estos

algoritmos meméticos.

En esta investigación doctoral se proponen dos algoritmos para la generación automática

de resúmenes extractivos basados en algoritmos meméticos, un algoritmo para un solo

documento y el otro para múltiples documentos. Para la evaluación de estos algoritmos

se tiene en cuenta la calidad de los resúmenes generados en comparación con los

resultados obtenidos por otros métodos del estado del arte.

1.1 Definición del problema

Actualmente se encuentra gran cantidad de información en documentos de texto digitales

en internet y en las organizaciones. Cuando un usuario está interesado en profundizar en

una cierta temática, ésta puede estar contenida en gran cantidad de textos que

2 Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos

difícilmente pueden ser leídos en su totalidad, teniendo que invertir mucho tiempo y

esfuerzo para encontrar lo que está buscando; por esto, contar con un resumen, en el

cual se pueda identificar las principales temáticas contenidas en los documentos

disponibles es de gran ayuda para el usuario.

El área de investigación de generación automática de resúmenes de textos apunta a

resolver este problema, abordándolo desde diferentes técnicas. Sin embargo, se sigue en

la búsqueda de métodos que esencialmente generen un resumen de calidad, es decir,

muy similar al generado por un humano. La comunidad científica de ésta área acepta

realizar la evaluación de la calidad de los resúmenes generados, por medio de métricas

enfocadas en la coincidencia de N-gramas entre el resumen generado y los resúmenes

de referencia (ideales), conocidas como ROUGE (Recall-Oriented Understudy for Gisting

Evaluation). En el estado del arte se encuentran reportes que muestran que la calidad de

los resúmenes se puede seguir mejorando, es decir, proponer nuevos métodos que

generen resúmenes más similares a los hechos por un humano.

En la Tabla 1-1 se puede observar la diferencia entre el mejor reporte del estado del arte

(método automático) y el mejor reporte de los resúmenes de referencia (resumen de un

humano comparado con los demás resúmenes de referencia), basado en las medidas de

ROUGE (mayores valores significan mejor calidad) sobre dos conjuntos de datos de la

Conferencia de Entendimiento del Documento (Document Understanding Conference,

DUC). En el caso de generación automática de resúmenes de un solo documento, para

el conjunto de datos DUC2002, en la medida ROUGE-1 el mejor reporte del estado del

arte es de 0.4849, mientras que el mejor reporte de los resúmenes de referencia es

0.5164. Para el caso de múltiples documentos, en la medida ROUGE-2 el mejor reporte

del estado del arte es de 0.0822 y el mejor de los resúmenes de referencia es de 0.1179.

Como se observa en el capítulo 5 (Resultados Experimentales), por lo general las

diferencias entre los métodos se da por los dos últimos decimales en estas medidas y

una pequeña diferencia permite que un método se ubique como estado el arte en este

problema.

Algunas de las áreas de aplicación de la generación automática de resúmenes de un

documento, son: Motores de búsqueda [1], breve resumen del documento o página web;

E-learning [2], para seleccionar la información más importante desde un texto. En el caso

Introducción 3

de resúmenes de múltiples documentos encontramos: Noticias [3], información relevante

de un evento o desastre natural; Colecciones de E-mail [4], resúmenes de correos

electrónicos que contemplan el mensaje inicial del correo y las respuestas subsecuentes

a éste; Agrupamiento de documentos web, para la asignación de etiquetas a los grupos

[5]; Bodegas textuales, en las cuales los resúmenes de cada documento se realizan por

medio de términos o palabras claves del documento [6-8].

Tabla 1-1 Mejor Reporte ROUGE (Estado del arte vs Resumen Referencia)

Cantidad de

documentos

Conjunto

de datos Estado del arte Resumen de Referencia

Uno DUC2002 Rouge-1 Rouge-2 Rouge-1 Rouge-2

0.4849 0.2284 0.5164 0.2340

Múltiples DUC2005 Rouge-2 Rouge-SU4 Rouge-2 Rouge-SU4

0.0822 0.1418 0.1179 0.1780

En el estado del arte del área de generación automática de resúmenes se encuentran

diversos métodos (véase capítulo 2), entre los cuales se destacan: estadísticos que se

basan en características estadísticas como frecuencia de la palabra y de la oración;

basados en aprendizaje de máquina que buscan obtener la probabilidad de que una

oración sea incluida en un resumen; basados en conectividad de textos que establecen

conexiones entre las partes de un texto para llegar a resúmenes más coherentes y fáciles

de comprender; basados en grafos que obtienen el resumen teniendo en cuenta la

importancia de cada oración después de un proceso iterativo de convergencia del grafo;

basados en reducción algebraica que usan la descomposición matricial para obtener el

resumen; basados en agrupamiento y modelos probabilísticos, en los cuales se generan

grupos de documentos asociados a un tópico particular; y basados en metaheurísticas

que buscan optimizar una función objetivo para encontrar las oraciones que harán parte

del resumen.

De estos métodos, los basados en reducción algebraica, agrupamiento, modelos

probabilísticos y metaheurísticas, son independientes del lenguaje y no supervisados,

aspectos importantes para evitar la dependencia del lenguaje y tener que contar con

grupos para una fase de entrenamiento. Aunque estos métodos han obtenido buenos

resultados sobre otros métodos, investigaciones recientes muestran que los métodos

basados en metaheurísticas, tanto para un documento como para múltiples documentos

han mostrado mejores resultados, haciendo que la investigación en esta área sea

prometedora.

Estos métodos basados en metaheurísticas se han utilizado de dos formas: (1) para la

optimización de los pesos de las características que forman parte de la ecuación que

asigna un puntaje a cada oración del texto original (este puntaje define cuales oraciones

harán parte del resumen), por medio de algoritmos genéticos [9-12], programación

genética [13] y optimización de enjambres de partículas [14, 15]; y (2) para la

optimización de una función objetivo específica que permita obtener el mejor resumen

candidato, mediante algoritmos genéticos [16-18], búsqueda armónica [19], optimización

por enjambres de partículas [20-23] y más recientemente con evolución diferencial [24-

Teniendo en cuenta que métodos del estado del arte basados en metaheurísticas han

obtenido buenos resultados en la solución del problema de generación automática de

resúmenes, que los algoritmos meméticos han contribuido en la resolución de diversos

problemas de optimización combinatoria, entre ellos, los problemas discretos [30, 31], y

que al inicio de esta tesis no habían sido usados para resolver el problema de generación

automática de resúmenes, se consideró apropiado abordar la solución de este problema

por medio de algoritmos meméticos. Además con los algoritmos meméticos se logra lo

solución en una buena región puede ser mejorada, dirigiendo la búsqueda hacia esta

región, lo que normalmente no sucede con un algoritmo evolutivo.

Mejores resultados, dado que se usa conocimiento específico del problema (concepto

derivado del Non-free lunch theorem). En general, la precisión de los resultados

obtenidos con los algoritmos meméticos es mejor que cuando se usan por separado

los algoritmos evolutivos y la búsqueda local.

Mayor velocidad en la obtención de soluciones precisas, debido al incremento en la

velocidad de convergencia hacia las soluciones óptimas.

Introducción 5

Por lo anterior se planteó la siguiente pregunta de investigación: ¿Es posible generar

resúmenes automáticos para uno o múltiples documentos desde la perspectiva de un

algoritmo memético, que permita obtener resúmenes de mayor calidad o comparables a

los establecidos en el estado del arte?. En esta investigación se pretende resolver esta

pregunta, proponiendo dos algoritmos de generación automática de resúmenes

extractivos basado en algoritmos meméticos, uno para un solo documento y otro para

múltiples documentos.

La evaluación de los dos algoritmos propuestos se realizó sobre conjuntos de datos de

DUC, midiendo la calidad del resumen generado (comparándolo con resúmenes de

referencia) por medio de las medidas ROUGE, las cuales son reconocidas en la

comunidad científica para evaluar la calidad de los resúmenes. En la experimentación los

algoritmos propuestos se compararon con otros métodos del estado del arte, logrando

que el algoritmo para un documento ocupe el primer puesto en el estado del arte y que el

algoritmo para múltiples documentos se ubique de segundo.

1.2 Justificación e importancia

Esta investigación es importante desde el punto de vista teórico, porque plantea la

definición de dos nuevos algoritmos de generación automática de resúmenes extractivos

basado en algoritmos meméticos. El primero para un solo documento que se estableció

como el estado del arte, el segundo para múltiples documentos que se ubica muy cerca

del estado del arte. Teniendo en cuenta los resultados obtenidos, la investigación

alrededor de nuevos métodos basados en metaheurísticas es promisoria para la

comunidad científica de generación automática de resúmenes extractivos.

También es importante para la comunidad científica el conocimiento de los siguientes

componentes del algoritmo memético que tienen en cuenta las particularidades del

problema de generación automática de resúmenes tanto para uno como múltiples

documentos: una función objetivo que busca que el resumen contenga las principales

temáticas de los documentos; esquemas de evolución a nivel de población (selección,

cruce, mutación y reemplazo de los agentes) que buscan mantener un balance entre

calidad y diversidad de los agentes; y un algoritmo de búsqueda local que permite la

explotación de la vecindad de las soluciones generadas incluyendo conocimiento del

problema.

1.3 Objetivos

Los objetivos alcanzados con el desarrollo de esta tesis doctoral se presentan a

continuación.

1.3.1 Objetivo general

Proponer dos algoritmos de generación automática de resúmenes extractivos basados en

algoritmos meméticos, uno para un solo documento y otro para múltiples documentos,

que permita obtener resúmenes con resultados similares o mejores a los reportados en el

estado del arte.

1.3.2 Objetivos Específicos

Definir un algoritmo para la generación automática de resúmenes extractivos de un

solo documento, basado en algoritmos meméticos, que contemple:

o Una función objetivo compuesta por características estadísticas como: Posición y

Longitud de la oración; y de similitud entre oraciones como: Relación de la oración

con el título, Cohesión y Cobertura.

o Esquemas de selección basados en el rango y ruleta, cruce de un punto entre

agentes, mutación multi-bit y reemplazo basado en competencia restringida,

buscando mantener un balance entre calidad y diversidad de los agentes.

o Un algoritmo de búsqueda local guiada, que permita la explotación guiada de la

vecindad de los agentes generados incluyendo conocimiento del problema de un

solo documento.

Definir un algoritmo para la generación automática de resúmenes extractivos de

múltiples documentos, basado en algoritmos meméticos, que contemple:

o Una función objetivo compuesta por características de similitud como: Cobertura,

buscando que las oraciones del resumen tengan en cuenta los tópicos principales

contenidos en el conjunto de documentos y Redundancia que evite oraciones

similares en el resumen.

Introducción 7

o Esquemas de selección aleatoria con prevención de incesto, cruce HUX y

reemplazo elitista, permitiendo realizar una exploración del espacio de búsqueda

de la solución manteniendo la diversidad de los agentes.

o Un algoritmo de búsqueda local codiciosa, permitiendo realizar la explotación de

la vecindad de los agentes incluyendo conocimiento del problema de múltiples

documentos.

Medir la calidad promedio de los resúmenes generados por los dos algoritmos

propuestos, usando conjuntos de datos estándar de la Conferencia de Entendimiento

de Documentos (Document Understanding Conference) y medidas ROUGE; y

comparar los resultados con métodos del estado del arte.

1.4 Metodología

Para el desarrollo de esta investigación se utilizó la metodología de investigación iterativa

propuesta por Pratt en 2009 [32], diseñada especialmente para proyectos de

investigación de Ciencias de la Computación que involucran una solución computacional.

Cada iteración está compuesta por cuatro etapas, que son: Observación, Identificación

del problema, Desarrollo de la solución y Prueba de la solución (ver Figura 1-2).

Figura 1-1: Metodología de investigación iterativa

Estas etapas se desarrollan de forma iterativa. En la etapa 1 (Observación), se estudia

de acuerdo al componente del algoritmo memético, las características (función objetivo),

operadores (esquemas de reproducción) y algoritmos (búsqueda local). En la etapa 2

(Identificación del problema) se hace la selección de los componentes previamente

estudiados teniendo en cuenta las particularidades de la tarea generación automática de

resúmenes de textos. Luego con esta selección en la etapa 3 (Desarrollo de la solución)

se construye o modifica la solución computacional; y finalmente en la etapa 4 (Prueba de

la solución) se realiza la evaluación de los resúmenes obtenidos con esta solución con

respecto a otros métodos del estado del arte. Al terminar un ciclo se tienen en cuenta los

resultados obtenidos en la evaluación del algoritmo para definir los componentes a

estudiar en el siguiente ciclo (etapa 1) y así repetir nuevamente el proceso hasta

completar los ciclos necesarios para obtener el algoritmo final.

Para el algoritmo de generación automática de resúmenes de un solo documento basado

en algoritmos meméticos, se realizaron dos iteraciones (cada una con cuatro ciclos),

donde cada iteración generó un nuevo algoritmo. En la primera iteración basado en un

algoritmo genético y en la segunda basado en la mejor búsqueda armónica global

(Global-best Harmony Search, GHS). Los mejores resultados se obtuvieron con el

algoritmo basado en el genético.

Para el algoritmo de generación automática de resúmenes de múltiples documentos, se

realizaron cinco iteraciones. Las iteraciones 3, 5 y 6 se basaron en algoritmos genéticos y

la 2 en GHS. La primera iteración permitió la exploración en el área de aplicación de

Bodegas textuales. Nuevamente los mejores resultados se obtuvieron con el algoritmo

memético basado en genéticos.

En cada iteración se logró obtener un producto específico (ver Figura 1-2), estos fueron:

(1) un modelo multi-dimensional para una bodega de documentos con medidas de texto

(DW-TM), (2) un algoritmo GHS con búsqueda local codiciosa para generación de

resúmenes para múltiples documentos (GHS-MultiDocument), (3) un algoritmo basado en

operadores genéticos y búsqueda codiciosa para generación de resúmenes de múltiples

documentos (MA-MultiDocument), (4) un algoritmo basado en operadores genéticos y

búsqueda local guiada para generar resúmenes para un solo documento (MA-

SingleDocSum), (5) un algoritmo basado en CHC (Cross-generational elitist selection,

Heterogeneous recombination, Cataclysmic mutation) y búsqueda local codiciosa para

generación de resúmenes de múltiples documentos (MA-Multisumm), (6) un algoritmo

basado en un enfoque hiper-heurístico para múltiples documentos (HH-MultiDocument),

(7) un algoritmo basado en GHS y búsqueda local codiciosa para generar resúmenes

para un solo documento (ESDS-GHS-GLO).

Introducción 9

Figura 1-2: Metodología y cronograma general

En la primera iteración (1-DW-TM) se realizó una exploración de la generación

automática de resúmenes para múltiples documentos en una bodega de documentos por

medio de medidas textuales y probabilidades de tópicos de cada documento (Motivación

de la tesis). Pero teniendo en cuenta las observaciones de los jurados realizadas a la

propuesta doctoral, se limitó el alcance de la propuesta a un sistema de procesamiento

fuera de línea. El desarrollo de este modelo permitió: (1) Explorar la generación

automática de resúmenes de múltiples documentos en un sistema de procesamiento en

línea como las bodegas textuales. (2) Definir un modelo multidimensional de bodegas

que incluye medidas textuales. (3) Identificar dificultades a nivel de modelamiento

multidimensional y de herramientas OLAP para soportar y manejar las medidas textuales.

(4) Realizar el proceso de adquisición de datos y pre-procesamiento de artículos

científicos. (5) Obtener una evaluación de tiempos de ejecución para consultas con: una

y dos jerarquías de dimensión; esquemas acoplado y matriz. Además, una evaluación de

satisfacción del usuario con respecto al tiempo de ejecución y la facilidad de uso. (6)

Realizar un artículo con los resultados obtenidos que fue publicado en una revista

internacional (categoría A1 según PUBLINDEX-COLCIENCIAS y JCR-Q1:2014 con un

factor de impacto de 2.313) [33] y recibir la correspondiente retroalimentación de pares

internacionales.

En la segunda iteración (2-GHS-MultiDocument) se definió un algoritmo para generación

de resúmenes de múltiples documentos basado en GHS (y sus variaciones) con

búsqueda local codiciosa, evitando inicialmente la definición de esquemas evolutivos

(selección, cruce, mutación y reemplazo), generalmente necesaria en la definición de un

algoritmo genético. Con el desarrollo de este algoritmo se logró lo siguiente: (1) Adaptar

una función objetivo que combinaba algunas características de dos algoritmos ya

existentes, uno basado en la búsqueda armónica (Harmony Search, HS) para un solo

documento y otro en optimización por enjambres de partículas (Particle Swarm

Optimization, PSO) para múltiples documentos. (2) Comparar los resultados obtenidos

con otras variaciones de HS y con otros algoritmos del estado del arte. (3) Realizar el

proceso de adquisición de datos y pre-procesamiento para los conjuntos de datos de

DUC2005 y DUC2007. (4) Analizar los resultados obtenidos en las medidas ROUGE-2 y

ROUGE-SU4. Debido a que los resultados no superaron los métodos del estado del arte

(Ver Anexo A), no se realizó publicación de los resultados en evento/revista.

En la tercera iteración (3-MA-MultiDocument) se definió un algoritmo memético para

generación de resúmenes de múltiples documentos basado en operadores genéticos y

búsqueda codiciosa. El desarrollo de este algoritmo permitió: (1) Realizar un estudio de

las características utilizadas en el estado del arte para la generación de resúmenes de

múltiples documentos. (2) Definir una función objetivo con las características de

Cobertura y la Redundancia, por medio de similitudes semánticas entre oraciones. (3)

Estudiar diferentes operadores de selección, cruce, mutación y reemplazo, y de estos

seleccionar un conjunto de cada operador tratando de equilibrar la diversidad y la presión

selectiva en el algoritmo memético para múltiples documentos. (4) Definir una

combinación de operadores adecuada para el problema de resúmenes de múltiples

documentos. (5) Estudiar diferentes algoritmos de búsqueda local y seleccionar el más

adecuado para este problema. (6) Comparar la calidad de los resúmenes generados por

MA-MultiDocument con otros métodos del estado del arte encontrando para el conjunto

de datos DUC2005 mejores resultados que para el conjunto de datos DUC2007. Debido

a que los resultados no superaron los métodos del estado del arte (Ver Anexo B), no se

realizó publicación de los resultados en evento/revista.

En la cuarta iteración (4-MA-SingleDocSum) se definió un algoritmo de generación de

resúmenes extractivos de un solo documento basado en operadores genéticos y

Introducción 11

búsqueda local guiada. Con el desarrollo de este algoritmo se logró: (1) Realizar un

estudio de las características utilizadas en el estado del arte para generación de

resúmenes de un solo documento. (2) Definir una función objetivo con características

estadísticas como: Posición y Longitud de la oración; y de similitud semántica entre

oraciones como: Relación de la oración con el título, Cohesión y Cobertura. (3) Estudiar

diferentes operadores de selección, cruce, mutación y reemplazo, y de estos seleccionar

un conjunto de cada operador tratando de equilibrar la diversidad y la presión selectiva

en el algoritmo. (4) Definir una combinación de operadores adecuada para el problema

de resúmenes de un solo documento. (5) Estudiar diferentes algoritmos de búsqueda

local y seleccionar el más adecuado para este problema. (6) Realizar el proceso de

adquisición de datos y pre-procesamiento para los conjuntos de datos de DUC2001 y

DUC2002. (7) Comparar la calidad de los resúmenes generados con otros métodos del

estado del arte encontrando que MA-SingleDocSum supera éstos métodos con los

conjuntos de datos DUC2001 y DUC2002. (8) Encontrar que la aplicación de algoritmos

meméticos en el problema de un solo documento presenta resultados prometedores,

dando espacio a una mayor exploración en este tipo de algoritmos. (9) Realizar un

artículo con estos resultados que fue publicado en una revista internacional (categoría A1

según PUBLINDEX-COLCIENCIAS y JCR-Q1:2014 con un factor de impacto de 2.240)

[34] y recibir la correspondiente retroalimentación de pares internacionales.

En la quinta iteración (5-MA-Multisumm) se definió un algoritmo memético para

generación de resúmenes de múltiples documentos basado en CHC y búsqueda

codiciosa. Con el desarrollo de este algoritmo se logró lo siguiente: (1) Adaptar el

algoritmo CHC al problema de múltiples documentos, manteniendo la diversidad en la

población. (2) Realizar el proceso adquisición de datos y pre-procesamiento para el

conjunto de datos de DUC2006. (3) Comparar la calidad de los resúmenes generados

con otros algoritmos sobre los conjuntos de datos DUC2005 y DUC2006; encontrando

que MA-Multisumm ocupa el segundo lugar entre los métodos del estado del arte, pero el

algoritmo que ocupa el primer puesto excede en tres veces las evaluaciones de la

función objetivo establecida en MA-MultiSumm (50.000 vs 15.000). (4) Encontrar que la

aplicación de algoritmos meméticos en el problema de múltiples documentos presenta

resultados prometedores, dando espacio a una mayor exploración en este tipo de

algoritmos. (5) Realizar un artículo con estos resultados que fue publicado en un evento

internacional (Lecture Notes in Computer Science, categoría A2 según PUBLINDEX-

COLCIENCIAS y SJR-Q2:2014 con un factor de impacto de 0.339) [35] y recibir la

correspondiente retroalimentación de pares internacionales.

En la sexta iteración (6-HH-MultiDocument) se definió un algoritmo memético para

generación de resúmenes de múltiples documentos obtenido desde un enfoque

hiperheurístico. El desarrollo de este algoritmo permitió: (1) Seleccionar las heurísticas de

alto nivel que permiten seleccionar las heurísticas de bajo nivel. (2) Seleccionar las

heurísticas de bajo nivel para realizar la selección, cruce, reemplazo y búsqueda local.

(3) Definir una combinación de operadores para el algoritmo memético en el problema de

resúmenes de múltiples documentos. (4) Comparar la calidad de los resúmenes

generados por HH-MultiDocument con otros métodos del estado del arte encontrando

nuevamente que para el conjunto de datos DUC2005 se obtiene mejores resultados que

para el conjunto de datos DUC2007. Debido a que los resultados no superaron los

métodos del estado del arte (Ver Anexo C), no se realizó publicación de los resultados en

evento/revista.

En la séptima iteración (7-GHS-SingleDocSum) se definió un nuevo algoritmo para

generación de resúmenes de un solo documento basado en GHS y búsqueda codiciosa.

El desarrollo de este algoritmo permitió: (1) Adaptar el algoritmo GHS para generar

resúmenes para un solo documento. (2) Comparar la calidad de los resúmenes

generados con otros métodos del estado del arte sobre los conjuntos de datos DUC2001

y DUC2002; encontrando que GHS-SingleDocSum ocupa el segundo puesto (ganando el

algoritmo propuesto previamente MA-SingleDocSum). (3) Realizar un artículo con estos

resultados que fue publicado en un evento internacional (Lecture Notes in Computer

Science, categoría A2 según PUBLINDEX-COLCIENCIAS y SJR-Q2:2014 con un factor

de impacto de 0.339) [36] y recibir la correspondiente retroalimentación de pares

internacionales.

Paralelamente se realizó una etapa relacionada con tareas de documentación y

divulgación de la investigación. Las actividades desarrolladas en esta etapa permitieron

lo siguiente: (1) la sistematización del proceso y de los productos obtenidos a lo largo del

desarrollo del proyecto compilada en la monografía de la tesis doctoral; (2) una revisión

continua del estado del arte, obteniendo como resultado una publicación en una revista

nacional [37] (categoría B según PUBLINDEX-COLCIENCIAS); y (3) la publicación de los

Introducción 13

resultados obtenidos en algunas de las iteraciones de la metodología en revistas

internacionales y la presentación en eventos internacionales.

Además se realizaron tareas complementarias como: (1) Dirección de ocho proyectos de

grado en Ingeniería de Sistemas relacionados con el área de investigación. (2) Dirección

de dos tesis de Maestría en Computación uno en el área de investigación y el otro en un

área complementaria. (3) Orientación como profesora de dos cursos relacionados con

Fundamentos de metaheurísticas y Algoritmos meméticos en pregrado y posgrado. (4)

Realización de una estancia de corta duración (pasantía de investigación) en la

Universidad de Granada (España) por dos meses y medio. (5) Evaluación de dos

artículos internacionales, tres artículos nacionales y una propuesta de investigación

nacional. (6) Colaboración como investigadora en un trabajo que buscaba una nueva

forma de realizar agrupamiento de resultados de búsqueda web basado en la

metaheurística de la búsqueda cuco y criterio de información bayesiana balanceada,

publicado en una revista internacional ISI (indexada categoría A1 según PUBLINDEX-

COLCIENCIAS y JCR-Q1 con un factor de impacto de 4.038) [38]. (7) Colaboración como

investigadora de una nueva forma para usar conceptos de un sistema de recomendación

basado en descomposición de valores singulares aplicado a patrones pedagógicos,

publicado en una revista internacional ISI (indexada categoría A1 según PUBLINDEX-

COLCIENCIAS y JCR-Q3 con un factor de impacto de 1.069) [39].

1.5 Resumen de contribuciones

La Tabla 1-2 presenta los resultados logrados en esta investigación en relación a la

generación de nuevo conocimiento y/o desarrollos tecnológicos, con sus respectivos

indicadores. Similarmente, la Tabla 1-3 muestra los productos obtenidos relacionados

con el fortalecimiento de la comunidad científica, y la Tabla 1-4 presenta los productos

alcanzados relacionados con el proceso de apropiación social del conocimiento en el

desarrollo de la investigación.

Tabla 1-2 Producción de nuevo conocimiento y/o desarrollos tecnológicos

Productos Indicador

Dos nuevos algoritmos de generación automática de resúmenes extractivos, uno de

Monografía de tesis doctoral.

un solo documento y otro para múltiples documentos.

Artículos en eventos y revistas a nivel nacional e internacional, indexadas.

1 artículo en revista nacional categoría B según COLCIENCIAS. 2 artículos en revista internacional JCR Q1. 2 artículos en evento internacional con memoria en revista indexada SJR Q2. 2 artículos en revista internacional JCR Q1/Q2 en temas complementarios a la tesis.

Dos algoritmo meméticos para generación automática de resúmenes extractivos, uno de solo documento y otro para múltiples documentos.

Código Fuente del algoritmo memético. Conjunto de datos utilizados en los experimentos (Documentos originales y resúmenes ideales)

Tabla 1-3 Fortalecimiento de la comunidad científica

Productos Indicador

Formación de talento humano a nivel profesional

Dirección de proyectos de pregrado en Ingeniería de Sistemas:

Terminados. 5 proyectos de grado (8 estudiantes).

En desarrollo. 3 proyectos de grado (5 estudiantes).

Formación de talento humano a nivel de posgrado

Tesis doctoral terminada: Un (1) estudiante de doctorado en Ingeniería de sistemas y computación. Dirección de dos (2) tesis de Maestría en Computación, en desarrollo, uno en el área de investigación y el otro en un área complementaria.

Orientación de cursos formales a nivel de pregrado y posgrado en el área de investigación

Curso electivo sobre Algoritmo meméticos, en el programa de Maestría en Computación de la Universidad del Cauca. Curso electivo sobre Fundamentos de Meta-heurísticas, en el programa de Ingeniería de Sistemas de la Universidad del Cauca.

Evaluación de artículos científicos nacionales/internacionales y propuestas de investigación

Dos artículos internacionales de la revista Expert Systems with Applications Categoría A1 por PUBLINDEX-COLCIENCIAS y JCR (Q1:2014), relacionado con Técnicas extractivas de generación de resúmenes de textos. Un artículo nacional de la revista Ingeniería y Competitividad de la Universidad del Valle, Categoría A2 en PUBLINDEX-COLCIENCIAS, relacionado con Inteligencia de negocios-Minería de datos. Dos artículos nacionales en la revista UIS Ingenierías

Introducción 15

Categoría B en PUBLINDEX-COLCIENCIAS, relacionado con Inteligencia de negocios-Bodegas de datos. Una propuesta de investigación relacionada con Inteligencia de negocios en consultorios jurídicos, para la Vicerrectoría de investigaciones de la Universidad Industrial de Santander.

Tabla 1-4 Apropiación social del conocimiento

Productos Indicador

Tres artículos en revistas Nacionales/Internacionales indexadas relacionados directamente con la tesis doctoral

Mendoza, M., Alegría, E., Maca, M., Cobos, C., and León, E. Multidimensional analysis model for a document warehouse that includes textual measures. Decision Support Systems (2015). 72, 44-59. ISSN: 0167-9236. JCR (ISI) International Journal (2014:Q1). IF (2014): 2.313. Categoría A1 según PUBLINDEX-COLCIENCIAS. Mendoza, M., Bonilla, S., Noguera, C., Cobos, C., León, E. Extractive single-document summarization based on genetic operators and guided local search. Expert Systems with Applications (2014). 41(9), 4158-4169. ISSN: 0957-4174. JCR (ISI) International Journal (2014:Q1). IF (2014): 2.240. Categoría A1 según PUBLINDEX-COLCIENCIAS. Mendoza, M., León. Una revisión de la generación automática de resúmenes extractivos. Revista UIS Ingenierías (2013). Universidad Industrial de Santander. Volumen 12 No.1 Junio de 2013. pp. 7-27. ISSN: 1657-4583. Categoría B según PUBLINDEX-COLCIENCIAS.

Dos presentaciones en conferencias internacional relacionados directamente con la tesis doctoral

Mendoza, M., Cobos, C., León, E. Extractive Single-Document Summarization Based on Global-best Harmony Search and a Greedy Local Optimizer. In 14th Mexican International Conference on Artificial Intelligence (2015). LNCS journal: Springer. SJR (SCImago) International Journal (2014:Q2). IF (2014): 0.339. Categoría A2 según PUBLINDEX-COLCIENCIAS. Mendoza, M., Cobos, C., León, E., Lozano, M., Rodríguez, F., Herrera-Viedma, E. A New Memetic Algorithm for Multi-Document Summarization based on CHC Algorithm and Greedy Search. In 13th Mexican International Conference on Artificial Intelligence (2014). LNCS journal: Springer. SJR (SCImago) International Journal (2014:Q2). IF (2014): 0.339. Categoría A2 según PUBLINDEX-COLCIENCIAS.

Dos artículos en revistas JCR, como trabajo

Cobos, C., Muñoz-Collazos, H., Urbano-Muñoz, R., Mendoza, M., Leon, E., Herrera-Viedma, E. Clustering of Web Search

complementario a la tesis doctoral

Results based on the Cuckoo Search Algorithm and Balanced Bayesian Information Criterion. Information Sciences, 281(0), 248-264, October 2014. ISSN: 0020-0255. JCR (ISI) International Journal (2014:Q1). IF (2014): 4.038. Categoría A1 según PUBLINDEX-COLCIENCIAS. Cobos, C., Rodríguez, O., Rivera, J., Betancourt J., Mendoza, M., León, E., and E. Herrera-Viedma. A hybrid system of pedagogical pattern recommendations based on singular value decomposition and variable data attributes. Information Processing & Management (2013), 49 (3), 607-625. ISSN: 1657-4583. JCR (ISI) International Journal (2013:Q3). FI (2013): 1.069. Categoría A1 según PUBLINDEX-COLCIENCIAS.

1.6 Organización del resto del documento

El resto del documento está organizado de la siguiente forma:

Capítulo 2: Estado del arte. En este capítulo se presentan conceptos básicos de la

generación automática de resúmenes extractivos de textos, de los algoritmos meméticos

y del algoritmo CHC. También el estado del arte de la generación automática de

resúmenes extractivos de textos de uno y de múltiples documentos. Además algunos de

los sistemas de medidas más utilizados para evaluar la calidad de los resúmenes

generados de forma automática.

Capítulo 3: Algoritmo para generación de resúmenes de un solo documento. Este

capítulo presenta la descripción del nuevo algoritmo memético propuesto para generar

resúmenes extractivos de un solo documento basado en operadores genéticos y

búsqueda local guiada. Esta descripción incluye las características de la función objetivo,

representación del documento y de la solución, y el esquema general con la

configuración del algoritmo memético.

Capítulo 4: Algoritmo para generación de resúmenes de múltiples documento. En este

capítulo se hace la descripción del nuevo algoritmo memético propuesto para generar

resúmenes extractivos de múltiples documentos basado en CHC y búsqueda local

codiciosa. En la descripción se presenta, las características de la función objetivo,

representación de la colección de documentos y de la solución, y el esquema con la

configuración del algoritmo memético.

Introducción 17

Capítulo 5: Resultados experimentales. Este capítulo muestra los resultados obtenidos

en las experimentaciones realizadas, tanto para el algoritmo memético propuesto para

generación de resúmenes de un solo documento como para múltiples documentos. Se

presentan los conjuntos de datos de DUC sobre los cuales se realizó la experimentación

y las medidas ROUGE que se utilizaron para medir la calidad de los resúmenes

generados. Además la comparación con otros algoritmos del estado del arte y el análisis

de los resultados obtenidos.

Capítulo 6: Conclusiones, Recomendaciones y Trabajo futuro. En este capítulo se

presenta un resumen breve de lo logrado con el desarrollo de esta tesis doctoral y sus

principales contribuciones. También se presentan las recomendaciones y el trabajo futuro

en esta línea de investigación.

Finalmente, se presentan todas las referencias bibliográficas usadas en el desarrollo de

la presente tesis doctoral.

2 Estado del arte

Este capítulo presenta conceptos básicos de la generación automática de resúmenes

extractivos de textos, el estado del arte de los algoritmos usados para la generación

automática de resúmenes extractivos de textos de uno y de múltiples documentos, con

especial énfasis en algoritmos basados en metaheurísticas. Además se presentan

algunos de los sistemas de medidas más utilizados para evaluar la calidad de los

resúmenes generados de forma automática. Finalmente, se presentan los conceptos de

los algoritmos meméticos y del algoritmo CHC (Cross-generational elitist selection,

Heterogeneous recombination, Cataclysmic mutation).

2.1 Generación automática de resúmenes de textos

2.1.1 Definición y Taxonomía

La generación automática de resúmenes de textos es una tarea del área de

procesamiento de lenguaje natural [40], que tiene por objetivo resumir el contenido de un

documento conservando la información más importante en un texto corto. Esta tarea se

puede realizar sobre un único documento o múltiples documentos. La generación

automática de resúmenes de textos se puede definir como la creación de una “breve pero

exacta representación del contenido de un documento” [40].

Existen diferentes taxonomías para los resúmenes [40-42], basadas en la forma como se

genera el resumen, la audiencia a la que va dirigido el resumen, la cantidad de

documentos que se van a resumir, entre otros.

De acuerdo a la forma como el resumen es generado puede ser extractivo o abstractivo.

Los resúmenes extractivos son formados a partir de la reutilización de porciones del texto

original por lo cual presentan problemas de consistencia y coherencia, sin embargo, son

muy utilizados por su sencillez computacional, además por los resultados satisfactorios

que se han obtenido en aplicaciones con gran cantidad de documentos, especialmente

en generación de resúmenes de múltiples documentos [43]. Por su parte, los resúmenes

abstractivos, se forman con secuencias de palabras que no necesariamente están

presentes en el documento original, produciendo resúmenes que requieren de

herramientas de análisis lingüístico para construir nuevas oraciones a partir de las ya

extraídas, además es más difícil replicar o extender a otros dominios.

Con respecto a la audiencia a la que va dirigido, los resúmenes pueden ser: genéricos,

basados en consultas, enfocados en el usuario o en tópicos. Los genéricos no dependen

de la audiencia a la que va dirigido el resumen, en cambio, los basados en consultas

responden una consulta realizada por el usuario. Los enfocados en el usuario generan

resúmenes que se adaptan al interés de un usuario en particular, mientras los resúmenes

enfocados en tópicos enfatizan estos resúmenes en tópicos específicos de los

documentos.

Además teniendo en cuenta la cantidad de documentos que procesa para generar el

resumen puede ser para un documento o múltiples documentos. Con respecto al

lenguaje del documento, ellos pueden ser monolenguaje o multilenguaje; y con respecto

al género del documento pueden ser: artículo científico, noticias, blogs, entre otros.

Esta tesis doctoral se enfoca en los resúmenes extractivos, genéricos, monolenguaje, de

uno y múltiples documentos. En la Figura 2-1, se muestra un esquema general cuando la

generación del resumen se realiza de forma extractiva. En el caso de generación

automática de resúmenes de un solo documento, el resumen extractivo está conformado

por oraciones que están presentes en el documento original, buscando que contengan la

información más relevante del documento. En este caso, forman parte del resumen del

documento uno, las oraciones: dos, seis, doce, diecisiete, veinticinco, entre otras. En el

caso de múltiples documentos, el resumen extractivo obtenido está compuesto por

oraciones que existen en la colección de documentos. En este caso, M es el número de

documentos que conforman la colección de documentos, O1,N1 es la última oración del

primer documento, OK,NK es la última oración del k-esimo documento y OM,NM es la última

oración del último documento. En este caso, las oraciones que forman parte del resumen

son: tres y ocho del primer documento; cinco y nueve del segundo documento; dos y

quince del k-esimo documento; siete y diecisiete del último documento (M), entre otras.

Estado del arte 21

Figura 2-1: Generación de resúmenes extractivos para uno y múltiples documentos

2.1.2 Esquema general para resúmenes automáticos

Para la generación automática de resúmenes de textos se necesita realizar los siguientes

procesos [41]: Pre-procesamiento y representación de los documentos y oraciones,

ponderación de las oraciones originales, selección de las oraciones que harán parte del

resumen, generación del resumen y evaluación de la calidad del mismo. En la Figura 2-2

se presenta un esquema general que contempla estos procesos en la generación

automática de resúmenes para un documento Figura 2-2(a) y para múltiples documentos

Figura 2-2(b). La diferencia fundamental entre estos dos esquemas es que en el primer

caso, todo el proceso se hace solo con un documento y en el otro esquema se cuenta

con una colección de documentos. Sin embargo, para el problema de múltiples

documentos, como los documentos tratan de la misma temática, se debe tener en cuenta

aspectos como: evitar la redundancia en el resumen generado, la secuencialidad de los

hechos presentados en los documentos, entre otros.

El primer proceso de Pre-Procesamiento y Representación, incluye tareas de

procesamiento de lenguaje natural utilizadas en el área de recuperación de la

información como [44]: Segmentación, que consiste en dividir el texto en unidades

significativas (normalmente oraciones); Eliminación de caracteres especiales y etiquetas

(por ejemplo HTML); Conversión a minúsculas; Eliminación de palabras vacías, aquellas

palabras que por su bajo contenido semántico, no contribuyen a la discriminación de las

oraciones más importantes de un texto; Lematización, que detecta variantes morfológicas

de un mismo término y reemplaza por el término raíz, reduciendo el tamaño del

vocabulario, o stemming que reduce los términos a su raíz léxica sin asegurar que el

termino obtenido pertenezca al vocabulario oficial del idioma. Además en este proceso se

contempla la definición de la representación de los documentos, que por lo general, se

realiza usando el modelo espacio vectorial.

Figura 2-2 Esquema general de generación automática de resúmenes

En el segundo proceso de Ejecución del Algoritmo de generación automática de

resúmenes, se incluye la ponderación de las oraciones originales de acuerdo a ciertas

características, la selección de las oraciones teniendo en cuenta un orden de importancia

de cada una de ellas y la generación del resumen. El algoritmo define uno o más

enfoques para realizar estas tres tareas.

El último proceso de Evaluación de la calidad del resumen, permite comparar el resumen

generado con uno o varios resúmenes ideales (realizados por humanos) por medio de

Estado del arte 23

métricas utilizadas para la evaluación de resúmenes automáticos (típicamente medidas

ROUGE). Estos resultados obtenidos generalmente se comparan con otros algoritmos

presentes en el estado del arte, para ser publicados a la comunidad científica.

2.1.3 Métodos de generación automática de resúmenes

En el área de investigación de la generación automática de resúmenes extractivos tanto

de un solo documento como de múltiples documentos, se encuentran métodos que

aplican diferentes enfoques, los cuales se pueden apreciar en la Figura 2-3.

Figura 2-3 Métodos de generación automática de resúmenes

2.2 Métodos para la generación resúmenes extractivos de un documento

Existe gran cantidad de investigaciones que proponen métodos de generación

automática de resúmenes extractivos de un solo documento, entre ellos están: los

métodos estadísticos, basados en técnicas de aprendizaje de máquina, basados en

conectividad de textos, basados en grafos, basados en técnicas de reducción algebraica,

basados de agrupamiento y modelos probabilísticos, y basados en metaheurísticas

(estos últimos se detallan en la sección 2.3.6). Entre las áreas de aplicación están:

Motores de búsqueda [1], cuyo objetivo es encontrar resultados relevantes de acuerdo a

una consulta del usuario, estos resultados generalmente van acompañados de un breve

resumen del documento o página web llamado snippet, que busca que los resultados

sean más descriptivos y compresivos para el usuario de manera que éste decida si es de

utilidad o no para sus necesidades de información especifica; Noticias [3], información

relevante de eventos o desastres naturales; E-learning [2], para seleccionar la

información más importante desde un texto, permitiendo a los estudiantes decidir si el

documento es relevante o irrelevante en sus investigaciones. A continuación se

presentan las investigaciones más representativas de estos métodos.

2.2.1 Estadísticos

Entre los primeros trabajos de generación automática de resúmenes se encuentran los

desarrollados por los investigadores de IBM, Luhn [45] y Baxendale [46] en 1958, el

primero bajo la premisa de que un escritor repite ciertas palabras cuando está

escribiendo sobre un tópico específico, se basa en características estadísticas como

frecuencia de la palabra y de la oración, para extraer las oraciones más importantes del

texto. Por su parte Baxendale, asume que las oraciones más importantes del documento

se encuentran en las primeras y últimas oraciones de cada párrafo. Unos años después

Edmundson [47] en 1969, para la extracción de oraciones utiliza la frecuencia de las

palabras y la posición de la oración, junto con otras dos características: presencia de

palabras de referencia (como “importante” o “relevante”) y presencia de palabras del

título del documento.

Luego la tradicional fórmula de recuperación de información en un espacio vectorial,

denominada tf-idf fue usada para la creación de resúmenes por Salton en 1988 [48], en

este caso, tf es la frecuencia de cada término en la oración e idf es la frecuencia invertida

de las oraciones que contienen este término. El cálculo de la relevancia de las oraciones

se realiza sumando los pesos obtenidos por cada término contenido en la oración, las

oraciones con puntaje superior a un valor se seleccionan para ser parte del resumen.

Más adelante Lin y Hovy [49] en 1997 estudiaron la importancia de una única

característica, la posición de la oración. Basados en que cada género o dominio

específico presenta regularidades en la estructura del discurso, y que las oraciones del

Estado del arte 25

tópico central tienden a ocurrir en algunos lugares específicos (por ejemplo, “en

resumen”, “en conclusión”, etc.), adaptaron el método de posición hacia el óptimo de un

género, llamándolo la política de posición óptima (OPP).

Más recientemente, Youngjoong y Jungyun [50] en el 2008 proponen un método que

combina características estadísticas con información contextual (oraciones seudo bi-

grama, es decir, dos oraciones adyacentes). Primero a las oraciones seudo bi-grama

(usando la técnica de ventana deslizante) les calculan su puntaje como la combinación

de dos características estadísticas (similitud al título y posición); y el 50% de éstas seudo

oraciones son seleccionadas como las más importantes. Luego estas seudo oraciones

son separadas en las dos oraciones originales y se puntúa cada oración por medio de las

características estadísticas de similitud al título, posición, junto con el método de similitud

agregada (suma de similitudes de cada oración con las demás oraciones). Las oraciones

con mejor puntaje son seleccionadas como parte del resumen. Si los documentos no

tienen título se utiliza la similitud a la consulta.

El proceso general de estos métodos estadísticos se muestra en la Figura 2-4: primero

se realiza la extracción de las palabras clave o de las oraciones, después se realiza el

cálculo del puntaje de cada oración de acuerdo a las características estadísticas

seleccionadas (por ejemplo: frecuencia de palabra significativa, posición de la oración en

el documento, etc.), luego se ordenan y se seleccionan las oraciones de acuerdo al

puntaje obtenido por cada una de estas, y por último se obtiene el resumen con las

oraciones que obtuvieron los puntajes más altos.

Figura 2-4 Métodos estadísticos para un solo documento

2.2.2 Aprendizaje de máquina

Entre los métodos de aprendizaje de máquina se encuentran los que usan clasificadores

bayesianos para definir la probabilidad de que una oración sea incluida en un resumen,

asumiendo independencia de las características y con un conjunto de datos de

entrenamiento. Kupiec [51] en 1995, trata la generación de resúmenes como un

problema de clasificación estadístico, ajustando las características propuestas por

Edmundson e incluyendo la longitud de la oración y la presencia de palabras en

mayúsculas; a cada oración se le asignó una puntuación de acuerdo a la fórmula

bayesiana y sólo las oraciones con puntajes más altos son extraídas. Aone et al. [52] en

1999, utilizan el clasificador Naive Bayes, pero con más características, durante la

evaluación con un conjunto de datos encontraron mejores resultados con las palabras

significativas y la información posicional, pero con otra fuente de datos los resultados

fueron diferentes, sugiriendo que los resultados de la generación automática de

resúmenes de textos depende del tipo de documentos que se procesa.

En 1999 Lin [53], sin asumir que las características son independientes entre sí

(probabilidad de que la oración i este en el resumen no es independiente de si la oración

i-1 está en el resumen), modela el problema de extracción de las oraciones usando

árboles de decisión, examinando diversas características y su efecto sobre la extracción

de oraciones. Este sistema extrae las oraciones de los documentos de acuerdo a una

consulta. Algunas de las nuevas características que incluyeron fueron: el query signature

(número de palabras de la consulta que contiene la oración), IR signature (las m palabras

más destacados en el conjunto de documentos), datos numéricos, nombre propio,

pronombre o adjetivo, día de la semana o mes y cita; encontrando que la construcción

del resumen es sensible al tópico del conjunto de documentos y a los términos de las

consultas. Osborne [54] en el 2002, tampoco asume independencia de características y

usa como clasificador un modelo de entropía máxima (modelos log-lineales), adicionando

una probabilidad previa (prior) no uniforme y para encontrar los pesos óptimos de las

características usan el método de gradiente descendiente conjugado.

En 2001, Conroy y O'leary [55], se basan en un modelo oculto de Markov que tampoco

asume independencia de las características, usan datos de entrenamiento para estimar

la probabilidad máxima de cada probabilidad de transición y así obtener la matriz de

Estado del arte 27

transición de la cadena de Markov, luego con la probabilidad posterior se seleccionan las

oraciones más probables a ser incluidas en el resumen.

Más adelante en 2007, Svore et al. [56] basado en redes neuronales, entrena un modelo

a partir de etiquetas que identifican las mejores oraciones y teniendo los valores de las

características para cada oración del documento, de esta forma el sistema aprende del

conjunto de entrenamiento la distribución de las características de las mejores oraciones

y se obtiene una lista ordenada de las oraciones de un documento. El ordenamiento es

realizado por medio de RankNet, un algoritmo de redes neuronales que es usado para

ordenar un conjunto de entradas, en este caso, el conjunto de oraciones del documento.

Este trabajo incluye nuevas características como la similitud de una oración con el título y

características que se producen de información desde registros de consultas de motores

de búsqueda de noticias de Microsoft y entradas de Wikipedia.

En el mimo 2007, Shen et al. [57], usan los campos aleatorios condicionales (Conditional

Random Fields, CRF), tratando el problema de generación de resúmenes como un

problema de etiquetamiento de secuencias, cuyo objetivo es producir una etiqueta de

secuencia que denote si la oración se debe incluir en el resumen. Para esto, maximiza

toda la secuencia de oraciones (maximizando la probabilidad de la secuencia de la

etiqueta global y la consistencia entre las diferentes etiquetas en la secuencia), la

etiqueta de una oración depende de la asignación de etiquetas de las demás. La

secuencia de oraciones es representada por características estadísticas y otras que

tienen en cuenta la dependencia entre las oraciones.

Todos estos métodos de aprendizaje de máquina son supervisados y el proceso general

se muestra en la Figura 2-5 así: primero se realiza una etapa de entrenamiento con un

conjunto de datos para obtener el modelo de clasificación. Luego se realiza una etapa de

prueba sobre otro conjunto de datos, en la cual: primero se extraen las unidades de texto

u oraciones y se obtiene el vector de características para cada oración, después se

aplica el modelo de clasificación y se seleccionan las oraciones con probabilidad más

alta, y por último se obtiene el resumen.

Figura 2-5 Técnicas de aprendizaje de máquina para un solo documento

Luego en 2008, Wong K-F et al. [58] usa máquinas de soporte vectorial probabilísticas

(PSVM), y aprendizaje semi-supervisado por medio del co-entrenamiento de PSVM y el

clasificador Naive Bayes; además proponen la combinación de características

(superficiales, contenido, relevancia, evento), cuyos pesos se obtienen por medio de

aprendizaje supervisado. Luego utilizan un algoritmo de ordenamiento y las oraciones

con los puntajes más altos son incluidas en el resumen.

2.2.3 Conectividad de textos

Otros trabajos han aplicado enfoques basados en conectividad de texto, con el fin de

establecer las conexiones que puedan existir entre diversas partes de un texto para tratar

de llegar a resúmenes más coherentes y fáciles de comprender.

Barzilay y Elhadad [59] en el 1997, hacen uso de las cadenas léxicas. Este enfoque inicia

con la segmentación del texto original y continúa con la construcción de las cadenas

léxicas, así, la identificación de las cadenas más fuertes y la extracción de las oraciones

más significativas finalizan el proceso de producción del resumen.

Más recientemente en el año 2014, Pal y Saha [60], proponen un método basado en

WordNet. Primero aplica un algoritmo que usa WordNet para encontrar el sentido de una

palabra en un contexto particular, cuando la palabra puede tener más de un sentido. Con

éste algoritmo encuentran el peso de cada oración, luego las oraciones se ordenan de

Estado del arte 29

forma descendente de acuerdo a los pesos obtenidos y por último se obtienen las

oraciones que harán parte del resumen teniendo en cuenta la tasa de compresión.

Los métodos basados en conectividad de textos con cadenas léxicas, no son

supervisados y son dependientes del lenguaje. El proceso general se muestra en la

Figura 2-6: primero se realiza la extracción de palabras del documento que existan en el

diccionario semántico, se pondera cada oración de acuerdo a la técnica semántica

específica, por último las oraciones mejor calificadas se seleccionan para ser parte del

resumen.

Figura 2-6 Cadenas léxicas para un solo documento

Ono et al. [61] en 1994, proponen un método que se basa en la estructura retórica del

discurso, por medio de un árbol binario que representa las relaciones entre las oraciones.

Los pasos de extracción de la estructura retórica son: análisis de la oración, extracción

de las relaciones retóricas, segmentación de expresiones retóricas, generación de todas

las posibles estructuras retóricas y selección de la estructura candidata con el puntaje de

penalidad más bajo. Luego el sistema calcula la importancia de cada oración basado en

la importancia relativa de las relaciones retóricas, y de forma iterativa se podan nodos del

árbol de acuerdo a las penalidades. La lista de los nodos de la estructura final produce el

resumen. Los resultados para los artículos técnicos fueron buenos, debido a que estos

contienen expresiones retóricas y claves lingüísticas que permiten que el sistema pueda

extraer la estructura retórica.

Luego Marcu en 1998 [62, 63], utiliza la Teoría de la estructura retórica entre dos piezas

de texto que no se superponen: el núcleo y el satélite; el núcleo de una relación retórica

se puede comprender independiente del satélite, pero no a la viceversa. Define para un

texto varias estructuras retóricas, a las cuales se les calcula un puntaje de acuerdo a una

fórmula establecida (una combinación lineal de pesos de ciertas métricas o la aplicación

de ciertas funciones de similitud sobre el árbol con la estructura retórica), la estructura

retórica con el mayor puntaje es seleccionada para generar el resumen. Uno de sus

trabajos se enfocó en encontrar el valor de los pesos de siete métricas para calcular el

puntaje de cada estructura del discurso.

Estos métodos basados en conectividad de textos con manejo de estructuras retóricas

también dependientes del lenguaje y no son supervisados. El proceso general se

presenta en la Figura 2-7: primero se realiza la extracción de segmentos retóricos del

documento original, luego por medio de un algoritmo se generan las diferentes

estructuras retóricas, se procede a establecer el puntaje de cada estructura retórica de

acuerdo a las métricas que defina el algoritmo, y se selecciona la estructura que obtenga

el mayor puntaje, después se ordenan los segmentos retóricos de la estructura retórica

seleccionada para generar el resumen del documento de acuerdo con este orden.

Figura 2-7 Estructuras retóricas para un solo documento

Estado del arte 31

2.2.4 Grafos

También los grafos han sido adaptados a la generación automática de resúmenes, donde

las secuencias de una o más unidades léxicas extraídas de un texto y las relaciones

entre ellas, constituyen los vértices y arcos del grafo. En los algoritmos de ordenamiento

de grafos, la importancia de un vértice dentro del grafo es iterativamente calculada desde

el grafo completo.

Mihalcea [64] en el 2004 utiliza el modelo basado en grafos, por medio de un algoritmo

llamado TextRank, para la extracción de palabras clave y la extracción de oraciones. En

el primer caso, un vértice es una unidad (secuencia de una o más unidades léxicas

extraídas del texto), y los bordes definen las relaciones entre las unidades; un borde es

adicionado entre dos unidades léxicas que co-ocurren dentro de una ventana de máximo

N palabras. Luego se ejecuta iterativamente el algoritmo de ordenamiento hasta que

converja. Por último se ordenan descendentemente los nodos (vértices) del grafo de

acuerdo a los puntajes y se seleccionan los que tienen puntajes más altos. Para la

segunda tarea de extracción: un vértice es una oración del texto y los bordes definen las

conexiones entre las oraciones. Estas conexiones son definidas usando una relación de

similitud (el solapamiento de dos oraciones puede ser determinado como el número de

palabras comunes entre las representaciones léxicas de dos oraciones). Luego el

algoritmo es aplicado sobre las oraciones del grafo y se ordena de acuerdo a los puntajes

de los vértices, de igual forma las oraciones que se ubican en los vértices de la parte de

arriba del grafo se incluyen en el resumen.

Un enfoque particular basado en grafos es el propuesto por Wan [65] en el 2010, en el

cual realizan al mismo tiempo la generación automática del resumen de uno y de

múltiples documentos, haciendo uso de una importancia local que indica la relevancia de

una oración dentro de un documento y de la importancia global que indica la relevancia

de una oración pero a nivel de la colección de documentos, además tienen en cuenta la

posición de la oración en el documento y en el conjunto de documentos. En este

algoritmo primero se construyen los grafos de afinidad para reflejar las diferentes

relaciones entre las oraciones, luego iterativamente calcula los puntajes de importancia

local y global de las oraciones. Finalmente, cuando el algoritmo converge, las oraciones

con los puntajes más altos de importancia local en un documento específico son

escogidas como el resumen de este y las oraciones con los puntajes más altos de

importancia global en la colección son escogidas como el resumen de la colección de

documentos.

Más recientemente en el año 2015, Chatterjee y Sahoo [66], proponen un enfoque

basado en grafos y en indexación aleatoria. A cada palabra distinta del documento se le

asigna un vector índice, con el cual se calcula los vectores de contexto (formados por

cada palabra en el documento con la ayuda de una ventana bi-direccional de tamaño 2),

luego las oraciones son mapeadas al espacio de palabra usando los vectores contexto.

Después las oraciones se representan en un grafo como los nodos y los bordes

representan la proximidad entre las oraciones (calculada de dos formas: similitud de

coseno y distancia euclidiana). Por último con el algoritmo de ponderación de PageRank

se determina la importancia de una oración en todo el documento, iterando hasta que los

pesos de los nodos converjan y en el caso de similitud de coseno los nodos con los

pesos más altos son considerados como parte del resumen.

Estos métodos basados en grafos no son supervisados y son independientes del

lenguaje. El proceso general se muestra en la Figura 2-8: primero se realiza la extracción

de palabras claves o de las oraciones, luego se crean uno o varios grafos, donde los

vértices son las oraciones y los bordes la relación entre las oraciones, cada grafo es

iterado hasta que converja y por último se ordenan los grafos de acuerdo al puntaje

obtenido en cada vértice, para de esta forma obtener el resumen.

Figura 2-8 Grafos para un solo documento

Estado del arte 33

2.2.5 Reducción algebraica

En el caso de la reducción algebraica, el método más utilizado dentro de la generación

automática de resúmenes de texto es el basado en el Análisis Semántico Latente (Latent

Semantic Analysis, LSA), el cual permite extraer, representar y comparar significados de

palabras mediante el análisis algebraico-estadístico de un texto, cuya hipótesis básica es

que el significado de una palabra está determinado por su aparición frecuente junto a

otras palabras. Gong y Liu [67] en 2001, proponen usar LSA para la generación

automática de resúmenes genéricos, aplicando la descomposición de valores singulares

(Singular Value Decomposition, SVD). El proceso de análisis semántico está compuesto

por dos pasos. El primero es la creación de una matriz de términos por oración

A=[A1,A2,…,An], donde cada columna Ai representa un vector con el peso de la frecuencia

de términos de la oración 𝑖 en el documento. Si hay m términos y n oraciones en el

documento, entonces la matriz A para el documento será de m×n (donde m>=n). Esta

matriz A es dispersa porque cada término aparece esporádicamente en cada oración. El

siguiente paso consiste en aplicar SVD a la matriz A, así, A = UΣVT, donde, U= [uij] es

una matriz de columnas ortonormales de m×n cuyas columnas son llamadas vectores

singulares de izquierda, Σ = diag (σ1,σ2,...,σn) es una matriz diagonal de n×n, cuyos

elementos diagonales son valores singulares no negativos en orden descendente

(σ1>=σ2..>=σr>σr+1=..=σn=0) y V=[vij] es una matriz ortonormal de n×n, cuyas columnas se

denominan vectores singulares derechos. La dimensionalidad de las matrices es

reducida a las r dimensiones más importantes y, por tanto, U' es m×r, Σ’ es r×r y VT es

una matriz de r×n. Si un patrón de combinación de palabra es destacado y recurrente en

un documento, este patrón es capturado y representado por uno de los vectores

singulares, la magnitud de este vector indica el grado de importancia de este patrón

dentro del documento. Las oraciones que contengan este patrón de combinación de

palabras serán proyectadas en este vector singular, y la oración que mejor represente

este patrón tendrá el valor del índice más grande dentro del vector. Partiendo de que

cada patrón de combinación de palabras describe un tópico en el documento, cada

vector singular representa cada tópico y la magnitud de su valor singular representa el

grado de importancia de este tópico. Para el resumen, este método selecciona las

oraciones cuya representación vectorial tengan la longitud más grande, escogiendo la

oración con el ponderado más grande a través de todos los tópicos.

Un enfoque similar es presentado por Steinberger y Ježeken [68] en 2004, pero

cambiando el criterio selección para incluir en el resumen las oraciones cuya

representación vectorial en la matriz tengan la "longitud" más grande, en lugar de las

oraciones que contiene el mayor valor del índice para cada “Tópico”, permitiendo incluir

más de una oración relacionada con un tópico importante, en lugar de una oración para

cada tópico. Yeh et al [69] en 2005, propone otro método de generación automática de

resúmenes que usa LSA y un mapa de relaciones de texto (Text Relationship Map, TRM)

para derivar semánticamente las estructuras más destacadas de un documento, en el

cual después de realizar SVD sobre la matriz de términos por oración y reducir la

dimensionalidad del espacio latente, reconstruyen una matriz adicional en la que cada

columna denota la representación semántica de la oración, luego un algoritmo de

ordenamiento es aplicado al grafo resultante. Por otro lado, Steinberger y Ježeken en

2006 [70] se combina el sistema propuesto en [68], con un algoritmo de compresión de

oraciones que elimina las partes poco importantes de una oración.

Luego en el 2009, Lee et al. [71] proponen usar la factorización de matriz-no-negativa

(Non-negative matrix factorization, NMF) para seleccionar las oraciones a incluir en el

resumen. NMF representa objetos individuales como una combinación lineal no negativa

de información extraída desde un volumen grande de objetos. NMF puede trabajar con

un volumen de información grande de manera eficiente, debido a que la matriz original no

negativa se descompone en dos matrices no negativas dispersas y distribuidas. NMF

descompone una matriz A no negativa de m×n, en la multiplicación de una matriz de

característica no negativa (NSFM) de m×r (W) y una matriz de semántica variable no

negativa (NSVM) de r×n (H), donde r es más pequeño que m o n, de forma que los

tamaños de W y H son más pequeñas que la matriz A. Se usa una función objetivo para

satisfacer la aproximación de A=WH, luego W y H son actualizados de forma iterativa

hasta que convergen al umbral o exceden el número de repeticiones definidos.

Inicialmente se parte de una matriz A con los ponderados de la frecuencia del término en

la oración, se aplican NMF para obtener la matriz W y H; y se define la relevancia

genérica de la oración que hace referencia a cuánto la oración refleja los tópicos

principales (esto es representado por las características semánticas) y por último

selecciona las k oraciones con los valores más altos de relevancia genérica. NMF logro

mejores resultados que LSA, seleccionando oraciones más significativas que los

Estado del arte 35

métodos relacionados con LSA, además NMF encuentra características semánticas que

son más fáciles de interpretar y entender la estructura innata de los documentos.

Los métodos basados en reducción algebraica no son supervisados y son

independientes del lenguaje. El proceso general se presenta en la Figura 2-9: primero se

realiza la extracción de las oraciones, luego se crea la matriz de términos por oración y

se realiza la descomposición matricial, por último se seleccionan las oraciones con los

valores más altos, para de esta forma obtener el resumen.

Figura 2-9 Reducción algebraica para un solo documento

2.2.6 Agrupamiento y modelos probabilísticos

En el año 2012, Nagesh y Murty [72], usa un modelo de tópicos basado en la asignación

latente de Dirichlet (Latent Dirichlet allocation, LDA), identificando los temas que mejor

describen el documento (solo pocos tópicos tienen alta probabilidad en la distribución

tópico-documento). Construyen una matriz de similitudes de los párrafos por cada tópico

identificado, que es usada para puntuar los tópicos y seleccionar los de mayor puntaje

como los “tópicos resumen”. Luego agrupan los párrafos en cada “tópico resumen” para

ponderar cada tópico, por último usando el teorema de Bayes obtienen el peso de cada

oración de los “tópicos resumen” y las oraciones con pesos más altos forman parte del

resumen.

2.3 Métodos para la generación resúmenes extractivos de múltiples documentos

También existe gran cantidad de investigaciones que proponen métodos de generación

automática de resúmenes extractivos de múltiples documentos, entre ellos: métodos

basados aprendizaje de máquina, basados en conectividad de textos, basados en grafos,

basados en técnicas de reducción algebraica, basados en agrupamiento y modelos

probabilísticos, basados en metaheurísticas (estos últimos se detallan en la sección

2.3.6) y Otros. Algunas áreas de aplicación son resúmenes de: Noticias y reportes [3],

información relevante de un evento o desastre natural, cuyo reporte se encuentra en

múltiples documentos de noticias; Colecciones de E-mail [4], resúmenes de hilos de e-

mail que contemplan el mensaje inicial del correo electrónico y las respuestas

subsecuentes a éste; Asignación de etiquetas a grupos generados en el agrupamiento de

documentos web [73]; Bodegas textuales [6-8], resumiendo documentos por medio de

términos o palabras claves del mismo. A continuación se presentan las investigaciones

más representativas de estos métodos.

2.3.1 Aprendizaje de máquina

Las técnicas de aprendizaje de máquina también han sido utilizadas para entrenamiento

de datos en la generación de resúmenes para múltiples documentos, para permitir

identificar las características que presentan mayor impacto en la selección de las

oraciones que conformarán el resumen.

Ravindra et al. [74] en el 2004, usa la entropía como medida para ordenar las oraciones

de acuerdo a la relevancia (basado en el conocimiento pasado en un dominio en

particular). Los documentos disponibles en un dominio forman el conjunto de datos de

entrenamiento. Los valores de entropía calculados son aplicados a cada una de las

oraciones en el conjunto de documentos y se ordenan las oraciones. Antes de aplicar la

fórmula de entropía, para detectar y remover la redundancia utilizaron la representación

de un grafo dirigido, cada nodo es una oración y se establece un enlace entre oraciones

si más de tres palabas no vacías son comunes a ellas.

En el 2007, Dunlavy et al. [75], proponen un método orientado a consulta, en el cual,

dada una consulta, los documentos recuperados son agrupados por tópico (usando k-

Estado del arte 37

means). Usan el modelo oculto de Markov para calcular la probabilidad de que una

oración sea buena para hacer parte del resumen y de esta forma producir los resúmenes

de cada documento. Luego estas oraciones son consideradas para incluirlas en el

resumen del grupo de documentos removiendo la redundancia.

Wang M. et al. [76] en el 2008 proponen un método basado en el descubrimiento de la

característica de la palabra, teniendo en cuenta siete características. Para extraer la

palabra del tópico y del evento: si la palabra aparece en diferentes párrafos del mismo

documento es una palabra de evento; si la palabra aparece distribuida en todos los

documentos es una palabra de tópico. Primero utilizando el modelo de regresión,

calculan los valores de las características para cada palabra. Luego construyen el

modelo espacio vectorial y para calcular el valor de una oración suman el valor de cada

palabra que ésta contiene. Por último, seleccionan las oraciones del resumen y calculan

el valor de similitud de las oraciones extraídas, eliminando las oraciones redundantes.

En el 2009, Amini y Usunier [77], utilizan un modelo para aprender funciones de

clasificación. Primero, identifica los tópicos en la colección de documentos para identificar

un conjunto de oraciones relevantes y otro de oraciones irrelevantes a la pregunta. Luego

se entrena una función de clasificación sobre estos dos conjuntos para optimizar un

modelo previo basado en palabras clave. Para esto utilizan un algoritmo de clasificación

transductivo (usa datos etiquetados y no etiquetados en el estado de aprendizaje)

compuesto de un modelo de conocimiento previo y una arquitectura que sigue el

paradigma de auto-aprendizaje, que permite encontrar oraciones relevantes y no

relevantes, repitiendo el proceso hasta el criterio de terminación.

Bollegala et al. [78] en el 2010 proponen un enfoque de abajo hacia arriba para ordenar

las oraciones extraídas en la generación automática de resúmenes de múltiples

documentos. Esta tarea la abordan como un problema de clasificación binaria y emplean

máquinas de soporte vectorial para modelar la función. El algoritmo propuesto

iterativamente concatena segmentos de texto (una secuencia de oraciones) hasta que un

segmento es ordenado con todas las oraciones. Para poder definir el orden y la

asociación de dos segmentos de texto definen cuatro criterios: cronología, orden

cronológico de las oraciones por fecha de publicación o por orden en el documento;

cercanía de temas, se refiere a la asociación de dos segmentos basado en su similitud

temática; precedencia, una oración seleccionada puede presuponer información de otras

oraciones que no fueron seleccionadas; sucesión, evalúa la cobertura de la información

posterior al segmento. Luego utilizan resúmenes humanos como datos de entrenamiento

para encontrar la combinación óptima de los criterios propuestos y definen la función que

representa la asociación de dirección y fuerza de dos segmentos.

Más adelante, en el 2011, Ouyang et al. [79] usan el modelo de regresión de soporte de

vector para estimar la importancia de una oración en un colección de documentos, por

medio de un conjunto de características específicas, para eliminar redundancia en el

resumen utilizan la Relevancia marginal máxima (Maximal Marginal Relevance, MMR)

durante el proceso de selección de las oraciones.

Más recientemente, Fattah [80] en 2014, propone un algoritmo de aprendizaje de

máquina híbrido, en el modo de entrenamiento se extraen las características y son

usadas para entrenar el modelo de máxima entropía, uno de Naive Bayes y uno de

máquinas de soporte vectorial. Luego en el modo de prueba se usa el vector de

características como entrada del modelo hibrido que combina los tres métodos de

aprendizaje de máquina, buscando la probabilidad máxima de los tres métodos para

clasificar una oración como que pertenece o no al resumen.

Estos métodos de aprendizaje de máquina son supervisados, el proceso general es

similar al mostrado en la Figura 2-5, pero agregando un proceso de eliminación de

redundancia antes de la generación del resumen, debido a que se pueden presentar

oraciones similares en varios documentos que tratan el mismo tópico.

2.3.2 Conectividad de textos

También la conectividad de textos, específicamente las cadenas léxicas han sido usadas

el caso de múltiples documentos. Chen et al. [81] en el 2005 proponen la generación de

resúmenes de múltiples textos basado en cadenas léxicas, aplicando el método de

generación de resúmenes de un solo documento [59] revisado anteriormente para cada

documento, generando de esta forma un resumen de resúmenes. Para el manejo de

redundancia de oraciones en los documentos, toma la oración con puntaje más alto,

luego la siguiente y se calcula la similitud entre estas dos oraciones, si esta similitud es

menor a un umbral se deja en el resumen; y se repite nuevamente el procedimiento.

Estado del arte 39

En la Figura 2-10, se muestra el proceso general que se lleva a cabo para este método,

este proceso es igual al mostrado en la Figura 2-6 para un solo documento, pero

agregando un proceso de eliminación de redundancia, por tratarse de múltiples

documentos que tratan el mismo tópico.

Figura 2-10 Cadenas léxicas para múltiples documentos

Más recientemente, Atkinson y Muñoz (2013) [82], proponen un enfoque de roles

retóricos, en el cual, se realiza el pre-procesamiento y limpieza de los datos, luego

identifican los roles o funciones retóricas (realizada con un clasificador de campos

aleatorios condicionales), extraen las oraciones relevantes usando un modelo de

distribución que mide la ocurrencia de las palabras en una página web, calculan el

puntaje de cada oración basados en los pesos de las palabras, ordenan las oraciones

teniendo en cuenta el puntaje obtenido, agrupan las oraciones de acuerdo a los roles

retóricos (ordenadas en cada grupo por similitud), por último son seleccionadas las

oraciones que serán parte del resumen teniendo en cuenta la preferencia de los roles

retóricos definidos (ver Figura 2-11).

Figura 2-11 Estructuras retóricas para múltiples documentos

2.3.3 Grafos

Como ocurre en la generación de resúmenes de un solo documento, las unidades de

texto (palabras clave u oraciones) se representan en los vértices del grafo y la similitud

entre las unidades de texto por medio de los bordes, pero en este caso, las unidades de

texto corresponden a todos los documentos de la colección. El resumen se obtiene de los

primeros vértices después de un proceso iterativo de convergencia del grafo.

Mihalcea [83] en el 2005, propone un método que utiliza los mismos principios del

ordenamiento basado en grafos que fueron aplicados en generación automática de

resúmenes de un solo documento [64]. Primero se realiza el resumen de cada

documento y luego se resumen los resúmenes de los documentos individuales utilizando

el mismo método de grafos. Con respecto a la similitud entre las oraciones, manejan un

umbral máximo de similitud entre oraciones.

Erkan y Radev [84] en el 2004, con su trabajo LexRank, calcula la importancia de la

oración basado en el concepto de prestigio en redes sociales, representando la red como

un grafo, donde los nodos son las oraciones y los enlaces la relación entre los nodos. En

el 2008, Zhang et al. [85] proponen GSPSummary, que permite obtener los sub-tópicos

importantes en la colección de documentos, para esto crea un grafo que representa esta

colección, y luego selecciona las oraciones más centrales con GSPRank, obteniendo los

sub-tópicos más importantes en el grafo global de forma iterativa, finalmente el resumen

se forma con las oraciones más destacadas de los diferentes sub-tópicos. Una variación

Estado del arte 41

de LexRank es propuesta por Otterbacher et al. [86] en 2009, en el cual se obtiene un

puntaje inicial de las oraciones basado en LexRank y luego se sesga el camino aleatorio

sobre el grafo basado en una distribución a priori. Se visita una oración con una

probabilidad proporcional a su relevancia con respecto a la consulta y con una

probabilidad específica el camino aleatorio salta a una oración vecina, sesgando de esta

forma el camino hacia las oraciones vecinas más relevantes en el grafo. Otro trabajo

enfocado a la consulta de usuario es propuesto por Zhao et al. [87] en 2009, define un

algoritmo de ordenamiento basado en grafos, ordenando las oraciones de los

documentos usando la consulta original, ejecutan expansión de consulta, ejecutan

nuevamente el algoritmo de ordenamiento con la nueva consulta y colocan una penalidad

de redundancia a las oraciones para obtener el puntaje final.

En el 2008, Wenjie et al. [88] proponen un algoritmo para ordenamiento de oraciones por

medio de grafos para actualización de resúmenes, basado en refuerzo positivo y negativo

de las oraciones de una colección de documentos vieja y una nueva, construyen cuatro

matrices de afinidad entre las oraciones de las dos colecciones incluyendo la consulta del

usuario, luego iteran el grafo y obtienen el ordenamiento de las oraciones para cada

colección, las oraciones en la nueva colección con el puntaje más alto son seleccionadas

para ser incluidas en el resumen y por último se remueven las oraciones redundantes.

En el mismo 2008, Wei et al. [89], proponen un algoritmo basado en grafos que utiliza

cadenas de refuerzo mutuo (entre documentos, oraciones y términos) sensible a la

consulta del usuario. Primero construyen las nueve matrices de afinidad entre

documentos, oraciones y términos, luego iteran el grafo hasta obtener el orden de

oraciones y por último remueven oraciones redundantes del resumen.

Luego en el 2010, Wan X. [65] propone un algoritmo para uno y múltiples documentos

basado en grafos usando el concepto de importancia local y global (Se explicó

anteriormente en 2.2.4).

Recientemente, Ferreira et al. [90] en el 2014 evalúan tres diferentes métodos de

puntuación de oraciones: palabra (asignando puntaje a las palabras más importantes),

oración (características de las oraciones) y grafo (analizando la relación entre oraciones).

Luego crean un grafo que tiene en cuenta estos métodos de puntuación y calculan la

importancia de cada oración por medio de un puntaje TextRank, la oración con mayor

puntaje se selecciona como el vértice principal. Entonces, por medio de un umbral

identifican los vértices líderes, luego para que cada vértice identifique el vértice líder más

cercano calculan el camino más corto (algoritmo de Dijkstra) entre cada vértice y cada

vértice líder. De esta forma, obtienen n grafos (uno por cada vértice líder) representando

n grupos y por último se seleccionan las oraciones con mayor puntaje de cada grupo

para ser parte del resumen.

El proceso general que se lleva a cabo para estos métodos (no supervisados e

independiente del lenguaje), es igual al presentado en la Figura 2-8 para un solo

documento.

2.3.4 Reducción algebraica

Estos hacen uso de la descomposición matricial para encontrar las oraciones que mejor

representan el documento. Hachey et al. [91], proponen un enfoque orientado a consulta,

el cual para determinar la relevancia y redundancia de las oraciones a formar parte del

resumen, utiliza MMR y LSA para evitar que dos oraciones comparten los mismos

términos no sean consideradas similares. Antes de aplicar MMR, se aplica LSA teniendo

en cuenta las siguientes restricciones: Tiempo (preservar el orden temporal de los

eventos), Secuencia (preservar el orden original de las oraciones), Grupos (grupos con

oraciones similares), Contexto (recrear el contexto precedente original). El algoritmo

optimiza localmente de la bolsa de oraciones extraídas, determina la oración con mayor

puntaje y la mueve al final del resumen destino, y repite el proceso hasta que todas las

oraciones de la bolsa son insertadas.

En el 2007, Steinberger y Křišťan [92] proponen una extensión de LSA, en éste, primero

se crea una matriz de términos por oración que incluye todas las oraciones del conjunto

de documentos, el puntaje se calcula de la misma forma que se hace para un único

documento, y se seleccionan las oraciones con mayor puntuación para el resumen. Para

evitar la redundancia, antes de incluir una oración en el resumen, se revisa si ya existe

una oración similar, que debe estar cerca a la consulta del usuario. Este método favorece

las oraciones largas, porque estas probablemente contendrán más términos importantes

que una corta.

Estado del arte 43

Park y Cha [93] en el 2008, proponen un método que utiliza agrupamiento por medio del

algoritmo NMF, para identificar los grupos de tópicos en el conjunto de documentos y las

oraciones relacionadas con cada tópico. Luego, eliminan grupos que son ruido, aplican

nuevamente NMF a la nueva matriz, clasifican las oraciones en cada grupo, se ordenan

las oraciones desde el conjunto de oraciones candidatas para obtener el resumen.

Por el mismo camino y en el mismo 2008, Wang et al. [94], proponen un trabajo basado

en el análisis semántico a nivel de la oración y la NMF simétrica. Primero se calcula las

similitudes oración-oración utilizando el análisis semántico y la matriz de similitudes.

Luego la factorización de la matriz simétrica es usada para agrupar oraciones dentro de

grupos. Por último, las oraciones más informativas desde cada grupo son seleccionadas

para formar el resumen.

independientes del lenguaje), es igual al mostrado en la Figura 2-9 para un solo

documento, agregando un proceso de eliminación de redundancia.

2.3.5 Agrupamiento y modelos probabilísticos

Radev et al. [95] en el 2004, proponen un generador de resúmenes llamado MEAD, que

usa los centroides de grupo producidos por un sistema de detección y seguimiento de

tópicos. Antes de generar el resumen, identifican los artículos sobre un evento, este

proceso es llamado Detección y seguimiento de tópico (TDT). MEAD utiliza MMR para

eliminar la redundancia en el resumen y recibe como entrada n oraciones de un grupo de

documentos y la tasa de compresión; y como salida n*r oraciones del grupo con los

puntajes más altos. El puntaje de cada oración tiene en cuenta características como:

valor del centroide, valor posicional y solapamiento con la primera oración. A este valor

se le resta una penalidad por redundancia. Cada documento de cada grupo se califica y

se ordena la oración de cada documento de acuerdo al puntaje.

En el 2008, Wang D. et al. [96] proponen un modelo de lenguaje denominado,

factorización con bases dadas (Factorization with Given Bases, FGB), que

simultáneamente hace agrupamiento y generación de resúmenes, por medio de la matriz

de términos por documento y la matriz de términos por oración. Los autores buscan

minimizar la divergencia entre los documentos dados y el modelo de reconstrucción de

términos, este proceso de minimización obtiene dos matrices que representan las

probabilidades de los documentos y de las oraciones dado los grupos, lo que permite

asignar cada documento al tópico con la más alta probabilidad y el resumen se forma por

las oraciones con la más alta probabilidad en el tópico. Al inicio del proceso, después de

tener las dos matrices, el sistema ejecuta factorización no negativa sobre la matriz de

términos por documento usando como base la matriz de términos por oración, dando

lugar a la matriz de documento por tópico y la matriz de oración por tópico, por último se

asigna cada documento al tópico con la probabilidad más alta y el resumen se genera

con las oraciones con la probabilidad más alta en cada tópico.

Ali et al. [97] en el 2009 propone dos técnicas, la primera técnica consiste en adicionar

las características de similitud con la primer oración en el método MEAD (CPSL), y la

segunda técnica es combinar CPSL con LEAD (se escoge la primera y la última oración

del párrafo, este método es bueno para los artículos de noticias). La técnica CPSL se

basa en MEAD, con la variación que calculan la similitud entre cada oración y la primera

oración (por medio de la ley de cosenos). La técnica LESM, aplica por aparte los

métodos LEAD y CPSL para obtener el resumen, luego se extraen solo las frases

comunes a estos dos resúmenes para obtener el resumen, pero para completar el

porcentaje de las oraciones del resumen, aplican nuevamente LEAD sobre las oraciones

que no concuerdan con el resumen, las ordena y toma la primera oración que no

concuerde del primer documento, luego chequea si ya se cumple con el porcentaje

deseado como criterio de terminación del algoritmo, si no se logra el porcentaje, se toma

la primera oración que no concuerda del segundo documento y así sucesivamente,

cuando ya se han seleccionado las primeras oraciones de todos los documentos, se

sigue el proceso pero con la última oración de cada documento (teniendo en cuenta que

oraciones consecutivas pueden tratar de temas similares).

En el mismo 2009, Xiao-Chen et al. [98] proponen un algoritmo de agrupamiento

orientado a consulta, para ello se trata la consulta como si perteneciera al conjunto de

documentos, los grupos se mezclan en un solo grupo y utilizan MMR modificada para

extraer las oraciones del resumen. El algoritmo de agrupamiento realiza las siguientes

tareas: construir la matriz de oraciones (se incluye la oración de la consulta) por términos,

construir la matriz de similitud entre las oraciones (ley de cosenos), se generan los

centroides iniciales de grupo (aleatoriamente una oración es el primer centroide y luego

Estado del arte 45

la oración menos similar a ésta es el segundo, los otros se escogen de forma que sean

los más lejanos a los actuales), para determinar si una oración debe estar en un

centroide del grupo se hace por medio de la similitud entre la oración y el centroide (en

cada paso iterativo el valor de similitud de las oraciones del grupo es re-calculada), si el

valor es mayor o igual al umbral la oración se coloca en el centroide, si el valor es menor

al umbral entonces se remueve del centroide del grupo.

Hennig [99] en el 2009 propone un método orientado a consulta basado en PLSA, el cual

permite representar las oraciones y las consultas como distribuciones de probabilidad

sobre tópicos latentes. PLSA permite modelar los documentos como una mezcla de

tópicos. El resumen se produce en tres pasos: (1) Crear la matriz de términos por oración

y entrenar el modelo PLSA sobre esta matriz; (2) Calcular las diferentes características a

nivel de oración basado en la similitud de las distribuciones de las oraciones y de la

consulta sobre los tópicos latentes; (3) Calcular el puntaje de la oración como la

combinación lineal de los puntajes de las características y ordenar las oraciones de

acuerdo al puntaje, luego utilizar MMR para seleccionar las oraciones y penalizar las

oraciones candidatas basado en su similitud con el resumen parcial.

En el 2009, Wang D. et al. [100] proponen un modelo de tópicos bayesiano basado en las

oraciones (Bayesian Sentence-based Topic Models, BSTM), usando la matriz de

términos por documento y la matriz de términos por oración. Este es un modelo

probabilístico generativo, el algoritmo recibe como entradas la matriz de términos por

documento, términos por oración y el número de tópicos latentes; y como salida se

obtiene una matriz de oraciones por tópico y una matriz auxiliar de documentos por

tópico. El artículo presenta las distribuciones de probabilidad para seleccionar las

oraciones dados los tópicos, además usa un algoritmo bayesiano variacional para

estimar los parámetros del modelo. El BSTM se diferencia del FGB (de los mismos

autores [96]), en que la ubicación de documento-tópico es marginalizada (en el algoritmo

esto se refleja en el ajuste de Dirichlet), lo cual incrementa la estabilidad en la estimación

de los parámetros de oración-tópico.

Tang et al. [101] en el 2009 proponen un enfoque basado en modelos probabilísticos

llamado TMR (Modelación de tópicos con Regularización). Primero recupera los

documentos relevantes a la consulta, luego para modelar la consulta y el grupo de

documentos utiliza dos estrategias probabilísticas (PLSA y LDA) para descubrir los

tópicos orientados a la consulta. Después usa cuatro métodos de puntuación para

calcular la importancia de cada oración en el grupo de documentos. Finalmente genera el

resumen con las oraciones con puntuación más alta y removiendo la redundancia.

En el 2009, Haghighi y Vanderwende [102] proponen un método que utiliza un modelo

jerárquico estilo-LDA para representar la especificidad del contenido como una jerarquía

de distribuciones de vocabulario de tópicos, denominado Hiersum, que divide la

distribución del contenido en múltiples sub-tópicos. Así como se generan distribuciones

de contenido específico, se genera una distribución de contenido general para una

colección de documentos. Las palabras de contenido en cada oración pueden ser

generadas ya sea por el tópico de contenido general o los sub-tópicos de contenido para

esa oración, y las palabras desde la distribución de contenido general son consideradas

cuando se construye el resumen.

En el 2011 Cai, X. y W. Li [103] proponen un método que simultáneamente agrupa y

ordena las oraciones. Este método utiliza una estructura que representa el grupo de

oraciones, que permite identificar las oraciones que comparten el mismo contenido como

aquellas que son proyectadas sobre esta estructura y como las oraciones más

importantes dentro del grupo aquellas que poseen longitudes de proyección más

grandes. Para generar el resumen, extraen las oraciones más sobresalientes desde cada

grupo hasta completar el tamaño del resumen.

Recientemente, Mei y Chen [104] en el 2012, propone un enfoque de agrupamiento

difuso de los mismos autores, para agrupar las oraciones en subconjuntos y se calcula

un peso de cada oración con respecto al grupo. Además para obtener el puntaje final de

cada oración se suma puntaje obtenido por la posición de la oración. Las oraciones con

mayor puntaje harán parte del resumen teniendo en cuenta que la similitud entre las

oraciones candidatas esté por debajo de un umbral.

Meng y Xinlai [105] también en el 2012 proponen un algoritmo genético híbrido para

hacer agrupamiento de las oraciones. En este enfoque se obtienen los conceptos de las

oraciones usando la herramienta HowNet, en lugar de las palabras para la

representación en el modelo espacio vectorial. El algoritmo genético inicializa dos

Estado del arte 47

poblaciones donde cada gen es la oración centroide, después el algoritmo k-means se

utiliza para agrupar las oraciones de la población inicial, luego el algoritmo evoluciona y

el resumen se obtiene de la mejor solución de cada población.

independientes del lenguaje), es mostrado en la Figura 2-12.

Figura 2-12 Agrupamiento para múltiples documentos

2.3.6 Otros

Celikyilmaz et al. [106] en el 2010 proponen un modelo híbrido para generar resúmenes

de múltiples documentos, compuesto de dos pasos: un modelo generativo para descubrir

patrones y un modelo de regresión para hacer inferencia. Los autores usan un modelo de

tópicos jerárquico para obtener las características latentes de las oraciones y calcular el

puntaje de éstas en el grupo de documentos. Luego entrenan un modelo de regresión

basado en las características léxicas y estructurales de las oraciones. Por último se usa

el modelo para puntuar oraciones de nuevos conjuntos de documentos para generar el

resumen.

En este mismo año, Wei et al. [107] proponen un enfoque no supervisado llamado

ordenamiento interactivo (iRANK). Este diseña dos estrategias de refinamiento de

ordenamiento usa la retroalimentación para soportar el aprendizaje mutuo entre dos

algoritmos de ordenamiento base con el fin de mejorar los resultados finales del

ordenamiento global. Este proceso continúa hasta que los algoritmos de ordenamiento

base no pueden aprender del otro.

Wang y Li [108] en el 2010 proponen un método de consenso ponderado que combina

los resultados de diferentes métodos de generación automática de resúmenes de un solo

documento (WCS), para ello el método resuelve un problema de optimización de función

cuadrática, que busca encontrar la distancia mínima ponderada entre una lista de

ordenamiento de las oraciones y las listas de ordenamiento de las oraciones de cada

método. El algoritmo recibe como entrada la lista de oraciones ordenadas por cada

generador de resúmenes, luego de forma iterativa: calcula una lista que es un consenso

de estas listas con un ponderado fijo para cada generador de resúmenes y luego calcula

la distancia euclidiana entre estas listas y la lista consensuada para obtener un nuevo

valor ponderado para cada generador de resúmenes. Esto se repite hasta que el

algoritmo converge y se ordenan la lista de forma ascendente.

2.4 Métodos basados en metaheurísticas

Los métodos basados en metaheurísticas abordan el problema de generación de

resúmenes como un problema de optimización combinatoria, para lo cual han sido

utilizado de dos formas: 1) para la optimización de los pesos de las características de una

ecuación, que asigna la puntuación a cada oración del texto original (ecuación propuesta

por los mismos u otros autores del método), basándose en algoritmos genéticos,

programación genética y optimización de enjambres de partículas; 2) para la generación

automática de resúmenes, optimizando una función objetivo que busca generar un buen

resumen, utilizando algoritmos genéticos, búsqueda armónica, y más recientemente con

optimización de enjambres de partículas y evolución diferencial.

2.4.1 Optimización de Pesos

Entre los métodos basados en metaheurísticas para la optimización de los pesos de las

características, se encuentran los siguientes:

Kiani y Akbarzadeh [12] en el 2006, usan un Algoritmo genético (Genetic Algorithm, GA)

para optimizar las funciones de membresía de un sistema difuso y la Programación

genética (Genetic Programming, GP) para optimizar el conjunto de reglas de este

Estado del arte 49

sistema. Esta optimización es una entrada para la fuzzification y la decisión de acuerdo a

las reglas si-entonces del sistema difuso; estas reglas tienen en cuenta el valor de seis

características estadísticas medidas para cada oración del documento.

En el 2009, Fattah y Ren [11] proponen varios modelos para generación de resúmenes:

basados en GA, regresión matemática, una red neuronal hacia adelante, una red

neuronal probabilística y un modelo mixto gaussiano. Los cinco modelos se entrenan

para obtener los pesos de diez características; y luego se calculan las características

para cada oración teniendo en cuenta estos pesos calculados en el modo de

entrenamiento. Las oraciones con el puntaje más alto son seleccionadas para hacer

parte del resumen. En el GA, un cromosoma es representado como la combinación de

los pesos de las diez características, en cada generación se producen miles de

soluciones, evalúan la función objetivo de cada solución y conservan las diez más aptas

para cruzarlas con las nuevas en la siguiente generación.

Dehkordi et al. [13] en el 2009, usan GP con cadenas de caracteres de longitud fija, los

cuales se expresan como árboles de expresión (ET). GP inicia con una población de

soluciones candidatas aleatorias en forma de cromosomas, los cuales se mapean a ET,

luego se evalúan y seleccionan basados en la función objetivo para reproducirse con

operadores de modificación genética. La función objetivo está conformada por ocho

características y un peso para cada una de ellas. Para cada generación se producen

miles de soluciones, se evalúa la aptitud de cada solución y se conservan las ocho más

aptas para cruzarse en la siguiente generación. Luego se aplica esta combinación de

pesos a todas las oraciones del documento y son organizadas en forma descendente de

acuerdo al puntaje obtenido, las oraciones con puntajes más altos son seleccionadas

para ser parte del resumen basado en una tasa de compresión.

En el 2009, Binwahlan et al. [14], proponen usar optimización por enjambres de

partículas (Particle Swarm Optimization, PSO) [109] para obtener los pesos para ajustar

los puntajes de las características, luego estos puntajes son la entrada del sistema de

inferencia difuso para producir el puntaje final de las oraciones, las cuales se ordenan de

acuerdo a este puntaje y las primeras n oraciones son seleccionadas para el resumen.

Luego, en el 2010, Song et al. [9] proponen un modelo de optimización evolutivo difuso

llamado FEOM para hacer agrupamiento de documentos y generación de resúmenes. El

método de generación automática de resúmenes se basa en el concepto de

agrupamiento de oraciones, luego se seleccionan las oraciones más importantes de cada

grupo para obtener el resumen. FEOM utiliza un GA, para generar soluciones para

agrupamiento, donde cada individuo de la población es una cadena de números reales.

Se aplican tres parámetros de control (coeficiente de distribución, distancia relativa y

efecto de evolución) para regular la probabilidad de cruce y de mutación de cada

solución.

En el 2010, nuevamente Binwahlan et al. [15], proponen un modelo híbrido que combina

tres métodos basados en: diversidad, PSO y difuso-PSO. El método basado en

diversidad, hace grupos de oraciones que son ordenadas en un árbol binario de acuerdo

a los puntajes, luego aplica importancia marginal máxima, para seleccionar las oraciones

a incluir en el resumen. El método basado en PSO binario es usado para optimizar el

peso correspondiente a cada característica de la función objetivo; la posición de la

partícula es una cadena de bits, donde uno significa que la característica correspondiente

es seleccionada y un cero lo contrario; después de tener los pesos se calcula el puntaje

para cada oración y se escogen las oraciones con el mayor puntaje para ser incluidas en

el resumen. En el método basado en enjambres y lógica difusa, el algoritmo difuso

calcula el puntaje de la oración a través de un sistema de inferencia, que parte de los

pesos encontrados con PSO, luego convierte el resultado del proceso de inferencia

(puntajes finales de las oraciones), y al final se ordenan las oraciones de acuerdo al

puntaje obtenido y se obtiene el resumen. Al final se utiliza otro procedimiento para

seleccionar las oraciones de los resúmenes obtenidos por cada uno de los tres métodos

anteriores.

En el mismo año Litvak et al. [10] proponen un enfoque basado en la optimización lineal

de diferentes características usando un GA denominado MUSE. El GA es usado para

optimizar la combinación de pesos lineales de treinta y una características que son

usadas para puntuar las oraciones. En el entrenamiento, la función objetivo mide la

calidad del vector representado por medio de la medida de recuerdo de ROUGE-1. En la

etapa de inicialización, la población es aleatoria y cada gen representa el peso de la

característica. Luego se selecciona una proporción de los más aptos de la población para

Estado del arte 51

generar nuevos hijos. En la reproducción conservan algunas soluciones de la actual a la

siguiente generación, manejan una probabilidad para el operador de cruce y de mutación.

Al final el puntaje de cada oración es calculado con los valores de las características y los

pesos de cada una de ellas.

2.4.2 Generación de resúmenes

Entre los métodos basados en metaheurísticas que permiten la generación directa de

resúmenes, encontramos los siguientes trabajos más representativos:

Carbonell y Goldstein [110] en 1998, proponen un método para un solo documento

basado en MMR, que busca que la extracción de oraciones tenga en cuenta la relevancia

y la redundancia. En este método primero se segmenta el documento en oraciones y

luego se usa MMR con la métrica de similitud de coseno para reordenar las oraciones del

resumen de acuerdo a la consulta del usuario. Las oraciones con el puntaje más alto son

presentadas en el resumen de acuerdo al orden en el documento original. En el 2000

Goldstein et al. [111], hacen una adaptación de MMR a múltiples documentos, después

de identificar las oraciones relevantes a la consulta, aplican MMR adaptado a múltiples

documentos y por último obtienen las oraciones del resumen usando criterios de

cohesión definidos en el mismo artículo.

En el 2006, Liu et al. [16], proponen un método para múltiples documentos basado en GA

que maximiza la cobertura de tópicos y minimiza la redundancia de contenidos. Primero,

realizan la detección de conceptos y del tema central en toda la colección de

documentos. Luego el puntaje de cada oración se obtiene del ponderado de dos

aspectos: entropía de la información y el peso de la oración en el documento al que

pertenece (tópicos contenidos en la oración, conceptos en el título contenidos en la

oración, posición de la oración); multiplicados por la importancia del documento que

contiene la oración en toda la colección y la marca de tiempo de los eventos del

documento. La función objetivo maximiza el puntaje ponderado obtenido por la oración

menos la similitud de la oración con las oraciones seleccionadas. El GA utiliza esquemas

de selección por ruleta, cruce de un punto y dos operadores de mutación.

Luego en el 2008 Qazvinian et al. [17], proponen un método para un solo documento

basado en un GA, que define un buen resumen como la colección de oraciones legibles

que están relacionadas y discuten acerca del título del documento. Por lo tanto

contemplan tres factores en la función objetivo: (i) Factor relación con el tópico: medido

como la similitud de las oraciones del resumen hacia el título del documento. (ii) Factor

de cohesión: como la similitud entre las oraciones del resumen. (iii) Factor de legibilidad:

como la similitud de una oración del resumen con la siguiente. En el proceso evolutivo, se

generan soluciones aleatorias, y esta población se usa para generar los hijos. Luego

todos los padres y los hijos se colocan juntos, y por medio de la función objetivo se

escoge la mitad de la nueva población, esta mitad son los padres de la nueva

generación. Se cruzan dos padres que generan dos hijos y la mutación usada es de un

Más recientemente en el año 2013, García-Hernández y Ledeneva [18], proponen un

algoritmo para un solo documento basado en GA, cuya función objetivo es la

multiplicación de un factor de relevancia de una palabra y la posición de la oración. El GA

utiliza el operador de selección de ruleta, un cruce aleatorio dando mayor probabilidad a

los genes con valor a uno en ambos padres y el operador de mutación inversa es usado

dos veces.

De otra parte y basado en la metaheurística de HS, Shareghi y Hassanabadi [19] en el

2008 proponen un método para un solo documento, contemplando la misma función

objetivo de [17]. El vector solución o armonía es de longitud n (cantidad de oraciones en

el documento), una entrada en el vector de cero significa que esa oración no pertenece al

resumen y un uno que si pertenece. Se ejecuta el algoritmo de búsqueda armónica hasta

que se cumpla el criterio de terminación, entonces la solución que se encuentra en la

memoria armónica con el mejor valor de la función objetivo se selecciona y se obtiene el

resumen.

Basado en la metaheurística de PSO discreto, Aliguliyev [20] en el 2010 propone un

método para múltiples documentos, también basado en técnicas de agrupamiento. La

función objetivo tiene en cuenta el agrupamiento de las oraciones y la similitud entre las

oraciones se realiza por medio de la medida de similitud de google. En el 2011 Alguliev et

al. [21], proponen un modelo basado en máxima cobertura y mínima redundancia,

modelando la generación de textos como un problema de programación lineal entera.

Para obtener un buen resumen optimizan las siguientes tres propiedades: Relevancia,

Estado del arte 53

unidades de información que son relevantes al usuario; Redundancia, no contener

unidades de texto que transmitan la misma información; Longitud, se limita la longitud del

resumen. La función objetivo busca maximizar la similitud entre las oraciones del

resumen y las oraciones de todos los documentos, pero eliminando la redundancia,

similitud entre las oraciones del resumen; con una restricción por la longitud del resumen.

Entonces la función objetivo y la restricción, se plantea como un problema de

programación lineal entera; cuya función objetivo final es una combinación lineal de ésta

función basada en la similitud de coseno y basada en la medida de similitud de google.

Como algoritmos para resolver el problema de encontrar la mejor solución utilizaron:

ramificación y poda (si el tamaño del problema es limitado, algunas veces se puede

obtener una solución exacta dentro de un tiempo aceptable); y el algoritmo PSO binario.

En el mismo año Alguliev et al. [22], proponen un algoritmo para múltiples documentos,

cuya función objetivo se basa en cobertura y redundancia; y basado en PSO incorpora un

operador de mutación de acuerdo a una distribución marginal estimada. Luego Alguliev et

al. [23] en el 2013, proponen un modelo orientado a restricción, un enfoque orientado a la

cobertura y otro orientado a la diversidad; el problema es formulado como programación

entera cuadrática y también resuelven el problema con PSO.

Además basado en evolución diferencial adaptativa, Alguliev et al. en el 2011 [24]

proponen un algoritmo para múltiples documentos, cuya función objetivo es la división

entre cobertura y redundancia. Luego en el 2012 Alguliev et al. [25] basado también en

evolución diferencial, para definir la función objetivo utilizan el problema de las p-

medianas y tienen en cuenta los siguientes factores: relevancia (oraciones relevantes al

contenido principal de los documentos), cobertura del contenido (oraciones que traten los

subtópicos del documento), diversidad (evitar oraciones redundantes que tratan la misma

información) y longitud del resumen (definido por el tamaño definido para el resumen); en

el 2013 Alguliev et al. [26] proponen este mismo algoritmo con una variación en la función

objetivo propuesta en [24].

En el 2012 Alguliev et al. [27], también usando evolución diferencial modelan la

generación automática de resúmenes de múltiples documentos como un problema de

programación cuadrática booleano (Quadratic Boolean Programing, QBP), donde la

función objetivo es una combinación ponderada de los objetivos de cobertura del

contenido y redundancia. Esta función evalúa los posibles resúmenes basados en las

oraciones importantes identificadas y el solapamiento de información entre las oraciones

seleccionadas. También, en el mismo año, propusieron un nuevo algoritmo evolutivo

diferencial basado en parámetros de mutación y cruce auto-adaptativo, donde el modelo

es representado como un problema de p-medianas modificado [25]. El enfoque propuesto

no solo expresa la relación oración-oración, sino también las relaciones resumen-

documento y resumen-subtópicos.

Más recientemente en el año 2013, Abuobieda et al. [28] proponen un algoritmo para un

solo documento basado en evolución diferencial. La función objetivo tiene en cuenta dos

factores: similitud intra-grupo, grado de similitud entre las oraciones agrupadas en un

grupo determinado; disimilitud inter-grupo, grado de disimilitud entre las oraciones de un

grupo con respecto a otro grupo. Las medidas de similitud usadas en la función objetivo

son distancia de Google normalizada y coeficiente Jaccard.

En el 2010, Huang et al. [112] aborda la generación de resúmenes de documentos como

un problema de optimización multi-objetivo, planteando cuatro funciones objetivo, la

cobertura de la información, la importancia, la redundancia y la coherencia del texto. Los

posibles resúmenes son medidos basados en los términos centrales y tópicos principales

identificados. Usando un enfoque lexicográfico, los objetivos son optimizados en orden

de prioridad.

El proceso general para generación de resúmenes usado por los métodos basados en

metaheurísticas es como se muestra en la Figura 2-13: primero se realiza la extracción

de palabras claves o de las oraciones, luego se define la función objetivo (utilizando

características estadísticas y de similitud) y se ejecuta el algoritmo metaheurístico, por

último se seleccionan las oraciones del vector solución con el mejor valor de aptitud, para

de esta forma obtener el resumen.

Estado del arte 55

Figura 2-13 Metaheurísticas para uno o múltiples documentos

2.5 Evaluación de resúmenes

Después de tener un panorama de los métodos más relevantes para la generación

automática de resúmenes de textos, es importante revisar algunos sistemas de

evaluación que se pueden aplicar a esta tarea y qué medidas son las más aceptadas

para realizar la evaluación de la calidad de los resúmenes generados.

2.5.1 Conceptos de evaluación

En evaluación de la generación automática de resúmenes, existen dos tipos de

evaluación importantes [113]: intrínseca que busca medir la calidad del resumen creado y

extrínseca que mide que tan bien se ejecuta el resumen dentro de una tarea en

particular. La evaluación intrínseca parte de que existe un estándar para comparar, que

puede ser un conjunto de datos (texto/resumen) existente o con un resumen “ideal”

creado por un humano. Este tipo de evaluación presenta el problema de variabilidad del

ser humano al realizar esta tarea, por lo que se requiere de un diseño y análisis

experimental. De otro lado la evaluación extrínseca requiere seleccionar una tarea que

puede utilizar la generación automática de resúmenes y medir el efecto de utilizar

resúmenes automáticos en lugar del texto original. En esta evaluación los problemas son

la selección de la tarea y los indicadores para la medición.

Las medidas más utilizadas en la literatura para evaluar la calidad de los resúmenes

generados por un sistema automático de generación de resúmenes se muestran en la

Figura 2-14.

Figura 2-14 Medidas de evaluación de resúmenes automáticos

2.5.2 Evaluación automática de resúmenes

Jing, et al. [114] en 1998, analizaron tanto la evaluación intrínseca como la extrínseca.

Para reducir la subjetividad en el primer caso, ya que se utiliza un resumen “ideal”,

utilizan el modelo estadístico para partir de varios resúmenes hechos por humanos y de

estos construyen el resumen “ideal”, los autores demuestran que la longitud del resumen

afecta el resultado en este caso, ya que en la experimentación encontraron que medidas

como la precisión y el recuerdo son sensibles a la longitud del resumen, cuando el

resumen es corto los resultados son más fiables que cuando son más largos, también

indican que la precisión y el recuerdo no son las mejores medidas para calcular la calidad

del resumen (un pequeño cambio en la salida del resumen, por ejemplo, reemplazar una

oración por otra también buena) puede afectar significativamente el puntaje del sistema.

En el caso de la evaluación extrínseca (basada en una tarea) escogieron una tarea de

recuperación de información basada en la consulta del usuario, sin embargo, como no

disponían de generadores de resúmenes basados en consultas, utilizaron generadores

genéricos involucrando la consulta del usuario dentro del tópico principal del documento.

Los criterios de evaluación fueron: tiempo requerido, precisión de la decisión y

confidencia de la decisión. La experimentación mostró que no hay co-relación entre la

longitud y el mejoramiento de la tarea.

Estado del arte 57

En el 2002 Harman y Over [113] presentan un reporte de evaluaciones de generación

automática de resúmenes del 2001 en DUC, el tipo de resúmenes a evaluar fueron

genéricos y el tipo de evaluación fue intrínseca. Los documentos que se escogieron

fueron artículos de noticias, con al menos 10 oraciones cada documento. La

implementación contemplo: 60 conjuntos de documentos con aproximadamente 10

documentos, analistas de información retirados del Instituto Nacional de Estándares y

Tecnología (National Institute of Standards and Technology, NIST) definieron los

conjuntos de documentos y crearon resúmenes manuales de 100 palabras para cada

documento y resúmenes de cada conjunto de documentos con cuatro longitudes (50,

100, 200, 400), los sistemas generadores de resúmenes también crearon resúmenes

genéricos de 100 palabras para cada documento, y resúmenes de cada conjunto de

documentos con las mismas cuatro longitudes. Treinta conjuntos de documentos (con los

resúmenes manuales) se destinaron a entrenamiento y los otros treinta conjuntos (sin los

resúmenes) se utilizaron para la prueba. Luego el NIST presento los resultados de esta

evaluación, que realizó el mismo personal que creo los resúmenes manuales y se basó

en una comparación manual de los resúmenes realizados por los generadores de

resúmenes con los resúmenes construidos por los humanos. Esta comparación manual

se realizó con el apoyo de una herramienta, para evaluar dos áreas: la calidad del

resumen (gramaticalidad, cohesión y organización/coherencia), y la cobertura del

resumen con respecto al contenido del documento. Esta evaluación fue muy importante

ya que fue la primera evaluación intrínseca a gran escala de generación automática de

resúmenes para uno y múltiples documentos.

En el 2004 Lin [115] introduce una herramienta llamada ROUGE (Recall-Oriented

Understudy for Gisting Evaluation) que incluye medidas para automáticamente

determinar la calidad de un resumen generado con un resumen ideal, midiendo la

similitud entre resúmenes por medio de N-gramas. Además presenta variaciones de

ROUGE entre las que están: ROUGE-N (Estadísticas de co-ocurrencia de N-gramas) que

es un N-grama de recuerdo entre un resumen candidato y uno de referencia, donde N es

la longitud del N-grama; ROUGE-L (Subsecuencia común más larga) que toma el

resumen como una secuencia de palabras e incluye la secuencia común más larga de n-

gramas; ROUGE-W (Subsecuencia común más larga ponderada) que otorga un peso

mayor a la secuencia más larga de N-gramas pero donde estos sean secuenciales en el

texto. Para evaluar la eficacia de ROUGE utilizaron los juicios humanos hechos en DUC

en los años 2002 y 2003, sobre resúmenes de un solo documento (100 palabras),

resúmenes de un solo documento muy cortos (10 palabras) y resúmenes de múltiples

documentos (10, 50, 100, 200, 400 palabras). Como resultado encontraron que ROUGE-

2, ROUGE-L, ROUGE-W y ROUGE-S; lograron muy buena correlación con los juicios

humanos de los datos de DUC 2001 y 2002, trabajando bien para tareas de generación

automática de resúmenes de un solo documento. ROUGE-1, ROUGE-L, ROUGE-W,

ROUGE-SU4 y ROUGE-SU9 obtuvieron los mejores resultados para los resúmenes muy

cortos. Y por último ROUGE-1, ROUGE-2, ROUGE-S4, ROUGE-S9, ROUGE-SU4 y

ROUGE SU9, funcionaron razonablemente bien para múltiples documentos.

Más recientemente He et al. [116] (2008) proponen una variación de ROUGE, llamada

ROUGE-C, que permite evaluar resúmenes sin tener resúmenes humanos de referencia,

reemplazando estos resúmenes de referencia con el documento fuente y aplicando

ROUGE-C-N, para los puntajes de similitud. Para la evaluación tomaron los datos de

DUC de 2001 a 2005, algunas de los aspectos encontrados fue que para la generación

automática de resúmenes de un solo documento. ROUGE-C se ejecutó mejor para

resúmenes de 10 palabras, y para múltiples documentos la co-relación aumento cuando

el tamaño del resumen era más grande. Encontraron que con restricciones de las

condiciones apropiadas y una aceptable disminución de la eficiencia ROUGE-C se co-

relaciona bien con métodos que dependen de los resúmenes de referencia (incluyendo

los juicios humanos).

2.6 Algoritmos meméticos

Los algoritmos meméticos hoy son el estado del arte en la resolución de diversos

problemas de optimización combinatoria discreta [31], algunos de ellos son: el vendedor

viajero, asignación cuadrática, particionamiento de grafos y la cadena de suministro.

2.6.1 Definición

Los algoritmos meméticos [117] (Memetic Algorithms, MA) son métodos de búsqueda

híbridos basados en población (como los algoritmos genéticos) y búsqueda local de

vecindad (como por ejemplo búsqueda tabú). Los MA combinan estos dos métodos de

búsqueda para tomar las ventajas de estas dos estrategias, la búsqueda basada en

Estado del arte 59

población que permite la exploración de soluciones y la búsqueda local basada en

vecindad que permite la explotación sobre soluciones prometedoras.

Un MA básico [118] parte de una población inicial y luego repite cíclicamente los

siguientes pasos:

Selección de padres, que determina las soluciones candidatas que serán usadas

para crear las nuevas soluciones, basado en el valor de la función de aptitud o un

criterio de diversidad. Algunas de las estrategias de selección más comunes son:

ruleta, torneo y elitismo. La selección también puede realizarse de acuerdo a un

criterio de diversidad, en este caso se permiten individuos distantes para la

reproducción.

Cruce de padres para generar la descendencia, que crea nuevas soluciones

candidatas prometedoras, dirigiendo el proceso de optimización a nuevas áreas de

búsqueda que permiten encontrar mejores soluciones, para lograr esto es necesario

capturar conocimiento del problema. El operador de combinación debe crear

diversidad en la descendencia. Un diseño cuidadoso del operador de cruce influye en

el éxito del MA.

Mutación, el operador de mutación puede ser aplicado para reforzar la diversidad de

la población, aunque no es necesario debido a que la búsqueda local puede ser vista

como un operador de macro mutación guiada.

Mejora local, mejora la calidad de la descendencia iterativamente reemplazando la

solución actual por una solución tomada de la vecindad, este proceso se detiene para

obtener la mejor solución cuando se cumple con una condición de parada. La

búsqueda local juega el rol de intensidad de la búsqueda, explotando caminos de

búsqueda delimitados por una vecindad. Al igual que el cruce es un componente

clave que influye en el éxito del MA.

Reemplazo de la población, este paso decide si la nueva solución debe ser parte de

la población y cuál solución de la población debe ser reemplazada, buscando calidad

y diversidad. Una regla de actualización basada en la calidad reemplaza la peor

solución de la población, mientras que una regla basada en la diversidad sustituye

una solución similar teniendo en cuenta la medida de distancia. Las políticas

empleadas para manejar la población son muy importantes para mantener una

diversidad de la población adecuada y prevenir que el proceso de búsqueda converja

prematuramente.

2.6.2 Esquema de un Algoritmo memético básico

Un algoritmo memético básico se ejecuta a lo largo de poblaciones de individuos, que en

este contexto, son conocidos como agentes [118]. Un agente es una representación de

una solución, o en algunos casos de varias, y se caracteriza por su comportamiento

activo en la resolución del problema que aborda. Los agentes de una población compiten

y cooperan mutuamente durante la evolución, siendo esto, una característica

sobresaliente dentro de los MA. La estructura por medio de la cual se representa la

información genotípica de un agente es la estructura cromosómica. El MA inicia con una

población de ps agentes n-dimensionales, el i-ésimo agente de la población en un tiempo

o generación g tiene n componentes (memes) como se observa en la Ecuación (2-1).

psigxgxgxgX niiii ,...,2,1)],(),...,(),([)( ,2,1, (2-1)

El paso generacional de una población en un tiempo g a otra en g+1, se lleva a cabo

mediante los procesos de selección, reproducción, cruce y reemplazo de agentes. Antes

de la reproducción, se seleccionan dos (o más) agentes Xp(g) y Xm(g), con base en los

valores de aptitud obtenidos a partir de la función objetivo, los cuales actuarán como

padres de un nuevo agente (o más) en la nueva generación. En la fase de reproducción,

a través de un operador de cruce, se intercambia la información entre Xp(g) y Xm(g) para

dar origen a un nuevo agente Yi(g). En el estado de la reproducción, se lleva a cabo

también la inclusión de información ajena al agente generado mediante un operador de

mutación, el cual toma a Yi(g), para modificarlo parcialmente y generar un agente Zi(g).

La mutación se ejecuta con base en una probabilidad de mutación Mr, como se observa

en la Ecuación (2-2).

otherwisegY

MrURandifgYMutategz

))1,0(())(()( (2-2)

Estado del arte 61

Donde el método Mutate() modifica uno o más memes de un agente.

Así mismo, el agente generado es también optimizado, mediante un operador de

búsqueda local, con base en una probabilidad de optimización Opr, de acuerdo a la

Ecuación (2-3).

otherwisegZ

OprURandifgZBLgA

))1,0(())(()( (2-3)

Donde el método BL() es el operador de búsqueda local que mejora un agente.

La población es actualizada, sustituyendo un agente Xr(g), de acuerdo a una técnica de

reemplazo específica, por el nuevo descendiente de acuerdo a su valor de aptitud, como

se muestra en la Ecuación (2-4).

otherwisegX

gXFgAFifgAgX

))(())(()()1( (2-4)

Donde F() es la función objetivo a ser optimizada.

La selección, reproducción, mutación y reemplazo se ejecuta hasta completar el tamaño

de la población ps. El proceso generacional de competencia y cooperación descrito es

repetido hasta satisfacer un criterio de parada.

2.6.3 Consideraciones importantes en el diseño

La diversidad de la población es un aspecto importante en el diseño de un MA efectivo,

que busca promover y mantener diversidad durante el proceso de búsqueda, ya que si

ésta no se maneja adecuadamente la población puede converger prematuramente y el

proceso de búsqueda local terminar en un óptimo local. Esta diversidad puede ser

medida por medio de una métrica de similitud aplicada a los miembros de la población,

que puede ser definida así: a nivel de la representación de la solución (genotipo),

usualmente es independiente del problema y puede o no reflejar la diversidad intrínseca

de una población con respecto al objetivo de optimización específico; a nivel de la

solución (fenotipo), esta métrica es definida sobre el espacio de solución y por lo tanto es

más probable que mida la diversidad real de la población. Par obtener una diversidad de

la población adecuada, es importante primero definir la métrica de distancia o similitud

más apropiada con respecto al objetivo de optimización. La diversidad de la población

puede ser promovida y manejada en diferentes niveles de un MA: definir reglas de

selección para favorecer la selección de padres diferentes; variación de operadores que

favorezcan la generación de descendencia diversa (solo generar un hijo si está a la

misma distancia de ambos padres) y la calidad de la solución; estrategias de aceptación

y reemplazo de los hijos, la aceptación de un hijo se condiciona no solo a la calidad de la

solución sino también a la distancia con las soluciones existentes, de la misma forma, se

considera la calidad y la diversidad para seleccionar la solución que será reemplazada

por un hijo.

El rendimiento computacional de un MA también depende de la representación del

espacio de solución y del diseño de sus componentes clave: operadores de cruce y

mejora local. Una fase de búsqueda local larga o corta después de cada cruce podría

cambiar las trayectorias de búsqueda. Del mismo modo un procedimiento de búsqueda

local muy eficaz puede debilitar el papel del operador de cruce, mientras que un operador

de cruce muy fuerte puede hacer que sea menos importante un procedimiento de mejora

local altamente eficiente. Por esto es muy importante que el diseño del MA integre

conocimiento específico del problema para asegurar la explotación agresiva y la

exploración guiada.

Además la eficiencia en tiempo de ejecución de un MA depende en gran parte de la

elección de las estructuras de datos utilizados para implementar los distintos

componentes de los MA. Un ejemplo de esto, son los procedimientos de mejora local que

exploran las soluciones candidatas de la vecindad y representan la mayor parte del

tiempo de consumo de un MA, en este caso, la definición de estructuras de datos

apropiadas puede agilizar la evaluación de la vecindad. De otro modo, los costos

computacionales pueden poner en peligro el poder del método de búsqueda.

Un aspecto importante en el diseño del MA es el diseño y evaluación de la vecindad que

se explota durante la búsqueda local [118]:

Estado del arte 63

1. Diseño de la vecindad. El éxito del algoritmo de búsqueda local depende

considerablemente de su vecindad, ya que esta define el sub-espacio del problema

de búsqueda para ser explotado por el método. Para problemas binarios, dos

ejemplos de vecindarios son: los definidos por los operadores de movimiento k-flip,

que cambia los valores de k variables, y cualquier vecino tiene una distancia

hamming específica con la solución; y swap, intercambia los valores de dos variables

que tiene valores diferentes.

2. Evaluación de la vecindad. La búsqueda local se mueve iterativamente de la solución

actual a una nueva solución escogida de una vecindad. El valor del movimiento indica

si la calidad relativa de la nueva solución es mejor, peor o igual a la solución actual.

Esta evaluación se puede hacer de las siguientes formas:

Incremental. En la cual se deriva el valor de la función objetivo de la nueva

solución desde el valor de la función objetivo de la solución actual (actualizando el

valor de la función), esto partiendo de que la nueva solución es un vecino cercano

de la solución actual y es posible actualizar solo una parte de la función objetivo

actual.

Completa. En este caso, se almacenan los valores de movimiento de todos los

vecinos de la solución actual, de esta forma, se conoce la calidad de cada vecino

y se puede decidir en cada iteración cuál vecino escoger. La utilidad práctica de

este enfoque depende de la complejidad y el número de actualizaciones

necesarias después de cada movimiento. Esta evaluación es muy útil en métodos

como búsqueda tabú, donde se necesita identificar el mejor vecino.

Aproximativa. En esta evaluación se reemplaza la función de evaluación inicial

por una más rápida, que es una función de evaluación aproximativa; esto es útil si

es muy costoso computacionalmente el cálculo de la función de evaluación o si la

función objetivo es poco clara.

Orden de evaluación. Si la vecindad no se tiene completamente, se debe decidir

el orden en el cual la vecindad será explotada. Esto sucede con la técnica

descendente del primer mejor, que se mueve al mejor vecino, pero si existen

varios mejores, se escoge el primer mejor que se encuentre de acuerdo al orden

en el que se examina la vecindad.

2.6.4 Búsqueda local

El mejoramiento local es uno de los componentes más importantes de los MA,

permitiendo explotar el vecindario de algunas de las soluciones para encontrar óptimos

locales. A nivel de diseño se debe definir: donde se van a aplicar el optimizador

(población inicial, al final de ciclo reproductivo, en cada generación o cada cierto número

de generaciones); la frecuencia de aplicación del optimizador (a todos los agentes o solo

a algunos) y la intensidad de explotación del espacio de búsqueda. Entre los algoritmos

de búsqueda local más importantes están:

2.6.4.1 Búsqueda local iterada

En la búsqueda local iterada [118], primero se construye una solución inicial a la que se

le aplica un algoritmo de búsqueda local que proporcione un óptimo local, luego mientras

que no se cumpla la condición de terminación se repite lo siguiente: para pasar de un

óptimo local a otro cercano dentro del sub-espacio de soluciones se aplica una

perturbación a la solución optimizada (intensa para escapar del óptimo local, pero no tan

alta que haga que la búsqueda se vuelva aleatoria), a esta nueva solución se le aplica el

algoritmo de búsqueda para alcanzar un nuevo óptimo local, si esta nueva solución

supera el criterio de aceptación, esta nueva solución se toma para realizar la nueva

iteración. La efectividad del algoritmo de búsqueda local iterada depende de: la elección

de la búsqueda local, la perturbación y el criterio de aceptación. Se obtiene mejores

resultados si las perturbaciones tienen en cuenta propiedades específicas del problema,

el criterio de aceptación puede usarse para controlar el balance entre intensificación y

diversificación de la búsqueda.

2.6.4.2 Búsqueda local de vecindad variable

La búsqueda local de vecindad variable [119], se basa en el cambio sistemático de

vecindad. El algoritmo empieza con una solución inicial y busca en la primera estructura

de vecindad una mejor solución, si la encuentra, reemplaza la solución actual por la

nueva y vuelve a buscar en la primera estructura. En caso contrario, repite el proceso

buscando en la siguiente estructura de vecindad hasta encontrar una mejor solución a la

actual. En este algoritmo es muy importante la definición de las estructuras de vecindad.

2.6.4.3 Búsqueda local guiada

La búsqueda local guiada [120], se centra en las regiones prometedoras del espacio de

búsqueda. En este algoritmo la función objetivo del problema se aumenta al incluir un

conjunto de penalizaciones, inicialmente todos los parámetros de penalización se

Estado del arte 65

establecen en cero, luego hasta que se cumpla una condición de terminación: se aplica

un algoritmo de búsqueda local para encontrar un mínimo local de la función objetivo

aumentada, luego se realiza una acción de modificación (incrementar en uno los

parámetros de penalización de una o más de las características del mínimo local) sobre

la función objetivo aumentada y en la siguiente iteración se usa el algoritmo de búsqueda

local iniciando desde el mínimo local previamente encontrado.

2.6.4.4 Búsqueda Tabú

La búsqueda Tabú [121] utiliza memoria para almacenar las soluciones que no deben ser

elegidas. El término tabú significa “marcada porque constituye un riesgo”. Una solución

pertenece al conjunto “Elite” (un óptimo local pertenece a este conjunto) dependiendo de

su puntaje, el cual está relacionado con la función objetivo de la mejor solución

encontrada durante la búsqueda. La característica que distingue la Búsqueda Tabú de

las otras metaheurísticas de búsqueda es el uso de la memoria, que tiene una estructura

basada en una lista tabú y unos mecanismos de selección del siguiente movimiento. En

la lista tabú se registran aquellas soluciones o atributos de soluciones que no deben ser

elegidas, además puede contener: soluciones visitadas recientemente, movimientos

realizados recientemente, atributos o características que tenían las soluciones visitadas.

Al igual que las costumbres sociales pueden cambiar con el tiempo, las soluciones tabú

pueden dejar de serlo sobre la base de una memoria cambiante, para esto, debe haber

una forma de “olvido estratégico”, es decir, que una solución o atributo pueda salir de la

lista tabú antes de que se cumpla su plazo. Esto se implementa a través del Criterio de

aspiración, el cual permite que un movimiento sea admisible aunque esté clasificado

como tabú. El algoritmo genera una solución inicial y mientras no se cumpla la condición

de terminación: se identifica el vecindario de la solución, la lista tabú, y el conjunto de

aspirantes, luego se determina el vecindario reducido (el vecindario inicial menos la lista

tabú y se le suma la lista de aspirantes), se escoge la mejor solución y si mejora la

solución conocida se guarda y se actualiza la lista tabú, y se repite nuevamente la

iteración con la mejor solución.

2.7 CHC

Eshelman propuso el algoritmo original CHC (Cross-generational elitist selection,

Heterogeneous recombination, Cataclysmic mutation) para problemas binarios [122], que

combina una estrategia de selección elitista con un cruce perturbador, promoviendo una

alta diversidad en la población. El algoritmo CHC usa un mecanismo de prevención de

incesto: antes del cruce, en la población padre, calcula la distancia de Hamming entre los

padres potenciales, si la mitad de esta distancia no supera un umbral diferencial d, no se

cruzan y ningún descendiente es creado. CHC usa un mecanismo de recombinación

perturbador llamado Cruce Uniforme Medio (Half Uniform Crossover, HUX) que combina

exactamente la mitad de los alelos no coincidentes, donde los bits a ser intercambiados

son escogidos al azar. Este garantiza que los dos descendientes siempre están a una

distancia de Hamming máxima de sus padres, introduciendo una alta diversidad en la

nueva población y evitando el riesgo de convergencia prematura.

La siguiente población es construida usando un mecanismo de selección elitista: p

miembros de la población actual son mezclados con la descendencia generada y los

mejores p individuos son seleccionados para conformar la nueva población (p es el

tamaño de la población). Cuando un padre y un hijo tienen el mismo valor de aptitud, el

padre es seleccionado. El umbral de diferencia d es usualmente inicializado en L/4 (L es

la longitud del cromosoma). Si no se genera un descendiente en una generación, d se

decrementa en uno, indicando que la población está convergiendo. Cuando el umbral de

diferencia llega a cero, se ejecuta un proceso de reinicio que sustituye el operador usual

de mutación. En este paso consiste en la reinicialización de la población: el mejor

individuo es conservado y los individuos restantes son creados por un porcentaje

aleatorio (definido por el radio de divergencia dr) de los bit’s de los mejores individuos. La

Figura 2-15 presenta el esquema general de este algoritmo.

Figura 2-15 Esquema general del algoritmo CHC

t=0; d=L/4; Inicialización (P(t)); // Inicialización aleatoria. Evaluación (P(t)); // Calcular la aptitud para cada individuo de la población. While no se cumpla el criterio de parada do

t=t+1; Copiar ((P(t-1), C(t)); // Copiar la población actual en C(t). Cruce (C(t),C’(t)); // Aplicar el cruce HUX en C(t), con un mecanismo de // prevención de incesto. Selección (P(t), C’(t), P(t-1)); // Seleccionar los mejores p individuos. If P(t) =P(t+1) Then d--1; // Si ningún descendiente es obtenido en esta generación, // d es decrementado. If d < 0 Then Cataclismo; // Si el umbral de diferencia d llega a cero, un proceso de // reinicio es ejecutado.

End while;

3 Algoritmo para la generación de resúmenes de un solo documento

En este capítulo se describe el nuevo algoritmo memético propuesto para la generación

de resúmenes extractivos de un solo documento, basado en operadores genéticos y

búsqueda local guiada. Primero se explica las características de la función objetivo y

luego se hace la descripción del algoritmo memético.

3.1 Características de la función objetivo

La generación automática de resúmenes de un documento, busca seleccionar las

oraciones más relevantes de un documento, por esto, es importante establecer las

características que ayuden a identificar estas oraciones y de esta forma mejorar la

calidad de los resúmenes generados. En esta investigación se utilizó un conjunto de

características, independientes del dominio y del lenguaje, para determinar la calidad de

un resumen con base en las oraciones que lo conforman, ellas son: (1) la posición de las

oraciones en el documento, (2) la relación de las oraciones con el título, (3) la longitud de

las oraciones, (4) la cohesión entre las oraciones del resumen y (5) la cobertura de las

oraciones del resumen. Estas características forman parte de la función objetivo que fue

optimizada por el algoritmo memético propuesto y se describen a continuación.

3.1.1 Posición de la oración

Si todas las oraciones de un documento tuvieran la misma importancia, al reducir el

tamaño del documento para generar un resumen se perdería información significativa.

Sin embargo, según estudios previos, la información relevante en un documento, sin

importar su dominio [49], tiende a encontrarse en ciertas secciones como títulos,

encabezados, oraciones iniciales de los párrafos, párrafos iniciales, etc. Para evaluar una

oración con base en su posición, se define un criterio de selección que utiliza la distancia

existente entre la oración y el inicio del documento, asignando un mayor valor a las

oraciones iniciales. En recuperación de la información se han aplicado diferentes técnicas

basadas en la posición de las oraciones, que han probado su efectividad para determinar

la relevancia de una oración [11, 95, 123]. Uno de estos esquemas es el utilizado por

Bossard et al. [123], donde se aplica un cálculo normalizado de la posición basado en la

Ecuación (3-1).

SummarySii q

Donde qi indica la posición de la oración Si en el documento, y POS es el resultado del

cálculo para todas las oraciones del resumen candidato. De esta forma POS tendrá un

valor alto cuando las oraciones del resumen pertenecen a las primeras oraciones del

documento, y por el contrario POS tendrá un valor bajo cuando las oraciones del

resumen pertenecen a las últimas oraciones del documento.

3.1.2 Relación de la oración con el título

Esta característica se basa en el supuesto de que un buen resumen contiene oraciones

similares al título del documento [80, 124]. Para calcular esta similitud, se parte de su

representación a través del modelo de espacio vectorial y se utiliza la medida de similitud

de coseno [17] como se observa en la Ecuación (3-2).

tssimRT

Summary

Summarys

),(cos

Donde simcos(Si,t) es la similitud de coseno de la oración Si con el título t, O es la cantidad

de oraciones del resumen, RTs es el promedio de la similitud de todas las oraciones del

resumen (S) con el título, RTsummarymax es el promedio de los valores máximos obtenidos

de las similitudes de todas las oraciones del documento con el título (el promedio de las

O similitudes más altas de todas las oraciones con el título), y RTFs es el factor de

similitud de las oraciones de S con el título. RTF es cercano a uno cuando las oraciones

del resumen están muy relacionadas con el título, y tiende a cero cuando estas oraciones

son muy distintas al título.

Algoritmo para la generación de resúmenes de un solo documento 69

3.1.3 Longitud de la oración

Algunos estudios han concluido que las oraciones más cortas de un documento deberían

tener menos probabilidad de aparecer en el resumen [51]. Un estudio reciente realiza una

normalización basada en la función sigmoidea para el cálculo de esta característica [125].

Esta estimación tiene en cuenta la distribución estándar de los datos para alcanzar una

evaluación más balanceada, que sigue privilegiando las oraciones más largas, pero no se

descarta completamente aquellas de longitud media o baja, presumiendo que también

puedan tener información relevante para el resumen. De esta forma, teniendo en cuenta

que la distribución estándar representa la tendencia de los datos a variar por encima o

por debajo del valor medio, se espera que una oración con una longitud no muy corta

obtenga una buena calificación en esta característica. Basado en estas premisas, la

Ecuación (3-3) muestra el cálculo de longitud para las oraciones de un resumen.

SummaryS

Donde l(si) es la longitud de la oración Si (medida en palabras), (l) es el promedio de la

longitud de las oraciones del resumen y std(l) es la desviación estándar de estas

longitudes.

3.1.4 Cohesión

La cohesión es una característica que determina el grado de relación de las oraciones

que conforman un resumen [17, 19]. Idealmente, la conexión entre las ideas expresadas

en las oraciones debe ser tal, que permita dar una unidad conceptual al resumen, es

decir, altamente acopladas. Para su cálculo se utiliza la medida de similitud de coseno

entre dos oraciones del resumen (ver Ecuación (3-4)).

NjijiSimM

SummarySSji

,),,(max

)1()(,

)19log(

Donde CoH corresponde a la cohesión de un resumen, Cs es el promedio de la similitud

de todas las oraciones en el resumen S, simcos(Si,Sj) es la similitud de coseno entre las

oraciones Si y Sj, Ns es la cantidad de relaciones de similitud diferentes de cero en el

resumen, O es la cantidad de oraciones del resumen, M corresponde a la máxima

similitud de las oraciones del documento y N es la cantidad de oraciones en el

documento. De esta forma, CoH tiende a cero cuando las oraciones del resumen son

muy diferentes entre sí, mientras que CoH tiende a uno cuando estas oraciones son muy

similares entre sí. Así, esta característica tiende a favorecer los resúmenes que

contienen oraciones que tratan de la misma temática.

3.1.5 Cobertura

La cobertura intenta medir el grado en que un resumen proporciona al lector la

información más importante del documento original, a través del contenido de las

oraciones que lo constituyen [21]. De esta manera, esta característica se define como la

similitud entre las oraciones que componen un resumen y el documento completo. Así

pues, el documento, al igual que cada una de sus oraciones, es representado a través

del modelo vectorial y es pesado a través del cálculo de frecuencia relativa de acuerdo a

la Ecuación (3-5).

SummaryS ijSummarySji

SDsimSDsimCov,

coscos )],(),([ (3-5)

Donde D es el vector de los pesos de los términos del documento, y Si y Sj son los

vectores de pesos de los términos de las oraciones Si y Sj, respectivamente, que

pertenecen al resumen.

3.2 Algoritmo propuesto: MA-SingleDocSum

El algoritmo memético (Memetic Algorithms, MA) propuesto en esta investigación, busca

optimizar la combinación lineal de las características presentadas en las Ecuaciones

(3-1) a (3-5). Este tipo de algoritmos combinan una búsqueda global basada en

población, con una búsqueda local heurística aplicada a cada agente (o una parte de

ellos), es decir, evolución genética con el aprendizaje que los individuos logran durante

su período de existencia [118]. El principal objetivo de los MA, al incorporar

optimizaciones individuales y procesos de cooperación y competencia poblacional, es

direccionar la exploración hacia las regiones más prometedoras del espacio de

búsqueda. Un proceso de competencia, involucra técnicas de selección de individuos,

mientras que un proceso de cooperación se refiere a la generación de nuevos individuos

a través del intercambio de información.

3.2.1 Representación del documento y medidas de similitud

La representación del documento se realiza según el Modelo de Espacio Vectorial

propuesto por Salton [44]. En ese sentido, un documento es representado por el conjunto

D={S1,S2,…,Sn} donde Si corresponde a la i-ésima oración del documento y n es la

cantidad de oraciones que lo conforman.

Así mismo, una oración del documento es representada por el conjunto

Si={ti1,ti2,…,tik,…,tim}, donde tik es el k-ésimo término de la oración Si y m es el número

total de términos en todo el documento. De esta manera, la representación vectorial de

una oración del documento es Si={wi1,wi2,…,wik,…,wim}, donde wik es el peso o

ponderación del término tk en la oración Si. Este peso es calculado como la frecuencia

relativa del término en el documento [44] y se calcula de acuerdo a la Ecuación (3-6).

))1(log()( kiikik nnMaxFreqfw (3-6)

Donde fik es la frecuencia del término k en la oración Si, MaxFreqi es un factor de ajuste

que indica la cantidad de ocurrencias del término más frecuente dentro de la oración Si y

nk es la cantidad de oraciones donde aparece el término tk.

En ese sentido, el objetivo de generar un resumen de un documento consiste en

encontrar un subconjunto de oraciones de D que contengan la información principal del

documento. Para ello, se utilizan características cuyo propósito es evaluar el subconjunto

de oraciones para determinar el grado en que abarcan la información más relevante del

documento. Algunas de esas características están basadas en medidas de similitud entre

las oraciones. La similitud entre dos oraciones Si y Sj, de acuerdo a la representación

vectorial descrita, es calculada como la similitud de coseno [44] que se relaciona con el

ángulo de los vectores Si y Sj y se calcula de acuerdo a la Ecuación (3-7).

wwSSsim

1cos ),( (3-7)

Donde m es el número total de términos del documento, wik se refiere al peso del término

k en la oración Si y wjk es el peso del término k en la oración Sj.

3.2.2 Representación de la solución

En MA-SingleDocSum, la codificación de una solución o agente se realiza mediante un

vector binario. De esta manera, si un documento está formado por n oraciones

{S1,S2,…,Sn}, el agente candidato se compone de n memes, donde cada uno representa

una oración del documento, tomando el valor de uno si la oración pertenece al resumen

representado por el agente, o de cero en caso contrario. Por ejemplo, si se tiene un

documento con n = 10, es decir, con diez oraciones, el vector solución

[0,1,1,0,1,0,0,1,0,0] indica que el resumen representado por este agente está conformado

por la segunda, tercera, quinta y octava, oración del documento original. En ese sentido,

el c-ésimo agente de la población actual (generación g) es representado como se

observa en la Ecuación (3-8).

)](),...,(),...,(),([)( ,,2,1, gxgxgxgxgX ncscccc (3-8)

Donde xc,s(g) {0,1} es un entero binario; y n es el número de oraciones del documento;

c=1,2,…,ps; ps es el tamaño de la población.

3.2.3 Función objetivo

La definición de la función objetivo es uno de los pasos más importantes dentro del

diseño de los MA, ya que ayuda a guiar el mecanismo de exploración y explotación. La

función objetivo se encarga de asignar y evaluar un valor de aptitud a los agentes de la

población, basado en su capacidad para resolver el problema abordado. Para evaluar la

calidad de un resumen representado por un agente Xk, se requiere de una función

objetivo, la cual será maximizada de acuerdo a la Ecuación (3-9), cuyos componentes

corresponden a las fórmulas matemáticas de las Ecuaciones (3-1) a (3-5). Estas fórmulas

son las características que se quieren maximizar para cada agente. Los coeficientes de

la función objetivo deben cumplir la restricción de la Ecuación (3-10). Además debe

contemplar la restricción de cantidad de palabras del resumen de la Ecuación (3-11).

)()()()()())(( kkkkkk XCobXCoHXLONXRTXPOSXfMax (3-9)

Sujeto a

1 (3-10)

iii Lxl

1 (3-11)

En la Ecuación (3-12), , , , , , son coeficientes que permiten dar un peso ponderado

a cada característica de la función objetivo. Y en la Ecuación (3-11), li es la longitud de la

oración Si (medida en palabras), xi toma un valor de uno si la oración hace parte del

resumen y cero si no lo es, L es el número máximo de palabras permitidas en el resumen

generado.

3.2.4 Esquema de MA-SingleDocSum

Inicialización de la población. La estrategia más común para inicializar la

población (tiempo g = 0) es generar aleatoriamente cada agente. Para que todas

las oraciones del documento tengan la misma probabilidad de formar parte del

agente, se define un número aleatorio entre uno y n (número de oraciones del

documento). Se escoge el gen que corresponde a este valor y se coloca un valor

de uno, indicando que esta oración hace parte del resumen candidato en el

agente actual. De este modo, el c-ésimo agente de la población inicial queda

creado como se aprecia en la Ecuación (3-12).

sscncccc axxxxX )0()],0(),...,0(),0([)0( ,,2,1, (3-12)

Donde as es un entero binario {0,1}, c=1,2,…,ps y s=1,2,…,n.

Cuando un valor xc,s(0) toma el valor de uno, se verifica la condición de longitud del

resumen representado por el agente basada en la Ecuación (3-11).

Selección. El paso generacional inicia con este proceso, seleccionando una

cantidad determinada de agentes de la población actual (tiempo g), por medio de

una estrategia elitista, para que pasen sin modificación a la siguiente generación

(tiempo g+1). Así, si Pob(g)={X1(g),X2(g),…,Xps(g)} es la población actual

ordenada descendentemente de acuerdo a los valores de aptitud de sus

miembros, el grupo de agentes escogidos para pasar a la siguiente generación

corresponden a E(g+1)={X1(g),X2(g),…,Xe(g)} donde E(g+1) Pob(g), e<ps y e es

un parámetro predefinido que especifica la cantidad de agentes elegidos por

elitismo. El resto de la población es creada seleccionando dos padres.

Para seleccionar el primer padre Xp(g), se utiliza la estrategia Basada en Rango

[126], primero se ordenan los agentes de la población actual descendentemente por

sus valores de aptitud y se calcula el rango para el i-ésimo agente de acuerdo a la

Ecuación (3-13).

)1)(1(2))((

jssgXr i (3-13)

Donde ps es el tamaño de la población, j es la posición del agente en la población

ordenada, s es la presión selectiva que puede determinarse como la relación entre el

individuo más apto y el individuo medio. Con base en los valores de rango, se

calcula probabilidad del i-ésimo agente por medio de la Ecuación (3-14).

gXrgXprb i

))(())(( (3-14)

Luego se genera un valor aleatorio a en el rango de [0,1], el primer agente cuya

probabilidad prb() supere el valor de a, es seleccionado como padre.

Para seleccionar el segundo padre Xm(g), se hace por medio de la estrategia de

Ruleta [126], primero se calcula la probabilidad acumulada de la población actual

usando la Ecuación (3-15).

gXFaPacups

(3-15)

Donde F(Xi(g)) es el valor de aptitud del i-ésimo agente de la población actual y a es

un valor aleatorio en el rango de [0,1].

Luego se recorre secuencialmente la población acumulando progresivamente los

valores de aptitud de los agentes, de tal manera que dicha suma al llegar al i-ésimo

agente corresponde a la Ecuación (3-16). El primer agente para el cual Sumacu()

excede el valor de probabilidad Pacu, es seleccionado como el segundo padre.

))(())((1

gXFgXSumi

jjiacu

(3-16)

Cruce. Para generar un descendiente se utiliza la estrategia de cruce de Un punto

[126]. Así, los padres seleccionados Xp(g) y Xm(g) intercambian parte de sus

cadenas después de un punto seleccionado aleatoriamente para generar el

agente Yi(g), de tal modo que su s-ésimo meme Yi,s(g) es calculado como en la

Ecuación (3-17).

ptCsifgxgY

spsi ..)(

,, (3-17)

Donde xp,s(g) es el s-ésimo meme del primer padre Xp(g), xm,s(g) es el s-ésimo meme

del segundo padre Xm(g) y ptC es un número entero que representa el punto de corte

seleccionado aleatoriamente entre [1, n], siendo n el tamaño del agente (número de

oraciones). Para generar un segundo hijo, se sigue este mismo proceso

intercambiando el rol de los padres. Para cada hijo se verifica la restricción de

longitud del resumen representado por el agente basado en la Ecuación (3-11). Si

esta restricción no se cumple se elimina una de las oraciones de forma aleatoria y se

vuelve a repetir el proceso hasta que se cumpla con la restricción.

Mutación. Un agente Yi(g) es mutado de acuerdo a la Ecuación (2-2), presentada

anteriormente. La técnica de mutación aplicada corresponde a una estrategia

Multi-bit, en la cual, se decide si un meme del agente debe o no ser mutado con

base en una segunda probabilidad de mutación Mr2, conforme a la Ecuación

(3-18). Antes de mutar (colocar el gen en uno) se verifica la restricción de longitud

del resumen representado por el agente basado en la Ecuación (3-11), si la

restricción no se cumple el meme no es mutado.

gyMrURandifgZ

sisi ..)(

0)())1,0((1)(

,2, (3-18)

Donde Rand(U(0,1) es un número real aleatorio entre [0,1].

Búsqueda local. Un agente Zi(g) es optimizado con base en la Ecuación (2-3),

para obtener un agente Ai(g). La estrategia utilizada está basada en la Búsqueda

Local Guiada (Guided local search, GLS) [127]. En ese sentido, las características

de la GLS son representadas por todas las oraciones de un documento, de tal

forma que si un documento está formado por n oraciones, el conjunto de

características GLS es igual a n. El vector que representa si un agente Xb posee o

no alguna característica es Kb={kb,1,kb,2,…,kb,i,…,kb,n}, donde kb,i{0,1}. Así, si

n=10, un vector Kb={1,0,1,00,1,0,1,00} indica que el agente Xb posee las

características (u oraciones) uno, tres, seis y ocho. Los costos asociados a las

características son representados por un vector constante C={c1,c2,…,ci,…,cn},

calculado al inicio de la ejecución del algoritmo memético, donde el costo ci de la

i-ésima característica GLS es calculado como se ve en la Ecuación (3-19).

),(),...,,((

coscos

tSsimtSsimMax

ii (3-19)

Donde qi es la posición de la característica (u oración) Si en el documento, simcos(Si,t)

es la similitud de coseno de la característica Si con el título y MAX(simcos(S1,t), …,

simcos(Sn,t)) es la máxima similitud coseno con el título de las oraciones del

documento.

Las penalizaciones de la GLS son representadas por un vector constante

P={p1,p2,…,pi,…,pn}, cuyos valores son cero al iniciar la búsqueda y se incrementa su

valor cuando se llega a un óptimo local X0, de tal forma que si K0 es el vector de

características de dicho óptimo local, el valor de penalización pi de la i-ésima

característica es modificado de acuerdo a la Ecuación (3-20).

dddMinkifpp

amajaioii

),...,,...,(11 1, (3-20)

Donde di es la función de decisión que determina si la característica Si debe ser o no

penalizada, y es calculada de acuerdo a la Ecuación (3-21), daj es el valor de decisión

de la j-ésima característica cuyo valor k0j es igual a uno, MIN(da1,da2,…, dam) es el

valor mínimo de la función de decisión evaluada en las m características cuyo valor

es uno en K0.

1 (3-21)

Por otro lado, la función objetivo disminuida es calculada como se muestra en la

Ecuación (3-22).

iriirr kpXFXG

1)()( (3-22)

Donde es un parámetro de regularización que controla la importancia relativa de las

penalizaciones con respecto al costo F(Xr) de la solución.

Como en el algoritmo MA-SingleDocSum, la función objetivo se está maximizando,

entonces el algoritmo de búsqueda local guiada disminuye el valor de la función de

objetivo en cada iteración, por medio de la penalización de algunas de las

características. En cada iteración se realiza un ajuste al agente de la iteración

anterior hasta cumplir con el criterio de parada (número máximo de optimizaciones).

Este ajuste consiste, en quitar la oración del agente actual (resumen) con la menor

similitud al documento, es decir la de menor cobertura, luego incluir una oración que

tengan la mayor cobertura y que no estén ya en el resumen, y repetir este proceso

hasta que se cumpla con la restricción de restricción de longitud del resumen

(Ecuación (3-11)). Luego las características presentes en el agente ajustado son

penalizadas de acuerdo a la función de decisión y la función objetivo disminuida es

afectada para la siguiente iteración. En la Figura 3-1 se presenta el esquema general

del procedimiento de búsqueda local guiada para MA-SingleDocSum.

Figura 3-1 Procedimiento de búsqueda local guiada

g: Función objetivo disminuida; f: Función objetivo original; N: Características del agente; P: Vector de penalizaciones de las características (oraciones); C: Vector de costos de las características; K: Vector indicador de la presencia de características;

j = 0; // Índice inicial agente original. Inicialización (P); // Las penalizaciones se colocan en cero. Costos(C); // Cálculo del vector de costos de las características. Indicador(K); // Cálculo del vector indicador de presencia de las // características para el agente original.

g = f - Pi Ki; // Cálculo de la función objetivo disminuida para el agente // original. While Criterio de parada do Xj+1 = Ajuste(Xj, g) // A la solución actual (Xj ) se le aplica un ajuste (Xj+1) // usando la función objetivo disminuida. Indicador(K); // Cálculo del vector indicador de presencia de las // características para el agente ajustado. For i=1 until N do; // Para cada característica del agente ajustado.

Di = Ki(Xj+1) Ci / (1 + Pi); // Cálculo función decisión para cada característica. Penalizar (U); // Penaliza las características con el menor valor en la función de // decisión. j = j + 1; // Índice para el siguiente agente ajustado. End While

Reemplazo. El agente optimizado Ai(g) es incluido en la población de acuerdo a la

Ecuación (2-4). En ese sentido, para seleccionar el agente de reemplazo Xr(g) se

utiliza un enfoque basado en competencia restringida, en el cual, primero se

escoge aleatoriamente un conjunto de m agentes competidores de la población

actual, Comp={Xr1(g),Xr2(g),…,Xrm(g)}, donde m<ps, donde Xr(g) Comp y cumple

con la expresión de la Ecuación (3-23).

CompgXgXFgXF rjrjr )()),(())(( (3-23)

Donde Xrj(g) Xr(g).

Convergencia de la población. La convergencia de la población es evaluada tras

la generación de una nueva descendencia. Para determinar la tendencia de

aptitudes entre los agentes de la población actual, se determina el conjunto de

agentes Ev, cuya aptitud varía en un porcentaje (en este caso 5%) con respecto

al valor medio de aptitud de la población actual como se observa en la Ecuación

(3-24).

]}05.1*)(,95.0)([))((|)({ FFgXFgXEv rr (3-24)

Donde (F) es el valor medio de las aptitudes de la población actual. Si COUNT(Ev)

representa la cantidad de elementos en Ev, la evaluación de convergencia se define

como se muestra en la Ecuación (3-25).

modfalse

psEvCOUNTiftrueiaConvergenc (3-25)

Si la población converge, se reinicia la población en forma similar al proceso de

inicialización de la población, pero manteniendo una cantidad predefinida Er de los

mejores agentes del población actual.

Criterio de parada. La ejecución del algoritmo memético termina cuando se

cumple con la condición de parada, la cual fue establecida como un número

máximo de evaluaciones de la función objetivo.

En la Figura 3-2, se presenta en forma general el esquema del algoritmo MA-

SingleDocSum descrito anteriormente, el cual está basado en el enfoque presentado por

Hao [118].

Figura 3-2: Esquema del algoritmo MA-SingleDocSum

Inicialización (Pt(N)) // Inicialización aleatoria de la población. Evaluación ((Pt(N)); // Cálculo de la función de aptitud. Optimización ((Pt(N), Búsqueda local guiada); // Optimización local. Repeat

P t+1(N)=Elitist (Pt(N), E); // Selección por Elitismo. For n = 1 to ((N-E)/2) do

Selección (Padre1, Rango); // Selección por Rango del primer padre. Selección (Padre2, Ruleta); // Selección por Ruleta del segundo padre. Hijo1=Cruce (Padre1, Padre2, Un punto); // Generación primer hijo con Cruce de un punto. Mutación (Hijo1, Multi-bit); // Mutación Multi-bit del primer hijo. Optimización (Hijo1, Búsqueda local guiada); // Búsqueda local guiada del primer hijo. P t+1(N)= Competencia restringida (Hijo1, (Pt(N)); // Reemplazo primer hijo. Hijo2= Cruce (Padre2, Padre1, Un punto); // Generación segundo hijo. Mutación (Hijo2, Multi-bit); // Mutación Multi-bit del segundo hijo. Optimización (Hijo2, Búsqueda local guiada); // Búsqueda local guiada del segundo hijo. P t+1(N)= Competencia restringida (Hijo2, (Pt(N)); // Reemplazo segundo hijo.

End For; Evaluación-Convergencia (P t+1(N)); // Evaluación de convergencia de la población. t=t+1;

Until (Número máximo de evaluaciones de la función objetivo); // Criterio de parada.

4 Algoritmo para la generación de resúmenes de múltiples documentos

En este capítulo se describe el nuevo algoritmo memético propuesto para la generación

de resúmenes extractivos de múltiples documentos basado en el algoritmo CHC (Cross-

generational elitist selection, Heterogeneous recombination, Cataclysmic mutation) y

búsqueda local codiciosa. Para ello primero se explica las características de la función

objetivo y luego se hace la descripción del algoritmo memético.

4.1 Características de la función objetivo

La generación automática de resúmenes de múltiples documentos, al igual que para un

documento, busca seleccionar las oraciones más relevantes de múltiples documentos,

pero en este caso, como los documentos tratan del mismo tópico, es importante tener en

cuenta que las oraciones escogidas para ser parte del resumen no sean iguales o

similares (es decir que sean lo menos redundantes posible). En esta investigación se

utilizaron dos características, independientes del dominio y del lenguaje, para determinar

la calidad de un resumen con base en las oraciones que lo conforman, ellas son: (1) la

cobertura de las oraciones del resumen y (2) la redundancia que presenta las oraciones

del resumen. Estas características forman parte de la función objetivo que fue optimizada

por el algoritmo memético propuesto y se describen a continuación.

4.1.1 Cobertura

Un resumen debe contener los aspectos principales de los documentos con la menor

pérdida de información, por lo tanto, las oraciones seleccionadas deben abarcar la mayor

cantidad de información contenida dentro del conjunto de oraciones de la colección de

documentos. Para esto, el factor de cobertura se calcula teniendo en cuenta la similitud

de coseno entre el texto del resumen candidato (todas las oraciones candidatas del

resumen) y las oraciones de toda la colección de documentos como se muestra en la

Ecuación (4-1).

),(cos DRsimFc (4-1)

Donde R, representa el texto con todas las oraciones del resumen candidato; D,

representa todas las oraciones de la colección de documentos (en este caso, es el

centroide de la colección); y simcos(R,D), es la similitud de coseno entre el vector de

términos de R y el vector de términos de D. Por lo tanto este factor toma valores entre

cero y uno.

4.1.2 Redundancia

El manejo de la redundancia es un factor muy importante, debido a que el resumen

generado debe evitar contener información repetida en el mismo, es decir, tener la menor

redundancia posible, especialmente cuando se está tratando el problema de generación

de resúmenes de múltiples documentos que tratan un mismo tópico. Para eliminar la

redundancia en las oraciones del resumen, este factor se calcula tomando como base lo

planteado en [21], pero haciendo una normalización, para que este factor tome valores

entre cero y uno, al igual que el factor de cobertura (ver Ecuación (4-2)).

1 1cos ),(

ijji SSsim

nnFr (4-2)

Donde Si y Sj son oraciones del resumen, simcos(Si, Sj) es la similitud entre las dos

oraciones y n es la cantidad de oraciones que hay en el resumen.

4.2 Algoritmo propuesto: MA-MultiSumm

El algoritmo memético (Memetic Algorithms, MA) propuesto en esta investigación para

múltiples documentos, busca optimizar la combinación lineal de las características de las

Ecuaciones (4-1) y (4-2), adaptando el algoritmo CHC al problema de múltiples

documentos y realizando optimización local por medio del algoritmo de búsqueda local

codiciosa.

Algoritmo para la generación de resúmenes de múltiples documentos 83

4.2.1 Representación del documento y medidas de similitud

La representación se realiza basada en el modelo de espacio vectorial propuesto por

Salton [44] al igual que para un documento, pero en este caso, por tratarse de un

problema de múltiples documentos, se representa como el conjunto de todas las

oraciones que conforman la colección de documentos, así: D={S1, S2,…, Si,…,Sn}, donde

Si corresponde a la i-ésima oración de la colección de documentos y n es el número total

de oraciones en ésta.

Además, una oración de la colección de documentos es representada por el conjunto

Si={ti1,ti2,…,tik,…,tim}, donde tik es el k-ésimo término de la oración Si, y m es el número

total de términos distintos en la colección de documentos. Y la representación vectorial

de una oración de la colección de documentos es un vector con los pesos de los

términos, como se observa en la Ecuación (4-3).

},...,,...,,{ 21 imikiii wwwws (4-3)

Donde wik es el peso o ponderación del término tk en la oración Si y m es el número total

de términos de la colección de documentos. Este peso es calculado como la frecuencia

relativa del término en la colección de documentos [44] y se calcula de acuerdo a la

Ecuación (3-6) usada para un solo documento.

El objetivo de generar un resumen de múltiples documentos al igual que para un

documento es obtener un subconjunto de D con las oraciones que contengan la

información principal, en este caso, de la colección de documentos. Para ello, se utilizan

características cuyo propósito es evaluar el subconjunto de oraciones para determinar el

grado en que abarcan la información más relevante de la colección de documentos. Para

medir la similitud entre dos oraciones, al igual que para un documento, se hace de

acuerdo a la representación vectorial descrita en [44], y se mide como la similitud de

coseno de acuerdo a la Ecuación (3-7).

4.2.2 Representación de la solución

En el algoritmo memético propuesto al igual que para un documento, la codificación de

una solución o agente se realiza mediante un vector binario. Pero en este caso, el agente

candidato representa las n oraciones de la colección de documentos, así: {S1,S2,…,Sn}, el

agente candidato se compone de n memes, donde cada uno representa una oración de

la colección de documentos, tomando el valor de uno si la oración pertenece al resumen

representado por el agente, o de cero en caso contrario. En ese sentido similar a un

documento, el c-ésimo agente de la población actual (generación g) es representado

como se observa en la Ecuación (4-4), con la diferencia de que en este caso se trata de

oraciones de una colección de documentos.

)](),...,(),...,(),([)( ,,2,1, gxgxgxgxgX ncscccc (4-4)

Donde xc,s(g) {0,1} es un entero binario; y n es el número de oraciones la colección de

documentos; c=1,2,…,ps; ps es el tamaño de la población.

4.2.3 Función objetivo

La función objetivo se define como la combinación lineal de los factores de cobertura (Fc)

y redundancia (Fr) (ver Ecuación (4-5)). Además debe contemplar la restricción de

cantidad de palabras del resumen de la Ecuación (4-6). El factor de redundancia se resta

en la ecuación para evitar que el resumen generado contenga oraciones iguales o

similares. El coeficiente lambda (λ) da flexibilidad a la función objetivo permitiendo que se

le dé mayor o menor peso a cada uno de los factores. El coeficiente λ varía entre cero y

1 1coscos ),(

2)1()),(()(

ijji SSsim

nnDRsimxf (4-5)

iii Lxl

1 (4-6)

Donde, li es la longitud de la oración Si (medida en palabras), xi toma un valor de uno si la

oración hace parte del resumen y cero si no lo es, L es el número máximo de palabras

permitidas en el resumen generado.

4.2.4 Esquema de MA-MultiSumm

Inicialización de la población. Este paso al igual que el algoritmo MA-

SingleDocSum descrito en el capítulo 3 se realiza de forma aleatoria, usando las

Ecuaciones (3-12) y (3-11).

Evaluación y Optimización de la población inicial. Después de generar la

población inicial de forma aleatoria, se calcula el valor de aptitud de cada agente,

por medio de las ecuaciones (4-5) y (4-6). Luego un porcentaje (op) de la

población es optimizado por medio de búsqueda local codiciosa, que se explica

más adelante. Por último se calcula nuevamente el aptitud, y se ordena la

población resultante de mayor a menor basado en este nuevo valor de aptitud.

Selección. El paso generacional inicia con el operador de selección, y se repite

p/2 veces para mantener igual el tamaño de la población, debido a que cada

pareja de padres generan dos hijos. Los dos agentes padres se seleccionan de

forma aleatoria de la población actual validando que no se repitan como se

observa en la Ecuación (4-7).

),0((,);()( psURandjitXtX ji (4-7)

Donde, Xi(t) es el primer padre seleccionado aleatoriamente y Xj(t) es el segundo

padre, Rand(U(0,ps)) es un número aletorio entre 1 y ps, y ps es el tamaño de la

pobla-ción.

Prevención de incesto. Este mecanismo permite calcular la distancia de hamming

entre los dos agentes padres, para validar que el total de genes distintos entre

ellos sea menor a un umbral d (mínimo de genes distintos permitidos) y de esta

forma evitar el incesto (ver Ecuación (4-8)). Si no se cumple con este umbral se

seleccionan nuevos padres.

LdtXtXCOUNTdif ji %5.2));(),(( (4-8)

Donde, COUNTdif(Xi(t), Xj(t)) cuenta el número de genes distintos que existen entre

el primer padre Xi(t) y el segundo padre Xj(t).

Cruce HUX. Para generar los dos descendientes se utiliza la estrategia de cruce

HUX entre los dos padres seleccionados. De esta forma, los genes que se

encuentran iguales en ambos padres harán parte también de los hijos y la mitad

de los genes que no son iguales (diferentes) se intercambian. En la Figura 4-1, se

puede observar un ejemplo de este tipo de cruce. Además, para cada hijo se

valida el cumplimiento de la restricción de cantidad máxima de palabras permitida

en el resumen (controlando de esta forma el número de oraciones), si se supera

el máximo, en forma repetida se elimina una oración de forma aleatoria hasta que

se cumpla la restricción.

Figura 4-1 Cruce HUX

Para calcular el s-ésimo gen del primer descendiente Y1(t) se usa la Ecuación (4-9),

el segundo descendiente Y2(t) es calculado de la misma forma.

5.0))1,0(()()(),(

)()(),()(

,,,,1 URandandtxtxiftx

txtxiftxtY

sjsisj

sjsisis (4-9)

Donde xi,s(t) es el s-ésimo gen del primer padre Xi(t); xj,s(t) es el s-ésimo gen del

segundo padre Xj(t) y Rand(U(0,1)) es un número aleatorio distribuido uniformemente

entre cero y uno.

Optimización de descendientes. Se genera un número aleatorio uniforme entre

cero y uno, si este valor es menor a la probabilidad de optimización (op), el

descendiente generado por el cruce HUX es optimizado, mediante un operador de

búsqueda local codiciosa, como se muestra en la Ecuación (4-10).

...),(

))1,0(()),(()(

opUrandiftxGStZ

ik (4-10)

Donde GS() es el operador de búsqueda local codiciosa que mejora un agente.

Si el valor de la función objetivo del agente optimizado es mejor que el valor de

aptitud del agente sin optimizar, se reemplaza el agente actual por el agente

optimizado (ver Ecuación (4-11)).

))(())(()()(

tXFtZFiftZtZ

ikkk (4-11)

Donde F(Zk(t)) es el valor optimizado de la función objetivo y F(Xi(t)) es el valor de la

función objetivo del agente originalmente generado y sin optimizar.

Reemplazo. Si en la nueva generación no existen descendientes se decrementa

el valor de d, para permitir que los agentes seleccionados como padres sean más

parecidos y se puedan generar hijos. El reemplazo se realiza cuando ya se tiene

completa la población de agentes generados uniéndola con la población actual,

que ha sido previamente ordenada de acuerdo al valor de aptitud. Entonces, la

nueva población se conforma con los p mejores agentes de la unión de las dos

poblaciones, dando prioridad a los descendientes cuando estos tienen igual

aptitud que los padres.

Para seleccionar los agentes de la nueva población (t1), se utiliza una estrategia

elitista. Teniendo en cuenta que P(t)={X1(t),X2(t),…,Xi(t),…Xp(t)} es la población actual

ordenada descendentemente de acuerdo al valor de aptitud, y

P(t1)={Z1(t),Z2(t),…,Zk(t),…,Zp(t)} es la población de agentes generados también ordenada

por este valor. La nueva población será E(t1)={A1(t),A2(t),…,Ap(t)} donde E(t1) P(t) P(t1)

y sus elementos tienen los p mejores valores de aptitud de acuerdo a la Ecuación

(4-12).

))(())((),(

tXFtZFiftZ

ikk (4-12)

Donde F(Zk(t)) es el valor de la función objetivo del descendiente y F(Xi(t)) es el valor

del agente de la población actual.

Cataclismo. Después de generar una nueva descendencia, se evalúa si se debe

generar un cataclismo en la población, para esto, se verifica si el mínimo número

de genes distintos que evitan el incesto es menor o igual a cero (ver Ecuación

(4-13). Cuando ocurre el cataclismo, se conservan los dos agentes con el mayor

valor de aptitud de la generación actual y los agentes restantes se generan

totalmente aleatorios de acuerdo al proceso explicado en la generación de la

población inicial (ver Ecuaciones (3-12) y (3-11)).

modfalse

gendififtrueCataclysm (4-13)

Donde mingendif=2.5%L, y L es la longitud del agente.

Criterio de parada. La ejecución del MA termina cuando se cumple con la

condición de parada, la cual fue establecida como un número máximo de

evaluaciones de la función objetivo.

Búsqueda codiciosa. En cuanto a la búsqueda local, el MA utiliza búsqueda

codiciosa del primer mejor [128], teniendo en cuenta la probabilidad de

optimización (op) definida para la población. El agente se optimiza un número de

veces definido (Numaxop), adicionando y eliminando una oración del resumen,

teniendo en cuenta la cantidad máxima de palabras que puede contener el

resumen, controlando así la cantidad de oraciones del agente. Si el valor de

aptitud del nuevo agente mejora, el anterior agente se reemplaza, de lo contrario

se deja el agente anterior, luego se hace nuevamente un movimiento en el

vecindario, repitiendo los pasos anteriores (Ver Figura 4-2).

El vecindario se generó basado en un esquema de elitismo, en el cual, la oración que se

coloca en uno (se incluye en el resumen candidato), se selecciona de una lista ordenada

de acuerdo a la similitud de la oración con toda la colección de documentos (mayor

cobertura); y la oración que se coloca en cero (se elimina del resumen candidato), es la

que tiene menor similitud con toda la colección de documentos (menor cobertura). Esto

quiere decir, que el factor de cobertura es el criterio que se utiliza para incluir o eliminar

una oración del resumen candidato.

Figura 4-2 Procedimiento de búsqueda codiciosa

Lss: Lista de oraciones ordenadas por similitud con la colección de documentos; Numaxop: Número máximo de optimizaciones; AgenteOriginal: Agente original (agente a optimizar);

For i=1 … Numaxop do AgenteActual = Copy (AgenteOriginal); // Copia del agente a optimizar. Adicionar_oración (AgenteActual); // Se activa en el agente una oración con el valor // más alto de similitud de la lista Lss. Borrar_oración (AgenteActual); // Se desactiva en el agente una oración con el // valor más bajo de similitud de la lista Lss. Restricción_longitud(AgenteActual); // Restricción de la longitud del resumen es // ejecutada. Evaluación (AgenteActual); // Cálculo de la aptitud para el agente actual. If (Aptitud (AgenteActual) > Aptitud (AgenteOriginal)) Then AgenteOriginal = AgenteActual; // Reemplazo del Agente original si se // encuentra un valor de la función de aptitud mayor. End For

En la Figura 2-15, se mostró el esquema general del MA propuesto para generar

automáticamente resúmenes extractivos basado en CHC [124] y búsqueda codiciosa,

MA-MultiSumm. Las modificaciones más importantes con respecto al algoritmo original

CHC, son: (1) el valor inicial de d es más pequeño (do=0.025×L) que en el algoritmo

original de CHC (0.25×L), debido a que el agente es representado en este problema por

muchos ceros y pocos unos, haciendo que los agentes sean muy similares entre ellos;

(2) se aplica un algoritmo de búsqueda local a algunos agentes para encontrar el óptimo

local; y (3) en el cataclismo, se preservan los dos mejores individuos, los demás

individuos son creados aleatoriamente, y el umbral d toma el valor inicial do. En la Figura

4-3 se muestra el esquema general del algoritmo MA-MultiSumm.

Figura 4-3 Esquema del algoritmo MA-MultiSumm

L: longitud del agente; p: tamaño de la población; d: umbral de diferencia; op: probabilidad de optimización; dh: distancia de hamming; nofe: número de evaluaciones de la función objetivo; mnofe: número máximo de evaluaciones de la función objetivo;

t = 0;

d = do // Mínimo de genes diferentes (oraciones), el valor de do es 0.025L. Inicialización (P(t)); // Inicialización aleatoria de la población. Evaluación (P(t)); // Calcula la aptitud de cada agente en la población. Optimización (P(t)); // Solo un porcentaje de población es optimizada. While nofe < mnofe do For i= 1… p/2 do Selección (p1, p2, P(t)); // Selecciona los dos padres de forma aleatoria. If (dh (p1, p2) < d) Then Continue; // Mecanismo de prevención de incesto usando // distancia de hamming. Cruce_HUX (p1, p2); // Cruce HUX entre p1 and p2 para obtener dos hijos. For each Hijo do Evaluación (Hijo); // Calcula la aptitud para cada hijo. If (U(0,1) < op) Optimización (Hijo); // De acuerdo a una probabilidad op es optimizado // el hijo. P(t+1)=Add (Hijo); // Adiciona el hijo a la nueva población. End For each; End For; If (P(t+1) = empty) Then d = d – 1; // Permite padres más similares.

P(t+1) = P(t+1) P(t); // Mezcla los miembros de la población actual con los // hijos generados. Preserva_Mejores_Agentes P(t+1); // Cuando un padre y un descendiente tiene el mismo // valor de aptitud, el hijo es seleccionado. If (d = 0) Cataclismo(); // Los dos mejores individuos permanecen, los demás se // generan aleatoriamente. t = t +1; End while; Return (BestAgent); // El agente con mayor aptitud en la última población es retornado.

5 Resultados Experimentales

Este capítulo presenta los resultados obtenidos al evaluar la calidad de los resúmenes

generados por medio de medidas ROUGE, sobre conjuntos de datos de DUC, tanto para

el algoritmo de un solo documentos como para el de múltiple documentos.

5.1 Algoritmo MA-SingleDocSum

En esta sección, se presentan los resultados obtenidos con el algoritmo MA-

SingleDocSum y la comparación de éste con otros métodos del estado del arte.

5.1.1 Conjunto de datos

Para la evaluación de MA-SingleDocSum, se utilizaron conjuntos de datos de la

Conferencia de Entendimiento del Documento (Document Understanding Conference,

DUC) de los años 2001 y 2002, producto de investigaciones del Instituto Nacional de

Estándares y Tecnología (NIST) en el área de generación automática de resúmenes.

Estos archivos están constituidos por noticias periodísticas en inglés, tomadas de

periódicos y agencias de noticias como Financial Times, Associated Press o Wall Street

Journal. La colección de datos de DUC2001 consiste de 30 conjuntos de

aproximadamente 10 documentos de noticias periodísticas en inglés, completando un

total de 309 documentos, los cuales abarcan temáticas como acontecimientos de

desastres naturales, información biográfica sobre un individuo, entre otros. Cada conjunto

está acompañado por resúmenes de referencia para uno y múltiples documentos. Los

resúmenes de referencia para un sólo documento, están conformados por 100 palabras

aproximadamente. Por su parte, la colección de DUC2002 consta de 567 documentos

divididos en 59 conjuntos. Al igual que DUC2001, cada conjunto cuenta con resúmenes

de referencia para uno y múltiples documentos, con una longitud cercana a 100 palabras,

ver Tabla 5-1.

Tabla 5-1 Descripción de los conjuntos de datos usados

Ítem DUC 2002 DUC 2001

Número de tópicos 59 30

Número de documentos 567 309

Fuente de datos TREC1 TREC

Longitud del resumen (en palabras) 100 100

5.1.2 Pre-procesamiento de datos

Antes de proceder a la generación automática de un resumen se realiza el pre-

procesamiento del documento que incluye técnicas lingüísticas como segmentación de

oraciones, eliminación de palabras vacías, eliminación de mayúsculas y signos

ortográficos, stemming e indexación [44].

5.1.2.1 Segmentación

El proceso de segmentación consiste en dividir el texto en unidades significativas, en

este caso, oraciones [44], para ello se hace uso de una herramienta de segmentación de

código abierto denominada “splitta” (disponible en http://code.google.com/p/splitta) [129].

5.1.2.2 Eliminación de palabras vacías

Las palabras vacías son aquellas palabras que, por su bajo contenido semántico, no

contribuyen a la discriminación de las oraciones más importantes de un texto [44], como

por ejemplo, preposiciones, artículos, pronombres, etc. Dichas palabras son muy

frecuentes dentro de un texto y son consideradas como términos ruidosos o diccionario

negativo, por lo que su eliminación puede ser realmente útil antes de la ejecución de una

tarea de procesamiento de lenguaje natural. Tal eliminación suele realizarse mediante un

filtrado de palabras con la ayuda de una lista de palabras vacías. En este trabajo, se

utilizó la lista construida para el sistema de recuperación de información SMART

(disponible en ftp://ftp.cs.cornell.edu/pub/smart/english.stop).

5.1.2.3 Stemming

El stemming es un procedimiento computacional que reduce las palabras con la misma

raíz, o steam, a una forma común, eliminando los sufijos variables [44]. Entre los

algoritmos de stemming más destacados se encuentra el de Porter y el de Lovins, ambos

1 http://trec.nist.gov/overview.html

Resultados experimentales 93

realizan una eliminación de sufijos y posteriormente recodifican la cadena de texto

tratada. El algoritmo de Porter fue utilizado para esta tarea.

5.1.2.4 Lucene

Lucene es una librería de código abierto bajo la licencia Apache Software Licence, cuyo

objetivo es facilitar la indexación y búsqueda en tareas de recuperación de información.

Fue implementada originalmente en Java, pero en la actualidad ha sido adaptada a otros

lenguajes de programación como C#, C++, Delphi, PHP, Phyton y Ruby. Una de las

características principales de esta herramienta, es la abstracción de los documentos

como un conjunto de campos de texto, muy útil para el acoplamiento con sistemas

basados en el modelo de espacio vectorial para la representación de los documentos. En

esta propuesta, la librería de Lucene ha sido utilizada para la indexación de los términos,

a la vez que contribuye a las tareas de eliminación de mayúsculas y signos ortográficos,

eliminación de palabras vacías y stemming.

5.1.3 Métricas de evaluación

La evaluación de la calidad de los resúmenes generados por el algoritmo MA-

SingleDocSum propuesto en esta investigación, fue realizada por medio de las métricas

proporcionadas por la herramienta de evaluación ROUGE [115] en su versión 1.5.5, la

cual ha sido manejada ampliamente por DUC en la evaluación de resúmenes

automáticos. ROUGE es una herramienta que mide la calidad del resumen con el conteo

de unidades solapadas entre el resumen de referencia y el resumen candidato,

basándose en el recuerdo de n-gramas entre un resumen generado y un conjunto de

resúmenes de referencia. La Ecuación (5-1) muestra el cálculo de esta medida.

Summs SgramN

Summs SgramNmatch

gramNCount

NROUGE)(

Donde N representa la longitud del n-grama (N - gram) y Countmatch(N - gram) es el

número máximo de n-gramas coincidentes entre un resumen candidato y un conjunto de

resúmenes de referencia. El denominador de esta fórmula corresponde a la suma de la

cantidad de n-gramas en el resumen de referencia. En estos experimentos N toma el

valor de 1 y 2, esto es, métrica de unigrama ROUGE-1 y métrica bigrama ROUGE-2.

5.1.4 Afinamiento de parámetros

El afinamiento de parámetros se realiza teniendo en cuenta un algoritmo Meta evolutivo

[130] usando una versión del algoritmo de la búsqueda armónica [131]. La configuración

de los parámetros que se obtuvo para MA-SingleDocSum es la siguiente; Tamaño de la

población ps=30, probabilidad de mutación Mr=0.4, probabilidad de optimización Opr=1,

cantidad de agentes elegidos por elitismo e=1, cantidad de agentes elegidos por elitismo

en reiniciación er=1, cantidad de agentes competidores en reemplazo gr=4, parámetro de

regularización GLS =0.5.

El número de evaluaciones de la función objetivo se establece en 1600. Los resultados

presentados en esta sección fueron obtenidos evaluando resúmenes generados con 100

palabras, y promediando 30 ejecuciones del algoritmo, el cual fue ejecutado sobre un PC

Pentium 4 CPU 3.00GHz, 2.99GHz con 1GB de RAM en Windows XP.

En cuanto al proceso de afinación de pesos de la función objetivo de MA-SingleDocSum,

éste se divide en dos etapas. En la primera se diseña un algoritmo genético (GA), con el

fin de obtener varios rangos para cada peso, que son evaluados en la función objetivo

con MA-SingleDocSum, para encontrar la mejor combinación de pesos. En la segunda

etapa, se parte de este conjunto de pesos, para generar nuevos rangos por cada peso y

obtener el mejor desempeño de la función objetivo. Los pesos encontrados para la

función objetivo son: =0.35, =0.35, =0.29, =0.005, =0.005; que corresponden a las

características de Posición (P), Relación con el título (RT), Longitud (L), Cohesión (CoH)

y Cobertura (Cob), respectivamente.

5.1.5 Comparación con diferentes métodos

Los resultados obtenidos con MA-SingleDocSum se compararon con otros métodos del

estado del arte en generación de resúmenes automáticos de un solo documento.

UnifiedRank [65]: En este método enfocado en grafos, la generación automática

de resúmenes de un solo documento y de múltiples documentos se realiza al

mismo tiempo. En el grafo se incorporan dos medidas relacionadas con estas dos

tareas: la importancia local que indica la relevancia de una oración dentro de un

documento y la importancia global que indica la relevancia de una oración pero a

nivel de la colección de documentos. Cada oración obtiene un puntaje y es

clasificada de acuerdo a estas dos medidas.

DE [29]: Este método utiliza la evolución diferencial para optimizar la asignación

de oraciones a grupos, representando un individuo por medio de permutaciones

que indican los grupos donde quedara ubicada cada oración correspondiente a un

gen. Después del proceso evolutivo, para seleccionar las oraciones que harán

parte del resumen, evalúan la centralidad de cada oración con respecto al grupo

que pertenece y extraen las oraciones más importantes de cada grupo.

FEOM [9]: En este trabajo proponen un modelo de optimización evolutiva difusa,

que realiza el agrupamiento de las oraciones y las más relevantes de cada grupo

son seleccionadas obteniendo el resumen. FEOM utiliza algoritmos genéticos

para la generación de vectores solución de los grupos, y aplica tres parámetros

de control para regular la probabilidad de cruce y mutación de cada solución.

NetSum [56]: Este enfoque usa el algoritmo de aprendizaje RankNet, que entrena

un clasificador de oraciones basado en pares de oraciones, para puntuar cada

oración del documento e identificar las oraciones más importantes. Este método

realiza la generación automática basado en redes neuronales.

CRF [57]: Este trabajo aborda la tarea de generación de resúmenes como un

problema de etiquetamiento de secuencias, usando campos aleatorios

condicionales (Conditional Random Fields, CRF). De esta forma, cada documento

es una secuencia de oraciones y el procedimiento de generación etiqueta las

oraciones usando 1 y 0. Este trabajo.

QCS [75]: En este artículo proponen un método orientado a consulta (Query,

Cluster, Summarize, QCS), en el cual, dada una consulta, separan los

documentos recuperados en grupos de tópicos y se crea un resumen único para

cada clúster. Análisis Semántico Latente (Latent Semantic Analysis, LSA) es

usado para la recuperación, k-means para la agrupación de los documentos y un

modelo oculto de Markov para calcular la probabilidad de que cada oración sea

una buena oración para el resumen. Las oraciones con probabilidades más altas

son escogidas para ser parte del resumen.

SVM [69]: Este trabajo propone dos métodos para lograr generación automática

de textos: el enfoque basado en corpus modificado y el mapa de relaciones de

texto basado en LSA. El primero está basado en un puntaje de una función

combinada con el análisis de características salientes y un algoritmo genético

para descubrir las combinaciones adecuadas de los pesos de las características.

El segundo usa LSA y (Text Relationship Map, TRM) para derivar las estructuras

semánticas más salientes de un documento.

Manifold Ranking [132]: Este proceso de clasificación tiene en cuenta dos

aspectos para el puntaje de las oraciones: Riqueza de la información, la relación

entre cada oración y la colección de oraciones, y un tópico; Novedad de la

información, de la oración con respecto a las oraciones del resumen. Luego un

algoritmo codicioso es usado para imponer una penalidad de diversidad sobre

cada oración. Las oraciones con puntaje más alto son escogidas para el resumen.

5.1.6 Resultados y discusión

En la Tabla 5-2 se presentan los resultados obtenidos en las medidas de ROUGE para el

conjunto de datos de DUC2001, por MA-SingleDocSum y los otros métodos del estado

del arte. Los resultados presentados aquí son el promedio de 30 ejecuciones. En esta

tabla, la mejor solución está en negrita y el número entre paréntesis en la tabla muestra

el orden obtenido por cada método. En la Tabla 5-3 se presenta la información para

DUC2002.

Tabla 5-2 Puntajes ROUGE con el conjunto de datos DUC2001

Método ROUGE-1 ROUGE-2

MA-SingleDocSum 0.44862 (6) 0.20142 (1)

DE 0.47856 (1) 0.18528 (3)

FEOM 0.47728 (2) 0.18549 (2)

UnifiedRank 0.45377 (5) 0.17646 (6)

NetSum 0.46427 (3) 0.17697 (5)

QSC 0.44852 (7) 0.18523 (4)

CRF 0.45512 (4) 0.17327 (7)

SVM 0.44628 (8) 0.17018 (8)

Manifold Ranking 0.43359 (9) 0.16635 (9)

De acuerdo a los datos presentados en la Tabla 5-2 y Tabla 5-3, se puede observar que

MA-SingleDocSum en la medida de ROUGE-2 supera todos los métodos, para ambos

conjuntos de datos (DUC2001 y DUC2002). En la medida ROUGE-1 para DUC2002, MA-

SingleDocSum es segundo, superado solo por UnifiedRank; y en el caso de DUC2001 es

superado por cinco métodos.

Tabla 5-3 Puntajes ROUGE con el conjunto de datos DUC2002

Método ROUGE-1 ROUGE-2

MA-SingleDocSum 0.48280 (2) 0.22840 (1)

DE 0.46694 (3) 0,12368 (5)

FEOM 0.46575 (4) 0,12490 (4)

UnifiedRank 0.48487 (1) 0,21462 (2)

NetSum 0.44963 (5) 0.11167 (6)

QSC 0.44865 (6) 0.18766 (3)

CRF 0.44006 (7) 0.10924 (7)

SVM 0.43235 (9) 0.10867 (8)

Manifold Ranking 0.42325 (8) 0.10677 (9)

En la Tabla 5-4 se muestra la mejora del MA-SingleDocSum con respecto a los otros

métodos, en la medida ROUGE-2 sobre los datos DUC2001 y DUC2002, calculada por

medio de la Ecuación (5-2). Como se observa con DUC2001, comparado con el método

FEOM muestra que MA-SingleDocSum mejora el rendimiento en 8.59% y con respecto a

DE la mejora es de 8.71%; sobre los datos DUC2002 comparado con UnifiedRank, MA-

SingleDocSum mejora el rendimiento en un 6.42% y con DE en un 84.67%.

OtroMetodo

OtroMetodooNuevoMetod (5-2)

Tabla 5-4 Comparación de MA-SingleDocSum con otros métodos (ROUGE-2)

Método Mejora obtenida por MA-SingleDocSum (%)

DUC2001 DUC2002

DE 8.71 84.67

FEOM 8.59 82.87

UnifiedRank 14.14 6.42

NetSum 13.82 104.53

QSC 8.74 21.71

CRF 16.25 109.08

SVM 18.36 110.18

Manifold Ranking 21.08 113.92

La Tabla 5-5 muestra la mejora obtenida por el método DE en la medida ROUGE-1 sobre

los datos de DUC2001, con respecto a los otros métodos. Como se observa, en

comparación con FEOM, DE mejora el rendimiento tan solo en un 0.27% y con respecto

a MA-SingleDocSum la mejora es de 6.67%.

Tabla 5-5 Comparación de DE con otros métodos con DUC2001 (ROUGE-1)

Método Mejora obtenida por el método DE (%)

DUC2001

MA-SingleDocSum 6.67

FEOM 0.27

UnifiedRank 5.46

NetSum 3.08

QSC 6.70

CRF 5.15

SVM 7.23

Manifold Ranking 10.37

En la Tabla 5-6 se muestra la mejora obtenida por el método UnifiedRank en la medida

ROUGE-1 sobre los datos de DUC2002, con respecto a los otros métodos. Como se

observa UnifiedRank mejora el rendimiento de MA-SingleDocSum en un 0.41% y con

respecto a DE lo mejora en un 3.82%.

Tabla 5-6 Comparación de DE con otros métodos con DUC2001 (ROUGE-1)

Método Mejora obtenida por el método UnifiedRank (%)

DUC2002

MA-SingleDocSum 0.41

DE 3.82

FEOM 4.09

NetSum 7.82

CRF 10.16

QSC 8.05

SVM 12.13

Manifold Ranking 14.54

Teniendo en cuenta que ROUGE-2 evalúa bi-gramas coincidentes entre el resumen

generado y los resúmenes de referencia, y ROUGE-1 evalúa uni-grama, MA-

SingleDocSum en el resumen presenta más parejas de palabras juntas que se

encuentran en los modelos de referencia que los otros métodos del estado del arte con

los que se realizó la comparación.

Sin embargo, como los resultados obtenidos no permiten identificar que método obtiene

los mejores resultados en ambos conjuntos de datos, se plantea un ordenamiento

unificado de todos los métodos, que tiene en cuenta el puesto que ocupa el método en

cada medida. Para obtener el orden de los métodos, la Tabla 5-2 y la Tabla 5-3 se

transforman en la Tabla 5-7. El orden final en esta tabla (la última columna) fue calculado

de acuerdo a la Ecuación (5-3) [133].

)19()(

rRrmethodRan (5-3)

Donde Rr denota el número de veces que el método aparece en el puesto r-ésimo. El

número nueve es la cantidad de métodos con los cuales se hizo la comparación.

Tabla 5-7 Ordenamiento unificado de los métodos

Método Rr= Orden

Final 1 2 3 4 5 6 7 8 9

MA-SingleDocSum 2 1 0 0 0 1 0 0 0 3.33

DE 1 0 2 0 1 0 0 0 0 3.11

FEOM 0 2 0 2 0 0 0 0 0 3.11

UnifiedRank 1 1 0 0 1 1 0 0 0 2.89

NetSum 0 0 1 0 2 1 0 0 0 2.33

QSC 0 0 1 1 0 1 1 0 0 2.22

CRF 0 0 0 1 0 0 3 0 0 1.67

SVM 0 0 0 0 0 0 0 3 1 0.78

Manifold Ranking 0 0 0 0 0 0 0 1 3 0.56

Teniendo en cuenta los resultados de la Tabla 5-7, se puede observar lo siguiente:

El método MA-SingleDocSum ocupa el primer lugar en el ordenamiento unificado,

superando métodos como DE y UnifiedRank, a pesar de que en la medida de

ROUGE-1, estos métodos obtenían mejores valores.

El puntaje de los métodos de DE y FEOM es el mismo, estos métodos al igual que

MA-SingleDocSum también abordan la generación automática de resúmenes como

un problema de optimización, pero DE y FEOM utilizan el concepto de agrupamiento

en la representación de la solución.

El método UnifiedRank basado en grafos, supera métodos supervisados como

NetSum y CRF, probabilísticos como QCS, de reducción algebraica como SVM y

Manifold Ranking. Sin embargo, es superado por los métodos basados en modelos

evolutivos.

Los métodos supervisados NetSum basado en redes neuronales y CRF basado en

etiquetamiento de secuencias, al igual que QSC basado en modelos probabilístico,

superaron los de reducción algebraica como SVM y Manifold Ranking.

Los resultados experimentales indican que la optimización que combina la búsqueda

global basada en población, con una búsqueda local para cada agente, acoplando de

esta forma la evolución genética con el aprendizaje de los individuos, como ocurre con el

método MA-SingleDocSum, es una línea de investigación prometedora. En este método

la representación de las soluciones es binaria, indicando la presencia o ausencia de la

oración en el resumen; mientras que en el caso de los métodos DE y FEOM la

representación es entera, indicando el grupo al cual pertenece la oración. Al final estos

métodos deben realizar otro proceso para la selección de las oraciones que conformarán

el resumen, esto hace que los métodos DE y FEOM realicen un proceso adicional para

obtener el resumen que no es necesario en el caso de MA-SingleDocSum.

Es importante resaltar que el método de ordenamiento unificado no tiene en cuenta el

porcentaje de mejora. En el caso de ROUGE-2, MA-SingleDocSum con DUC2002,

mejoró los métodos DE y FEOM con porcentajes considerablemente altos de 84.67% y

82.87%, respectivamente; y con DUC2001 a UnifiedRank, ED y FEOM en un 14.14%,

8.71% y 8.59%, respectivamente. De otro lado, MA-SingleDocSum es superado por

porcentajes más pequeños en la medida ROUGE-1, de 6.67%, 0.41% para DUC2001 y

DUC2002 respectivamente. Por lo anterior, si los porcentajes de mejora del MA-

SingleDocSum sobre los otros métodos se tuvieran en cuenta, la diferencia en el

ordenamiento unificado sería más amplia.

5.2 Algoritmo MA-MultiSumm

En esta sección, se presentan los resultados obtenidos del método MA-MultiSumm y la

comparación de éste con otros métodos del estado del arte.

5.2.1 Conjunto de datos

Para la evaluación del algoritmo MA-MultiSumm se utilizaron los conjuntos de datos de la

Document Understanding Conference (DUC) de los años 2005 y 2006. La colección de

DUC2005 está conformada por cincuenta tópicos, cada uno contiene entre 25 y 50

documentos; y DUC2006 comprende cincuenta tópicos, cada uno con 25 documentos.

Además el resumen generado debe ser menor a 250 palabras, y se cuenta con varios

resúmenes de referencia para cada tópico. Para cada tópico el algoritmo se ejecutó

treinta veces (30) para obtener el promedio de cada medida para cada conjunto de datos.

La Tabla 5-8 presenta una breve descripción del conjunto de datos.

Tabla 5-8 Descripción de los conjuntos de datos usados

Ítem DUC 2005 DUC 2006

Número de tópicos 50 50

Número de documentos 1593 1250

Fuente de datos TREC2 AQUAINT

Longitud del resumen (en palabras) 250 250

5.2.2 Pre-procesamiento de datos

El pre-procesamiento de datos para múltiples documentos se realiza de acuerdo a lo

explicado para un documento en la sección 5.1.2.

5.2.3 Métricas de evaluación

La evaluación de la calidad de los resúmenes generados por el algoritmo MA-MultiSumm

propuesto en esta investigación, también fue realizada por medio de las métricas

proporcionadas por la herramienta de evaluación ROUGE [115] en su versión 1.5.5. Pero

en este caso, además de las medidas ROUGE-1 y ROUGE-2, se utiliza la medida

ROUGE-SU. Esta medida utiliza ROUGE-S (Lin 2004), la cual está basada en

estadísticas de co-ocurrencias de bigramas-skip. Un bigrama-skip se refiere a un par de

palabras, en el orden en que están en la oración, permitiendo saltos arbitrarios (palabras

intermedias) entre ellas. Este método mide la superposición de bigramas-skip entre un

2 http://trec.nist.gov/overview.html

resumen candidato y un conjunto de resúmenes de referencia. Dadas una oración de

referencia X, de longitud m, y una oración candidata Y, de longitud n, el cálculo de las

medidas precisión, recuerdo y F basada en bigramas-skip corresponde al cálculo de

ROUGE-S como se aprecia en las Ecuaciones (5-4) y (5-5).

),(222

YXSKIPR

YXSKIPP skipskip (5-4)

skipskip

skipskipskip

Donde SKIP2(X,Y) es la cantidad de bigramas-skip que coinciden entre X e Y, se

encarga de controlar la importancia relativa de Pskip2 y Rskip2, y C es la función de

combinación que calcula la cantidad de bigramas-skip presentes en una oración.

ROUGE-SU adiciona el manejo de unigramas como conteo de unidades y un marcador al

inicio de las oraciones candidata y de referencia. En esta investigación se utiliza la

medida ROUGE-SU4.

5.2.4 Afinamiento de parámetros

El afinamiento de parámetros para múltiples documentos se realiza también teniendo en

cuenta un algoritmo Meta evolutivo [130] y usando una versión del algoritmo de la

búsqueda armónica [131]. La configuración de parámetros obtenida para el algoritmo

MA-MultiSumm es la siguiente: tamaño de la población ps=70 (número de agentes que

contiene la población), probabilidad de optimización op=0.25 (porcentaje de agentes de

la población que se optimiza), máxima longitud del resumen slm=275 (máximo de

palabras del resumen permitido durante el proceso evolutivo) y número máximo de

optimizaciones maxnumop=20 (número máximo que un agente es optimizado). Además,

un parámetro manejado en el pre-procesamiento llamado umbral de oraciones, el cual

asegura que cada oración del resumen tenga un mínimo de similitud a la colección de

documentos.

El número de evaluaciones de la función objetivo fue establecido en 15.000. Los

resultados presentados en esta sección fueron obtenidos evaluando resúmenes

generados de 250 palabras, y promediando treinta ejecuciones del algoritmo, el cual fue

ejecutado sobre un PC Intel Core I3 CPU 2.99GHz con 3GB de RAM en Windows 7.

El proceso de afinación de pesos de la función objetivo de MA-MultiSumm, al igual que

para un documento, se divide en dos etapas (Referirse a la sección 5.1.4). Los pesos

encontrados para la función objetivo son: lambda =0.84 (peso ponderado que se asigna

al factor de cobertura de la función objetivo) y 1- (peso ponderado para el factor de

redundancia).

5.2.5 Comparación con diferentes métodos

DESAMC+DocSum [25]: Este trabajo propone un algoritmo de evolución diferencial

basado en parámetros de mutación y de cruce adaptativos, donde el modelo es

representado como un problema modificado de las p-medianas. Este enfoque

expresa la relación de oración con oración, resumen-a-documento y resumen-a-sub-

tópicos.

PLSA [99]: Este sistema propone un método basado en el análisis semántico latente

probabilístico, el cual permite representar las oraciones y las consultas como

distribuciones de probabilidad sobre los tópicos latentes. Este método combina

linealmente los puntajes de las características individuales en una puntuación global

de la oración para crear una clasificación, la cual es usada para seleccionar las

oraciones del resumen.

LFIPP [24]: El modelo es representado como un problema de optimización discreta.

En este artículo se propone un algoritmo de evolución diferencial adaptativo, con una

nueva estrategia de generación de vectores y un parámetro de tasa de cruce que es

adaptado gradualmente de acuerdo al proceso de búsqueda (la generación actual y

el máximo número de evaluaciones de la función objetivo).

MCMR [21]: MCMR (Máxima Cobertura y Mínima redundancia) es un enfoque

basado en optimización, que modela el resumen de textos como un problema de

programación lineal entera. Los algoritmos aplicados para resolver este problema son

Ramificación-y-poda, y optimización por enjambre de partículas binario. Este modelo

pretende optimizar la relevancia y la redundancia de forma simultánea.

HybHSum [106]: Este método plantea un modelo híbrido para la generación de

resúmenes de múltiples documentos como un modelo de predicción de dos pasos: un

modelo generativo para descubrir la jerarquía de tópicos y un modelo de regresión

para la inferencia. El método calcula los puntajes para las oraciones en los grupos de

documentos basado en sus características latentes mediante un modelo de tópicos

jerárquico. Luego, utilizando estas puntuaciones, un modelo de regresión es

entrenado con las características léxicas y estructurales de las oraciones, y las

puntuaciones de las oraciones son utilizadas para formar un resumen.

LEX [112]: Este enfoque realiza una ponderación de los términos de los documentos

para identificar los principales. Después hace agrupamiento de los términos usando

tres medidas (relaciones semánticas, similitudes e información mutua). Por último,

realiza optimización con dos enfoques: lineal, problema de un objetivo con pesos; y

lexicográfico, optimiza múltiples objetivos (la cobertura de la información, la

importancia, la redundancia y la coherencia del texto) en orden de prioridad.

SVR [79]: Este artículo presenta la aplicación de modelos de regresión en la

generación de resúmenes para múltiples documentos orientada a consulta. Este

trabajo usa la regresión de vectores soporte (SVR) para estimar la importancia de

una oración en un conjunto de documentos, que será resumido a través de un

conjunto de características predefinidas.

iRANK [107]: Este artículo propone un marco de trabajo de ordenamiento no

supervisado llamado ordenamiento interactivo (iRANK). Este diseña dos estrategias

de refinamiento de ordenamiento que permiten usar la retroalimentación para

soportar el aprendizaje mutuo entre los dos algoritmos de ordenamiento base con el

fin de mejorar los resultados finales del ordenamiento global. Este proceso de

refinamiento continúa hasta que los dos algoritmos de ordenamiento base no pueden

aprender del otro.

HierSum [102]: Este método utiliza un modelo jerárquico estilo LDA para representar

la especificidad del contenido como una jerarquía de distribuciones de vocabulario de

tópicos. Hiersum divide la distribución del contenido en múltiples sub-tópicos. Así

como se generan distribuciones de contenido específico, se genera una distribución

de contenido general para una colección de documentos. Las palabras de contenido

en cada oración pueden ser generadas ya sea por el tópico de contenido general o

los sub-tópicos de contenido para esa oración, y las palabras desde la distribución de

contenido general son consideradas cuando se construye el resumen.

Centroid [95]: Este artículo propone un generador de resúmenes llamado MEAD, que

usa los centroides de grupo producidos por un sistema de detección y seguimiento de

tópicos. Este método extrae las oraciones más importantes de un conjunto de

oraciones basado en la combinación lineal de los puntajes de tres características:

centroide, posición y solapamiento con la primera oración. A este valor se le resta

una penalidad por redundancia. Cada documento de cada grupo se califica y se

ordena la oración de cada documento de acuerdo al puntaje.

SNMF +SLSS [94]: Este trabajo se basa en el análisis semántico a nivel de la oración

y la factorización de matriz no negativa simétrica. Primero se calcula las similitudes

oración-oración utilizando el análisis semántico y la matriz de similitudes. Luego la

factorización de la matriz simétrica es usada para agrupar oraciones dentro de

grupos. Por último, las oraciones más informativas desde cada grupo son

seleccionadas para formar el resumen.

TMR [101] : El método está compuesto por dos sub-procesos. El primer proceso

calcula la distribución de tópicos de los documentos y la consulta. El segundo

proceso ajusta la distribución de tópicos de manera que las distribuciones de los

tópicos relacionados con la consulta se fortalezcan.

MMR [110]: El método MMR selecciona una oración de forma iterativa con la mayor

similitud con la consulta y la similitud más baja con las oraciones ya seleccionadas,

con el fin de promover la novedad en el resumen.

5.2.6 Resultados y discusión

Comparación con DUC2005

La Tabla 5-9 presenta los resultados obtenidos en las medidas ROUGE1, ROUGE-2 y

ROUGE-SU4, para MA-MultiSumm y otros métodos del estado del arte para el conjunto

de datos DUC2005. Los resultados presentados aquí son el promedio de 30 ejecuciones.

Como se muestra en esta tabla, el algoritmo propuesto (MA-MultiSumm) mejora los otros

métodos en todas las medidas ROUGE.

La Tabla 5-10 muestra la mejora producida por MA-MultiSumm con respecto a los otros

métodos, en las medidas ROUGE sobre el conjunto de datos DUC2005, calculado

también por medio de la Ecuación (5-2). Comparando con DESAMC+DocSum (segundo

puesto), en esta tabla se muestra que MA-MultiSumm mejora el rendimiento en 1.63%

para ROUGE-1, 5.72% para ROUGE-2 y 1.13% para ROUGE-SU4.

Tabla 5-9 Puntajes ROUGE de los métodos con DUC2005

Método ROUGE-1 ROUGE-2 ROUGE-SU4

DESAMC+DocSum 0.3937 (2) 0.0822 (2) 0.1418 (2)

MA-MultiSumm 0.4001 (1) 0.0868 (1) 0.1434 (1)

PLSA 0.3913 (3) 0.0811 (3) 0.1389 (5)

LFIPP 0.3905 (4) 0.0804 (4) 0.1403 (3)

MCMR 0.3891 (5) 0.0790 (6) 0.1392 (4)

HybHSum 0.3812 (8) 0.0749 (8) 0.1354 (7)

LEX 0.3760 (10) 0.0735 (10) 0.1316 (10)

SVR 0.3849 (7) 0.0757 (7) 0.1335 (8)

iRANK 0.3880 (6) 0.0802 (5) 0.1373 (6)

HierSum 0.3753 (11) 0.0745 (9) 0.1324 (9)

Centroid 0.3535 (12) 0.0638 (12) 0.1198 (12)

SNMF +SLSS 0.3501 (13) 0.0604 (13) 0.1172 (13)

TMR 0.3775 (9) 0.0715 (11) 0.1304 (11)

MMR 0.3479 (14) 0.0601 (14) 0.1134 (14)

Tabla 5-10 Comparación de MA-MultiSumm con otros métodos con DUC2005

Mejora obtenida por MA-MultiSumm (%)

DESAMC+DocSum 1.63 5.72 1.13

PLSA 2.25 7.15 3.24

LFIPP 2.46 8.08 2.21

MCMR 2.83 10.00 3.02

HybHSum 4.96 16.02 5.91

LEX 6.41 18.23 8.97

SVR 3.95 14.80 7.42

iRANK 3.12 8.35 4.44

HierSum 6.61 16.64 8.31

Centroid 13.18 36.21 19.70

SNMF +SLSS 14.28 43.87 22.35

TMR 5.99 21.54 9.97

MMR 15.00 44.59 26.46

Comparación con DUC2006

Con el conjunto de datos de DUC2006 (Tabla 5-11), los resultados de la evaluación

muestran que el método DESAMC+DocSum es el único que supera al algoritmo

propuesto MA-MultiSumm en la medida de ROUGE-2. En la medida ROUGE-1, MA-

MultiSumm es superado por DESAMC+DocSum, PLSA, HybHSum y LFIPP. En el caso

de ROUGE-SU, es superado por los métodos DESAMC+DocSum, PLSA y LFIPP.

Tabla 5-11 Puntajes ROUGE de los métodos con DUC2006

DESAMC+DocSum 0.4345 (1) 0.0989 (1) 0.1569 (1)

MA-MultiSumm 0.4195 (5) 0.0986 (2) 0.1526 (4)

PLSA 0.4328 (2) 0.0970 (3) 0.1557 (2)

LFIPP 0.4209 (4) 0.0934 (4) 0.1534 (3)

MCMR 0.4184 (6) 0.0928 (5) 0.1512 (5)

HybHSum 0.4300 (3) 0.0910 (10) 0.1510 (6)

LEX 0.4030 (9) 0.0913 (8) 0.1449 (10)

SVR 0.4018 (10) 0.0926 (6) 0.1485 (8)

iRANK 0.4032 (8) 0.0912 (9) 0.1450 (9)

HierSum 0.4010 (11) 0.0860 (11) 0.1430 (11)

Centroid 0.3807 (13) 0.0785 (13) 0.1330 (13)

SNMF +SLSS 0.3955 (12) 0.0855 (12) 0.1429 (12)

TMR 0.4063 (7) 0.0913 (7) 0.1504 (7)

MMR 0.3716 (14) 0.0757 (14) 0.1308 (14)

En la Tabla 5-12 se muestra el mejoramiento de DESAMC+DocSum con respecto a los otros métodos, en cada una de las medidas sobre el conjunto de datos de DUC2006. Como se observa, para ROUGE-1 DESAMC+DocSum supera en 3.67% a MA-MultiSumm. En el caso de ROUGE-2, la diferencia entre estos dos métodos es solo de 0.30%, y para ROUGE-SU4 lo supera en 2.82%.

Tabla 5-12 Comparación de MA-MultiSumm con otros métodos con DUC2006

Mejora obtenida por DESAMC+DocSum (%)

MA-MultiSumm 3.67 0.30 2.82

PLSA 0.39 1.96 0.77

LFIPP 3.23 5.89 2.28

MCMR 3.85 6.57 3.77

HybHSum 1.05 8.68 3.91

LEX 7.82 8.32 8.28

SVR 8.14 6.80 5.66

iRANK 7.76 8.44 8.21

HierSum 8.35 15.00 9.72

Centroid 14.13 25.99 17.97

SNMF+SLSS 9.86 15.67 9.80

TRM 6.94 8.32 4.32

MMR 16.93 30.65 19.95

Debido a que los resultados obtenidos no permiten identificar cual método obtiene los

mejores resultados en ambos conjuntos de datos, se plantea nuevamente un método de

ordenamiento unificado con todos los métodos, teniendo en cuenta la Ecuación (5-3),

donde el nueve se reemplaza por catorce, porque se refiere a los métodos con los que se

está realizando la comparación. Para obtener este ordenamiento los resultados de la

Tabla 5-9 y la Tabla 5-11 se transforman en la Tabla 5-13.

Tabla 5-13 Ordenamiento unificado de los métodos

Rr= Orden

Final Métodos 1 2 3 4 5 6 7 8 9 10 11 12 13 14

DESAMC+DocSum 3 3 0 0 0 0 0 0 0 0 0 0 0 0 5.8

MA-MultiSumm 3 1 0 1 1 0 0 0 0 0 0 0 0 0 5.4

PLSA 0 2 3 0 1 0 0 0 0 0 0 0 0 0 5.1

LFIPP 0 0 2 4 0 0 0 0 0 0 0 0 0 0 4.9

MCMR 0 0 0 1 3 2 0 0 0 0 0 0 0 0 2.9

HybHSum 0 0 1 0 0 1 1 2 0 1 0 0 0 0 2.6

LEX 0 0 0 0 0 0 0 1 1 4 0 0 0 0 2.4

SVR 0 0 0 0 0 1 2 2 0 1 0 0 0 0 2.1

iRANK 0 0 0 0 1 2 0 1 2 0 0 0 0 0 2.1

HierSum 0 0 0 0 0 0 0 0 2 0 4 0 0 0 2.0

Centroid 0 0 0 0 0 0 0 0 0 0 0 3 3 0 1.1

SNMF +SLSS 0 0 0 0 0 0 0 0 0 0 0 3 3 0 1.1

TMR 0 0 0 0 0 0 3 0 1 0 2 0 0 0 1.0

MMR 0 0 0 0 0 0 0 0 0 0 0 0 0 6 0.4

Teniendo en cuenta los resultados de la Tabla 5-13, se puede observar lo siguiente:

El método DESAMC+DocSum ocupa el primer lugar en el ordenamiento, enfocando

la optimización en un problema de agrupamiento de oraciones. Durante el proceso

evolutivo realiza 50.000 evaluaciones de la función objetivo.

El método MA-MultiSumm ocupa el segundo lugar en el ordenamiento, en este caso,

la representación del problema se hace por medio de las oraciones que forman parte

del resumen y el número de evaluaciones de la función objetivo es de 15.000. MA-

MultiSumm supera métodos basados en agrupamiento y modelos probabilísticos

como PLSA que es un que aplica (tercer puesto en el ordenamiento) - un modelo

probabilístico que aplica la técnica de agrupamiento - y HybHSum (sexto) que utiliza

un modelo probabilístico para obtener los tópicos y luego el aprendizaje de máquina

para entrenar un modelo de regresión lineal. También supera modelos evolutivos

como LFIPP (cuarto), basado en evolución diferencial y realiza 50.000 evaluaciones

de la función objetivo; y supera a MCMR (quinto) basado en el modelo de

optimización por enjambres de partículas binario que realiza 15.000 evaluaciones de

la función objetivo y para el cálculo de esta función utiliza la medida de similitud de

google y la ley de cosenos.

LEX es un método que utiliza agrupamiento de términos y supera los resultados de

algunos métodos probabilísticos, de reducción algebraica y métodos basados en

clasificación.

Los métodos SVR e iRANK, ocupan el mismo puesto en la clasificación, aunque SVR

es un método de reducción algebraica e iRANK combina dos métodos de

clasificación que se retroalimentan entre sí.

Los métodos Centroid y SNMF +SLSS, ocupan el mismo puesto con un rendimiento

muy similar en ambos conjuntos de datos, a pesar de que Centroid realiza

agrupamiento basado en centroides; y SNMF +SLSS hace análisis semántico a nivel

de oración (SLSS) y luego factorización de matrices no negativas simétricas (SNMF).

TMR solo supera a MMR, aunque utiliza un modelo probabilístico para estimar la

distribución de los tópicos y luego aprendizaje de máquina para estimación multi-

nomial, similar a HybHSum que ocupa el sexto lugar.

MMR ocupa el último lugar en la clasificación, obteniendo los peores resultados para

los dos conjuntos de datos en todas las medidas de ROUGE utilizadas.

Los resultados experimentales indican que la optimización que combina la búsqueda

global basada en población (CHC), con una búsqueda local heurística para algunos de

los agentes (búsqueda codiciosa), como es el caso del algoritmo memético MA-

MultiSumm, es un área de investigación prometedora para el problema de generación

automática de resúmenes para múltiples documentos. Esto debido a que aunque este

algoritmo propuesto ocupa el segundo puesto en la clasificación, el método que lo supera

(DESAMC+DocSum) realiza 50.000 evaluaciones de la función objetivo, excediendo tres

veces las evaluaciones de MA-MultiSumm (50.000 vs 15.000). Teniendo en cuenta que

las funciones objetivo planteadas por los dos métodos son parecidas, implica un tiempo

de ejecución mayor de este algoritmo frente al método MA-MultiSumm.

En el método MA-MultiSumm la representación de las soluciones es binaria, indicando la

aparición o no de la oración en el resumen; mientras que en el caso del método

DESAMC+DocSum la representación es entera, indicando el grupo al cual pertenece la

oración. Un proceso posterior de selección de las oraciones que conformarán el resumen

desde los grupos es necesario. Esto involucra que el método DESAMC+DocSum debe

realizar un proceso adicional para obtener el resumen que no es necesario en el caso de

MA-MultiSumm.

Es importante resaltar que el método de ordenamiento unificado no tiene en cuenta el

porcentaje de mejora. En el caso de DUC2005, MA-MultiSumm mejora el rendimiento de

DESAMC+DocSum en 1.63% para ROUGE-1, 5.72% para ROUGE-2 y 1.13% para

ROUGE-SU4. Para DUC2006, DESAMC+DocSum supera a MA-MultiSumm en 3.67%

para ROUGE-1, 0.30% para ROUGE-2 y 2.82% para ROUGE-SU4. Si estos porcentajes

de mejora sobre los otros métodos se tuvieran en cuenta, el algoritmo MA-MultiSumm

quedaría de primero con respecto a DESAMC+DocSum.

Finalmente, es importante mencionar que debido a que no se logró tener acceso a los

resultados obtenidos en las experimentaciones de los métodos del estado del arte, para

cada tópico de los conjuntos de datos, no se pudo realizar pruebas estadísticas no

paramétricas para evaluar la significancia estadística de los resultados obtenidos en los

dos algoritmos presentados en esta tesis. Tampoco se pudo replicar las

experimentaciones por no tener acceso público al código fuente de los algoritmos y las

implementaciones propias realizadas con base en la información reportada en los

artículos no lograron los resultados publicados por los autores de los mismos.

6 Conclusiones, Recomendaciones y Trabajo Futuro

6.1 Conclusiones

6.1.1 Generación de resúmenes de un solo documento

Con respecto al algoritmo para generación automática de resúmenes de un solo

documento, las conclusiones son las siguientes:

En esta tesis se propone un nuevo algoritmo para generación automática de resúmenes

de un solo documento (MA-SingleDocSum). Este algoritmo enfoca la generación de

resúmenes extractivos como un problema de optimización binaria, pero a diferencia de

los métodos del estado del arte, en esta propuesta se combina la búsqueda global

basada en población con una heurística de búsqueda local que utiliza conocimiento del

problema para re-direccionar la búsqueda hacia una mejor solución (enfoque memético).

El algoritmo MA-SingleDocSum fue comparado con otros métodos del estado del arte,

usando medidas de ROUGE sobre los conjuntos de datos DUC2001 y DUC2002, y los

resultados han mostrado que MA-SingleDocSum supera los métodos del estado del arte

con los que se comparó.

La definición de los operadores reproductivos del algoritmo MA-SingleDocSum

propuesto, se realizó combinando operadores que favorecen más la calidad (valor de

aptitud) de los agentes con otros que favorecen más la diversidad. De esta forma se

logró que en la población se mantuviera un balance entre la calidad y la diversidad de los

agentes, con los siguientes operadores: (1) Selección basada en el Rango para escoger

el primer padre de un nuevo descendiente, mediante el cual se pretende evitar el dominio

de los agentes más aptos, favoreciendo la diversidad en la población; (2) Selección por

Ruleta para escoger el segundo padre, a través de la cual se favorece mayormente la

presión selectiva; (3) Cruce de Un Punto para generar la descendencia, que también

favorece la presión selectiva mediante la conservación de gran parte del material

genético de los padres; (4) Mutación Multi-bit que ayuda a la diversidad de la población; y

(5) Reemplazo por Competencia Restringida cuya adaptación favorece la diversidad, con

la escogencia aleatoria del grupo y la presión selectiva al eliminar al peor.

El algoritmo de optimización local usado en MA-SingleDocSum es el de Búsqueda Local

Guiada, el cual mantiene una estrategia de explotación dirigida por la información del

problema, mejorando la calidad de los resúmenes obtenidos con respecto a otras

técnicas de optimización local evaluadas. El algoritmo de Búsqueda Local Guiada

incorpora estrategias para explotar las características (oraciones) con menor costo

(mayor aporte en la función objetivo), pero también permite que las oraciones que tienen

menor aporte no siempre sean penalizadas y puedan volver a ser parte de la solución

candidata, esto es importante, ya que hace menos probable que al generar los vecinos

se quede atrapado en un óptimo local. En este algoritmo es muy importante el costo de

las características y un parámetro de regularización (). Para la definición del costo se

tomó el valor de la función objetivo de las características cuyo cálculo depende solo de la

oración de forma individual, es decir, Posición y Relación con el título, ya que

características como Longitud, Cohesión y Cobertura dependen para su cálculo de todas

las oraciones que existen en el resumen (solución candidata). Por lo tanto, el costo es la

combinación de los valores de aptitud de Posición y Relación con el título. Este resultado

muestra la importancia de estas dos características, apoyando otras investigaciones que

también presentan estas características como importantes para el problema de un

documento. La configuración del parámetro de regularización () se define con un valor

de 0.5, dando un peso considerable a las penalizaciones en la función objetivo

disminuida, esto quiere decir, que cuando se encuentren oraciones penalizadas en la

solución el valor de la función objetivo va a ser menor.

Para la definición de la función objetivo en el algoritmo MA-SingleDocSum, se revisaron

características como: Posición (dos formas de cálculo), Longitud de la oración,

Frecuencia de las palabras en el contenido, Puntaje de la oración basada en sus

términos, Relación con el Título, Cohesión (dos formas de cálculo), Legibilidad, Cobertura

de términos y Cobertura de oraciones (dos formas de cálculo). Después de este proceso

de revisión, se definió una función objetivo que permite que el algoritmo MA-

Conclusiones, recomendaciones y trabajo futuro 113

SingleDocSum obtenga mejores resultados comparado con otros métodos del estado del

arte, conformada por las siguientes características: Posición, Relación con el título,

Longitud, Cohesión y Cobertura. Luego en el proceso de afinación de los pesos de la

función objetivo, se encontró que las características con mayor peso fueron la Posición y

Relación con el título, seguido de Longitud y por último de Cohesión y Cobertura. Este

resultado también apoya otras investigaciones previas que muestran la importancia de la

posición y la relación con el título para este problema de un solo documento, y aparece la

longitud que también está presenta en otras investigaciones pero con menos importancia.

La calidad de los resúmenes generados por el algoritmo MA-SingleDocSum propuesto se

evaluó por medio de las medidas ROUGE-1 y ROUGE-2, sobre los conjuntos de datos de

DUC2001 y DUC2002. Al compararse frente a otros métodos del estado del arte, con la

medida ROUGE-2 el algoritmo MA-SingleDocSum presenta los mejores resultados,

superando a FEOM (metaheurístico) en un 8.59% con DUC2001 y a UnifiedRank (grafos)

en un 6.42% con DUC2002. En el caso de la medida ROUGE-1 para el conjunto de

DUC2001 es superado por ED (metaheurístico) en un 6.67%; y para DUC2002 por

UnifiedRank en 0.41%. Además en la clasificación unificada de todos los métodos, el

algoritmo MA-SingleDocSum ocupa el primer lugar superando los métodos del estado del

arte con los que se realiza la comparación.

6.1.2 Generación de resúmenes de múltiples documentos

Con respecto al algoritmo para generación automática de resúmenes de múltiples

documento, las conclusiones son las siguientes:

En esta tesis se propone un nuevo algoritmo memético para generación automática de

resúmenes extractivos de múltiples documentos (MA-MultiSumm) basado en CHC y en

búsqueda local codiciosa. Las modificaciones más importantes con respecto al algoritmo

original CHC, son: (1) el valor inicial del umbral es más pequeño (0.025×L) que en el

algoritmo original de CHC (0.25×L), debido a que el agente es representado en este

problema por muchos ceros y pocos unos (oraciones seleccionadas en el resumen),

haciendo que los agentes sean muy similares entre ellos; (2) se aplica un algoritmo de

búsqueda local a algunos agentes para encontrar el mejor óptimo local; y (3) en el

cataclismo, se preservan los dos mejores individuos, los demás individuos son creados

aleatoriamente, y el umbral que evita el incesto entre los padres toma el valor inicial. En

el algoritmo de búsqueda local codiciosa del primer mejor usado como optimizador, se

incluye conocimiento del problema por medio del criterio para incluir o eliminar una

oración del resumen candidato, así: la oración con el valor más alto en el factor de

cobertura se incluye en el resumen y la del valor más bajo se elimina.

Para la definición de la función objetivo en el algoritmo MA-MultiSumm, se revisaron

características como: Posición, Longitud de la oración, Centralidad de los términos

representativos (tres formas de cálculo), Cobertura de oraciones (tres formas de cálculo)

y Redundancia (dos formas de cálculo). Después de este proceso, se definió una función

objetivo que permite que el algoritmo MA-MultiSumm obtenga resultados comparables a

los métodos del estado del arte, conformada por las siguientes características: Cobertura

y Redundancia. Luego en el proceso de afinación de los pesos de la función objetivo, se

encontró que la característica con mayor peso fue la de Cobertura. Este resultado apoya

otras investigaciones que muestran la importancia de la cobertura para este problema de

múltiples documentos, en el cual, como no se tiene un título (como ocurre para un

documento) se debe tratar de seleccionar las oraciones que más se parecen al contenido

general de toda la colección de documentos. Además también se muestra la importancia

de la Redundancia como una característica de la función objetivo, para evitar que el

resumen final tenga oraciones que repitan la misma información.

Teniendo en cuenta que para la generación automática de múltiples documentos basada

en algoritmos meméticos, es necesario definir: una función objetivo que busque que el

resumen contenga las principales temáticas de los documentos; esquemas de evolución

a nivel de población (selección, cruce, mutación y reemplazo de los agentes) que

busquen mantener un balance entre calidad y diversidad de los agentes; y un algoritmo

de búsqueda local que permita la explotación de la vecindad de las soluciones generadas

incluyendo conocimiento del problema. La metodología usada en el desarrollo de esta

tesis doctoral permitió, abordar este problema por medio de iteraciones, centrándose

inicialmente en el estudio de las características que harían parte de la función objetivo

con el uso de una heurística que no necesitaba definir esquemas de evolución ni

búsqueda local. Para luego centrarse en la definición de la configuración del algoritmo

memético (esquemas de evolución y algoritmo de búsqueda local).

La calidad de los resúmenes generados por el algoritmo MA-MultiSumm propuesto se

evaluó por medio de las medidas ROUGE-1, ROUGE-2 y ROUGE-SU4. Al compararse

frente a otros métodos del estado del arte sobre el conjunto de datos de DUC2005, el

algoritmo MA-MultiSumm supera todos los métodos en todas las medidas.

DESAMC+DocSum que queda de segundo es superado en un 1.63% con ROUGE-1, en

5.72% con ROUGE-2 y en 1.13% con ROUGE-SU4. Con respecto al conjunto de datos

de DUC2006, DESAMC+DocSum supera todos los métodos en todas las medidas, MA-

MultiSumm con ROUGE-2 es superado en un 0.30%; con ROUGE-1 es superado en un

3.67%; y con ROUGE-SU4 es superado en un 2.82%.

En la clasificación unificada realizada con los métodos que se comparó, el algoritmo MA-

MultiSumm ocupa el segundo lugar, superado sólo por DESAMC+DocSum. Sin embargo,

el resultado es prometedor, teniendo en cuenta que la diferencia es mínima y que el

tiempo de ejecución del algoritmo MA-MultiSumm es más corto que el de

DESAMC+DocSum, dado que el primero solo hace 15.000 evaluaciones de la función

objetivo y el segundo 50.000. Además DESAMC+DocSum enfoca la solución con un

proceso de agrupamiento y debe hacer un proceso posterior para escoger las oraciones

que deben ir en el resumen. En el caso de MA-MultiSumm las oraciones del resumen se

toman directamente de la mejor solución obtenida al final de la ejecución del algoritmo

evolutivo. El algoritmo MA-MultiSumm obtuvo mejores resultados en todas las medidas

con respecto a métodos del estado del arte basados en grafos, reducción algebraica,

probabilísticos, aprendizaje de máquina y centroide.

6.1.3 Generales

La función objetivo es un aspecto muy importante en el problema de la generación

automática de resúmenes de textos y además es uno de los de mayor complejidad, esto

debido a que no se cuenta con una definición exacta de las características que la deben

componer para obtener resúmenes de calidad, coherentes e independientes del tipo de

documento o colección que se espera resumir. Por lo tanto, las investigaciones

realizadas a la fecha definen características que permiten aproximarse a generar un buen

resumen, pero aún falta mucho trabajo por realizar en este sentido. En el desarrollo de

esta tesis doctoral se encontró que la variación en los componentes de la función objetivo

y en la forma de calcularla afectan considerablemente los resultados en la calidad de los

resúmenes.

En cuanto a la evaluación de calidad de los resúmenes generados, las medidas más

usadas y aceptadas por la comunidad científica, parten de resúmenes de referencia

(realizados por humanos) que no son exactos, es decir, cada resumen de referencia es

diferente a los otros, esto hace que la evaluación de un buen resumen sea también una

tarea muy compleja. Además no existe un sistema de evaluación que permita de forma

automática (como lo permite ROUGE) evaluar no solo la coincidencia de N-gramas sino

también la coherencia del resumen, aspecto muy importante para que los resultados de

la evaluación sean más confiables. El uso de jueces (evaluación extrínseca) para evaluar

la coherencia, hace que el proceso de evaluación sea muy costoso en tiempo y dinero, e

incorpora subjetividad en los resultados.

Debido a la complejidad que presenta el diseño de los algoritmos meméticos, por la

cantidad de combinaciones que se pueden presentar entre los esquemas seleccionados

de cada uno de los operadores, en el desarrollo de esta tesis, se utilizó un enfoque

hiperheurístico para orientar la selección de una combinación apropiada para el problema

de generación automática de resúmenes de textos, sin embargo, este enfoque no

encontró resultados comparables con los métodos de estado del arte, ya que fue

necesario reducir la cantidad de esquemas por cada operador para reducir de igual forma

el tiempo de ejecución del mismo. Por esto, aunque los algoritmos meméticos presentan

muy buenos resultados en esta tesis doctoral, para seguir trabajando con ellos, se hace

necesario encontrar alternativas que guíen el proceso de selección de estas

combinaciones, haciendo más efectivo y menos complejo su diseño.

6.2 Recomendaciones

Debido a la dificultad que se presentó para evaluar la significancia estadística de los

resultados obtenidos por los dos algoritmos propuestos con respecto a los métodos del

estado del arte, se recomienda que las investigaciones en el área de generación

automática de resúmenes de textos, hagan público los resultados obtenidos por cada

tópico de los conjuntos de datos y/o el código fuente para poder replicar las

experimentaciones.

6.3 Trabajo Futuro

Se espera continuar el trabajo de esta tesis doctoral, mediante las siguientes líneas de

acción:

Metaheurísticas. Teniendo en cuenta que los algoritmos para la generación

automática de uno y de múltiples documentos basados en metaheurísticas presentan

actualmente los mejores resultados, se hace necesario seguir abordando este

problema mediante el uso de otras metaheurísticas, como: procedimiento de

búsqueda del pescador, búsqueda Cuco, entre otras. Específicamente en algoritmos

meméticos, se espera proponer un enfoque hiperheurístico para estudiar otros

esquemas de selección, cruce, mutación, reemplazo y búsqueda local, no estudiados

hasta el momento y analizar los resultados que se obtengan de dicho trabajo.

Además, como la afinación de un algoritmo memético es muy compleja por la

cantidad de combinaciones que se pueden presentar entre los valores de los

parámetros, se espera explorar el uso de los arreglos de cobertura que se han

empezado a usar para disminuir la complejidad de dicha tarea.

Función objetivo. Inclusión de otras características en la función objetivo que

permitan obtener oraciones más relevantes y cercanas a los resúmenes de

referencia. Además tener en cuenta otras medidas de similitud entre oraciones como

la medida de coseno suave [134].

Conjuntos de datos. Evaluar la calidad de los resúmenes generados por los

algoritmos meméticos propuestos con otros conjuntos de datos de noticias, para

analizar su desempeño. También evaluar los algoritmos meméticos propuestos con

otros géneros de documentos (artículos científicos, blogs, entre otros), para revisar si

con la estructura de estos tipos de documentos la función objetivo y la configuración

de los algoritmos siguen reportando buenos resultados o se necesita realizar ajustes

a los mismos. Con respecto, a documentos de texto más grandes, como los artículos

de investigación, se hace necesario generar una base de datos, con los resúmenes

de referencia, que permita abordar de forma más amplia (en otro contexto) el

problema de generación automática extractiva de múltiples documentos. Además

generar bases de datos con los resultados de la calidad de los resúmenes detallados

por cada tópico de los conjuntos de datos, para realizar pruebas estadísticas no

paramétricas (Friedman y Wilcoxon), permitiendo evaluar la significancia estadística

de los resultados.

Resúmenes orientados a consulta. Realizar una propuesta para generación

automática extractiva de un solo documento basado en consulta, usando el enfoque

desarrollado en el algoritmo memético propuesto, y aplicarlo en la generación de

snippets que luego se muestren como resultados en un buscador o meta-buscador

Bibliografía

[1] A. Porselvi and S. Gunasundari, "Survey on web page visual summarization," International Journal of Emerging Technology and Advanced Engineering, vol. 3, pp. 26-32, 2013.

[2] N. Kumaresh and B. Ramakrishnan, "Graph Based Single Document Summarization," in Data Engineering and Management. vol. 6411, R. Kannan and F. Andres, Eds., ed: Springer Berlin Heidelberg, 2012, pp. 32-35.

[3] K. Wu, L. Li, J. Li, and T. Li, "Ontology-enriched multi-document summarization in disaster management using submodular function," Information Sciences, vol. 224, pp. 118-129, 2013.

[4] D. M. Zajic, B. J. Dorr, and J. Lin, "Single-document and multi-document summarization techniques for email threads using sentence compression," Information Processing and Management, vol. 44, pp. 1600-1610, 2008.

[5] S. Osiński and D. Weiss, "A concept-driven algorithm for clustering search results," IEEE Intelligent Systems, vol. 20, pp. 48-54, 2005.

[6] F. S. C. Tseng and A. Y. H. Chou, "The concept of document warehousing for multi-dimensional modeling of textual-based business intelligence," Decision Support Systems, vol. 42, pp. 727-744, 2006.

[7] D. Zhang, C. Zhai, and J. Han, "Topic Cube: Topic Modeling for OLAP on Multidimensional Text Databases," in SIAM International Conference on Data Mining, Sparks, NV, USA, pp. 1124-1135, 2009.

[8] C. X. Lin, B. Ding, J. Han, F. Zhu, and B. Zhao, "Text Cube: Computing IR Measures for Multidimensional Text Database Analysis," in Eighth IEEE International Conference Data Mining (ICDM), Pisa, pp. 905-910, 2008.

[9] W. Song, L. Cheon Choi, S. Cheol Park, and X. Feng Ding, "Fuzzy evolutionary optimization modeling and its applications to unsupervised categorization and extractive summarization," Expert Systems with Applications, vol. 38, pp. 9112-9121, 2011.

[10] M. Litvak, M. Last, and M. Friedman, "A new approach to improving multilingual summarization using a genetic algorithm," in 48th Annual Meeting of the Association for Computational Linguistics (ACL), Uppsala, Sweden, 2010, pp. 927-936.

[11] M. A. Fattah and F. Ren, "GA, MR, FFNN, PNN and GMM based models for automatic text summarization," Computer Speech and Language, vol. 23, pp. 126-144, 2009.

[12] A. Kiani and M. R. Akbarzadeh, "Automatic Text Summarization Using Hybrid Fuzzy GA-GP," in IEEE International Conference on Fuzzy Systems, Vancouver, BC, pp. 977-983, 2006.

[13] P.-K. Dehkordi, F. Kumarci, and H. Khosravi, "Text Summarization Based on Genetic Programming," International Journal of Computing and ICT Research, vol. 3, pp. 57-64, 2009.

[14] M. S. Binwahlan, N. Salim, and L. Suanmali, "Fuzzy swarm based text summarization," Computer Sciences, vol. 5, pp. 338–346., 2009.

[15] M. S. Binwahlan, N. Salim, and L. Suanmali, "Fuzzy swarm diversity hybrid model for text summarization," Information Processing and Management, vol. 46, pp. 571-588, 2010.

[16] D. Liu, Y. Wang, C. Liu, and Z. Wang, "Multiple Documents Summarization Based on Genetic Algorithm," in Fuzzy Systems and Knowledge Discovery. vol. 4223, L. Wang, L. Jiao, G. Shi, X. Li, and J. Liu, Eds., ed: Springer Berlin Heidelberg, 2006, pp. 355-364.

[17] V. Qazvinian, L. Sharif, and R. Halavati, "Summarising text with a genetic algorithm-based sentence extraction," International Journal of Knowledge Management Studies (IJKMS), vol. 4, pp. 426-444, 2008.

[18] R. García-Hernández and Y. Ledeneva, "Single Extractive Text Summarization Based on a Genetic Algorithm," in Pattern Recognition. vol. 7914, J. Carrasco-Ochoa, J. Martínez-Trinidad, J. Rodríguez, and G. Baja, Eds., ed: Springer Berlin Heidelberg, 2013, pp. 374-383.

[19] E. Shareghi and L. S. Hassanabadi, "Text summarization with harmony search algorithm-based sentence extraction," in 5th international conference on Soft computing as transdisciplinary science and technology Cergy-Pontoise, France, 2008, pp. 226-231.

[20] R. M. Aliguliyev, "Clustering techniques and discrete particle swarm Optimization algorithm for multi-document," An international journal Computational Intelligence, vol. 26, pp. 420-448, 2010.

[21] R. M. Alguliev, R. M. Aliguliyev, M. S. Hajirahimova, and C. A. Mehdiyev, "MCMR: Maximum coverage and minimum redundant text summarization model," Expert Systems with Applications, vol. 38, pp. 14514-14522, 2011.

[22] R. M. Alguliev, R. M. Aliguliyev, and C. A. Mehdiyev, "An Optimization Model and DPSO-EDA for Document Summarization," I.J. Information Technology and Computer Science. Published Online November 2011 in MECS (http://www.mecs-press.org/), vol. 5, pp. 59-68, 2011.

[23] R. M. Alguliev, R. M. Aliguliyev, and N. R. Isazade, "CDDS: Constraint-driven document summarization models," Expert Systems with Applications, vol. 40, pp. 458-465, 2013.

[24] R. M. Alguliev, R. M. Aliguliyev, and C. A. Mehdiyev, "Sentence selection for generic document summarization using an adaptive differential evolution algorithm," Swarm and Evolutionary Computation, vol. 1, pp. 213-222, 2011.

[25] R. M. Alguliev, R. M. Aliguliyev, and N. R. Isazade, "DESAMC+DocSum: Differential evolution with self-adaptive mutation and crossover parameters for multi-document summarization," Knowledge-Based Systems, vol. 36, pp. 21-38, 2012.

[26] R. M. Alguliev, R. M. Aliguliyev, and N. R. Isazade, "Multiple documents summarization based on evolutionary optimization algorithm," Expert Systems with Applications, vol. 40, pp. 1675-1689, 2013.

[27] R. M. Alguliev, R. M. Aliguliyev, and M. S. Hajirahimova, "GenDocSum + MCLR: Generic document summarization based on maximum coverage and less redundancy," Expert Systems with Applications, vol. 39, pp. 12460-12473, 2012.

[28] A. Abuobieda, N. Salim, Y. Kumar, and A. Osman, "An Improved Evolutionary Algorithm for Extractive Text Summarization," in Intelligent Information and Database Systems. vol. 7803, A. Selamat, N. Nguyen, and H. Haron, Eds., ed: Springer Berlin Heidelberg, 2013, pp. 78-89.

[29] R. M. Aliguliyev, "A new sentence similarity measure and sentence based extractive technique for automatic text summarization," Expert Systems with Applications, vol. 36, pp. 7764-7772, 2009.

[30] C. Cobos, C. Montealegre, M. Mejía, M. Mendoza, and E. León, "Web Document Clustering based on a New Niching Memetic Algorithm, Term-Document Matrix and Bayesian Information Criterion," in IEEE Congress on Evolutionary Computation (IEEE CEC), Barcelona, Spain, 2010, pp. 4629-4636.

[31] F. Neri and C. Cotta, "Memetic algorithms and memetic computing optimization: A literature review," Swarm and Evolutionary Computation, vol. 2, pp. 1-14, 2012.

[32] K. S. Pratt, "Design Patterns for Research Methods: Iterative Field Research," in Association for the Advancement of Artificial Intelligence, 2009.

[33] M. Mendoza, E. Alegría, M. Maca, C. Cobos, and E. León, "Multidimensional analysis model for a document warehouse that includes textual measures," Decision Support Systems, vol. 72, pp. 44-59, 2015.

Bibliografía 121

[34] M. Mendoza, S. Bonilla, C. Noguera, C. Cobos, and E. León, "Extractive single-document summarization based on genetic operators and guided local search," Expert Systems with Applications, vol. 41, pp. 4158-4169, 2014.

[35] M. Mendoza, C. Cobos, E. León, M. Lozano, F. Rodríguez, and E. Herrera-Viedma, "A New Memetic Algorithm for Multi-Document Summarization based on CHC Algorithm and Greedy Search," in 13th Mexican International Conference on Artificial Intelligence. LNCS journal, 2014.

[36] M. Mendoza, C. Cobos, and E. León, "Extractive Single-Document Summarization Based on Global-best Harmony Search and a Greedy Local Optimizer," in 14th Mexican International Conference on Artificial Intelligence, 2015, pp. XX-XX.

[37] M. Mendoza and L. Elizabeth, "Una Revisión de la Generación Automática de Resúmenes Extractivos," Revista UIS Ingenierías., vol. 12, pp. 7-27, 2013.

[38] C. Cobos, H. Muñoz-Collazos, R. Urbano-Muñoz, M. Mendoza, E. León, and E. Herrera-Viedma, "Clustering of web search results based on the cuckoo search algorithm and Balanced Bayesian Information Criterion," Information Sciences, vol. 281, pp. 248-264, 2014.

[39] C. Cobos, O. Rodriguez, J. Rivera, J. Betancourt, M. Mendoza, E. León, and E. Herrera-Viedma, "A hybrid system of pedagogical pattern recommendations based on singular value decomposition and variable data attributes," Information Processing and Management, vol. 49, pp. 607-625, 2013.

[40] K. Ježek and J. Steinberger, "Automatic Text Summarization (The state of the art 2007 and new challenges)," in Znalosti 2008, Bratislava, Slovakia, 2008, pp. 1-12.

[41] A. Nenkova and K. McKeown, "A Survey of Text Summarization Techniques," in Mining Text Data, C. C. Aggarwal and C. Zhai, Eds., ed: Springer US, 2012, pp. 43-76.

[42] E. Lloret and M. Palomar, "Text summarisation in progress: a literature review," Artificial Intelligence Review, vol. 37, pp. 1-41, 2012.

[43] D. Das and A. F. T. Martins, "A Survey on Automatic Text Summarization," 2007. [44] C. Manning, P. Raghavan, and H. Schütze. (2008). Introduction to Information Retrieval.

Available: http://www-nlp.stanford.edu/IR-book/ [45] H. Luhn, "The automatic creation of literature abstracts," IBM Journal of Research and

Development, vol. 2, pp. 159-165, 1958. [46] P. B. Baxendale, "Machine-made index for technical literature: an experiment," IBM

Journal of Research Development, vol. 2, pp. 354-361, 1958. [47] H. P. Edmundson, "New Methods in Automatic Extracting," Journal of the ACM (JACM),

vol. 16, pp. 264-285, 1969. [48] G. Salton, "Automatic Text Processing," Addison-Wesley Publishing Company, 1988. [49] C.-Y. Lin and E. Hovy, "Identifying topics by position," in Fifth conference on Applied

natural language processing (ANLC), San Francisco, CA, USA, 1997, pp. 283-290. [50] Y. Ko and J. Seo, "An effective sentence-extraction technique using contextual information

and statistical approaches for text summarization," Pattern Recognition Letters, vol. 29, pp. 1366-1371, 2008.

[51] J. Kupiec, J. Pedersen, and F. Chen, "A trainable document summarizer," in 18th annual international ACM SIGIR conference on Research and development in information retrieval, Seattle, Washington, United States, pp. 68-73, 1995.

[52] C. Aone, M. E. Okurowski, J. Gorlinsky, and B. s. Larsen, "A trainable summarizer with knowledge acquired from robust NPL techniques," Advances in Automatic Text Summarization, vol. Mani, I. and Maybury, M. T., pp. 71-80, 1999.

[53] C.-Y. Lin, "Training a selection function for extraction," International Conference on Information and Knowledge Management (CIKM). New York, NY, USA, pp. 55-62, 1999.

[54] M. Osborne, "Using maximum entropy for sentence extraction," in ACL-02 Workshop on Automatic Summarization, Phildadelphia, Pennsylvania, 2002, pp. 1-8.

[55] J. Conroy and D. O'leary, "Text summarization via hidden Markov models," in 24th annual international ACM SIGIR conference on Research and development in information retrieval, New Orleans, Louisiana, United States, 2001, pp. 406-407.

[56] K. Svore, L. Vanderwende, and C. Burges, "Enhancing single-document summarization by combining RankNet and third-party sources," in Processing Empirical Methods in Natural Language (EMNLP-CoNLL), 2007, pp. 448-457.

[57] D. Shen, J.-T. Sun, H. Li, Q. Yang, and Z. Chen, "Document summarization using conditional random fields," in 20th international joint conference on Artifical intelligence, Hyderabad, India, 2007, pp. 2862-2867.

[58] K.-F. Wong, M. Wu, and W. Li, "Extractive summarization using supervised and semi-supervised learning," in 22nd International Conference on Computational Linguistics, Manchester, United Kingdom, 2008, pp. 985-992.

[59] R. Barzilay, Elhadad, M, "Using Lexical Chains for Text Summarization," in ACL/EACL Workshop on Intelligent Scalable Text Summarization, Madrid, Spain, 1997, pp. 10–17.

[60] A. R. Pal and D. Saha, "An approach to automatic text summarization using WordNet," in Advance Computing Conference (IACC), 2014 IEEE International, 2014, pp. 1169-1173.

[61] K. Ono, K. Sumita, and S. Miike, "Abstract generation based on rhetorical structure extraction," in 15th conference on Computational linguistics, Kyoto, Japan, 1994, pp. 344-348.

[62] D. Marcu, " Improving summarization through rhetorical parsing tuning," in Sixth Workshop on Very Large Corpora. Montreal, Canada, 1998, pp. 206-215.

[63] D. C. T. Marcu, "The rhetorical parsing, summarization, and generation of natural language texts," PhD thesis, University of Toronto. Adviser-Graeme Hirst, 1998.

[64] R. Mihalcea, Tarau, P, "Text-rank bringing order into texts," in Conference on Empirical Methods in Natural Language Processing, Barcelona, Spain, 2004.

[65] X. Wan, "Towards a Unified Approach to Simultaneous Single-Document and Multi-Document Summarizations," in 23rd International Conference on Computational Linguistics (COLING), Beijing, 2010, pp. 1137–1145.

[66] N. Chatterjee and P. K. Sahoo, "Random Indexing and Modified Random Indexing based approach for extractive text summarization," Computer Speech and Language, vol. 29, pp. 32-44, 2015.

[67] Y. Gong and X. Liu, "Generic text summarization using relevance measure and latent semantic analysis," in 24th annual international ACM SIGIR conference on Research and development in information retrieval, New Orleans, USA, 2001, pp. pp.19-25.

[68] J. Steinberger and K. Ježek, "Using latent semantic analysis in text summarization and summary evaluation," in 7th International Conference ISIM, 2004.

[69] J.-Y. Yeh, H.-R. Ke, W.-P. Yang, and I.-H. Meng, "Text summarization using a trainable summarizer and latent semantic analysis," Information Processing and Management, vol. 41, pp. 75–95, 2005.

[70] J. Steinberger and K. Ježek, "Sentence Compression for the LSA-based Summarizer," pp. 141–148, 2006.

[71] J.-H. Lee, S. Park, C.-M. Ahn, and D. Kim, "Automatic generic document summarization based on non-negative matrix factorization," Information Processing & Management, vol. 45, pp. 20-34, 2009.

[72] K. Nagesh and M. N. Murty, "Obtaining Single Document Summaries Using Latent Dirichlet Allocation," in Neural Information Processing. vol. 7666, T. Huang, Z. Zeng, C. Li, and C. Leung, Eds., ed: Springer Berlin Heidelberg, 2012, pp. 66-74.

[73] C. Carpineto, S. Osinski, G. Romano, and D. Weiss, "A survey of Web clustering engines," ACM Computing Surveys, vol. 41, pp. 1-38, 2009.

[74] G. Ravindra, N. Balakrishnan, and K. R. Ramakrishnan, "Multi-document Automatic Text Summarization Using Entropy Estimates," in SOFSEM 2004: Theory and Practice of Computer Science. LNCS. vol. 2932, P. Van Emde Boas, J. Pokorný, M. Bieliková, and J. Štuller, Eds., ed: Springer Berlin Heidelberg, 2004, pp. 289-300.

[75] D. M. Dunlavy, D. P. O'Leary, J. M. Conroy, and J. D. Schlesinger, "QCS: A system for querying, clustering and summarizing documents," Information Processing and Management, vol. 43, pp. 1588-1605, 2007.

Bibliografía 123

[76] M. Wang, X. Wang, C. Li, and Z. Zhang, "Multi-document Summarization Based on Word Feature Mining," in International Conference on Computer Science and Software Engineering, Wuhan, Hubei, 2008, pp. 743-746.

[77] M.-R. Amini and N. Usunier, "Incorporating prior knowledge into a transductive ranking algorithm for multi-document summarization," in 32nd annual ACM SIGIR conference on research and development in information retrieval, Boston, USA, pp.704–705, 2009.

[78] D. Bollegala, N. Okazaki, and M. Ishizuka, "A bottom-up approach to sentence ordering for multi-document summarization," Information Processing and Management, vol. 46, pp. 89-109, 2010.

[79] Y. Ouyang, W. Li, S. Li, and Q. Lu, "Applying regression models to query-focused multi-document summarization," Information Processing and Management, vol. 47, pp. 227-237, 2011.

[80] M. A. Fattah, "A hybrid machine learning model for multi-document summarization," Applied Intelligence, vol. 40, pp. 592-600, 2014.

[81] Y.-M. Chen, X.-L. Wang, and B.-Q. Liu, "Multi-document summarization based on lexical chains," in Proceedings of International Conference on Machine Learning and Cybernetics, Guangzhou, China, 2005, pp. 1937-1942 Vol. 3.

[82] J. Atkinson and R. Munoz, "Rhetorics-based multi-document summarization," Expert Systems with Applications, vol. 40, pp. 4346-4352, 2013.

[83] R. Mihalcea, Tarau, P., "An Algorithm for Language Independent Single and Multiple Document Summarization," in International Joint Conference on Natural Language Processing, Korea, 2005.

[84] G. Erkan and D. R. Radev, "Lexrank: Graph-based lexical centrality as salience in text summarization," Journal of Artificial Intelligence Research, vol. 22, pp. 457–479, 2004.

[85] J. Zhang, H. Xu, and X. Cheng, "GSPSummary: a graph-based sub-topic partition algorithm for summarization," in Asia information retrieval conference on Information retrieval technology, Springer-Verlag, Berlin, Heidelberg, pp. 321-334, 2008.

[86] J. Otterbacher, G. Erkan, and D. R. Radev, "Biased LexRank: passage retrieval using random walks with question-based priors," Information Processing and Management, vol. 45, pp. 42-54, 2009.

[87] L. Zhao, L. Wu, and X. Huang, "Using query expansion in graph-based approach for query-focused multi-document summarization," Information Processing and Management, vol. 45, pp. 35–41, 2009.

[88] W. Li, W. Furu, L. Qin, and H. Yanxiang, "PNR2: Ranking sentences with positive and negative reinforcement for query-oriented update summarization," in 22nd international conference on computational linguistics (COLING), Manchester, UK, August 18–22, vol.1, pp. 489–496, 2008.

[89] F. Wei, W. Li, Q. Lu, and Y. He, "Query-sensitive mutual reinforcement chain and its application in query-oriented multi-document summarization," in 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Singapore, Singapore, 2008, pp. 283–290.

[90] R. Ferreira, L. Cabral, F. Freitas, R. Lins, G. Silva, S. Simske, and L. Favaro, "A multi-document summarization system based on statistics and linguistic treatment," Expert Systems with Applications, vol. 41, pp. 5780-5787, 2014.

[91] B. Hachey, G. Murray, and D. Reitter, "The Embra System at DUC 2005: Query-oriented Multi-document Summarization with a Very Large Latent Semantic Space," in Document Understanding Conference (DUC), Vancouver, Canada, 2005.

[92] J. Steinberger and M. Křišťan, "LSA-Based Multi-Document Summarization," in 8th International PhD Workshop on Systems and Control, Balatonfured, Hungary, 2007.

[93] P. Sun and C. ByungRae, "Query-Based Multi-Document Summarization Using Non-Negative Semantic Feature and NMF Clustering," in Fourth International Conference on Networked Computing and Advanced Information Management (NCM), Gyeongju, 2008, pp. 609-614.

[94] D. Wang, T. Li, S. Zhu, and C. Ding, "Multi-Document Summarization via Sentence-Level Semantic Analysis and Symmetric Matrix Factorization," in 31st Annual International ACM

SIGIR Conference on Research and Development in Information Retrieval, Singapore, pp. 307-314, 2008.

[95] D. R. Radev, H. Jing, M. Stys, and D. Tam, "Centroid-based summarization of multiple documents," Information Processing and Management, vol. 40, pp. 919-938, 2004.

[96] D. Wang, S. Zhu, T. Li, Y. Chi, and Y. Gong, "Integrating clustering and multi-document summarization to improve document understanding," in 17th ACM conference on Information and knowledge management (CIKM), Napa Valley, California, USA, pp. 1435-1436, 2008.

[97] M. Ali, M. K. Ghosh, and A. Al-Mamun, "Multi-document Text Summarization: SimWithFirst Based Features and Sentence Co-selection Based Evaluation," in International Conference on Future Computer and Communication (ICFCC), Kuala Lumpar, 2009, pp. 93-96.

[98] M. Xiao-Chen, Y. Gui-Bin, and M. Liang, "Multi-Document Summarization Using Clustering Algorithm," in International Workshop on Intelligent Systems and Applications (ISA), Wuhan, pp. 1-4, 2009.

[99] L. Hennig, "Topic-based Multi-Document Summarization with Probabilistic Latent Semantic Analysis," in International Conference RANLP, Borovets, Bulgaria, pp. 144–149, 2009.

[100] D. Wang, S. Zhu, T. Li, and Y. Gong, "Multi-Document Summarization using Sentence-based Topic Model," in ACL-IJCNLP, Suntec, Singapore, 2009, pp. 297–300.

[101] J. Tang, L. Yao, and D. Chen, "Multi-topic based query-oriented summarization," in Ninth SIAM international conference on data mining, Nevada, USA, 2009, pp. 1148–1159.

[102] A. Haghighi and L. Vanderwende, "Exploring content models for multi-document summarization," in Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Boulder, Colorado, 2009, pp. 362-370.

[103] X. Cai and W. Li, "A spectral analysis approach to document summarization: Clustering and ranking sentences simultaneously," Information Sciences, vol. 181, pp. 3816-3827, 2011.

[104] J.-P. Mei and L. Chen, "SumCR: a new subtopic-based extractive approach for text summarization," Knowledge and Information Systems, vol. 31, pp. 527–545, 2012.

[105] M. Wang and X. Tang, "Extract summarization using Concept-Obtained and Hybrid Parallel Genetic Algorithm," in Eighth International Conference on Natural Computation (ICNC), Chongqing, 2012, pp. 662-664.

[106] A. Celikyilmaz and D. Hakkani-Tur, "A Hybrid Hierarchical Model for Multi-Document Summarization," in 48th Annual Meeting of the Association for Computational Linguistics, Uppsala, Sweden, pp. 815–824, 2010, pp. 815–824.

[107] F. Wei, W. Li, and S. Liu, "iRANK: a rank-learn-combine framework for unsupervised ensemble ranking," American Society for Information Science and Technology vol. 61, pp. 1232–1243, 2010.

[108] D. Wang and T. Li, "Many are better than one: improving multi-document summarization via weighted consensus," in 33rd international ACM SIGIR conference on Research and development in information retrieval, Geneva, Switzerland, 2010, pp. 809-810.

[109] M. S. Binwahlan, N. Salim, and L. Suanmali, "Swarm Based Text Summarization," in International Association of Computer Science and Information Technology - Spring Conference. (IACSITSC), Singapore, 2009, pp. 145-150.

[110] J. Carbonell and J. Goldstein, "The use of MMR, diversity-based reranking for reordering documents and producing summaries," in Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval, Melbourne, Australia, pp. 335-336, 1998.

[111] J. Goldstein, V. Mittal, J. Carbonell, and J. Callan, "Creating and evaluating multi-document sentence extract summaries," in Ninth international conference on Information and knowledge management (CKIM), McLean, Virginia, United States, 2000, pp. 165-172.

Bibliografía 125

[112] H. Lei, H. Yanxiang, W. Furu, and L. Wenjie, "Modeling Document Summarization as Multi-objective Optimization," in Third International Symposium on Intelligent Information Technology and Security Informatics (IITSI), China, 382-386, 2010, pp. 382-386.

[113] D. Harman and P. Over, "The DUC summarization evaluations," in Second international conference on Human Language Technology Research, San Diego, California, 2002, pp. 44-51.

[114] H. Jing, R. Barzilay, K. Mckeown, and M. Elhadad, "Summarization Evaluation Methods: Experiments and Analysis," in AAAI Symposium on Intelligent Summarization 1998, pp. 51-60.

[115] C.-Y. Lin, "Rouge: a package for automatic evaluation of summaries," in ACL-04 Workshop on Text Summarization Branches Out, Barcelona, Spain, 2004, pp. 74-81.

[116] H. Tingting, C. Jinguang, M. Liang, G. Zhuoming, L. Fang, S. Wei, and W. Qian, "ROUGE-C: A fully automated evaluation method for multi-document summarization," in IEEE International Conference on Granular Computing, Hangzhou, 2008, pp. 269-274.

[117] C. Cotta, "Una Visión General de los Algoritmos Meméticos," Rect@: Revista Electrónica de Comunicaciones y Trabajos de ASEPUMA, vol. 3, pp. 139-166, 2007.

[118] J.-K. Hao, "Memetic Algorithms in Discrete Optimization," in Handbook of Memetic Algorithms. vol. 379, F. Neri, C. Cotta, and P. Moscato, Eds., ed: Springer Berlin Heidelberg, 2012, pp. 73-94.

[119] P. Hansen and N. Mladenović, "An introduction to variable neighborhood search," Metaheuristics, Advances and Trends in Local Search Paradigms for Optimization, pp. 433-458, 1999.

[120] C. Voudouris and E. Tsang, "Guided local search and its application to the traveling salesman problem," European Journal of Operational Research, vol. 113, pp. 469-499, 1999.

[121] J.-F. Cordeau and G. Laporte, "Tabu search heuristics for the vehicle routing problem," in Metaheuristic Optimization via Memory and Evolution: Tabu Search and Scatter Search, Boston, 2004, pp. 145–163.

[122] L. J. Eshelman, "The CHC Adaptive Search Algorithm: How to Have Safe Search When Engaging in Nontraditional Genetic Recombination," in Foundations of Genetic Algorithms, G. J. E. Rawlings, Ed., ed: Morgan Kaufmann, 1990, pp. 265-283.

[123] A. Bossard, M. Genereux, and T. Poibeau, "Description of the LIPN Systems at TAC 2008: Summarizing Information and Opinions," in In Notebook Papers and Results, Text Analysis Conference (TAC-2008), 2008.

[124] C. Silla, Jr., G. Pappa, A. Freitas, and C. A. Kaestner, "Automatic text summarization with genetic algorithm-based attribute selection," in LNCS Advances in Artificial Intelligence. vol. 3315, C. Lemaître, C. Reyes, and J. González, Eds., ed: Springer Berlin Heidelberg, 2004 pp. 305-314.

[125] V. Gupta, P. Chauhan, and S. Garg, "An Statistical Tool for Multi-Document Summarization," International Journal of Scientific and Research Publications, vol. 2, pp. 1-5, 2012.

[126] S. N. Sivanandam and S. N. Deepa, Introduction to Genetic Algorithms: Springer Publishing Company, Incorporated, 2008.

[127] C. Voudouris and E. Tsang, "Guided Local Search," in Handbook of Metaheuristics. vol. 57, F. Glover and G. Kochenberger, Eds., ed Colchester: Springer US, 2003, pp. 185-218.

[128] G. Ochoa, S. Verel, and M. Tomassini, "First-improvement vs. best-improvement local optima networks of NK landscapes," in LNCS Parallel Problem Solving from Nature. vol. 6238, R. Schaefer, C. Cotta, J. Kołodziej, and G. Rudolph, Eds., ed: Springer-Verlag, 2010, pp. 104-113.

[129] D. Gillick, "Sentence boundary detection and the problem with the U.S," presented at the Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, Boulder, Colorado, pp. 241-244, 2009.

[130] A.E. Eiben and S. K. Smit, "Evolutionary Algorithm Parameters and Methods to Tune Them," in Autonomous Search, E. M. In Y. Hamadi, F. Saubion, Ed., ed: Springer Berlin Heidelberg, 2012, pp. 15-36.

[131] C. Cobos, D. Estupiñán, and J. Pérez, "GHS + LEM: Global-best Harmony Search using learnable evolution models," Applied Mathematics and Computation, vol. 218, pp. 2558-2578, 2011.

[132] X. Wan, J. Yang, and J. Xiao, "Manifold-ranking based topic-focused multi-document summarization," in 20th international joint conference on Artificial intelligence (IJCAI), Hyderabad, India, 2007, pp. 2903-2908

[133] R. M. Aliguliyev, "Performance evaluation of density-based clustering methods," Information Sciences, vol. 179, pp. 3583-3602, 2009.

[134] G. Sidorov, A. Gelbukh, H. Gómez-Adorno, and D. Pinto, "Soft Similarity and Soft Cosine Measure: Similarity of Features in Vector Space Model," Computación y Sistemas, vol. 18, 2014.

Generación automática de resú-menes extractivos de múltiples documentos basada en algorit-

mos meméticos

ANEXOS

Directora:

Ph.D. Elizabeth León Guzmán

Doctorado en Ingeniería de Sistemas y Computación

Línea de Investigación:

Sistemas Inteligentes y Recuperación de la información

Grupo de Investigación:

MIDAS – Minería de datos

Generación automática de resúmenes extractivos de múltiples documentos basada en algoritmos meméticos

Anexo A

Título Generación automática de resúmenes de múltiples documentos basada en la mejor búsqueda armónica global y búsqueda local codiciosa.

Notas No publicado.

Generación automática de resúmenes de múltiples documentos

basada en la mejor búsqueda armónica global y búsqueda local

codiciosa

1 Representación de la colección de documentos

La colección de documentos se representa como el conjunto de todas las oraciones que la componen [1], es decir, D={s1, s2,…, sm} donde m es el número total de oraciones de la colección. El objetivo es obtener un subconjunto de D con las oraciones que satisfagan los factores definidos para generar el resumen. La oración es representada como un vector con los pesos de los términos, como se observa en la Ecuación (1).

si⃗⃗ = {𝑤𝑖1, 𝑤𝑖2, … , 𝑤𝑖𝑘 , … , 𝑤𝑖𝑚} (1)

Donde m es el número de oraciones de la colección de documentos, wim es el peso de término tm en la oración si. El componente wik se define usando la matriz de términos por oración tf-isf, la cual asigna un valor mediante la combinación de la frecuencia de términos y la frecuencia inversa de términos. El esquema asigna el peso como se observa en la Ecuación (2).

𝑤𝑖𝑘 = 𝑓𝑖𝑘x log(n/𝑛𝑘) (2)

Donde fik representa la frecuencia del término, nk denota el número de oraciones en las cuales aparece el término tk y log(n/nk) representa el factor isf.

2 Función Objetivo

Un resumen debe contener los aspectos principales de la colección de documentos con la menor pérdida de información, por tanto, las oraciones seleccionadas deben abarcar la mayor cantidad de información contenida dentro del conjunto de oraciones, es decir, tener la mayor cobertura posible. Además, el manejo de la redundancia es un factor crucial dado que un buen resumen debe evitar la información repetida en el mismo, es decir, tener la menor redundancia posible. La función objetivo que se usa en este trabajo contempla estos dos factores, cobertura y redundancia, en una única expresión como se muestra en la Ecuación (3).

Fc = ∑ ∑ [𝑠𝑖𝑚𝑐𝑜𝑠(𝐷, 𝑠𝑖) + 𝑠𝑖𝑚𝑐𝑜𝑠(𝐷, 𝑠𝑗) − 𝑠𝑖𝑚𝑐𝑜𝑠(𝑠𝑖, 𝑠𝑗)]𝑥𝑖,𝑗

𝑗=𝑖+1

𝑛−1

𝑖=1

Donde D representa todas las oraciones de la colección de documentos (en este caso, es el

centroide de la colección); si y sj representan las oraciones del resumen; simcos(D,si) es la

similitud de cosenos entre el vector de términos de la oración si y el vector de términos de D;

simcos(D,sj) es la similitud de cosenos entre el vector de términos de la oración sj y el vector de

términos de D; simcos(si,sj) es la similitud entre las dos oraciones y n es la cantidad de oraciones

que hay en el resumen. Esta función objetivo debe cumplir con la restricción de la Ecuación (4).

SlSummarys

Donde, li es la longitud de la oración si (medida en palabras) y S es el número máximo de

palabras permitidas en el resumen generado.

3 Algoritmo GHS-MultiDocument

El método propuesto para generación automática de resúmenes en este artículo está basado

en un algoritmo memético, buscando de esta forma mejores resultados que los obtenidos por

los algoritmos genéticos, dado que estos se concentran en explorar el espacio de soluciones,

mientras que los meméticos hacen exploración pero además hacen explotación buscando

encontrar a una mayor velocidad soluciones óptimas.

3.1 Esquema general

El algoritmo memético propuesto para generación automática de resúmenes presenta el

esquema general de la Figura 1, los pasos se explican a continuación.

HM.Inicializar: Generación de la memoria armónica inicial. La memoria está compuesta por

HMS (Tamaño de la memoria armónica) agentes que se generan de forma aleatoria. Cada

agente está compuesto de N memes cuya representación es binaria, donde un meme tiene un

uno para indicar la presencia de esa oración como parte del resumen candidato y un cero en

caso contrario. Cada vez que un meme se coloca en uno, se verifica que no se viole la

restricción de máxima de cantidad de palabras del resumen y de esta forma, se controla la

cantidad de oraciones que tendrá el agente generado. Si es necesario se aplica un proceso de

reparación, donde se quita (apaga) la oración que tiene menos aporte en el resumen (medido

en la similitud de cosenos de la oración frente a la colección de documentos dividido por la

longitud de la oración) y se siguen incluyen oraciones desde que no sobrepasen el tamaño

máximo del resumen, seleccionando primero las de mayor valor, es decir, las de mayor similitud

a la colección de documentos (mayor cobertura).

HM.Evaluar: Cálculo de la aptitud. Para cada agente presente en la memoria armónica se

calcula la función de aptitud (fitness) basado en la Ecuación (3).

HM.Optimizar: Optimización de la población inicial. Cada agente generado de forma aleatoria

en la población inicial, es optimizado de acuerdo a una probabilidad (op) por medio de

búsqueda local codiciosa. Luego se calcula el nuevo valor de aptitud y se ordena la población

de mayor a menor basado en este nuevo valor de aptitud.

Creación de la nueva armonía: Los pasos 8 a 22 permiten crear una nueva armonía. Esta

armonía es el resultado dimensión (oración) a dimensión de tres reglas principales definidas en

el algoritmo original (Global-best Harmony Search, GHS) propuesto en 2008 por Mahamed G.H.

Omran y Mehrdad Mahdavi [2]. Las reglas son: 1) Consideración de la memoria armónica, 2)

Ajuste de tono basado en conceptos de Optimización por Enjambres de Partículas (Particle

Swarm Optimization, PSO), y 3) Selección aleatoria del espacio de búsqueda de la dimensión

(En este caso es 0 o 1). Si se requiere se aplica el mismo proceso de reparación previamente

explicado. Luego a la nueva armonía se le calcula la aptitud y si es el caso se optimiza.

Finalmente, si la nueva armonía es mejor que la peor armonía de la memoria armónica, la

nueva armonía la remplaza en la memoria.

Figura 1 Esquema general del algoritmo GHS-MultiDocument