Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí-...

21
Fuentes para la actualización de macro- tesauros: Noticias de divulgación científica María José Baños Moreno Master en Gestión de Información en las Organizaciones Facultad de Comunicación y Documentación Universidad de Murcia Julio, 2013

Transcript of Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí-...

Page 1: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Fuentes para la actualización de macro-tesauros: Noticias de divulgación científica

María José Baños MorenoMaster en Gestión de Información en las Organizaciones

Facultad de Comunicación y Documentación

Universidad de Murcia

Julio, 2013

Page 2: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Introducción

• Contexto: ritmo exponencial del crecimiento de la información y la dispersión de datos

• Productos que tratan de solucionar el problema: los tesauros. Fines:

o Describir la informacióno Recuperar la informacióno Servir de fuente para elaborar otras herramientas que respondan

a necesidades específicas

• Tesauros analizados: Unesco y Unión Europea, fundamentales para la construcción de otros productos

Diapositiva 2

Page 3: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

  Tunesco TeurovocEntidad UNESCO Unión EuropeaCreación 1977 1984

Objeto Análisis temático y búsqueda de documento

Tratamiento de información generada

internamenteCampos Multidisplinar MultidisplinarJerarquía Monojerárquico Polijerárquico

Idiomas Español, inglés, francés y ruso

22 lenguas UE + Croata + Serbio

Actualización 2008 2012

Características de los Tesauros de la Unesco (Tunesco) y Unión Europea (Teurovoc). FUENTE: Elaboración propia a partir de la información que consta en las webs de las respectivas

instituciones

Diapositiva 3

Page 4: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Objetivos

• Analizar el grado de actualización de Tunesco y Teurovoc. Consideración: indicador de calidad extrínseca

• Conocer si las noticias de divulgación científica pueden ser utilizadas como fuente de renovación

• Determinar si estos vocabularios resultan adecuados para describir noticias de divulgación científica

Diapositiva 4

Page 5: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

MetodologíaMuestra: corpus de 1599 noticias de divulgación científica, obtenidas a partir de la selección sucesiva de países, diarios, secciones y titulares durante 4 meses (del 9 de marzo al 9 de julio de 2012)

Dos submuestras: M1: 159 noticias (10%) M2: 320 noticias (20%)

País MedioAlemania Süddeutsche ZeitungCanadá The Global and Mail

ChinaChina DailyThe China Post

Corea The Korea TimesEspaña El Mundo

EE.UUThe New York TimesThe Washington Post

Francia Le MondeItalia La ReppublicaJapón Yomiuri ShimbunReino Unido The Daily TelegraphRusia* Pravda

Selección de países y medios y conformación de las sub-muestras M1 y M2. FUENTE: Elaboración propia

Diapositiva 5

Page 6: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Metodología• Indización manual y en

lenguaje natural de titulares• Traducción a español, inglés y

francés• Búsqueda automática de

equivalencias con N-gramas y Apache Solr

• Clasificación de resultados según equivalencias

• Cálculo de estadísticas• Cálculo de precisión exacta,

cercana y total

Código Relación

TC Equivalencia exacta

TS Sinonimia

TE Específica

TG Genérica

TR Asociativa

TN* Nueva

TFE Falsa equivalencia

Códigos de clasificación de resultados para cada par de términos. FUENTE: Elaboración

propia

Diapositiva 6

Page 7: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Método N-gramasSUB-MUESTRA M1, 10% NOTICIAS

1.Identificación de los bi-gramas únicos solapados:

•Cálculo del Coeficiente de Dice (Cd), en cada idioma, para cada par de términos (titular y tesauro) y de la media (Msi) de los tres idiomas

•Selección del término con Msi más elevada, entre posibles candidatos

•Clasificación de medias (Msi) en intervalos agrupados de similitud: [0 – 0,6), [0,6 – 0,8) y [0,8 – 1]

Diapositiva 7

Page 8: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Método N-gramas, resultados

≈ 55% de términos correctos (TC)

≈ 6% de relaciones de tipo jerárquico (TE + TG)

≈ 10% de términos relacionados (TR)

+ 22% de falsos equivalentes (TFE)

  Tunesco Teurovoc  Total % Total %

TC 161 53,49 176 58,47TS 7 2,33 4 1,33TG 7 2,33 9 2,99TE 15 4,98 11 3,65TR 28 9,30 30 9,97

TFE 83 27,57 69 22,92Clasificación de términos de acuerdo a resultados obtenidos con N-gramas. FUENTE: Elaboración

propia

Diapositiva 8

Page 9: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Un par de ejemplos de falsos equivalentes

“dinosaurio” y “tesauro” Grado de equivalencia: 0,40

“evacuación” y “devaluación” Grado de equivalencia: 0,75

Diapositiva 9

Page 10: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Método Apache SolrSUB-MUESTRA M2, 20% NOTICIAS

•Construcción de una colección de documentos (términos del tesauro)

Campo Descripciónid Identificador del conceptotype Tesauro (Tunesco ó Teurovoc)des_es Término descriptor en Españoldes_fr Término descriptor en Francésdes_en Término descriptor en Inglésnd_es Término no-descriptor en Españolnd_fr Término no-descriptor en Francésnd_en Término no-descriptor en Inglés

Estructura de campos para la indización de términos como documentos en Apache Solr. FUENTE: Elaboración propia

Diapositiva 10

Page 11: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Método Apache Solr• Ecuación de búsqueda (términos extraídos) compuesta por 7

procesos para hallar la mejor correspondencia entre términos:

• Apache Solr proporciona una medida de similitud o score entre pares de términos

Diapositiva 11

Consulta Descripción Boost

Q1 Palabras, en índice general 2,5Q2 Literal, en el campo descriptor 5Q3 Literal, en el campo no-descriptor 3Q4 Expresión lematizada, en el campo descriptor 0Q5 Expresión lematizada, en el campo no-descriptor 0Q6 Palabras lematizadas, en campo descriptor 0Q7 Palabras lematizadas en campo no-descriptor 0

Consultas efectuadas en Apache Solr. FUENTE: Elaboración propia

Page 12: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Método Apache Solr, resultados

- 50% de términos extraídos tenían similitud exacta

≈ 15% mantienen una relación de jerarquía

≈ 12% guardan una relación de tipo asociativo (TR)

Para ≈ 25% no se halló ninguna relación (términos nuevos, TN) o ésta fue mal asignada (falsos equivalentes, TFE).

  Tunesco Teurovoc  Total % Total %

TC 264 44,07 290 48,41TS 14 2,34 10 1,67TG 25 4,17 43 7,18TE 69 11,52 42 7,01TR 75 12,52 70 11,69

TFE 69 11,52 83 13,86TN 83 13,86 61 10,18

Clasificación de términos de acuerdo a resultados obtenidos con Apache Solr.

FUENTE: Elaboración propia

Diapositiva 12

Page 13: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Resultados (TFE y TN)

Diapositiva 13

Términos Falsos Equivalentes y Nuevos devueltos por ambas técnicas para

Tunesco. FUENTE: Elaboración propia

Términos Falsos Equivalentes y Nuevos devueltos por ambas técnicas para

Teurovoc. FUENTE: Elaboración propia

Page 14: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Un ejemplo de falso equivalente

“virus animal” y “virus informático” (Teurovoc) –> TFE“virus animal” y “virus” (Tunesco) -> TG

Diapositiva 14

Page 15: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Resultados de precisión

• Para evaluar la eficacia de cada método, se calculó su precisión (P) con cada macro-tesauro:

• Se realizaron varios cálculos:

Precisión exacta (PEX): tiene en cuenta los términos correctos (TC)

Precisión cercana (PCLOSE): añade los sinónimos (TC + TS)

Precisión total (PTOTAL): incluye cualquier tipo de relación entre términos (TC+TS+TE+TG+TR)

Diapositiva 15

Page 16: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Pre

cisi

ón t

otal

Pre

cisi

ón c

erca

na

Diapositiva 16

Pre

cisi

ón e

xact

aResultados• Método N-gramas aporta mejores

resultados• Teurovoc, ligeramente más

actualizado

Datos de precisión para cada técnica y tesauro. FUENTE: Elaboración propia

Page 17: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Discusión• Influencia de la especialización de los campos

elegidos

• Subjetividad de la indización humana

• Ausencia de relación semántica entre pares de términos: las técnicas empleadas se basan en el cálculo de similitud morfológica

• No se ha profundizado en las relaciones entre términos presentes en los tesauros. Se aprecia la necesidad de revisión, para la redefinición de categorías y relaciones

Diapositiva 17

Page 18: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Conclusiones: los macro-tesauros

En cuanto a los OBJETIVOS 1 y 3:

•Es necesaria una mayor frecuencia de revisión de Tunesco y Teurovoc para incrementar su grado de actualización

•Por tanto, ninguno debe ser utilizado para describir noticias de divulgación

•Sin embargo, sí que se pueden utilizar como base para la construcción de otras herramientas. En este sentido, un trabajo posterior podría analizar el uso concreto de Tunesco y Teurovoc como punto de partida de otros vocabularios

Diapositiva 18

Page 19: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Conclusiones: las noticias

En cuanto al OBJETIVO 2:

•Las noticias de divulgación científica son una fuente adecuada para la actualización de estos macro-tesauros. Incluyen muchos términos no contemplados por éstos, que son reflejo de la evolución en ciencia y tecnología

•En el futuro, un estudio podría centrarse en la utilidad de la información periodística para la construcción y/o actualización de otros tesauros o herramientas de organización del conocimiento distintas

Diapositiva 19

Page 20: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

Conclusiones: las técnicas

• Los lenguajes pivote permiten resolver casos de homonimia, polisemia y riqueza lingüística. En el futuro se podrían añadir al análisis otras lenguas

• La lematización es necesaria. No se ha utilizado en N-gramas, provocando errores en los resultados. Un estudio posterior podría trabajar en esta cuestión

• La paronimia ha elevado el número de TFE. Ejemplo: “corrupción política” y “coalición política”. Es otra línea futura para mejorar el método N-gramas

• Las precisiones exacta y cerca son aproximadamente un 10% mejores para la técnica N-gramas. Pero Apache Solr aporta como ventaja los TN, para los que no existe equivalencia. Otra línea de investigación podría centrarse en el análisis concreto de los datos obtenidos para cada palabra clave extraída y técnica, analizando las diferencias

Diapositiva 20

Page 21: Propuesta de actualización de macrotesau- ros a partir de noticias de divulgación cientí- fico-tecnológica: aplicación del método N-gramas

GRACIAS POR VUESTRAATENCIÓN