Indice Manual Indizacion Gil Leiva 2008

12

Transcript of Indice Manual Indizacion Gil Leiva 2008

MANUAL DE INDIZACIN

Teora y prctica

Isidoro Gil Leiva

EDICIoNEs TrEA, s. L

BIBLIoTECoNoMA Y ADMINIsTrACIN CULTUrAL 193 Isidoro Gil Leiva, 2008 de esta edicin: Ediciones Trea, s. L. Polgono Industrial de somonte Mara Gonzlez, la Pondala, 98, nave d 33393 somonte, Cenero. Gijn (Asturias) Tel.: 985 303 801. Fax: 985 303 712 [email protected] www.trea.es Direccin editorial: lvaro Daz Huici Coordinacin editorial: Pablo Garca Guerrero Produccin: Jos Antonio Martn Maquetacin: Mara lvarez Menndez Cubiertas: Impreso Estudio (oviedo) Impresin: Grficas Apel, s. L. (Gijn) Encuadernacin: Encuadernaciones Cimadevilla, s. L. (Gijn) Depsito legal: As. 2271-2008 isbn: 978-84-9704-367-0 Impreso en Espaa Printed in Spain Todos los derechos reservados. No se permite la reproduccin total o parcial de este libro, ni su incorporacin a un sistema informtico, ni su transmisin en cualquier forma o por cualquier medio, sea este electrnico, mecnico, por fotocopia, por grabacin u otros mtodos, sin el permiso previo por escrito de Ediciones Trea, s. L. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta obra solo puede ser realizada con la autorizacin de sus titulares, salvo excepcin prevista por ley. Dirjase a cedro (Centro Espaol de Derechos repogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta obra.

PrLoGo

Con la publicacin de este nuevo libro, el profesor Isidoro Gil Leiva ampla el mbito del conocimiento sobre la indizacin iniciado en su anterior libro, La automatizacin de la indizacin de documentos (Trea, 1999), aportando, gracias a su experiencia acadmica, una visin didctica y cientfica desde la gnesis del proceso intelectual de la indizacin hasta la evaluacin de sus resultados. Mi contacto acadmico con el profesorGil Leiva se inici, justamente, gracias a su libro sobre la automatizacin de la indizacin, ya que lo he utilizado como texto de referencia para impartir clases de indizacin en biblioteconoma. Posteriormente, nuestra colaboracin cientfica se concret durante su estancia en noviembre del 2007 como investigador visitante en mi universidad, concretamente en el Departamento de Ciencia de la Informacin de la Facultad de Filosofa y Ciencia de la unesp, campus de Marlia, por medio de una ayuda otorgada por la fapesp (Fundao de Amparo Pesquisa do Estado de so Paulo) (Proc. 2006/61516-0).1 Desde entonces, venimos compartiendo conocimientos de una forma continua y provechosa. En este sentido, hacer el prlogo de esta publicacin es para m una tarea de doble importancia. En el plano acadmico y de investigacin, porque el rea carece de libros con suficiente fundamento terico y metodolgico sobre la indizacin; y en el plano pedaggico, porque la enseanza de la indizacin en las aulas necesita de libros cuyo contenido terico y metodolgico tenga claridad y consistencia para garantizar la formacin del indizador. Con esa finalidad, los dos primeros captulos son conceptuales y dedicados a una contextualizacin de la indizacin en lo que respecta a la actividad intelectual. El primer captulo del libro destaca por la importancia atribuida al proceso cognitivo que confiere a la indizacin la categora de actividad intelectual compleja y, de esta manera, la torna singular. De esta forma, el libro se distingue de los dems en la medida en que aborda la indizacin como proceso cognitivo que busca la comprensin para alcanzar su ob1

Informe cientfico aprobado por la Direccin cientfica de la fapesp el 22/04/2008.

[8]

MANUAL DE INDIZACIN. TEorA Y PrCTICA

jetivo. En este contexto, este captulo inicial pone el nfasis en el indizador que realiza un proceso cognitivo orientado a la indizacin y avanza desde la variable texto, en cuanto elemento de comunicacin, hasta el lector, con su conocimiento previo necesario para el proceso de comprensin. Es conveniente resaltar que los estudios cognitivos vienen ofreciendo importantes hallazgos respecto a la mente humana y sus capacidades, entre ellas la comprensin lectora. La concepcin de la comprensin lectora se ampli, considerablemente, en las ltimas dcadas en lo que respecta a la participacin del lector. La actitud del lector frente al texto, anteriormente vista como recepcin pasiva de mensajes, pas a considerar el procesamiento mental de informacin de la comprensin y evolucion hacia una perspectiva de interaccin entre el lector y el texto. El conocimiento previo para la comprensin depende del conocimiento existente en la memoria a largo plazo, un repositorio de conocimientos con un tiempo y una capacidad de almacenamiento permanente e ilimitado y que posee una estructura de conocimiento basada en una red semntica de informaciones que conecta sus nos mediante asociaciones significativas entre conceptos, hechos, acciones, etctera, all representados. Para realizarse el proceso de comprensin, es necesario que la memoria a largo plazo tenga los llamados esquemas o representaciones generalizadas de ambientes, situaciones familiares e informaciones para que se hagan asociaciones con todo aquello que se est viendo, escuchando y leyendo. Para el indizador, el dominio de las tipologas documentales y de las estructuras textuales son dos tipos de conocimientos previos que podrn aumentar su comprensin durante el proceso de bsqueda de la temtica textual para la identificacin y seleccin de conceptos. Entonces, cuando hablamos de lectura para la indizacin, podemos decir que el indizador necesita comprender el texto para identificar y seleccionar conceptos, pues solamente lo realizar satisfactoriamente cuando hay comprensin. La lectura documental corresponde a la primera fase del abordaje del lector-indizador con el texto durante el anlisis del asunto. La finalidad, en ese primer momento, es la identificacin de conceptos que caracterizan el asunto tratado en el documento y, en un segundo momento, la seleccin de los conceptos, teniendo en cuenta el uso de esos conceptos. El captulo referente a la indizacin se abre con la conceptualizacin del proceso, donde se lleva a cabo una necesaria distincin entre la elaboracin de ndices y la indexacin y el proceso para la representacin del contenido documental mediante identificacin y seleccin de conceptos. La construccin de ndices es una prctica bastante antigua en el tratamiento de los documentos. Basta recordar que en las bibliotecas de la Antigedad ya existan listas de documentos almacenados de ese modo. Entretanto, a partir del momento en que la ordenacin de esas listas necesit de una organizacin por asunto, se llevaron a cabo profundos cambios en el abordaje del proceso mecnico

PrLoGo

[9]

de construir ndices, es decir, se introdujo un proceso de anlisis del contenido de los documentos con la finalidad de representacin documental. En el resto del captulo, adems de la normalizacin de la indizacin y de la relacin de esta con la recuperacin, se abordadan, con una buena ejemplificacin prctica, las cualidades de la indizacin exhaustividad, especificidad, correccin y consistencia, as como un interesante y oportuno epgrafe sobre la indizacin en Internet. Los captulos siguientes estn organizados segn una secuencia lgica en cuanto a la realizacin del proceso y su evaluacin, lo que permite la comprensin natural tanto por aprendices de la indizacin como por profesionales, en la medida en que se dedican al uso de las herramientas en la indizacin, la prctica de la indizacin, la indizacin automtica y la evaluacin de la indizacin. Teniendo en cuenta la importancia de los lenguajes de indizacin como herramientas de mediacin de la comunicacin del contenido del documento, el captulo las identifica como lista de palabras clave, lista de descriptores, cdigos de categora temtica, as como las ms utilizadas: lista de encabezamientos de materia y tesauros. En el tem dedicado a los tesauros, el libro ofrece un contenido dedicado a los softwares de gestin de tesauros para dominios de asunto que necesitan de controles de vocabularios ms especficos, lo que se torna ms conveniente para unidades de informacin, archivos, bibliotecas y centros de informacin, cada vez ms especializados. Esas herramientas de control del vocabulario, conocidas en la literatura como lenguajes documentales o lenguajes de indizacin, son un conjunto controlado de trminos dotados de reglas sintcticas y semnticas cuyo objetivo es la representacin de los conceptos significativos de asuntos de los documentos durante la indizacin, en la fase de traduccin, y representacin del asunto de inters del usuario durante la bsqueda. La prctica de la indizacin es vista desde distintas perspectivas: desde el proceso realizado con el uso, tanto del lenguaje natural como de los vocabularios controlados (tesauro o listas de encabezamientos de materia); desde la tipologa de documentos audiovisuales, sonoros, grficos o textuales, y desde las polticas en grandes bases de datos documentales como en Agricola e inspec, entre otras. Cabe resaltar la importancia de abordar con claridad la existencia de esas polticas de indizacin en sistemas de informacin que producen bases de datos con el fin de legitimar la consistencia y la uniformidad en la actuacin del indizador. En el captulo quinto, sobre la indizacin automtica, se aborda la complejidad del proceso a partir del conocimiento terico o metodolgico de reas que contribuyen a la creacin interdisciplinar de un conjunto de herramientas. En el epgrafe dedicado a los prototipos para la indizacin automtica, se presenta el sistema de Indizacin semiautomtico (sisa), un software diseado por el autor que es objeto de anlisis y evaluacin. Durante la estancia en Brasil del profesor Gil Leiva, comentada anterior-

[10]

MANUAL DE INDIZACIN. TEorA Y PrCTICA

mente, llev a cabo la presentacin de los principales marcos tericos de la indizacin automtica, la evaluacin mediante ndices de consistencia de catlogos y bases de datos bibliogrficas y, especialmente, del software sisa, por el que los alumnos mostraron mucho inters, tanto acerca de su funcionamiento como de su evaluacin. En un contexto de aprendizaje, el software sisa es una herramienta que ofrece la posibilidad de la comprensin terica y metodolgica del proceso de indizacin con una doble ventaja: la identificacin automtica de trminos y la seleccin manual compatible con un lenguaje documental para el control del vocabulario y de criterios cualitativos de indizacin. El ltimo captulo aborda la evaluacin de la indizacin en sus aspectos intrnseco y extrnseco. Esa distincin se refiere, por un lado, a la evaluacin intrnseca, cualitativa o cuantitativa, como los resultados de la indizacin, los descriptores, encabezamientos o identificadores, y, por otro lado, a la evaluacin extrnseca, cuando se usan los resultados de la indizacin en estudios comparados con diferentes catlogos o herramientas de recuperacin de la informacin. De modo muy didctico y, tambin, innovador, el autor expone las frmulas de evaluacin intrnseca y extrnseca acompaadas de ejemplos que esclarecen la aplicabilidad de sus resultados. Es absolutamente imprescindible la evaluacin del proceso de indizacin por parte del indizador, aunque, en la prctica, no se priorizan en los sistemas de informacin. Entretanto, este Manual de indizacin ofrece la posibilidad de diversos esclarecimientos con relacin a la prctica continua de los mtodos de evaluacin. Como reflexin final, cabe sealar que el mrito de este obra es conciliar la teora y la prctica de la indizacin, una tarea aparentemente simple cuando se piensa en la identificacin de palabras clave de un texto, pero innovadora, porque entendemos que la actuacin del indizador no est aislada, sino inmersa en una poltica de indizacin. Maringela spotti lopes fujita Departamento de Ciencias de la Informacin de la Universidad Estadual Paulista (unesp) (Marlia, so Paulo)

NDICE

1. El proceso cognitivo y la indizacin ............................................................................... 1.1. organizacin de la comunicacin............................................................................... 1.1.1. Discurso textual .............................................................................................. 1.1.1.1. Concepto de texto............................................................................... 1.1.1.2. Criterios de textualidad ...................................................................... 1.1.1.3. Estructura del texto ............................................................................ 1.1.1.4. Tipos de texto ..................................................................................... 1.2. Percepcin sensorial de la informacin ....................................................................... 1.3. Activacin de la memoria ........................................................................................... 1.3.1. Memoria sensorial........................................................................................... 1.3.2. Memoria a corto y memoria a largo plazo ...................................................... 1.4. Comprensin.............................................................................................................. 1.4.1. Estrategias y procesos en la comprensin ........................................................ 1.4.2. Elementos para la comprensin ....................................................................... 1.4.2.1. Cohesin discursiva ........................................................................... 1.4.2.2. Coherencia discursiva ........................................................................ 1.4.2.2.1. Tema oracional [42]. 1.4.2.2.2. Tema textual [47].

15 16 16 16 18 19 22 28 28 30 30 32 32 36 37 40

2. La indizacin.................................................................................................................. 52 2.1. Concepto de indizacin .............................................................................................. 52 2.1.1. ndice e indexacin versus indizacin .............................................................. 61 2.2. Cualidades de la indizacin ........................................................................................ 67 2.2.1. Exhaustividad ................................................................................................. 67 2.2.2. Especificidad ................................................................................................... 68 2.2.3. Correccin ...................................................................................................... 69 2.2.4. Consistencia .................................................................................................... 69 2.3. Indizaciones de un documento ................................................................................... 73 2.4. Zonas de extraccin de conceptos y tiempo dedicado ................................................ 79 2.5. Normas sobre indizacin............................................................................................ 80 2.6. relacin entre indizacin y recuperacin ................................................................... 81 2.7. Indizacin en Internet................................................................................................. 90 2.8. Cronologa de la indizacin........................................................................................ 107

[12]

MANUAL DE INDIZACIN. TEorA Y PrCTICA

3. Herramientas para la indizacin..................................................................................... 3.1. Lenguaje natural versus lenguaje controlado .............................................................. 3.2. Listas de palabras clave .............................................................................................. 3.3. Listas de descriptores ................................................................................................. 3.4. Cdigos de categora temtica .................................................................................... 3.5. Listas de encabezamientos de materia ........................................................................ 3.4.1. Definicin........................................................................................................ 3.4.2. Aportaciones para su configuracin ................................................................ 3.4.3. Principios y reglas ........................................................................................... 3.4.4. relaciones semnticas ..................................................................................... 3.6. Tesauros ..................................................................................................................... 3.6.1. Definicin y uso .............................................................................................. 3.6.2. Composicin ................................................................................................... 3.6.3. Normas y directrices ....................................................................................... 3.6.3.1. La norma iso 2788-1986: Tesauros monolinges ............................... 3.6.4. Construccin de tesauros ................................................................................ 3.6.4.1. software de gestin de tesauros ......................................................... 3.6.5. Mantenimiento y actualizacin ....................................................................... 3.6.6. Evaluacin ...................................................................................................... 3.6.6.1. Evaluacin intrnseca ......................................................................... 3.6.6.2. Evaluacin extrnseca ........................................................................ 3.6.7. Lenguajes de marcado para tesauros ............................................................... 3.6.7.1. skos-Core .......................................................................................... 3.6.7.2. Zthes ................................................................................................. 3.6.8. Tesauros versus ontologas .............................................................................. 3.7. Interoperabilidad entre vocabularios controlados....................................................... 4. Prctica de la indizacin ................................................................................................. 4.1. Proceso de la indizacin ............................................................................................. 4.1.1. Indizacin con lenguaje natural ....................................................................... 4.1.2. Indizacin con vocabulario controlado ........................................................... 4.1.2.1. Indizacin con tesauro ....................................................................... 4.1.2.2. Indizacin con listas de encabezamientos de materia ......................... 4.2. Indizacin de documentos .......................................................................................... 4.2.1. Documentos audiovisuales .............................................................................. 4.2.2. Documentos sonoros ....................................................................................... 4.2.3. Documentos grficos ....................................................................................... 4.2.4. Documentos textuales ..................................................................................... 4.3. Polticas de indizacin ................................................................................................ 4.3.1. Bases de datos documentales ........................................................................... 4.3.1.1. La indizacin en agrcola .................................................................. 4.3.1.2. La indizacin en inspec....................................................................... 4.3.1.3. La indizacin en current contents .................................................... 4.3.1.4. La indizacin en eric.......................................................................... 4.3.1.5. La indizacin en Medline....................................................................

113 113 115 116 119 122 122 123 129 141 146 146 148 151 153 187 202 208 213 213 215 217 218 220 224 233 245 245 247 251 252 259 261 261 269 276 288 298 300 300 304 308 309 314

NDICE

[13] 319 319 322 324 325 326 327 328 329 330 333 333 334 336 337 338 339 345 349 361 363 364 365 366 368 385 385 385 386 388 388 392

5. Indizacin automtica .................................................................................................... 5.1. Concepto.................................................................................................................... 5.2. Interdisciplinariedad en la indizacin automtica ....................................................... 5.2.1. Lingstica....................................................................................................... 5.2.2. Terminologa ................................................................................................... 5.2.3. Informtica ..................................................................................................... 5.2.4. Lingstica computacional............................................................................... 5.2.5. Estadstica ....................................................................................................... 5.3. Herramientas para la indizacin automtica .............................................................. 5.3.1. Listas de palabras vacas ................................................................................. 5.3.2. Ponderacin de trminos ................................................................................. 5.3.2.1. Ley de Zipf ........................................................................................ 5.3.2.2. Frecuencia del trmino ....................................................................... 5.3.2.3. Inverse document frequency .............................................................. 5.3.2.4. Valor de discriminacin del trmino................................................... 5.3.3. Analizadores lingsticos ................................................................................. 5.3.3.1. Analizador morfolgico ..................................................................... 5.3.3.2. Analizador sintctico ......................................................................... 5.3.3.3. Analizador semntico ........................................................................ 5.3.4. Algoritmos ...................................................................................................... 5.3.5. Vocabularios controlados y ontologas ............................................................ 5.3.6. reconocedores de nombres propios y siglas .................................................... 5.3.7. Heursticas ...................................................................................................... 5.4. Prototipos para la indizacin automtica ................................................................... 5.4.1. sisa .................................................................................................................. 6. Evaluacin de la indizacin ............................................................................................ 6.1. Evaluacin intrnseca ................................................................................................. 6.1.1. Evaluacin intrnseca cualitativa ..................................................................... 6.1.2. Evaluacin intrnseca cuantitativa ................................................................... 6.2. Evaluacin extrnseca ................................................................................................. 6.2.1. Evaluacin extrnseca mediante la interconsistencia ........................................ 6.2.2. Evaluacin extrnseca mediante la recuperacin ..............................................

Anexo 1: Recomendaciones para un buen posicionamiento web ........................................ 401 Anexo 2: Lenguajes de encabezamientos de materia en bibliotecas nacionales ................... 403 Anexo 3: Ejemplo de metadatos usando el esquema de tesauros rdf/xml ........................... 407 Bibliografa ........................................................................................................................ 411

Captulo 1 EL ProCEso CoGNITIVo Y LA INDIZACIN

A las operaciones mentales llevadas a cabo por los seres racionales para la recepcin selectiva de informacin, para su codificacin simblica y su almacenamiento y recuperacin, se las denomina proceso cognitivo. La psicologa cognitiva es la disciplina que estudia procesos cognitivos como la percepcin sensorial de la informacin, el aprendizaje (lenguaje, lectura y escritura), la memoria o la capacidad de razonamiento. Para producir palabras clave, trminos de indizacin o los encabezamientos de materia para un documento, durante la indizacin, se desencadena una sucesin interactiva y simultnea de procesos mentales que tienen que ver precisamente con la percepcin, la manera en la que se organizan la informacin, la memoria y la comprensin. Para explicar ello nos vamos a acercar a disciplinas como la lingstica textual, la psicologa cognitiva o la comunicacin de masas. si bien casi todas las actividades mentales del proceso cognitivo estn interconectadas y son concurrentes durante la ejecucin de la indizacin, aqu las presentamos de forma secuencial para conseguir una mayor claridad expositiva.

o

rm

aci

n

Or

ga

ni

s o ria l d e la i nf

za

cin de la c o m

COMPRENSIN MEMORIA

sen

un

n

Proceso cognitivo en la indizacin

ca

i

ci

n

Perc e

pc

i