¿Por qué el control del vocabulario

55
¿Por qué el control del vocabulario Lancaster, Frederick W. El control del vocabulario en la recuperación de información. - - Valencia : Universitat de Valencia, 1995. -- Cap. I, II, III, VI, VII, X, XI y XVI. -------------------------------------------------------------------------------------------------------------- ------------- Capítulo I ¿Por qué el control del vocabulario? En los sistemas de recuperación de la información suele ser esencial el control del vocabulario utilizado para representar las materias. El control del vocabulario en la recuperación de información, como el propio título indica, trata de los distintos aspectos del control del vocabulario en el contexto de la recuperación de información. Se centra especialmente en el tesauro * ya que éste es el sistema de control del vocabulario más utilizado en la recuperación de la información durante los últimos 20 años. Sin embargo, también se han considerado otros aspectos, como el funcionamiento de los sistemas de recuperación de la información sin control del vocabulario. En la figura 1 se muestran los principales elementos de un sistema de recuperación de la información. La entrada (input) consiste en los documentos (en su sentido más amplio, impresos o de cualquier otro tipo) adquiridos por el centro de documentación que maneja el sistema. Esto implica la existencia de criterios y políticas de selección, que a su vez implican un conocimiento detallado y exacto de las necesidades de información de la comunidad a la que se dirige el sistema. Una vez adquiridos los documentos, éstos han de ser «organi-zados y controlados» de modo que puedan ser identificados y localizados en respuesta a los diferentes tipos de demandas de los usuarios. Las actividades de organización y control incluyen la clasificación, la catalogación, la indización y el resumen. Dos elementos importantes son la descripción física del documento (catalogación descriptiva) y la elección de los puntos de acceso (autores, títu-los) para su inclusión en catálogos y bibliografías. Como se observa en la figura 1 el proceso de indización implica dos fases intelectuales bastante diferentes: el «análisis conceptual» de un documento y la «traducción» de aquél a un vocabulario determinado. Para efectuar un análisis conceptual adecuado, el indizador necesita no sólo la comprensión de la materia del documento, sino también un buen conocimiento de las necesidades de los usuarios del sistema. La segunda fase del proceso de indización es la traducción del análisis conceptual a un vocabulario determinado. En la mayoría de los sistemas se cuenta con un «vocabulario controlado», es decir, un conjunto limitado de términos que deben utilizarse para representar las materias de los documentos. Este voca-bulario puede ser una lista de encabezamientos de materias, un esquema de clasificación, un tesauro o simplemente una lista «autorizada» de frases o pala-bras clave. Tras la indización, los documentos son almacenados de algún modo (base de datos de documentos) y los registros de indización se organizan en una segunda base de datos de forma que puedan ser buscados fácilmente en respuesta a distintos tipos de peticiones. La file:///C|/Mis%20documentos/Gustavo/Educacion%...ia/Procesamiento/Bibliografia/Nucleo2/P009.htm (1 de 44) [24/03/02 11:30:08 p.m.]

Transcript of ¿Por qué el control del vocabulario

¿Por qué el control del vocabulario

Lancaster, Frederick W. El control del vocabulario en la recuperación de información. -- Valencia : Universitat de Valencia, 1995. -- Cap. I, II, III, VI, VII, X, XI y XVI.---------------------------------------------------------------------------------------------------------------------------Capítulo I¿Por qué el control del vocabulario? En los sistemas de recuperación de la información suele ser esencial el control del vocabulario utilizado para representar las materias. El control del vocabulario en la recuperación de información, como el propio título indica, trata de los distintos aspectos del control del vocabulario en el contexto de la recuperación de información. Se centra especialmente en el tesauro∗ ya que éste es el sistema de control del vocabulario más utilizado en la recuperación de la información durante los últimos 20 años. Sin embargo, también se han considerado otros aspectos, como el funcionamiento de los sistemas de recuperación de la información sin control del vocabulario.En la figura 1 se muestran los principales elementos de un sistema de recuperación de la información. La entrada (input) consiste en los documentos (en su sentido más amplio, impresos o de cualquier otro tipo) adquiridos por el centro de documentación que maneja el sistema. Esto implica la existencia de criterios y políticas de selección, que a su vez implican un conocimiento detallado y exacto de las necesidades de información de la comunidad a la que se dirige el sistema. Una vez adquiridos los documentos, éstos han de ser «organi­zados y controlados» de modo que puedan ser identificados y localizados en respuesta a los diferentes tipos de demandas de los usuarios. Las actividades de organización y control incluyen la clasificación, la catalogación, la indización y el resumen. Dos elementos importantes son la descripción física del documento (catalogación descriptiva) y la elección de los puntos de acceso (autores, títu­los) para su inclusión en catálogos y bibliografías.Como se observa en la figura 1 el proceso de indización implica dos fases intelectuales bastante diferentes: el «análisis conceptual» de un documento y la «traducción» de aquél a un vocabulario determinado. Para efectuar un análisis conceptual adecuado, el indizador necesita no sólo la comprensión de la materia del documento, sino también un buen conocimiento de las necesidades de los usuarios del sistema.La segunda fase del proceso de indización es la traducción del análisis conceptual a un vocabulario determinado. En la mayoría de los sistemas se cuenta con un «vocabulario controlado», es decir, un conjunto limitado de términos que deben utilizarse para representar las materias de los documentos. Este voca­bulario puede ser una lista de encabezamientos de materias, un esquema de clasificación, un tesauro o simplemente una lista «autorizada» de frases o pala­bras clave.Tras la indización, los documentos son almacenados de algún modo (base de datos de documentos) y los registros de indización se organizan en una segunda base de datos de forma que puedan ser buscados fácilmente en respuesta a distintos tipos de peticiones. La

file:///C|/Mis%20documentos/Gustavo/Educacion%...ia/Procesamiento/Bibliografia/Nucleo2/P009.htm (1 de 44) [24/03/02 11:30:08 p.m.]

Administrador
Typewritten Text
Administrador
Typewritten Text
BD07 - 12 55 copias

¿Por qué el control del vocabulario

base de datos de los registros de indización, o «representaciones de los documentos», puede ser simplemente un fichero o un índice impreso. En la actualidad esta base de datos, normalmente, será un fiche­ro automatizado sobre cinta magnética o disco, que puede considerarse como el «índice» del documento almacenado. El índice de la figura 1 consiste en una descripción bibliográfica de cada documento de la colección junto a varios pun­tos de acceso, para que esta representación sea recuperable, no sólo por los tér­minos que describen las materias sino también por otras características como autor y título.En el diagrama se considera una base de datos bibliográfica (de documentos). Las fases no cambiarían significativamente si se tratara de una base de datos de otro tipo (p. ej., numérica). Los contenidos también han de indizarse para hacerlos accesibles, pero el «almacenamiento de documentos» será sustituido por listas automatizadas de datos (físicos, químicos, numéricos o estadísticos).Las fases de la salida del sistema (output) son muy similares a las que se dan en la entrada. Los usuarios realizan diferentes peticiones al centro de documentación y los documentalistas preparan estrategias de búsqueda para esas peticiones. Resulta oportuno considerar también en la preparación de las estra­tegias de búsqueda las fases de análisis conceptual y de traducción. La primera fase implica un análisis de la petición para determinar lo que realmente busca el usuario y la segunda consiste en la traducción del análisis conceptual al vocabu­lario del sistema. El análisis conceptual de la petición, traducido al lenguaje del sistema, es la estrategia de búsqueda, que puede considerarse como una repre­sentación de la petición, del mismo modo que el registro de indización puede contemplarse como una representación del documento. La única diferencia es que en aquélla normalmente existe «lógica» (es decir, se especifican un cierto número de relaciones lógicas entre los términos), mientras que en el registro de indización las relaciones lógicas entre los términos estarán más implícitas que explícitas.

file:///C|/Mis%20documentos/Gustavo/Educacion%...ia/Procesamiento/Bibliografia/Nucleo2/P009.htm (2 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

Una vez terminada la estrategia de búsqueda se «compara» de algún modo con las representaciones de los documentos de la base de datos. Esto puede hacerse mediante un fichero manual, índices impresos, microfilm, cinta magnética o disco. En la actualidad, la búsqueda puede hacerse online, desde un terminal en una biblioteca, aunque la base de datos esté a cientos o miles de kiló­metros de distancia. Las representaciones de los documentos que se ajustan a la estrategia de búsqueda, es decir, que satisfacen los requerimientos lógicos de la búsqueda, son recuperadas de la base de datos y ofrecidas al usuario de forma impresa o por pantalla. El proceso acaba cuando el usuario queda satisfecho con los resultados de la búsqueda. En algunos casos esto puede consistir en el con­vencimiento de que no hay nada en la base de datos que se ajuste a sus necesi­dades.La figura 1 indica con claridad el papel central que juega el vocabulario en un sistema de recuperación de la información. Los indizadores tienen que utilizar los términos de este vocabulario para representar las materias de los documentos. En las estrategias de búsqueda se utilizarán los mismos términos para la interrogación a la base de datos. Podemos hacernos una idea de lo que podría ocurrir si el sistema funcionara sin control del vocabulario examinando la lista de términos de la figura 2. Puede considerarse que todos ellos (y la lista no es completa) tienen algo que ver con el proceso de «unión» (de materiales como los metales y los plásticos). La lista contiene una amplia variedad de tipos de términos: algunos (como conexión, soldadura fuerte, encolado) representan procesos de

file:///C|/Mis%20documentos/Gustavo/Educacion%...ia/Procesamiento/Bibliografia/Nucleo2/P009.htm (3 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

unión; otros (como planchas y hojas) representan cosas que pueden ser unidas; otros representan tipos de uniones (aglomerados, soldadura); y otros se refieren a sustancias (aleaciones, colas) o instrumentos (soldadores, varillas soldadoras), propiedades de materiales o uniones (fragilidad, resistencia) o procesos que pueden afectar a las uniones (corrosión, deterioro, etc.).

Estos términos pueden aparecer en un catálogo alfabético de materias o en un índice (p.ej., de una enciclopedia o un boletín de resúmenes), donde podrían estar entremezclados con muchos otros términos relacionados con otras materias. En ese caso, la persona interesada en información sobre unión, tendría varios problemas. En primer lugar, algunos de los términos de la lista significan casi lo mismo; es decir, son sinónimos o cuasisinónimos. Un ejemplo es «láminas» y «planchas»; a nivel muy técnico, «soldadura de arco cubierto» puede ser considerado sinónimo de «soldadura de arco sumergido». Si estas variaciones terminológicas no se hacen equivalentes en el contexto de un determinado campo temático,

file:///C|/Mis%20documentos/Gustavo/Educacion%...ia/Procesamiento/Bibliografia/Nucleo2/P009.htm (4 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

sería preferible relacionar los sinónimos escogiendo uno de ellos y remitiendo a él desde los demás como en el siguiente ejemplo:

Otro problema que se presenta es que algunos términos son ambiguos fue­ra de su contexto. Así, «articulaciones» podría referirse al enlace entre dos pie­zas de una máquina o instrumento o a las uniones anatómicas y «fatiga» podría referirse a cansancio o al fenómeno de disminución de resistencia de los metales. Se debería reducir tal ambigüedad, por ejemplo, mediante un calificador entre paréntesis:

articulaciones (anatómicas) El mayor problema posiblemente sea que en una lista alfabética los térmi­nos con significados cercanos aparecerán separados. Aunque sea improbable que alguien plantee una búsqueda sobre cada aspecto del tema unión, sí es posi­ble que alguien quiera recuperar toda la información relativa a algún tipo de unión, como unión por adherencia. El orden alfabético va a separar muchos tér­minos relacionados con esa materia: adhesivos, aglomerantes, cementos, colas, gomas, etc. Sería útil para el que busca información que todos los términos con significados relacionados estuvieran unidos de algún modo, como en el siguiente ejemplo:

En el diagrama se puede observar que están representados dos tipos de relaciones. Uno es

file:///C|/Mis%20documentos/Gustavo/Educacion%...ia/Procesamiento/Bibliografia/Nucleo2/P009.htm (5 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

la relación permanente entre una cosa y tipos de esa cosa (entre un género y sus especies): fractura y rotura son siempre tipos de averías. El otro tipo de relación es más transitorio; por ejemplo, el proceso de avería puede estar inducido por otros procesos como corrosión y fatiga e influido por propiedades físicas como resistencia y tenacidad. A la relación genérica permanente a veces se la conoce como relación paradigmática o relación a priori, mientras que a la relación más transitoria (la avería puede estar ocasionada por la corrosión, pero no siempre se debe a ella ni la corrosión conduce siempre a una avería) en ocasiones se la llama relación sintagmática o a posteriori.Los ejemplos vistos, basados en los términos de la figura 2, demuestran claramente los objetivos del control del vocabulario en un sistema de recuperación de la información. Estos objetivos pueden resumirse en: 1. Facilitar la representación consistente de las materias por parte de indizadores y usuarios que recuperan, evitando la dispersión de los elementos relacionados. Esto se consigue con el control (agrupación) de los sinónimos y cuasisinónimos y la distinción de los homógrafos.2. Facilitar la realización de una búsqueda amplia sobre una materia enlazando los términos con relaciones paradigmáticas o sintagmáticas. La indización tiende a ser más consistente cuando el vocabulario utilizado está controlado. Será más probable que los indizadores estén de acuerdo sobre los términos necesarios para representar una determinada materia, si éstos son seleccionados de una lista previa que si pueden utilizar cualquier término. Lo mismo ocurre en el proceso de búsqueda: será más fácil identificar los términos apropiados a una necesidad de información si son seleccionados de una lista determinada. Por lo tanto, el vocabulario controlado facilita la coincidencia entre el lenguaje de los indizadores y el de los usuarios que hacen la búsqueda.Un vocabulario controlado no necesita más que un limitado conjunto de términos que puedan ser utilizados por el indizador y el usuario. Sin embargo, normalmente los términos están sujetos a algún tipo de estructura para que aquellos que tienen significados cercanos aparezcan juntos o relacionados de alguna forma. Ello ayudará, tanto al indizador como al usuario que hace la búsqueda, a poder seleccionar los términos más adecuados para representar una determina­da materia. Y, aún más importante, ayudará al usuario a identificar todos los tér­minos necesarios para realizar una búsqueda amplia sobre alguna materia. Capítulo IISistemas precoordinados y postcoordinados La clasificación está presente en todas las actividades de recuperación de la información. La indización es, evidentemente, un proceso de clasificación. Cuando un indizador

file:///C|/Mis%20documentos/Gustavo/Educacion%...ia/Procesamiento/Bibliografia/Nucleo2/P009.htm (6 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

determina que un documento trata del efecto de la televisión sobre los hábitos de lectura de los preescolares y asigna al documento los términos PREESCOLARES, TELEVISIÓN y HÁBITOS DE LECTURA, está asignando el documento a tres clases representadas por esos términos; es decir, el indizador agrupa el documento junto a otros que previamente han sido inclui­dos en una u otra de esas clases. Los términos utilizados por el indizador para representar las materias pueden considerarse denominaciones que identifican a varias clases. Por eso pueden llamarse identificadores de clase, aunque habi­tualmente se les llama términos de indización o descriptores. A todo el conjunto de términos utilizados para describir las materias contenidas en una base de datos a veces se le conoce como lenguaje de indización. Un vocabulario con­trolado es un tipo de lenguaje de indización en el que la terminología está con­trolada.La clasificación también se manifiesta en el modo en que es interrogada una base de datos. La estrategia de búsqueda supone decidir qué clases, representadas en una base de datos, pueden contener elementos relevantes para una determinada necesidad de información e interrogar al sistema de forma que los elementos de esas clases sean recuperados. Esto implica la capacidad de combinar clases de forma que los únicos elementos recuperados sean aquellos que satisfagan una determinada condición lógica. Si se quiere información sobre los hábitos de lectura de los preescolares sólo deberían recuperarse los elementos que aparezcan tanto en la clase PREESCOLARES como en la clase HÁBITOS DE LECTURA.Para una recuperación efectiva de la información es esencial que las cla­ses puedan combinarse entre sí con total flexibilidad. Consideremos, por ejemplo, un documento indizado con los términos: LAGOS, CONTAMINACIÓN DEL AGUA, COMPUESTOS DE MERCURIO Y PECES. Probablemente este documento tratará del efecto sobre los peces de la contaminación de los lagos causada por compuestos de mercurio. No sólo se debería recuperar este documento en respuesta a una búsqueda sobre ese tema concreto, representado por la interrelación de las cuatro clases, sino también en respuesta a una búsqueda con cualquier nivel de relación entre las cuatro clases (p.ej., PECES y COMPUESTOS DE MERCURIO; CONTAMINACIÓN DEL AGUA y LAGOS; COM­PUESTOS DE MERCURIO y CONTAMINACIÓN DEL AGUA y PECES), ya que cualquiera de esas relaciones puede considerarse relevante. Ésta es la dife­rencia fundamental entre los sistemas de recuperación precoordinados y los post-coordinados (Soergel, 1974, los llama «precombinados» y «postcombinados»).La figura 3 muestra la distinción entre ellos. Un documento ha sido indizado con cuatro términos (asignado a cuatro clases). En un sistema postcoordinado se conserva la multidimensionalidad de la relación entre las cuatro clases: no es preciso un orden de clases ya que todas tienen el mismo peso y permite recuperar el documento independientemente de cuál sea la combinación de los cuatro términos que se plantee en la búsqueda. Esto es cierto para todos los sistemas automatizados (offline y online), para sistemas de recuperación con microfilm y varios predecesores de los sistemas modernos (tarjetas peek-a-boo, tarjetas perforadas, tarjetas de perforación marginal). Sin embargo, un

file:///C|/Mis%20documentos/Gustavo/Educacion%...ia/Procesamiento/Bibliografia/Nucleo2/P009.htm (7 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

índice de mate­rias impreso o en forma de fichero convencional pierde la multidimensionalidad. Es posible la confección de una entrada en la que estén presentes todos los tér­minos de indización, pero tendrán que estar ordenados en una secuencia lineal, y sólo podrá accederse al documento a través del primer término de la cadena. Por ejemplo, en la figura 3 la entrada del índice PECES, LAGOS, COMPUESTOS DE MERCURIO, CONTAMINACIÓN DEL AGUA permite la recupera­ción sólo si el usuario busca en el índice el término PECES, ya que los otros tér­minos son subdivisiones o modificadores de él. Este tipo de índice es el que llamamos precoordinado: las clases se coordinan (combinan) en una cierta se­cuencia durante la construcción del índice; el usuario no puede combinar libre­mente las clases y por tanto, no puede recuperar documentos a partir de aspec­tos que no estén explícitos en el índice.En un índice precoordinado pueden multiplicarse las entradas y existen procedimientos para conseguir, de forma sistemática, el número de entradas necesarias (o, en algunos casos, una única entrada con referencias cruzadas) incluso con ordenador. Algunos de los métodos son la rotación sistemática, empleada en Excerpta Medica y Applied Mechanics Reviews (Juhasz et al., 1980): el índice SLIC (Sharp, 196); la indización encadenada (Wilson, 1971); la ordenación preferencial, utilizada, por ejemplo, en el British Technology Índex (Coates, 1960); y PRECIS (Foskett, 1982). La multiplicación de entradas en un índice precoordinado, puede proporcionar múltiples puntos de acceso, pero, por razones de espacio y de coste, suele haber un límite en el número de puntos de acceso posibles, cosa que no ocurre en un índice postcoordinado. Además, independientemente del número de puntos de acceso, un índice precoordinado no le da al usuario la posibilidad que le ofrece el postcoordinado de manipular las clases libremente. Por esa razón también se les llama manipulable (postcoordinado) y no manipulable (precoordinado) (Bernier, 1956).En el ejemplo de la figura 3 el índice precoordinado considerado es un índice alfabético de materias. Limitaciones similares nos encontramos cuando se trata de un esquema de clasificación. Por ejemplo, la entrada del índice podría ser AbEfGccKp, donde Ab representaría a «peces», Ef a «lagos», etc.El control del vocabulario es aplicable tanto a los sistemas precordinados como a los postcoordinados. Sin embargo, este libro se ocupa fundamentalmente del control del vocabulario en los sistemas postcoordinados.

file:///C|/Mis%20documentos/Gustavo/Educacion%...ia/Procesamiento/Bibliografia/Nucleo2/P009.htm (8 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

Capítulo IIIEstructura y presentación del vocabulario En general, un vocabulario controlado debería tener dos partes complementarias: una organización sistemática de los términos y una lista alfabética de esos términos. Esas partes pueden estar separadas o completamente integradas. Clasificaciones abiertas Una forma posible de presentación sistemática de un vocabulario es como «estructura arbórea», de manera semejante a un árbol genealógico familiar. En el ejemplo de la figura 4 se puede observar que la disposición refleja relaciones de género/especies: «cámaras de filmación» es una de las cuatro especies de «cámaras»; «cámaras cinematográficas» es una

file:///C|/Mis%20documentos/Gustavo/Educacion%...ia/Procesamiento/Bibliografia/Nucleo2/P009.htm (9 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

de las dos especies de «cámaras de filmación»; etc. Uno de los términos, «cámaras cinematográficas sumergibles», tiene dos genéricos, cámaras sumergibles y cámaras cinematográficas.Si un vocabulario se dispusiera de este modo, cada árbol (jerarquía) ocuparía una página separada. El resultado impreso se asemejaría a un atlas, con un «mapa» de la terminología de una materia en cada página; el mapa de la figura 4 se identifica con el número E4 17. Se podría incluir en los mapas algún tipo de referencias cruzadas que asociaran los términos relacionados entre sí (de la misma manera que en un mapa de carreteras se envía de una parte a otra), aunque en la figura no aparecen dichas referencias. Por ejemplo, el mapa «cámaras» po­dría asociarse a otro mapa, «fotografía»; «cámaras sumergibles» a «exploración submarina»; etc.

Aunque se incluyeran tales referencias en los mapas, también sería necesario un índice alfabético. La figura 5 muestra entradas de un índice de este tipo. En él no sólo se indica la referencia al mapa en la que está incluido un determi­nado término; también proporciona relaciones cruzadas a los mapas relaciona­dos, de forma que fotografía está unido a cámaras, cámaras sumergibles a bu­ceo, etc. Estas relaciones se indican mediante la abreviatura TR, que significa «término relacionado» (en inglés, RT, related term).

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (10 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

Las entradas del índice de la figura también muestran el control de los sinónimos. «Cámaras SLR» y «cámaras reflex de un objetivo» son considera­dos como sinónimos; el usuario que entre en la lista por el primer término será enviado («use») al segundo. Esta relación es recíproca: bajo «cámaras reflex de un objetivo» se indica, mediante «UP» (en inglés, «UF», use for), que se utiliza este término en lugar de «cámaras SLR». Por último, los términos con significados poco claros van acompañados de notas de aplicación, una breve definición de cómo es utilizado el término en el contexto del vocabulario del sistema. Se indican con NA (en inglés, SN, scope notes).El vocabulario de las figuras 4 y 5 satisface todos los objetivos de un vocabulario controlado: los sinónimos están controlados, y los términos relacionados aparecen juntos para facilitar al indizador y al recuperador la selección de los términos más apropiados para representar una determinada materia y ayudar al usuario a identificar todos los términos necesarios para realizar una búsqueda exhaustiva sobre un tema. La estructura arbórea del lenguaje de indización contempla la relación paradigmática, mientras que los términos rela­cionados establecen la relación sintagmática. Además, el vocabulario tiene una disposición sistemática y una disposición alfabética.El vocabulario mostrado puede considerarse como un tipo de esquema de clasificación con un índice alfabético complementario. Este es un modo totalmente aceptable de control del vocabulario, con dos excepciones. La primera se da en el caso de jerarquías muy extensas, en las que pueden haber problemas de estructuración (p. ej., cámaras podría ser un elemento de una jerarquía de «equipo» mucho más larga). La segunda es, que si el vocabulario es extenso, esta forma de disposición puede ser antieconómica por la gran cantidad de espacio ocupado.Un tipo de esquema de clasificación más usual (parecido a los esquemas de clasificación bibliográfica utilizados en las bibliotecas) es el que se muestra en la figura 6. En la figura 6A aparece la estructura arbórea de la figura 4 en forma «sistemática». Esta es más completa que la arbórea, pero presenta des­ventajas. Aunque se utiliza el sangrado para representar los niveles jerárquicos, éstos no se muestran de forma tan clara como en la estructura arbórea. No es tan evidente que «cámaras cinematográficas sumergibles» está subordinado tanto a «cámaras cinematográficas» como a «cámaras sumergibles»; de hecho, el término aparece en dos lugares, lo que resulta confuso y ambiguo ya que en un lugar aparece la notación 305 y en el otro la 317.

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (11 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (12 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

La figura 6A también ilustra un aspecto importante que parece confundir a algunos estudiantes de biblioteconomía. El sistema de numeración («nota­ción») que aparece junto a los términos sólo sirve para mantener la secuencia de la estructura sistemática impresa y para actuar como una adecuada «nota taquigráfica» para representar los términos (especialmente en los lomos de los libros ordenados en las estanterías). El ejemplo podría ser una clasificación de la terminología sobre cámaras si la notación fuera eliminada, como es el caso de la figura 4, sin notación, que muestra una verdadera clasificación de esta terminología, presentada de una forma diferente.La presentación sistemática de la figura 6A también necesita un índice alfabético, que se muestra en la figura 6B. A diferencia de las figuras 4 y 5, las figuras 6A y 6B no son completamente complementarias. Existe mucha redundancia porque las referencias TR e incluso las notas de aplicación aparecen duplicadas en las dos partes. Sin embargo, el vocabulario satisface los requisi­tos de un vocabulario controlado, como se explica en el primer capítulo. Clasificaciones cerradas Una tercera posibilidad de presentación es la mostrada en la figura 7. En este caso, se han reordenado los términos de la figura 4 en orden alfabético y se han entremezclado con los de otras jerarquías. Lo más significativo de esta ordenación es que aquí también se reproduce la jerarquía de la figura 4. En este caso, el género de un término aparece como «término genérico» (TG) (en in­glés, BT, broader term) y cada especie del término como «término específico» (TE) (en inglés, NT, narrow term). Por ejemplo, «cámaras réflex» es una especie de «cámaras fotográficas» (es decir, «cámaras fotográficas» es su genérico TG) y «cámaras réflex» tiene dos específicos (TE). Estas relaciones son reci­procas: «cámaras» aparece cómo TG de «cámaras sumergibles» y «cámaras sumergibles» como TE de «cámaras».

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (13 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (14 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

Aunque la ordenación es alfabéticamente abierta, las relaciones TG/TE constituyen una clasificación cerrada. No habría sido posible llegar a esta ordenación sin haber desarrollado previamente la jerarquía mostrada en la figura 4. Esta figura puede ser obtenida de la figura 7 y a la inversa. Además es posible crear un programa de ordenador para obtener la estructura TG/TE de la figura 7 a partir de la estructura arbórea de la figura 4 y viceversa.Se puede observar que la figura 7 también incorpora el control de sinóni­mos (reenvío use), la estructura TR y las notas de aplicación que aparecen en las presentaciones

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (15 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

anteriores. Esto también satisface los requisitos de un vocabula­rio controlado. Además, como la presentación es alfabética, con la jerarquía cerrada marcada por una estructura de referencias cruzadas, se satisfacen los requisitos en una disposición única; es decir, se combinan las disposiciones sistemática y alfabética. Desde luego, no puede contemplarse la jerarquía comple­ta de un vistazo como en el caso de una estructura arbórea y sólo puede ser establecida a partir de las relaciones TG/TE. Por eso puede ser útil mantener algún tipo de jerarquía abierta (figura 4 o figura 6A sin la notación y los elementos redundantes) como complemento de la figura 7.La figura 7 muestra una presentación típica de tesauro. Como se ha visto, un tesauro correctamente elaborado normalmente es alfabéticamente abierto y sistemáticamente cerrado. La figura 7 contiene una clasificación jerárquica tan correcta como las que aparecen en las figuras 4 y 6A.Los siguientes capítulos tratan de la construcción de los tesauros: la recogida de material (términos) y su Organización para la construcción de un instru­mento eficaz en la recuperación de información. Una consideración previa esen­cial es la de si es necesario elaborar un nuevo tesauro. Un centro de documenta­ción debería considerar la posibilidad de adoptar o adaptar algún otro tesauro a sus propias necesidades. Otra posibilidad seria elaborar un microtesauro que se ajuste a la estructura jerárquica de un tesauro más general. Estos planteamien­tos posiblemente resulten menos costosos que el de elaborar un nuevo tesauro; además, favorecen la compatibilidad y evitan la proliferación de vocabularios similares que pueden solaparse entre sí. Capítulo VIOrganización de los términos: la relación jerárquica Una vez recogidos los términos mediante alguno de los procedimientos vistos en el capitulo 4, hay que organizarlos dentro de una estructura lógica. Supongamos que se está elaborando un tesauro en el campo de la biblioteconomía, que los términos se han extraído de la Library and information Science Abstracts, y que se han anotado en tarjetas. Una vez acabada la recogida (cuando se alcanza el punto en que decrece la aparición de términos candidatos), se agrupan las tarjetas con términos «semejantes». Por ejemplo, un conjunto de tarjetas se refiere a tipos de bibliotecas; otro se refiere a tipos de materiales que manejan las bibliotecas, un tercero a los tipos de servicios que proporcionan las bibliotecas; etcétera.La figura 9 ilustra este proceso. La terminología sobre biblioteconomía aparece dividida según una serie de aspectos o facetas. Unos conjuntos serán relativamente grandes si la faceta es amplia; otros pueden ser bastante pequeños. De hecho puede ser necesario crear un pequeño conjunto de contenido general para colocar aquellos términos que no encajen bien en ninguna de las facetas principales.

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (16 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

Después de haber identificado de este modo las facetas, hay que organizar de forma jerárquica cada una de ellas. Es imposible llegar a tener una estructura de tesauro adecuada sin haber elaborado previamente un esquema de clasificación. La figura 10 muestra las jerarquías parciales de dos facetas de biblioteco­nomía. Se trata de una verdadera clasificación de parte de la terminología sobre biblioteconomía; la asociación de una notación con los términos no es un ele­mento esencial del esquema de clasificación. La estructura clasificatoria es abier­ta, y los niveles están claramente identificados mediante sangrados. Para esta­blecer la estructura del tesauro a partir de los términos de la figura 10 debemos ordenar los términos alfabéticamente y utilizar los reenvíos TG/TE debajo de cada término para indicar las relaciones jerárquicas establecidas.

Figura 9. Aplicación del análisis por facetas a los términos.

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (17 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

En la figura 11 se da un ejemplo de lo anterior. Mientras que la clasifica­ción de la figura 10 es abierta, las entradas de la figura 11 reflejan una clasifica­ción cerrada. Sin embargo, si se hubieran obtenido todas las entradas del te­sauro, el resultado sería un esquema de clasificación como el de la figura 10. Las entradas de la figura 11 podrían obtenerse de la figura 10 mediante un pro­grama de ordenador, igual que la figura 10 podría generarse a partir del conjun­to de entradas de un tesauro.Sin embargo, al comparar las dos figuras, es evidente que las entradas del tesauro reflejan sólo una jerarquía hacia arriba y hacia abajo. Por ejemplo,

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (18 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

MICROFORMATOS (figura 11) muestra uno de sus específicos, MICROFICHA, pero no aparece ULTRAMICROFICHA, que sólo es TE de MICRO­FICHA.Es recomendable aplicar este procedimiento «un nivel arriba, un nivel abajo» en un tesauro impreso, sobre todo para ahorrar espacio. Sin embargo, algunos tesauros no adoptan ese procedimiento. En lugar de ello, listan todos los niveles de términos específicos debajo de cada entrada, como en el siguiente ejemplo:

BIBLIOTECASTE BIBLIOTECAS ACADÉMICAS

BIBLIOTECAS ACADÉMICAS ESPECIALIZADASBIBLIOTECAS DE COLEGIOS UNIVERSITARIOSBIBLIOTECAS ESCOLARESBIBLIOTECAS DE ESCUELAS PRIMARIASBIBLIOTECAS DE ESCUELAS SECUNDARIASBIBLIOTECAS ESPECIALIZADASBIBLIOTECAS INDUSTRIALESBIBLIOTECAS NACIONALESBIBLIOTECAS PÚBLICASBIBLIOTECAS RURALESBIBLIOTECAS UNIVERSITARIASBIBLIOTECAS URBANAS

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (19 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

Este tipo de presentación ocupa espacio y la mezcla de niveles jerárquicos da lugar a confusión. Es más útil una presentación con los términos específicos de forma alfabética-sistemática:

BIBLIOTECASTE BIBLIOTECAS ACADÉMICAS

BIBLIOTECAS DE COLEGIOS UNIVERSITARIOSBIBLIOTECAS UNIVERSITARIAS BIBLIOTECAS ESCOLARESBIBLIOTECAS DE ESCUELAS PRIMARIASBIBLIOTECAS DE ESCUELAS SECUNDARIAS BIBLIOTECAS ESPECIALIZADAS

BIBLIOTECAS ACADÉMICAS ESPECIALIZADAS BIBLIOTECAS INDUSTRIALES

BIBLIOTECAS NACIONALESBIBLIOTECAS PÚBLICAS

BIBLIOTECAS RURALESBIBLIOTECAS URBANAS

Este sistema también ocupa espacio, pero al menos revela los niveles de jerarquía a simple vista.Un tesauro pensado sólo para el funcionamiento online, indudablemente no presentaría problemas de espacio. En tal caso, tendría más sentido estructu­rar todos los niveles de la jerarquía debajo de cada término, facilitando al usua­rio una ampliación de la consulta.Las jerarquías de la figura 10 y las entradas del tesauro obtenidas a partir de ellas se basan en una relación género/especies estricta. En general, la rela­ción TG/TE debería ser siempre género/especies; es decir, los términos especí­ficos deben representar un «tipo» de término genérico. Si no es así, probable­mente no será un verdadero TE. Consideremos la siguiente entrada de un te­sauro:

LANZAMIENTOTE CATAPULTAS

LANZADORES DE COHETESLANZADORES DE MISILES DIRIGIDOSLANZADORES DE TORPEDOSLANZAMIENTO SUBMARINO

Sólo el último término representa una verdadera especie (es decir, un tipo de lanzamiento); los otros deberían ser agrupados bajo el término genérico DISPOSITIVOS DE LANZAMIENTO.Un error que los estudiantes cometen en ocasiones es el confundir la relación cosa/tipo (la

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (20 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

verdadera relación TG/TE) con la relación cosa/aplicación o cosa/derivado: TARTAS DE MANZANA no es un TE de MANZANAS, sino de TARTAS.La mayoría de las veces, la relación todo/parte (partitiva) tampoco es una verdadera relación TG/TE; es decir, RUEDAS DE BICICLETA es correcto como TE de RUEDAS pero no de BICICLETAS. Sin embargo, en algunas áreas te­máticas, la relación partitiva es tratada, por convención, como si fuera una relación genérica. Los ejemplos más claros de esto son la anatomía y la geografía. Los siguientes tipos de entradas pueden ser aceptables: SISTEMA RESPIRATORIO CHILE TE BRONQUIOS TE SANTIAGO PULMONES VALPARAÍSO Aunque, evidentemente, los pulmones no son tipos de sistemas respira­torios ni Valparaíso es un tipo de Chile.Las directrices de la Unesco indican otros dos casos en los que la rela­ción todo/parte también puede considerarse como una relación TG/TE: «cam­pos de conocimiento» (BIOLOGÍA podría ser un TE de CIENCIAS) y «estruc­turas sociales» (CUERPOS podría ser un TE de EJÉRCITOS).En otras áreas, si existe una razón de peso para agrupar las partes bajo el todo, conviene que la relación genérico/específica y la relación todo/parte estén separadas. Las directrices de la Unesco permiten distinguir entre relaciones TEG (término especifico genérico) y TEP (término específico partitivo). Un ejemplo de ello es:

CASASTEG CASAS DE DOS PISOS CASAS DE TRES PISOS CASAS DE UN PISO

TEP PAREDES

SUELOS TECHOS TEJADOS

Aunque esto es aceptable, existen otras soluciones. Por ejemplo, estos términos, que son parte de un conjunto, podrían agruparse bajo un TG diferente (p. ej., ELEMENTOS DE CONSTRUCCION). La entrada anterior podría transfor­marse en:

CASASTE CASAS DE DOS PISOS CASAS DE TRES PISOS CASAS DE UN PISO

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (21 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

TR ELEMENTOS DE CONSTRUCCIÓN

Si se hace la distinción TEP/TEG, también debe hacerse la distinción en el nivel TG (p. ej., Casas de dos pisos-TGG Casas, Techos-TGP Casas)Las directrices de la Unesco también consideran como válida la relación TG/TE «casos». Puede aceptarse el siguiente tipo de entrada:

PRERRAFAELISTASTE DANTE GABRIEL ROSSETTI WILLIAM HOLMAN HUNTJOHN EVERETT MILLAIS

Rossetti no es propiamente un tipo de prerrafaelista, sino un ejemplo de ello. Evidentemente este tipo de relación será importante en tesauros de muchas áreas de humanidades.En general la mayoría de los términos de un tesauro tendrán sólo un TG. La aparición en varias jerarquías de una gran proporción de términos (es decir, que tienen más de un TG) es indicativo de una deficiente elaboración del tesauro.Sin embargo, habrá casos en los que un término puede aparecer en más de una jerarquía, sobre todo en el caso de un tesauro multidisciplinario. Por ejemplo, DIAMANTES podría ser un TE de INSTRUMENTOS CORTADORES y de PIEDRAS PRECIOSAS.Todas las decisiones que se tomen deben tener en cuenta el campo cubierto por el tesauro y los usuarios a los que está destinado. Por ejemplo, en un tesauro de odontología el término ORO sería un TE de MATERIALES PARA EMPASTE; no tendría mucho sentido la jerarquía «metales» o «metales preciosos». Por otra parte, en un tesauro general, ORO debería aparecer en la jerarquía de metales y no en una que representara aplicaciones del oro, aunque, en algunas ocasiones (como en el caso del ejemplo del diamante) podría estar justificado su inclusión en ambas. En caso de duda, el término debe incluirse en la jerarquía con la que se relaciona habi­tualmente; por ejemplo, los diamantes son en todos los casos piedras preciosas, pero no siempre se utilizan como instrumentos cortadores.En un tesauro, a diferencia de un esquema de clasificación por facetas, es correcto agrupar como TE un número de términos derivados del genérico (TG) por la aplicación de distintos principios de división, como en el siguiente ejemplo:

TUBERÍASTE TUBERÍAS CIRCULARES

TUBERÍAS DE PLÁSTICOTUBERÍAS METÁLICASTUBERÍAS NO CIRCULARESTUBERÍAS PARA AGUA

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (22 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

TUBERÍAS PARA VAPOR Aquí son evidentes tres principios de división diferentes: forma, material y aplicación. En una clasificación por facetas se podría agrupar a los términos según cada principio, que se indicaría explícitamente:

TUBERÍAS(por su forma)TUBERÍAS CIRCULARESTUBERÍAS NO CIRCULARES

(por material)TUBERÍAS DE PLÁSTICOTUBERÍAS METALICAS

(por aplicación)TUBERÍAS PARA AGUATUBERÍAS PARA VAPOR

En una clasificación por facetas es necesario lo anterior, ya que hay que combinar las notaciones en un determinado orden para poder expresar una entidad más compleja (p. ej., tuberías no circulares de plástico para transportar agua), pero no es necesario en el caso de un tesauro ya que los términos del mismo pueden ser asignados libremente a un documento sin importar la secuencia; un artículo que trate sobre la materia del ejemplo anterior podría indizarse median­te TUBERÍAS PARA AGUA, TUBERÍAS DE PLÁSTICO y TUBERÍAS NO CIRCULARES.Sin embargo, en el caso de jerarquías muy amplias, puede ser conveniente ordenar los TE según un principio de división:

JUGUETESTE (por materiales)

JUGUETES DE GOMAJUGUETES DE MADERAJUGUETES DE METALJUGUETES DE PLASTICOJUGUETES DE TELA

TE (por grupos de edad)

JUGUETES PARA ADULTOSJUGUETES PARA NIÑOSJUGUETES PARA RECIÉN NACIDOS

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (23 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

TE (por manejo)JUGUETES DE IMPULSIÓNJUGUETES DE TRACCIÓNJUGUETES ELÉCTRICOSJUGUETES MECÁNICOS

Este tipo de organización está admitida en las directrices de la Unesco, en las que al principio de división establecido en el tesauro se le da el nombre de «indicador clasificatorio» o «indicador de faceta».Es improbable que las jerarquías de un tesauro convencional sean simétricas; unas serán amplias y otras muy pequeñas. Incluso pueden haber «jerar­quías» de un solo término. Por ejemplo, un tesauro de biblioteconomía puede incluir términos como DETERIORO o EFICACIA, que no se ajustan a ninguna de las jerarquías principales. En general, este último caso debe evitarse en lo posible. Es preferible crear un término genérico artificial que permita agrupar a un conjunto de términos y que de otro modo serían difíciles de organizar:

PROPIEDADES GENERALES TE COLOR

DURABILIDADFORMATAMAÑO

La relación jerárquica está bastante bien definida y se pueden formular directrices precisas para asegurar que la relación TG/TE se aplica correctamente. La relación asociativa, mucho menos clara, se estudia en el capítulo 7. Capítulo VIIOrganización de los términos: la relación asociativa La relación asociativa (representada en el tesauro con TR, que correspon­de a «término relacionado») no es una relación jerárquica. En efecto, lo único categórico que se puede decir sobre esta relación es que no debe ser utilizada para relacionar términos que aparecen en la misma jerarquía. Aunque algunos de los tesauros existentes silo hacen (p. ej., BIBLIOTECAS DE COLEGIOS UNIVERSITARIOS TR BIBLIOTECAS UNIVERSITARIAS), ello es innecesario ya que la relación entre los términos se establece mediante el TG común:

BIBLIOTECAS ACADEMICAS TG BIBLIOTECAS

TE BIBLIOTECAS DE COLEGIOS UNIVERSITARIOS

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (24 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

BIBLIOTECAS UNIVERSITARIAS Las recomendaciones de la Unesco permiten este tipo de relación cuando los significados de los términos de la misma jerarquía se solapan parcialmente o quedan poco claros por separado (por ejemplo, BURROS como TR de MULAS y viceversa), pero aun así parece redundante.La relación asociativa es sintagmática o a posteriori. En esta relación no es posible establecer normas precisas, a diferencia de la relación jerárquica. Lo único que se puede precisar es que dos términos cuyos significados están relacionados, pero que aparecen en diferentes jerarquías, son candidatos a una rela­ción TR.Algunos autores han señalado la posibilidad de llegar a establecer los TR a través de un tipo de juego asociativo semejante a la «asociación libre» utiliza­da en algunos tipos de tests psicológicos (p. ej., Papier y Cortelyou, 1962), pero este procedimiento resulta innecesario y artificial.La confección de tablas de coaparición de términos a partir de una base de datos, como se señala en el capítulo 4, puede indicarnos qué términos están «relacionados» en un sentido asociativo. Si esto no es posible, el autor del tesauro puede confiar en su sentido común y en su conocimiento de la materia.Los siguientes tipos de relaciones entre términos nos orientan sobre los casos en que se puede establecer la relación TR.

1. Entre una «cosa» y su aplicaciónADHESIVOSTR UNIONES

y el inverso,

UNIONESTR ADHESIVOS

2. Entre un efecto y una causa (y viceversa)

FRACTURA QUEBRADIZA TR FRAGILIDAD POR EL HIDRÓGENO

3. Entre una «cosa» y una propiedad íntimamente asociada a ella

GOMATR ELASTICIDAD

4. Entre una materia prima y un producto

CAOLÍNTR PORCELANA

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (25 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

5. Entre dos actividades complementariasENSEÑANZATR APRENDIZAJE

6. Entre ciertos opuestos

VIDATR MUERTE

7. Entre una actividad y una propiedad asociada a ella

FLEXIÓNTR PLASTICIDAD

8. Entre una actividad y un agente de esa actividad

PROCESO DE DATOS TR SISTEMAS AUTOMATIZADOS

9. Entre una actividad y un producto de esa actividadCONSTRUCCIÓNTR ESTRUCTURAS

10. Entre una cosa y sus partes (que no pueden separarse)

AVIONESTR FUSELAJE

Las recomendaciones de la Unesco proporcionan ejemplos adicionales, así como Barhydt y Schmidt (1968), Gerd (1980) y Willetts (1975).En todos los casos la prueba determinante es, sencillamente, « ¿Es proba­ble que alguien que busque información indizada con el término A pueda estar interesado también en la información indizada con el término B?». Si la respuesta es afirmativa, A y B deberían estar relacionados mediante TR, en el supuesto de que ambos términos no hayan sido ya relacionados con TG/TE.Aunque no sea una condición indispensable que la relación TR sea recíproca, es conveniente hacerlo, al menos para facilitar el mantenimiento del te­sauro. Cuando A muestra que B es su TR, pero no ocurre así en B, existe peligro de que si B es eliminado posteriormente, se mantendrá bajo el término A un reenvío inexistente.La clara distinción entre las relaciones TG/TE y TR permite considerar al tesauro como un instrumento muy superior a las listas de encabezamientos de materias utilizadas tradicionalmente en las bibliotecas. En la lista de encabezamientos de materias, ambas relaciones están incluidas en la referencia ver tam­bién como se muestra en el siguiente ejemplo:

FRACTURA

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (26 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

ver también AGRIETAMIENTOFRACTURA QUEBRADIZAFRAGILIDADFRAGILIDAD POR EL HIDRÓGENO

Por otra parte, lo habitual en los encabezamientos de materias, es que el reenvío se haga del general al específico, pero raramente en sentido inverso. Así, probablemente encontraríamos el reenvío UNIONES ver también SOLDADURA, pero no SOLDADURA ver también UNIONES. En otras palabras, no se hace explícitamente recíproca la relación. A diferencia de un tesauro bien estructurado, la lista de encabezamientos de materias no es una clasificación jerárquica estricta y no podemos establecer ésta automáticamente a partir de una lista de encabezamientos de materias.El tesauro del American Petroleum Institute (1982) es un caso excepcio­nal que contiene tanto los reenvíos ver también como los TR, aunque aquéllos tienen un uso más extenso que los últimos. La relación ver también aparece aquí de forma más fortuita que la TR. Cuando a un documento se le asigna el término A, automáticamente se le asigna también el término B («autorreferencia»), si B es un TR de A. La autorreferencia de algunos ver también introduce un elemento de confusión. Realmente, el reenvío ver también de este tesauro equivale a la relación asociativa. El reenvío TR se utiliza en realidad para unir un término a una jerarquía diferente a la que él pertenece; aquí TR significa más bien «término genérico adicional». Capítulo XHomografía y notas de aplicación Un homógrafo consiste en una cadena de caracteres con más de un significado (p.ej., «haya»); también puede tener más de una pronunciación. Un ho­mónimo es una cadena de caracteres que tiene más de un significado, pero una única pronunciación (p.ej., «planta»). El homófono se refiere a cadenas de caracteres diferentes, pero que se pronuncian igual (p.ej., «vaca» y «baca»). Los homó­fonos no constituyen ningún problema en la recuperación de información (aun­que lo serán si llega a ser posible la interrogación oral de las bases de datos), pero los homógrafos (incluyendo los homónimos) pueden plantear dificultades.Afortunadamente la homografía es menos problemática de lo que puede parecer a simple vista. Los primeros trabajos sobre recuperación de informa­ción se ocuparon en más de una ocasión sobre ello. El ejemplo clásico era el de «venetian blinds» (persianas), que podía dar lugar a la recuperación de documentos sobre ciegos venecianos (blind Venetians). Aunque ingenioso, es algo absur­do. La homografía es un problema sobre todo en el caso de los términos sim­ples. Por ejemplo, «diafragma» podría recuperar documentos sobre músculo diafragmático, sobre diafragma anticonceptivo o sobre diafragma fotográfico. Pero en la recuperación de información raramente se manejan

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (27 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

palabras aisladas.La posible ambigüedad se reduce cuando el tesauro trata de un campo temático limitado. No es necesario explicar el término «diafragma» cuando el tesauro se refiera a fotografía. Cuando pueda darse esa ambigüedad, se resolverá con un calificador entre paréntesis:

TANQUES (CONTENEDORES) TANQUES (VEHÍCULOS)

Los calificadores pueden ser considerados como notas de aplicación en miniatura; sin embargo, el calificador forma parte del descriptor, mientras que una verdadera nota de aplicación está separada de él y va precedida de la abreviatura NA:

ROMANCE GÓTICONA Tipo de novela, popular a finales del siglo dieciocho y principios del diecinueve, en el que los elementos principales son la vio­lencia, el horror y lo sobrenatural. El escenario suele ser un cas­tillo o una abadía gótica en ruinas.

No todos los descriptores necesitan una nota de aplicación, sino sólo aquellos cuyo alcance puede ser poco claro para el usuario. Sería el caso de los términos poco usuales, incluyendo los términos extranjeros, los términos muy recientes, y los términos que son utilizados de un modo diferente al común.Una nota de aplicación no tiene necesidad de ser una verdadera defini­ción, sino una mera indicación de cómo debe ser usado un término. Barhydt y Schmidt (1968) establecen cuatro usos diferentes de las notas de aplicación:

1. Limitación positiva del alcance de un término:

REEDUCACIÓN PROFESIONALFormación para un cambio en la ocupación

Este tipo de nota limita el alcance del término y lo distingue de otros tér­minos relacionados.

2. Limitación negativa:

LICENCIAExcluye las habilitaciones escolares y los certificados docentes

Este tipo de nota no sólo excluye, sino que además puede dirigir al usuario a conceptos en

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (28 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

los que pudo haber pensado al buscar en el tesauro el término LICENCIA. Lo anterior podría ser más explícito:

Excluye aspectos cubiertos por el descriptor HABILITACIONES ESCOLARES y CERTIFICADOS DOCENTES.

3. Definición verdadera:

ERROR ESPACIALTendencia a ser influido por la posición espacial del estímulo en relación al observador.

4. Combinación de definición y limitación positiva

PLAYBACKDe un registro sonoro o visual que le permite a una persona evaluar o reaccionar ante el resultado de su propio registro.

Algunos tesauros tienen un pequeño número de términos generales que sólo deben ser usados en casos extremos. Estos términos pueden llevar una nota de aplicación del siguiente tipo:

REVESTIMIENTOSNA Usado sólo en discusiones generales sobre teoría de revestimientos donde no se hace referencia a ninguna configuración determinada. En todos los demás casos, se recomiendan los términos específicos como REVESTIMIENTOS CILÍNDRICOS, REVESTIMIENTOS HEMISFÉRICOS, REVESTIMIENTOS REFORZADOS.

El contexto en el que aparece un término en un tesauro también reduce la ambigüedad y la necesidad de calificadores o notas de aplicación. Por ejemplo, si el término TANQUES aparece relacionado con el genérico ARMAS, el propio contexto aclara su significado.

Capítulo XIPresentación del tesauro Si un descriptor tiene todos los elementos previamente identificados, la entrada del tesauro se asemejará a lo siguiente:

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (29 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

INSTRUMENTOS INDICADORES DE POSICIÓNNA Instrumentos utilizados para la localización de aviones, barcos, y otros objetos en relación a un punto o puntos de referencia específicos.

UP Indicadores de posiciónTG INSTRUMENTOSTE INDICADOR PANORÁMICO

INDICADORES DE POSICIÓN DEL BLANCOINDICADORES DE POSICIÓN TERRESTRERADIOCOMPÁSSEXTANTES

TR DETECCION RASTREO

No todas las entradas tendrán todos los elementos. La mayoría de los tér­minos tendrán un TG, y muchos tendrán uno o más TE. La existencia de otras relaciones será menos frecuente. En el ejemplo aparecen los elementos en el orden que suele recomendarse en las normas; y dentro de cada relación (TG, TE, TR) los términos están ordenados alfabéticamente.La presentación alfabética de los términos de un tesauro bien construido debe reflejar correctamente la clasificación jerárquica. Sin embargo, la disposi­ción alfabética tiene limitaciones: es difícil proporcionar un panorama comple­to de todos los términos en una jerarquía larga o en una categoría amplia de materias. Para mostrar un panorama completo, normalmente la presentación alfabética va acompañada de otros tipos de presentaciones. El UNBIS Thesau­rus (1981), elaborado por la Dag Hammarskjld Library de Naciones Unidas, puede servir para ilustrar estas presentaciones complementarias. En dicho tesauro existen dos tipos de entradas:

Esta estructura es bastante convencional excepto en que:

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (30 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

- Se indica la categoría en la que está incluida el descriptor (como 12.01.00):- La abreviatura TT (en castellano CS) precede al término «cabecera de serie» de la jerarquía a la que pertenece el descriptor. Normalmente cada descriptor irá acompañado del término inmediatamente superior (BT) y el TF. Para el término MANPOWER, el BT y TT son el mismo (el término cabecera de serie de la jerarquía es el término inmediatamente superior a MANPOWER).La figura 13 muestra un fragmento de una página de la lista jerárquica de términos del UNBIS Thesaurus. Debajo de cada gran categoría temática (en este caso la primera de la lista, 01.01.00) aparecen todos los términos en orden alfabético, con sus notas de aplicación y relaciones use.La figura 14 contiene un ejemplo de lista jerárquica. Cada término cabe­cera de serie está ordenado alfabéticamente y debajo de cada uno aparece toda la jerarquía, con los distintos niveles sangrados. La parte alfabética sirve como punto de entrada a las demás partes, ya que cada descriptor va acompañado del término cabecera de serie y el código de la categoría a la que pertenece.La figura 15 ilustra una lista permutada de palabras de tipo KWOC (key­word out of context). Este tipo de lista es útil porque muestra todas aquellas palabras que forman parte de los descriptores, independientemente de su posi­ción en ellos. Presentación gráfica En un tesauro convencional, la parte alfabética es la más importante y las demás son complementarias de ella. Otra forma de presentación de un tesauro es la gráfica, que aunque popular en Europa no lo es tanto en Estados Unidos. En la figura 16 (ver al final del documento) aparece una página de un hipotético tesauro. En él se presentan de forma gráfica, en lo que se llama diagrama de flechas, los términos de la jerarquía cámaras, ya vista en el capitulo 3. El término más general de la jerarquía (CÁMARAS) aparece en el centro. Siguiendo las flechas podemos identi­ficar los distintos niveles jerárquicos. Se ve fácilmente que CÁMARAS tiene cuatro términos específicos; que uno de ellos, CÁMARAS FOTOGRÁFICAS, tiene a su vez cuatro términos específicos: y así sucesivamente. De forma inversa, CÁMARAS DE 35 MM es una subdivisión de CÁMARAS MINIATURA, que es una subdivisión de CÁMARAS FOTOGRÁFICAS y ésta lo es de CA­MARAS, que es el término superior. Varios términos de la estructura están unidos a otras estructuras (p. ej., CÁMARAS CINEMATOGRÁFICAS con CINEMATOGRAFíA), de igual modo que en un atlas donde se remite de un mapa a otro. Por eso, a este tipo de estructura se le llama muchas veces mapa terminológico.

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (31 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

01.POLITICAL AFFAIRS 01.01.00POLITICAL CONDITIONS,

INSTITUTIONS, MOVEMENTS AERIAL HIJACKINGUSE: HIJACKING OFAIRCRAFTALLEGIANCEANTICOMMUNIST MOVEMENTSASSASSINATIONAUTARCHYAUTHORITARIANISM

SN: A political style characterized by obedience of subordinate to superior, reliance on threats of punishment and version to consultation and persuasion

AUTHORITYBILL DRAFRINGBLACK POWERBUREAUCRACYCABINET OFFICERSCABINETSYSTEMUSE: PARLIAMENTARY GOVERNMENTCAPITALISMCIVIL DISOBEDIENCE

SN: Refusal to obey laws regarded as morally unjust, ordinarily by nonviolent resistance

CIVIL SUPREMACY OVER THE MILITARYUSE: CIVIL-MILITARY RELATIONSCIVIL WARCIVIL-MILITARY RELATIONSCLASS STRUGGLECOALMON GOVERNMENTSCOMMISSIONS OF INQUIRY

SN: Large-scale enterprise which includes collectivized agriculture, industry, social services and local government functions

COMMUNISMCOMMUNIST PARTIESCOMMUNIST REVISIONISMCOMMUNIST STATE

SN: Use for theoretical works on the future communist state. Do not confuse with centrally planned economics

COMMUNIST STRATEGYSN: Poilitical strategy

Figura 13. Ejemplo de las listas de categorías del UNBIS Thesaurus. New York, United Nations, 1981 (Publicación Nº E.81.I.17). Reproducido con autorización.

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (32 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

CRIMINAL JUSTICE.CORRECTIONAL SYSTEMS..COMMUNITY BASED CORRECTIONS..JUVENILE CORRECTIONS..JUVENILE DETENTION HOMES..PARDON..PAROLE..PRISONLABOUR..PRISONS... REFORMATORIES.CRIMINAL PROCEDURE..INDUCTMENTS..PRELIMINARY EXAMINATIONS..PROSECUTION..SEARCHES AND SEIZURES.LAW ENFORCEMENT..NARCOTICS LAW ENFORCEMENT CROPS.FIELD CROPS.FORAGE CROPS.TROPICAL CROPS CULTIVATION SYSTEMS.CROP DIVERSIFICATION.CROP ROTATION.DRY FARMING.IRRIGATION FARMING.NUCLEAR AGRICULTURE.ORGANIC FARMING.SHIFTING CULTIVATION CULTURAL PROPERTY.ART WORKS.HISTORIC SITES AND MONUMENTS..NUBIAN HISTORIC SITES AND MONUMENTS CULTURE.ART AND LITERATURE.ART AND SCIENCE.ART AND SOCIETY.ART AND STATE.ARTS..MUSIC

...CINEMA

...DANCE

...OPERA

...THEATRE

...DRAMA

....RADIO PLAYS

..VISUAL ARTS

... FINE ARTS

....ARCHITECTURE

.....ARCHITECTURAL ACOUSTICS

.....DOMESTIC ARCHITECTURE

.....INDUSTRIAL ARCHITECTUPE

.....MECHANICAL DRAWING

.....MODERNARCHITECTURE

....MURAL PAINTING AND DECORATION

....PAINTING

.....PORTRAITS

....PICTURES

....PLASTIC ARTS

...GRAPHIC ARTS

....COMMERCIAL ART

...REPRODUCTIVE ARTS

....PHOTOGRAPHY

.....AERIAL PHOTOGRAPHY

.....COLOUR PHOTOGRAPHY

.....LUNAR PHOTOGRAPHY

.....MICROPHOTOGRAPHY

....PRINTING

.....LITHOGRAPHY

....LITERATURE

..AFRICAN LITERATURE

..AMERICAN LITERATURE

... AMERICAN POETRY

..ARABIC LITERATURE

..ASIAN LITERATURE

...CHINESE LITERATURE

...INDIAN LITERATURE

...JAPANESE LITERATURE

...PAKISTANI LITERATURE

..AUSTRALIAN LITERATURE

..BLACK LITERATURE

..CATHOLIC LITERATURE

..CHILDREN'S LITERATURE

..ENGLISH LITERATURE

..ENGLISH LITERATURE

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (33 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

... FOLK MUSIC

.... FOLK SONGS

..PERFORMING ARTS

Figura 14. Parte de una página de la lista jerárquica del UNBIS Thesaurus. New York, United

Nations, 1981. (Publicación Nº E.81.I.17). Reproducido con autorización.

13.02.00 NUCLEAR ACCIDENTS10.04.00 RADIATIONACCIDENTS06.03.00 RAILWAY ACCIDENTS06.03.00 TRAFFIC ACCIDENTS

ACCOMMODATIONS

18.00.00 ACCOMMODATIONS

ACCOUNT18 00.00 SPECIAL ACCOUNT

ACCOUNT

05.02.00 ACCOUNTING02.09.00 ACCOUNTING AND REPORTING02.02.00 FLOW OF FUNDS ACCOUNTIN G02.06.01 GOVERNMENT ACCOUNTING05.02.00 INCOME ACCOUNTING02.06.02 TAX ACCOUNTING

ACCOUNTS1800.00 ACCOUNTS...18.00.00 ACCOUNTS OF EXECUTIN O AGENCIES05.02.00 ACCOUNTS RECEIVABLE02.02.00 NATIONAL ACCOUNTS14.05.01 SOCIAL ACCOUNTS ACCULTYURATION

14.05.03 ACCULTURATION

ACETYLENE05 04.00 ACETYLENE

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (34 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

ACHIEVEMENT

18.00.00 ACHIEVEMENT INDICATORS11.01.00 ACHIEVEMENT MOTIVATION

ACID

03.04.00 ACID RAIN

ACOUSTIC05.05.00 ACOUSTIC ENGINEERING

ACOUSTICS

09.02.00 ARCHITECTURAL ACOUSTICS16.04.00 UNDERWATFR ACOUSTICS

Figura 15. Indice KOWC del UNBIS Thesaurus. New York, United Nations, 1981 (Pubblicación Nº

E.81.I.17). Repoducido con autorización. También es necesario contar con un índice alfabético de esos mapas, como el que se presenta en la figura 17. Éste es algo más que un índice, ya que incluye todos los elementos que aparecen en un tesauro.A lo largo del tiempo se han propuesto varias formas de presentaciones gráficas. En las figuras 18-21 (ver al final del documento) aparecen cuatro formatos diferentes.El TDCK Circular Thesaurus S3ystem (1963), mostrado en la figura 18, fue uno de los primeros tesauros y el primero de su tipo. Los términos están dis­puestos dentro de círculos concéntricos, representando cada uno de ellos un nivel de jerarquía, con el término superior (en esta figura, PUBLICATIONS) en el centro. La primera edición del TDCK Circular Thesaurus distribuía de este modo más de 10.000 términos. Según Rolling (1979), el tesauro todavía se actualiza regularmente.

BUCEO T473.g5TR: Cámaras sumergibles E417

CÁMARAS PANORÁMICAS E417.b4

NA: Cámaras con un objetivo especial que gira sobre su punto nodal trasero y

CÁMARAS E4l7.d5TR: Fotografía R562

proyecta una imagen del área explorada sobre una pelí­cula curva

TG: Cámaras fotográficas

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (35 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

CÁMARAS CINEMATOGRÁFICAS E417.f4TG: Cámaras de filmaciónTE: Cámaras cinematográficas sumergiblesTR: Cinematografía R668

CÁMARAS PARA FOTOGRAFÍA INSTANTÁNEA E417.b5

NA: Cámaras que permiten obtener una copia terminada en el momento

CÁMARAS CINEMATOGRÁFICAS SUMERGI­BLES E417.g4 TO: Cámaras cinematográficas Cámaras sumergibles

posterior a la exposición TG: Cámaras fotográficas CÁMARAS RÉFLEX E417.c3

TG: Cámaras fotográficasCÁMARAS DE FILMACIÓN E417.e4 TG: Cámaras

TE: Cámaras cinematográficas Cámaras de televisión

TE: Cámaras réflex de dos objetivos Cámaras réflex de un objetivo

CÁMARAS RÉFLEX DE DOS OBJETIVOS E4 17.d2

UP: Cámaras TLRCÁMARAS DE TELEVISIÓN E417.e3

NA: Cámaras que pueden emitir imágenes y grabarlas en videocintas

TG: Cámaras de filmación TR: Televisión R685

TG: Cámaras réflex

CÁMARAS RÉFLEX DE UN OBJETIVO E4 17.c2 UP: Cámaras SLR TG: Cámaras réflex

CÁMARAS DE 35 mm. E417.a2 TG: Cámaras miniatura

Cámaras SLR USE CÁMARAS RÉFLEX DE UN OBJETIVO

CÁMARAS ESTEREOSCÓPICAS E417.c6 TG: Cámaras

CÁMARAS SUMERGIBLES E417.e6TG: Cámaras

TE: Cámaras cinematográficas sumergiblesCÁMARAS FOTOGRÁFICAS E417.c4

TG: Cámaras TE: Cámaras miniatura

Cámaras panorámicas Cámaras para fotografía instantánea Cámaras réflex

TR: BuceoT473

Cámaras TLR USE CÁMARAS RÉFLEX DE DOS OBJETIVOS

CINEMATOGRAFÍA R668.d5 TR: Cámaras cinematográficas E417

CÁMARAS MINIATURA E417.b3TG: Cámaras fotográficas TE: Cámaras de 35 mm

FOTOGRAFÍA R562. d5 TR: Cámaras E417

TELEVISIÓN R685.d5 TR: Cámaras de televisión E417

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (36 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

Figura 17. Lista alfabética complementaria a la presentación gráfica de la figura 16.Reproducido de Directrices para el establecimiento y desarrollo de tesauros

monolingües (Norma UNE 50-106/1990) Las presentaciones gráficas del EURATOM Thesaurus (1966-1967), que explica Rolling (1971), posiblemente son más conocidas. Este tesauro incluye presentaciones gráfica y alfabética. Esta última no presenta ni referencias cruzadas ni relaciones jerárquicas. La presentación gráfica utilizada en la primera edición (figura 19) consiste en un diagrama de flechas. Las relaciones jerárqui­cas y asociativas están representadas, dentro de cada grupo de palabras clave, mediante flechas. Éstas sustituyen a las referencias cruzadas que aparecen en un tesauro convencional. Algunas flechas envían a palabras clave relacionadas de otros gráficos. Por ejemplo, NEUTRONS está relacionada con NEUTRON FLUX, que pertenece al gráfico 82. La dirección de las flechas va del nivel más genérico al más específico; las palabras clave relacionadas pertenecientes al mismo nivel genérico están unidas con flechas de dos direcciones. En la Segun­da edición del tesauro se introdujo una modificación en esta disposición (figura 20). En ella, los términos relacionados Semánticamente se agrupan en conjuntos (campos) alrededor de las palabras clave, que aparecen en mayúsculas. Los tér­minos aceptados que no son palabras clave (sinónimos y términos más especí­ficos, equivalentes a los envíos use de un tesauro convencional) están en minús­culas, y las palabras prohibidas están en cursiva. La diferencia entre esos dos tipos de términos es que, los términos aceptados pueden utilizarse en la indiza­ción y la recuperación, mientras que los términos prohibidos no. Los envíos ver también y TR de un tesauro convencional se sustituyen en los diagramas de fle­chas por uniones, indicando la fuerza de la unión (la intensidad de la «relación semántica») mediante la fuerza del trazado de la línea. En el margen de cada diagrama se indican los gráficos relacionados. Por ejemplo, DEUTERON BEAMS está conectado con DEUTERIUM, que aparece en el gráfico 20, rela­tivo a radioisótopos. Según Colbach (1970), estas estructuras «eliminan la ne­cesidad de frecuentes referencias cruzadas y NA que definan la cobertura con­ceptual de las palabras clave, ya que el alcance de cada una queda definida por los términos que le rodean que no son palabras clave y limitado por las palabras clave vecinas» (pp. 587-588).Finalmente, la figura 21 muestra otra forma de presentación, tomada del Metallurgy Thesaurus (1974), tesauro trilingüe del campo de la metalurgia. Este tesauro es semejante al utilizado por el Laboratorio Francés de Investigación en Carreteras (Van Dijk, 1966). En ambos, se puede superponer una transparencia para mostrar las equivalencias lingüísticas en varios idiomas. La presentación gráfica es efectiva en cualquier forma de comunicación. En el contexto de un tesauro, al igual que en el esquema de clasificación por facetas, aproxima físicamente los términos relacionados y permite, al indizar o ver de forma rápida el panorama completo

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (37 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

de esas asociaciones. La alfabética no lo permite, y para tener una visión general tenemos que ir atrás y adelante en función de los envíos entre los términos relacionados. Sin embargo, las jerarquías muy largas, con muchas relaciones y niveles, son difíciles de presentar de forma gráfica y además ocupan mucho espacio.Otro tesauro elaborado por las Naciones Unidas, el SPINES Thesaurus (1976), tiene algunas características especiales. Las figuras 22 y 23 (ver al final del documento) muestran la lista alfabética y la presentación gráfica, respectivamente. La parte alfabética identifica explícitamente todos los niveles de BT y NT de cada descriptor y proporciona también las notas de aplicación, RT y envíos use. Como se comenta en el capítulo 9, se distingue entre los envíos use y see (ver). Estos últimos permiten elegir los descriptores que sustituyan al no descriptor (término de entrada).La presentación gráfica utiliza polígonos, subpoligonos y sub-subpolígonos, para tratar de indicar claramente los distintos niveles jerárquicos. Los polígonos relacionados están unidos por una «relación asociativa», un tipo de relación TR. Una página completa de esta presentación gráfica puede incluir varios polígonos interrelacionados, aunque el ejemplo de la figura 23 sólo muestra un polígono completo. Este tipo de presentación gráfica resulta más confusa que útil. El tesauro con facetas Las presentaciones complementarias alfabética y gráfica de las figuras 16 y 17 representan un intento de combinar las ventajas del tesauro convencional y las del esquema de clasificación jerárquica. Otro intento en ese sentido es el del tesauro con facetas, que combina el tesauro alfabético con un esquema jerárquico con facetas.En la figura 24 se muestran algunas entradas de un hipotético tesauro con facetas Las dos partes se complementan completamente entre sí. La parte con facetas incluye la relación jerárquica (la estructura TG/TE) y el resto de las relaciones aparecen en la otra parte. Esta última da la notación de cada término para que el usuario pueda ir a la parte con facetas y ver allí la correspondiente relación jerárquica. En la clasificación por facetas, cada término aparece solamente una vez; sin embargo, si un término pertenece a más de una jerarquía, en el tesauro aparecen las relaciones secundarias, mediante la abreviatura TG(A), que significa «término genérico adicional». El tesauro con facetas presenta una ven­taja evidente sobre cualquier otro tipo de tesauro: puede utilizarse para la orde­nación de libros en las estanterías de una biblioteca especializada, además de para la indización de documentos en una base de datos. Por otra parte, ambas cosas son plenamente compatibles.

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (38 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

El primer tesauro con facetas se debe a Aitchison et al. (1969). Éste conte­nía 16.000 términos aprobados y 7.000 «términos de entrada» y en él la clasificación por facetas (figura 25) y el tesauro (figura 26) (ver al final del documento) estaban completamente integrados. Ambas partes parecen bastante convencionales. Los envíos use con­trolan los sinónimos y proporcionan entradas de términos específicos que no se utilizan en la indización o la recuperación. También contiene los recíprocos UF. Junto a cada descriptor del tesauro aparece su número de clase. TELEVISION CAMERA TUBES tiene el código MCE. En los esquemas de clasificación, la disposición en facetas muestra la jerarquía completa de los términos genéricos (CATHODE RAY TUBES, ELECTRON BEAM DEFLECTION TUBES, ELECTRON TUBES) y de los términos específicos (TELEVI­SION COLOR CAMERA TUBES). También muestra los términos que están más estrechamente relacionados, es decir, términos de la misma categoría (p. ej., STORAGE TUBES, IMAGE CONVERTER TUBES) y los términos secun­darios a ellos. La ventaja sobre el tesauro convencional es que se muestra de forma clara todas esas relaciones para cualquier término y establece las relacio­nes correctas entre ellos.La parte del tesauro del Thesaurofacet de Aitchison et al. también contie­ne algunas relaciones TR y TG, pero sin duplicar ninguna información de la clasificación. Los términos relacionados pertenecen a otras facetas. TELEVISION CAMERA TUBES aparece como relacionado con PHOTOTUBES, PHOTOMULTIPLIERS, y TELEVISION CAMERAS. Ninguno de ellos perte­nece a la misma categoría que TELEVISION CAMERA TUBES y podría ser pasado por alto si se utilizara sólo la parte con facetas.Los términos relacionados que aparecen en la parte del tesauro no lo están jerárquicamente. Esta parte contiene otras relaciones (p. ej., entre un todo y una parte o entre un objeto y sus propiedades). Sin embargo, la parte del tesauro no contiene la misma relación TG mostrada en la estructura de facetas. La parte con facetas sólo muestra la jerarquía principal, pero en la parte del tesauro aparecen otras. En el caso de TELEVISION

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (39 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

CAMERA TUBES, la jerarquía adi­cional, indicada con BT (A), es la jerarquía de TELEVISION APPARATUS. (Fig. 25) Los términos específicos adicionales del tesauro son listados de forma parecida y se indican con la abreviatura NT (A). Como ejemplo de esto, consi­deremos el término JETS. Este término aparece en los esquemas con facetas del siguiente modo:

CWJ JetsCWK Jet StreamsCWL PlumesCWM Wall jetsCWO Couette flowCWP Jet mixingCWQ Propulsive jets

Ésta es la jerarquía primaria de JETS; los términos listados relativos a JETS se refieren todos a corrientes dinámicas de fluidos. Pero existen otros tipos de jets que suponen uniones jerárquicas adicionales y que son los que aparecen con NT (A) debajo de JETS:

JETSNT(A) JETS (HOVERCRAFT)

PLASMA JETS La utilización conjunta del esquema de clasificación y del tesauro permite contemplar todas las «uniones jerárquicas múltiples» de los términos.En el Thesaurofacet, la parte del tesauro hace la función del índice alfabético de materias que normalmente tienen las clasificaciones por facetas convencio­nales. Además, la clasificación por facetas reemplaza a la estructura jerárquica tradicional de un tesauro, mediante los envíos TG/TE. El Thesaurofacet se beneficia de la meticulosidad del análisis por facetas, presentando de forma consis­tente las relaciones más importantes entre los términos y proporcionando un estricto control de los sinónimos. La estructura de facetas facilita la búsqueda genérica y la del tesauro hace posible el acceso inmediato a un término específico y proporciona relaciones entre los términos que no aparecen en la parte con facetas. Este tipo de tesauro puede ser utilizado tanto en un sistema precoordinado (usando la síntesis notacional) como en uno postcoordinado.Desde la publicación del Thesaurofacet han aparecido algunos tesauros basados en los mismos principios y sólo varían en cuanto al grado de interde­pendencia entre los elementos de las partes con facetas y alfabética. Un ejemplo es el Unesco Thesaurus (1977) del que también es responsable Jean Aitchison, autor del primer tesauro con

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (40 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

facetas.El ROOT Thesaurus (1981) posiblemente sea el tesauro más detallado de todos los que combinan una clasificación por facetas y una presentación alfa­bética. En las figuras 27 y 28 (ver al final del documento) se pueden ver ejemplos de ambas estructuras. En la figura 27 se indican, clara y explícitamente, las facetas en las que se divide una materia («By property», «By additive», etcétera). El tesauro utiliza los si­guientes signos especiales (p. 102): = un sinónimo no preferente

* < un término genérico adicional de otra división del tesauro (p. ej. GASOLINE ADDITIVES puede considerarse como específico de TJP, ADDITIVES, y como una subdivisión de GASOLINE)

*> un término específico adicional de otra división del tesauro

*_ un término relacionado adicional de otra división del tesauro La sección alfabética del ROOT Thesaurus (figura 28) sólo proporciona un nivel de jerarquía. Se utilizan los siguientes signos:

= un sinónimo no preferente

< un término genérico en la misma división del tesauro (p.ej., LIGNITE apa­rece como específico de COAL)

> un término específico en la misma división del tesauro (p.ej., FUEL OIL es un específico de MINERAL OILS)

- un término relacionado en la misma división del tesauro (p.ej., LIQUID FUEL APPLIANCES está relacionado con LIQUID FUELS)

* < un término genérico en otra división del tesauro

*> un término específico en otra división del tesauro

*_ un término relacionado en otra división del tesauro Los no descriptores pueden ser tratados de dos modos. El primer ejemplo,

HIGH-GRADE GASOLINE GASOLINE JOK

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (41 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

indica que la primera materia debe ser indizada con el término que hay tras la flecha. El segundo ejemplo,

** HYDROGEN GENERATORS JQK.GH GAS GENERATORS

+ HYDROGEN significa un «término sintetizado». El término HYDROGEN GENERATORS no debe ser usado; en su lugar, este concepto debe ser indizado con GAS GENERATORS e HYDROGEN (obsérvese que la entrada HYDROGEN muestra que hay que utilizar este término + GAS GENERATORS para representar HYDROGEN GENERATORS). Los símbolos especiales utilizados en lugar de TG, TE, TR y use hace que la estructura sea independiente del lenguaje.El conjunto de la estructura es ingenioso y su elaboración cuidadosa. Sin embargo, se puede plantear la duda de si realmente es necesaria una estructura tan sofisticada para la mayoría de las aplicaciones en la recuperación de información. Esto tiene poco que ver con el lenguaje natural, que se estudia en el capítulo 17. Capítulo XVIEvaluación de los tesauros Un tesauro puede evaluarse superficialmente mediante un simple examen. Por ejemplo, pueden valorarse ciertos aspectos globales: ¿Contiene una ade­cuada introducción que informe de su ámbito de aplicación y que explique sus características distintivas? ¿Incluye presentaciones alternativas (al menos secciones alfabética y jerárquica complementarias)? A un nivel superior, ¿son co­rrectas las relaciones TGITE y TR? ¿Los términos poco usuales o ambiguos son aclarados por su contexto, con calificadores, o mediante notas de aplicación? También puede valorarse que todas las relaciones tengan sus recíprocos, aunque utilizando el ordenador es improbable que falten.Un experto en la materia, además, podría evaluar el tesauro comprobando si distintas materias están representadas en él y silos términos que las representan son suficientemente específicos. También podría hacerse esta comproba­ción sobre una muestra aleatoria de artículos o resúmenes, determinando si las palabras clave aparecen en el tesauro.Es posible comprobar si el tesauro cumple las normas internacionales so­bre las convenciones singular/plural, formas de las palabras, entradas directas, y otros aspectos de consistencia. También pueden considerarse aspectos estéti­cos de composición y tipografía.Además de lo anterior se han propuesto y aplicado varias pruebas estadís­ticas para la evaluación de los tesauros. Por ejemplo, Kochen y Tagliacozzo (1968) evaluaron varios

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (42 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

vocabularios controlados mediante una razón de rela­ción y una medida de accesibilidad. La razón de relación es la razón entre tér­minos con referencias cruzadas (es decir, términos unidos al menos a otro tér­mino, p.ej., con TG, TE o TR) y el número total de términos del vocabulario. La medida de accesibilidad es la media de reenvíos a los descriptores del vocabula­rio. Por ejemplo, una medida de accesibilidad de 2,923 indica que cada término del vocabulario tiene una media de reenvíos de aproximadamente otros tres términos. Estas medidas indican la amplitud de las uniones (es decir, referencias cruzadas) entre los términos de un vocabulario. Altas cifras probablemente corresponderán a un tesauro más útil.Estos tipos de medidas, esencialmente cuantitativas, han sido desarrolla­das por el Bureau Marcel Van Dijk (1976). La razón de relación es sustituida por la de conexión que es definida como (b - a)/b, donde a es el número de descriptores del vocabulario que aparecen aislados (es decir, no unidos a otros) y b es el número total de descriptores del vocabulario. Cuanto más cerca esté de la unidad, mejor será el tesauro. La medida de accesibilidad de Kochen y Tagliacozzo se convierte en una razón de enriquecimiento. El valor recomendado está entre 2 y 5 e indica que demasiados reenvíos por descriptor (más de 5) serían un estorbo más que una ayuda.Se han propuesto nuevas medidas, como: 1. La razón de equivalencia, que es la razón entre el número de no descriptores y descriptores, realmente constituye una medida de la riqueza del vocabulario de entrada. Los autores del informe del Bureau Marcel Van Dijk recomiendan que este valor sea mayor a 1, es decir, que hayan más términos de entrada que descriptores.2. La razón de reciprocidad, que es el grado en que las relaciones TG, TE y TR tienen reenvíos recíprocos.3. Definición, representada por la ecuación (b - a)/b, donde a es el número de descriptores que posiblemente son ambiguos porque no tienen notas de aplicación, calificadores, o relaciones jerárquicas que los definan, y b es el número total de descriptores del vocabulario.4. Flexibilidad, que es la proporción de palabras en los descriptores com­puestos, que aparecen en el vocabulario como descriptores o no descriptores. Se recomienda un valor de 0,6 o mayor.5. Nivel de precoordinación, que es el número medio de palabras por descriptor. Para los tesauros ingleses y franceses se recomienda un valor entre 1,5-2,0 y de 1,1-1,2 para los tesauros alemanes*.6. El tamaño de los grupos de términos (es decir, los grupos que forman la lista sistemática del tesauro). Se recomienda de 30 a 40 términos por grupo. Algunas de estas medidas son ingeniosas, pero otras resultan triviales (ra­zón de reciprocidad) e incluso arbitrarias (la flexibilidad). Los valores recomen­dados son bastante arbitrarios. Se establecieron a partir de algunos tesauros considerados como

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (43 de 44) [24/03/02 11:30:08 p.m.]

¿Por qué el control del vocabulario

«buenos» y a los que se aplicaron las distintas medidas.Desde luego, es imposible evaluar un tesauro si no se hace en condiciones de uso real. La prueba definitiva nos la dará la existencia de términos suficientemente específicos para representar adecuadamente la materia de los docu­mentos y las peticiones, el grado de ambigüedad sintáctica en la base de datos y la utilidad del tesauro para encontrar todos los términos necesarios para realizar una búsqueda concreta.

∗ Aunque thesaurus se utiliza universalmente y conceptualmente es más preciso que tesauro, em­pleamos este último término debido a su uso general, tras la publicación de la norma UNE 50-106-90, en los textos en castellano sobre el tema (N. del T.)* Para los tesauros españoles el valor recomendado también es de 1,5-2,0 (N. del T.)

file:///C|/Mis%20documentos/Gustavo/Educacion...a/Procesamiento/Bibliografia/Nucleo2/P009.htm (44 de 44) [24/03/02 11:30:08 p.m.]