Análisis de contenidos - exabyteinformatica.com · CC-BY-NC-ND • PID_00195714 5 Análisis de...

102
Análisis de contenidos Manela Juncà Campdepadrós PID_00195714

Transcript of Análisis de contenidos - exabyteinformatica.com · CC-BY-NC-ND • PID_00195714 5 Análisis de...

  • Anlisis decontenidos Manela Junc Campdepadrs PID_00195714

  • CC-BY-NC-ND PID_00195714 Anlisis de contenidos

    Los textos e imgenes publicados en esta obra estn sujetos excepto que se indique lo contrario a una licencia deReconocimiento-NoComercial-SinObraDerivada (BY-NC-ND) v.3.0 Espaa de Creative Commons. Podis copiarlos, distribuirlosy transmitirlos pblicamente siempre que citis el autor y la fuente (FUOC. Fundacin para la Universitat Oberta de Catalunya),no hagis de ellos un uso comercial y ni obra derivada. La licencia completa se puede consultar en http://creativecommons.org/licenses/by-nc-nd/3.0/es/legalcode.es

    http://creativecommons.org/licenses/by-nc-nd/3.0/es/legalcode.es

  • CC-BY-NC-ND PID_00195714 Anlisis de contenidos

    ndice

    Introduccin............................................................................................... 5

    1. El resumen humano y automtico................................................ 7

    1.1. Tipos de resmenes ..................................................................... 10

    1.2. Resumen automtico ................................................................... 12

    2. La indizacin y la recuperacin: lenguajes documentales

    y lenguaje natural............................................................................. 16

    2.1. Lenguaje natural y lenguaje documental ................................... 19

    2.1.1. Nmero de trminos ..................................................... 19

    2.1.2. Control de las formas .................................................... 20

    2.1.3. Control del significado .................................................. 20

    2.1.4. Relaciones de significado de los trminos ..................... 22

    2.2. Cmo se indiza ........................................................................... 24

    2.3. Lenguajes documentales ............................................................. 29

    2.3.1. Clasificar y recuperar con sistemas de clasificacin ...... 36

    2.3.2. Indexar y recuperar con listas de encabezamientos y

    listas de autoridades ...................................................... 50

    2.3.3. Indexacin y recuperacin con tesauros ....................... 59

    2.3.4. Indizacin con listas de descriptores libres: etiquetas

    e Indizacin social ......................................................... 68

    2.3.5. Indizacin automtica ................................................... 77

    3. Calidad y coherencia en la representacin de contenidos...... 87

    3.1. La calidad del indizador ............................................................. 87

    3.1.1. Errores tcnicos .............................................................. 88

    3.1.2. Errores ticos .................................................................. 89

    3.1.3. Cmo se mide la calidad de un indizador? ................. 91

    3.2. Evaluacin de la recuperacin .................................................... 91

    3.2.1. Microevaluacin: silencio y ruido ................................. 92

    3.2.2. Macroevaluacin: exhaustividad y precisin ................ 93

    3.3. El papel del vocabulario en la recuperacin ............................... 93

    3.3.1. Falta de especificidad del lenguaje documental ............ 94

    3.3.2. Coordinaciones falsas .................................................... 95

    3.3.3. Relaciones incorrectas entre trminos ........................... 95

    Bibliografa................................................................................................. 99

  • CC-BY-NC-ND PID_00195714 5 Anlisis de contenidos

    Introduccin

    El objetivo del anlisis de contenido es identificar y representar de manera

    precisa la materia de los documentos, con el objetivo de permitir la recupe-

    racin. Esta parte del anlisis documental establece los puntos de acceso por

    materias o contenidos de los documentos.

    Se basa en dos operaciones:

    a) El resumen, que es la representacin abreviada y precisa del contenido.

    b) La indizacin, que consiste en representar el contenido del documento

    mediante trminos de indizacin extrados de lenguajesdocumentales: no-

    taciones, encabezamientos de materias, descriptores, identificadores, palabras

    clave, unitrminos. Cuando se representa el contenido siguiendo un sistema

    de clasificacin en lugar de una indizacin se conoce como clasificacin.

    Las normativas que usamos en esta parte del anlisis documental son:

    UNO 50-103-90, preparacin de resmenes.

    UNO 50-121-91, mtodos para el anlisis de documentos, determinacin

    de su contenido y seleccin de trminos de indizacin.

    Las normativas propias de cada lenguaje documental: vocabulario, com-

    binaciones, mantenimiento, actualizacin.

    Campos propios del anlisis de contenido en la referencia de PierreBonnassie: materia y resumen

    Campos propios del anlisis de contenido en la referencia de Pierre Bonnassie

    Materia Historia medieval - Terminologa

    Resumen Este es un libro poco corriente. Ni diccionario ni manual, significa una nueva y eficaz forma de introduccin a la vez analtica y sinttica a los problemas de la historia de la Edad Media. En efecto, a partir del anlisis demedio centenar de conceptos fundamentales y de su evolucin semntica, el profesor Pierre Bonnassie, de laUniversidad de Toulouse, consigue definir, con inslita precisin, las grandes cuestiones que hoy tiene plantea-das la historia medieval. El resultado es un texto innovador, de uso obligado para profesores y estudiantes, queencontrarn en l un instrumento de trabajo insustituible.

    Los lenguajes documentales usados tradicionalmente en los archivos son cua-

    dros de clasificacin construidos a medida del fondo. El anlisis de conteni-

    do es sinttico, no se analizan los documentos individualmente, sino el fon-

    do en su conjunto o los expedientes, dado que un documento forma parte

    de una cadena de documentos ordenados (cronolgicamente, orgnicamente,

    funcionalmente) y aislado pierde su contexto. La clasificacin puede ser org-

    nica, funcional (por funciones, por grandes materias) o mixta. No obstante,

    para describir el contenido de un expediente o de una serie, ms all de sus

    Clasificacin orgnica

    La clasificacin orgnica es elretrato de la estructura orgni-ca de la entidad que haya ge-nerado la documentacin.

  • CC-BY-NC-ND PID_00195714 6 Anlisis de contenidos

    funciones o situacin orgnica, hay lenguajes documentales, como los tesau-

    ros, que permiten identificar las temticas para la posterior explotacin de la

    informacin contenida en los documentos.

    En bibliotecas y centros de documentacin se usan la mayora de los lenguajes

    documentales. Los ms habituales son los sistemas de clasificacin, como la

    Clasificacin Decimal Universal (CDU) o la Clasificacin Dewey, los listados

    de autoridades, las listas de encabezamientos de materia, los tesauros y la in-

    dizacin automtica por palabras clave.

    En este mdulo veremos con detenimiento las tcnicas de resumen y los len-

    guajes documentales, como instrumentos para describir el contenido de los

    documentos.

    CDU

    CDU es la sigla de ClasificacinDecimal Universal.

  • CC-BY-NC-ND PID_00195714 7 Anlisis de contenidos

    1. El resumen humano y automtico

    Segn la norma UNE 50-103-90 Preparacin de resmenes, un resumen es

    la presentacin abreviada y precisa de un documento, sin interpretacin

    ni crtica y sin mencin expresa del autor del resumen.

    Cuando decimos documento nos estamos refiriendo a todo tipo de documen-

    to, sea cual sea su soporte material. Podemos resumir un texto, la imagen de

    una fotografa, un vdeo, audios, informacin en lnea o hipertextos, un ex-

    pediente o una serie.

    Los resmenes, como la indizacin, pueden ser de elaboracin humana o au-

    tomtica. En el primer caso hay cuatro tipos de personas que pueden redactar

    un resumen. En el caso de los resmenes automticos, se trata de un software.

    1)Resumenhumano:

    a) El autor del documento. Los resmenes elaborados por los propios autores

    son muy habituales en el mundo de las comunicaciones cientficas y tecno-

    lgicas.

    b) Un especialista en la materia de la que trata el documento.

    c) La editorial. Son los resmenes que aparecen en la contraportada de los

    libros impresos y que tienen una funcin claramente publicitaria.

    d) Un profesionaldeladocumentacin. Aporta su conocimiento sobre la re-

    daccin de buenos resmenes y los elabora pensando en las utilidades futuras.

    Ved tambin

    Encontraris la norma UNO50-103-90 en el espacio Ma-teriales y fuentes de las aulas.

    2)Resumenautomtico: los programas se conocen como programas resumi-

    dores de textos o Automatic Text Summarizer.

    La norma internacional ISO 214:1976, traducida por AENOR como norma

    UNE 50-103-90 Preparacin de resmenes, establece las directrices que se tienen

    que seguir para presentar los resmenes en los documentos. Pone especial n-

    fasis en la preparacin de resmenes por parte de los autores de los documen-

    tos primarios y en la misma publicacin.

    Programas resumidores detextos

    Un ejemplo de programas re-sumidores de textos es Swe-sum, que hace un anlisis es-tadstico del texto y elaborael resumen con los fragmen-tos que contienen las palabrasms ponderadas (ms repeti-das pero con significado).

    http://swesum.nada.kth.se/index-eng.htmlhttp://swesum.nada.kth.se/index-eng.html

  • CC-BY-NC-ND PID_00195714 8 Anlisis de contenidos

    Redactar un resumen es fcil. Lo difcil es redactar un buen resumen. El punto

    de inflexin es la calidad del resumen, que lo har ms o menos til en un

    sistema documental. Un resumen propagandstico no aportar muchos con-

    ceptos principales para indizar, aunque haya sido un buen reclamo para las

    ventas.

    Ejemplo de resumen elaborado por la editorial con finalidad publicitaria

    Sagan, Carl. Cosmos. Traducci: Albert Santamaria i Martnez; prleg: Ricard Guerrero.Barcelona: Publicacions i Edicions de la Universitat de Barcelona: Omnis Cellula, cop.2006.

    He aqu una de las obras ms destacadas de la literatura internacional de divulgacincientfica, publicada por primera vez en cataln. Una obra imprescindible de uno de losgrandes maestros de la divulgacin, que nos introduce en los grandes enigmas que lahumanidad ha tratado de entender y explicar desde tiempos inmemoriales, y por loscuales ha nacido lo que llamamos ciencia.

    Desde la infinitud del Universo hasta el mundo invisible de los tomos, desde el naci-miento de las estrellas hasta la aparicin de la vida, Carl Sagan consigue transmitir losconocimientos de la ciencia actual de una manera clara y apasionante.

    Para un analista slo tendra utilidad el ltimo prrafo, en qu aparecen trminos comouniverso, tomos, estrellas, vida.

    El resumen es til en la fase de descripcin y es un excelente instrumen-

    to de recuperacin, ya que el resumen ofrece ms datos que la simple

    referencia documental. La principal utilidad del resumen es la de difun-

    dir la informacin.

    Adems, el resumen tiene otras utilidades, tal como dice la norma UNE

    50-103-90:

    a) Determinar la pertenencia: un resumen bien elaborado capacita a los lecto-

    res para identificar de forma rpida y precisa el contenido de un documento

    y decidir si hay que leerlo en su totalidad.

    b) Evitar la lectura del texto completo en documentos de inters secundario.

    Un resumen bien elaborado proporciona suficiente informacin sobre temas

    que no sean de inters principal para el lector. Ahorra tiempo al usuario.

    c) Ayudar en la bsqueda automatizada. Los resmenes automatizados incor-

    porados en los catlogos son muy tiles para:

    Extraer trminos de indizacin de su texto, es decir, indizar a partir del

    resumen.

    Hacer bsquedas de palabras clave que no se encuentran en el ttulo.

    Difundir la informacin

    Cada vez ms bases de da-tos referenciales ofrecen el re-sumen de sus monografas yrevistas, como por ejemploEbsco, Dialnet, Compludoc,CBUC, Eric database o ISI cu-rrent contents connect. Tam-bin lo hacen las bases de da-tos de novedades editoriales,por ejemplo la editorial Trea(recomendamos el acceso des-de la biblioteca de la UOC).

    http://www.trea.es/

  • CC-BY-NC-ND PID_00195714 9 Anlisis de contenidos

    Servir de control bibliomtrico, al comparar los trminos usados en una

    ecuacin de bsqueda con los trminos que aparecen en un resumen y as

    establecer la pertinencia de la recuperacin.

    Ayudar a la difusin desde los servicios de alerta.

    Segn Mara Pinto (1992), las caractersticasdeunresumen son las siguien-

    tes:

    Brevedad. Se tienen que omitir datos preliminares o temas del conocimien-

    to comn.

    Pertinencia. El resumen se tiene que adecuar al mensaje principal del do-

    cumento, sin obviar o interpretar los datos.

    Claridad y coherencia. Frases completas, dotadas de coherencia lineal y

    global.

    Profundidad. Vara en funcin del tipo de resumen o de los diferentes ni-

    veles de detalle que se persigan.

    Consistencia lingstica. Un resumen se tiene que adaptar a las pautas lin-

    gsticas en uso y tiene que tener en cuenta las reglas morfolgicas y sin-

    tcticas correspondientes.

    Proximidad cronolgica entre las ediciones del documento original y el

    resumen. Es importante que el tiempo transcurrido entre la publicacin

    del original y el resumen no sea excesivo, especialmente en mbitos cien-

    tficos y tcnicos.

    A modo de conclusin

    El resumen es la presentacin abreviada y precisa de un documento, sin interpreta-cin ni crtica y sin mencin expresa del autor del resumen.

    El resumen puede ser redactado por el autor del documento, un especialista en lamateria, la editorial, un documentalista o un programa informtico.

    El resumen es til en dos fases de la cadena: en los procesos de seleccin y adquisicinque se da en la primera fase de la cadena y en la fase de salida, donde es un excelenteinstrumento de recuperacin.

    La principal utilidad del resumen es la de difundir la informacin, pero adems, elresumen tiene otras utilidades, como determinar la pertinencia, evitar la lectura deltexto completo en documentos marginales y ayudar a la bsqueda automatizada.

    Los resmenes automatizados incorporados en los catlogos son muy tiles para ex-traer trminos de indizacin del texto, para hacer bsquedas de palabras clave que nose encuentran en el ttulo, para servir de control bibliomtrico y ayudar a la difusina travs de los servicios de alerta.

    Lectura complementaria

    Podis ampliar la informa-cin sobre el resumen leyen-do la obra siguiente:M.PintoBatanea (1992). Elresumen documental: principiosy mtodos. Madrid: Pirmi-de/Fundacin Germn Sn-chez Ruiprez (Biblioteca delLibro, Y).

  • CC-BY-NC-ND PID_00195714 10 Anlisis de contenidos

    1.1. Tipos de resmenes

    Hay diversos tipos de resmenes, segn el tamao, los usuarios y la profundi-

    zacin en el contenido. Los tipos ms habituales son los resmenes informa-

    tivos, indicativos y selectivos.

    1)Resumeninformativo

    Redactaremos el tema central, temas adicionales, naturaleza y objetivo del do-

    cumento, metodologa, resultados, conclusiones y anexos. La idea de fondo es

    que un resumen informativo puede sustituir en ocasiones la lectura del docu-

    mento original. La norma UNE 50-103-90 recomienda que el esquema a seguir

    sea el de:

    objetivo + metodologa + resultados (o conclusiones)

    Sin embargo, no hay que seguir forzosamente este orden, ya que hay entornos,

    como el tcnico cientfico, donde se prefieren los resmenes orientados a los

    resultados (para que la discriminacin sea ms rpida).

    En cuanto al tamao del resumen, la norma da pautas pero advirtiendo que el

    contenido del documento es ms significativo que las pautas para determinar

    la extensin del resumen. De todas maneras la norma nos sugiere:

    Monografas, informes, tesis: 500 palabras.

    Artculos de revista, captulos de monografas: 250 palabras.

    Comunicaciones breves: 100 palabras.

    Ejemplo de resumen informativo

    Consuegra Fernndez, Jess: El Ajedrez: evolucin y claves de un juego milenario. EnMundo antiguo. Madrid: 2002. n 3-4, ao 1, p. 60-61.

    Artculo divulgativo sobre el juego del ajedrez, estructurado segn sus orgenes, anti-gedad, expansin, variantes y simbolismo.

    El origen del ajedrez es hind y el primer representante conocido es el Ghaturanga, apa-recido entre el 3000 y el 2000 a.C. en Sri Lanka, aunque no aparece documentado hastael siglo VII d.C.

    Del Ghaturanga proceden en cascada las diferentes variantes del ajedrez: de la India viaja Persia en el siglo VI d.C., donde pas de los 4 jugadores originales a 2 en la versin persaShatranj. Desde Persia se extendi hacia Occidente y hacia Oriente.

    Hacia Occidente: paralela a la expansin rabe, el juego llega a la Pennsula Ibrica du-rante la Alta Edad Media, y desde aqu se expande al resto de Europa y al resto del mundoen la poca de las colonizaciones.

    Hacia Oriente: en la China, en el s. VII d.C., el ajedrez toma la forma del ajedrez chinoXiang qi; en el Japn, el Shogi; en Indochina, el ajedrez birmano y tailands. Tanto enOriente como en Occidente, el ajedrez presenta innumerables variaciones locales.

  • CC-BY-NC-ND PID_00195714 11 Anlisis de contenidos

    El tablero y las fichas parecen poseer un significado simblico. El tablero, con la alter-nancia de casillas blancas y negras, forma un mandala. El simbolismo de las fichas esmenos esotrico y ha ido cambiando segn los tiempos: obispos, elefantes, etc.

    El autor concluye que el ajedrez, adems de un juego, es una herramienta educativa deprimer orden, casi una ciencia.

    Como podis comprobar, este resumen tiene 237 palabras.

    2)Resumenindicativo

    Redactaremos slo las ideas centrales del documento. Su lectura no puede sus-

    tituir la lectura del original. Como su nombre sugiere, el resumen indicativo

    presenta de forma abreviada y muy sinttica el contenido o la tipologa del

    documento. Su extensin puede oscilar entre una frase o 4 lneas de texto.

    Ejemplo de resumen indicativo

    Consuegra Fernndez, Jess: El Ajedrez: evolucin y claves de un juego milenario. EnMundo antiguo. Madrid: 2002. n 3-4, ao 1, p. 60-61.

    Artculo divulgativo sobre el juego del ajedrez, trata de su origen hind, antigedad,expansin histrica tanto en Oriente como en Occidente, variantes nacionales y simbo-lismo del tablero y las fichas.

    3)Resumenselectivo

    Redactaremos slo una parte concreta del documento. El ms habitual es el

    resumen de conclusiones, pero tambin hay otros tipos, como la resea (re-

    view), que es un anlisis del documento con elementos crticos. Este tipo de

    resumen se adapta muy bien a las necesidades de los usuarios, por ejemplo in-

    vestigadores o tcnicos que necesitan un dato muy concreto sobre el objetivo

    del documento o las conclusiones a las que llega.

    Ejemplo de resumen selectivo

    Consuegra Fernndez, Jess: El Ajedrez: evolucin y claves de un juego milenario. EnMundo antiguo. Madrid: 2002. n 3-4, ao 1, p. 60-61.

    El ajedrez, adems de un juego, es una herramienta educativa de primer orden, casi unaciencia.

    A modo de conclusin

    Los resmenes ms habituales son el resumen informativo, el indicativo y el selectivo:

    El resumeninformativo consigna el tema central, temas adicionales, naturaleza yobjetivo del documento, metodologa, resultados, conclusiones y anexos. La idea defondo es que un resumen informativo puede sustituir en ocasiones a la lectura deldocumento original.

    El resumenindicativo consigna slo las ideas centrales del documento. Su lecturano puede sustituir a la lectura del original.

    El resumenselectivo consigna slo una parte concreta del documento. El ms ha-bitual es el resumen de conclusiones, pero tambin hay otros tipos, como la resea(review).

  • CC-BY-NC-ND PID_00195714 12 Anlisis de contenidos

    1.2. Resumen automtico

    Una de las necesidades ms perentorias ante el aumento de informacin digi-

    tal debido al crecimiento exponencial de Internet es manejar y filtrar el gran

    volumen de informacin. Una de las soluciones aportadas por el PLN han si-

    do los programas de resumen automtico, que actan sobre textos, imgenes,

    webs y correo electrnico.

    Los primeros en trabajar en el campo de la automatizacin de los resmenes

    fueron Hans Peter Luhn en el ao 1958 y Edmundson en 1969, que aplicaron

    tcnicas como la frecuencia de las palabras, o la posicin de una frase dentro

    de un documento para redactar resmenes sin intervencin humana.

    A partir de estas primeras investigaciones se han perfeccionado muchas tcni-

    cas diferentes basadas en conocimiento y recursos lingsticos (como las de

    Lin y Hovy, 2002; Gotti et al., 2007) o basadas en mtodos estadsticos y de

    aprendizaje automtico (Hirao et al., 2002; Svore, 2007) (autores citados en

    Lloret et al., 2008; y Mateo et al., 2003).

    Hans Peter Luhn

    ltimamente las investigaciones giran en torno al resumen multidocumento,

    es decir, resumir ms de un documento (Goldstein et al., 2000; Qiu, 2007; Huo

    y Chen, 2008) de contenidos afines o redundantes (autores citados en Lloret

    et al., 2008; y Mateo et al., 2003).

    Los resmenes automticos se conocen tambin como extracts. La terminolo-

    ga anglosajona diferencia as los extracts y los abstracts. Los extracts son los

    resmenes formados a partir de la extraccin de algunas frases del texto pre-

    viamente seleccionadas por un programa, mientras que los abstracts son los

    resmenes elaborados por una persona.

    La base de todas las tcnicas de funcionamiento de un programa de

    resmenes automtico es el cmputo de la frecuencia de las palabras.

    Hay diversas herramientas para hacer estos clculos, por ejemplo WVTool. Se

    trata de contar cuntas veces sale una palabra no vaca en el texto.

    Lecturascomplementarias

    Podis consultar los resulta-dos de las investigaciones deestos autores en los artculossiguientes:E.Lloret;O.Ferrndez;R.Muoz;M.Palomar (2008).Integracin del reconoci-miento de la impliacin tex-tual en tareas automticas deresmenes de textos. Proce-samiento del lenguaje natural,n. 41, pg. 183-190.P.L.Mateo;J.C.Gonzlez;J.Villena;J.L.Martnez(2003). Un sistema para resu-men automtico de textos encastellano.

    http://wvtool.sourceforge.net/http://hdl.handle.net/10045/8577http://hdl.handle.net/10045/8577http://hdl.handle.net/10045/8577http://hdl.handle.net/10045/8577http://www.daedalus.es/fileadmin/daedalus/doc/I+D/DAEDALUS-RP-SEPLN_2003.pdfhttp://www.daedalus.es/fileadmin/daedalus/doc/I+D/DAEDALUS-RP-SEPLN_2003.pdfhttp://www.daedalus.es/fileadmin/daedalus/doc/I+D/DAEDALUS-RP-SEPLN_2003.pdf

  • CC-BY-NC-ND PID_00195714 13 Anlisis de contenidos

    Ejemplo de funcionamiento de un programa de resmenes automtico(extrado de Lloret et al., 2008)

    Tropical storm Gilbert formed in the eastern Caribbean and strengthened into a hurri-cane Saturday night. There were no reports of casualties.

    Oracin 1: Tropical (2) storm (6) Gilbert (7) formed (1) in (0) the (0)eastern (1) Caribbean (1) and (0) strengthened (1) into(0) a (0) hurricane (7) Saturday (4) night (2).

    Oracin 2: There (0) were (0) no (0) reports (1) of (0) casualties (1).

    Lo primero que vemos es que las palabras vacas, es decir, las palabras que no tienensignificado (preposiciones, artculos, verbos) no se computan.

    Al lado de cada palabra con significado vemos el nmero de veces que sale en todo el tex-to. Se suman los valores, de manera que la oracin 1 tiene 3,2 puntos y la oracin 2, 0,2.El programa seleccionar la frase 1 como ms representativa para el resumen automtico.

    Este sistema de resumir a partir de las frases con las palabras ms significativas

    en el texto parece simplista pero tiene cierta justificacin. Segn Kupiec et al.

    (1995) aproximadamente el 80% de las frases en resmenes humanos estn

    copiadas literalmente o con pequeas modificaciones del texto original.

    A partir de esta base estadstica se incorporan otras tcnicas para dotar al pro-

    grama de ms conocimiento y paliar la escasa coherencia del resultado, como

    puede ser, por ejemplo, la resolucin de la anfora o aplicar programas (por

    ejemplo, WordNet) que proporcionen relaciones como las de sinonimia o hi-

    peronimia, o mecanismos para detectar y eliminar la redundancia.

    Definimos brevemente qu son las anforas y la hiperonimia:

    a) Las anforas son la relacin de referencia entre un elemento lingstico y

    otro anterior en el discurso.

    b) Decimos que una palabra es hipernima cuando tiene un campo significa-

    tivo que incluye otro de menor extensin.

    Los expertos consideran que la tecnologa actual no tiene problemas para de-

    tectar las frases con ms significado, pero s para ordenarlas segn su impor-

    tancia.

    Los programas funcionan a grandes rasgos de la siguiente manera: se copia

    el texto a resumir o bien se escribe la direccin del documento. Se escoge el

    tipo de documento (acadmico, periodstico, etc.) y el tanto por ciento de

    reduccin del texto.

    A continuacin tenis unos cuantos programas de los ms conocidos:

    Connexor

    Daedalus

    Anfora

    El Saln del Hobby ha tenidoms de 60.000 visitantes esteao. Este saln se ha converti-do en la feria de ocio familiarms visitada.En este ejemplo, la anfora seda en este saln, que hacereferencia al Saln del Hobby,expresado en la frase anterior.Como se puede comprobar, sien el resumen automtico apa-rece slo la segunda frase, ellector no sabr a qu saln ha-ce referencia.

    Hiperonimia

    Color es un hipernimo. Sucontrario es hipnimo: amari-llo, naranja, verde son hipni-mos.

    http://wordnet.princeton.edu/http://www.connexor.com/http://stilus.daedalus.es/demoIL.php?demo=res

  • CC-BY-NC-ND PID_00195714 14 Anlisis de contenidos

    Extractor

    FociSum

    InTEXT (Dynamic Summarizing)

    Inxight Summarizer

    IslandInText

    K-Site de Daedalus

    Pertinence Summarizer

    Sinope Summarizer

    Summarizer

    SweSum1

    System Q

    TextAnalyst

    Trestle

    El programa K-Site de Daedalus

    De entre los programas de resumen automtico mencionados, veamos el funcionamientodel programa K-Site de Daedalus. Este programa tiene cinco mdulos:

    Mdulo1:Anlisismorfosintctico. En este mdulo se determina la categora lxi-ca de cada palabra: sustantivo, verbo, adjetivo, artculo, preposicin, etc. Tambin sedetermina el lema. Estas operaciones permiten distinguir las palabras con significado(sustantivos, adjetivos, verbos) de las vacas (artculos, preposiciones, pronombres,etc.). El lema permite agrupar todas las palabras que son flexiones de otra (info/in-formar/informacin/informador/informacional/etc.). El producto final es un listadocon las palabras puntuadas y un listado de frases candidatas.

    Mdulo2:Ponderacindefrases. Este mdulo recibe las palabras etiquetadas porel mdulo anterior, y su funcin es escoger entre todas las frases candidatas. Parahacerlo se ayuda de diversos submdulos que ponderan las frases segn los parme-tros siguientes: la frecuencia, la presencia de palabras indicativas (buscan palabrascomo importante, esencial, conclusiones, etc.), buscan frases que contengan palabrasque aparezcan en el ttulo, o que tengan nombres propios, o que la tipografa seadestacada (negritas, cursivas, tamao superior, etc.) y seleccionan frases que aparez-can en posiciones destacadas en el texto (al principio de cada prrafo, al final a modode conclusin).

    Mdulo3:Deteccindeanforas. Una vez tiene las frases seleccionadas, puede serque se d el caso de anforas mal resueltas (una frase contiene una anfora que seencontraba en la frase previa y que no ha sido seleccionada). El programa busca lasanforas (especialmente los demostrativos pronominales o pronombres personales,por ejemplo este, aquel, lo que, eso) y su posicin en la frase: al principio, entre las seisprimeras palabras, en otras posiciones.

    Mdulo4:Seleccindefrases. Este mdulo computa toda la informacin recogidaen las fases anteriores: frases candidatas, puntuaciones, deteccin de anforas. Selec-ciona las frases candidatas de puntuacin ms alta hasta llegar al tanto por cientopedido por el usuario. Si entre estas frases hay alguna que contenga una anfora, seselecciona la frase anterior (que contiene la palabra a la cual se est haciendo referen-cia) siempre y cuando forme parte de las frases candidatas y no sobrepase la longituddel resumen.

    Mdulo5:Postprocesadodelextracto. Su funcin es detectar expresiones que co-nectan partes del texto, ya sea para mostrar causalidad, contraposicin, etc. Son ex-presiones del tipo por lo tanto, en contra, etc. Como en el caso de las anforas, si for-man parte de una frase seleccionada, se procura incluir en el resumen la frase con lacual estn relacionadas.

    (1)Podis practicar con el programaSwesum, que es gratuito y traduceal espaol.

    http://www.extractor.com/http://www1.cs.columbia.edu/~hjing/sumDemo/FociSum/http://www.intext.com/http://www.inxight.com/products/sdks/sum/http://www.islandsoft.com/products.htmlhttp://stilus.daedalus.es/demoIL.php?demo=reshttp://www.pertinence.net/index.htmlhttp://www.sinope.info/en/index.phphttp://www.copernic.com/en/products/summarizer/http://www.mcs.surrey.ac.uk/SystemQ/http://www.megaputer.com/http://nlp.shef.ac.uk/trestle/http://stilus.daedalus.es/demoIL.php?demo=reshttp://swesum.nada.kth.se/index-eng.html

  • CC-BY-NC-ND PID_00195714 15 Anlisis de contenidos

    Por ltimo, debemos recordar que algunos procesadores de textos, como Mi-

    crosoft Word, tambin ofrecen esta opcin (Autosummarize o Auto-resumen).

    A modo de conclusin

    Los resmenes automticos (extracts) son una de las soluciones aportadas por el PLNpara hacer frente al manejo de grandes volmenes de informacin en lnea.

    Los primeros en trabajar en el campo de la automatizacin de los resmenes fueronHans Peter Luhn en el ao 1958 y Edmundson en 1969.

    Las tcnicas han evolucionado de los primeros cmputos sobre la frecuencia de laspalabras, o la posicin de una frase dentro de un documento, a las tcnicas basadasen conocimiento y recursos lingsticos o en mtodos estadsticos y de aprendizajeautomtico.

    La base de todas las tcnicas es el cmputo de la frecuencia de las palabras. A partirde esta base estadstica, se incorporan otras tcnicas para dotar al programa de msconocimiento y paliar la escasa coherencia del resultado, por ejemplo la resolucin dela anfora o se aplican programas que proporcionen relaciones como las de sinonimiao hiperonimia o mecanismos para detectar y eliminar la redundancia.

    Los expertos consideran que la tecnologa actual no tiene problemas para detectar lasfrases con ms significado, pero s para ordenarlas segn su importancia.

  • CC-BY-NC-ND PID_00195714 16 Anlisis de contenidos

    2. La indizacin y la recuperacin: lenguajesdocumentales y lenguaje natural

    Indizar es la accin de describir o identificar un documento con relacin a su conteni-do.

    Norma UNE 50-121-91.

    Indizar es el resultado de examinar el documento, seleccionar los con-

    ceptos y almacenarlos en una base de datos.

    Esta definicin implica tres acciones, de las cuales la ms significativa es la

    seleccin de los conceptos y su traduccin al lenguaje documental.

    Al igual que se ha tratado en el resumen, la indizacin la puede realizar una

    persona o un programa.

    Si la indizacin es intelectual, es decir, la llevan a cabo personas, estas personas

    pueden ser:

    Profesionales (documentalistas), que llevan a cabo la tarea de indizacin

    de manera individual o en equipo. A su vez, los equipos pueden indizar

    de manera centralizada o coordinada.

    Amateurs (usuarios de Internet que indizan de manera social o tagging,

    por ejemplo, en Delicious).

    El elemento humano permite un anlisis ms rico del documento, captando

    conceptos y matices que un programa no llegara a detectar, pero tiene el in-

    conveniente del tiempo que se tiene que dedicar y la coherencia entre indi-

    zadores.

    La indizacin automtica se realiza a travs de un programa informtico. Su

    funcionamiento es muy sencillo: extrae del ttulo, resumen o texto completo

    las palabras ms significativas. Es un mtodo econmico y muy rpido.

    Larecuperacin

    La recuperacin es un proceso paralelo a la indizacin.

    Si se busca un dato concreto, como un ttulo (Hamlet, web semntica) o un

    autor (Shakespeare, Llus Codina), la bsqueda no reviste ninguna dificultad,

    ya que la peticin se efecta con unos datos objetivos y la respuesta solo puede

    ser tengo resultados o no tengo resultados. En cambio, cuando no se busca

    http://delicious.com/

  • CC-BY-NC-ND PID_00195714 17 Anlisis de contenidos

    por un dato concreto sino por un tema, entonces entran en juego las mismas

    tres fases (examen, seleccin y traduccin ) que en la indizacin, pero con la

    diferencia de que lo que se examina y se selecciona es la peticin del usuario.

    1) Examinar la peticin del usuario para identificar el contenido.

    2) Seleccionar los conceptos principales de la peticin.

    3) Traducir a un lenguaje documental.

    En la recuperacin, una de las claves es conocer bien el lenguaje documental

    que debemos consultar, porque si es as podremos llevar a cabo bsquedas

    ms precisas, sobre todo en el caso de lenguajes controlados (por las relaciones

    semnticas que establecen entre los trminos). As pues, el primer paso ser

    averiguar qu tipo de indizacin se encuentra tras la caja de bsqueda.

    Los lenguajes documentales que hay tras una fuente de informacin no son

    evidentes, tienden a la invisibilidad. Los programas prefieren pantallas de bs-

    queda muy simples (por ejemplo, Scirus), donde aparece una caja en blanco:

    sencillo y amigable para el usuario, pero a nosotros no nos puede pasar por

    alto que esconde un lenguaje documental o, ms probablemente, una combi-

    nacin de lenguajes.

    En el proceso de bsqueda probablemente pasaremos de una fuente de infor-

    macin a otra y, en consecuencia, de un tipo de indizacin a otro.

    Mientras la bsqueda se lleve a cabo en buscadores, la indizacin ser auto-

    mticaylibre, pero cuando entramos en intranets y bases de datos, la indi-

    zacin cambiar, probablemente, a una controlada, en cuyo caso deberemos

    saber qu tipo de lenguaje las controla.

    Ejemplo

    Usamos un buscador generalcomo Google (indizacin auto-mtica) para llegar a la web dela Biblioteca de Catalunya y asu catlogo, que est clasifica-do con CDU, LEMAC y LENOTI(tres lenguajes controlados).

    http://www.scirus.com

  • CC-BY-NC-ND PID_00195714 18 Anlisis de contenidos

    Figura 1. Fuentes de informacin y lenguajes documentales.

    Observacin

    No se puede disear una tabla que relacione el tipo de fuentes de informacin y el len-guaje que utilizan porque, a pesar de que se sigue cierta tendencia, no son siempre iguales.

    Las fuentes de informacin ms estndares son los catlogosbibliotecarios

    (que suelen estar indizados con sistemas de clasificacin, listas de encabeza-

    mientos de materia y listas de autoridades) o de archivos, y los buscadores,

    que no podran existir sin la indizacin automtica. Ahora bien, el resto es

    muy diverso, de modo que podemos llegar a encontrar bases de datos indiza-

    das por tesauros (Unesco) o, simplemente, por descriptores libres (Delicious).

    Para saber qu lenguaje indiza la fuente, es til observar si lleva un men de

    opciones con enlaces del tipo Normalizacin, para profesionales, o incluso

    directamente LEMAC2 o LCSH3, es decir, el nombre del lenguaje, irreconocible

    para un profano pero perfectamente reconocible para los documentalistas.

    En segundo trmino, podemos reconocer el lenguaje:

    (2)Lista de encabezamientos demateria en cataln

    (3)Library of Congress Subject Hea-dings

  • CC-BY-NC-ND PID_00195714 19 Anlisis de contenidos

    por la forma del trmino (un cdigo ser una clasificacin, dos palabras

    separadas por guin ser un encabezamiento de materia);

    por un nmero de trminos en plural (nos dice que se trata de descripto-

    res, habr que averiguar si son controlados de un tesauro o libres des-

    criptores libres o tags);

    por el tipo de fuente (un catlogo o un buscador usan siempre el mismo

    tipo de lenguaje);

    por la institucin que hay tras l;

    por la experiencia del documentalista.

    2.1. Lenguaje natural y lenguaje documental

    Para indizar necesitamos los lenguajes documentales. Qu diferencia hay en-

    tre el lenguaje natural y el documental?

    Por lenguajenatural entendemos el lenguaje que usamos de forma co-

    tidiana: cataln, castellano, vasco, gallego, francs, etc.

    Por lenguajedocumental entendemos el listado o vocabulario de tr-

    minos que usamos para indizar y que puede estar en formato libre o

    controlado.

    Y por qu hay que controlar los trminos del lenguaje natural? Porque el len-

    guaje natural es ambiguo, los conceptos se pueden representar de formas di-

    versas, dando lugar a problemas de recuperacin. El lenguaje natural es rico en

    terminologa, en formas (plurales y singulares), tiempos verbales, acrnimos,

    sinnimos, polisemias, etc.

    La principal diferencia entre el lenguaje natural y el documental controlado es

    precisamente el control terminolgico, que permite representar los conceptos

    de forma unvoca, sin ambigedades.

    Para ser ms concretos, las diferencias se dan en el nmero de trminos del

    vocabulario, el control de las formas, el control del significado y las relaciones

    de significado entre trminos.

    2.1.1. Nmero de trminos

    Los lenguajes documentales son entrpicos (Blanca Gil, 2004, pg. 20),

    es decir, tienden a la seleccin, a la restriccin del vocabulario. Es el

    proceso contrario del lenguaje natural, que tiende a la abundancia, a la

    reiteracin de conceptos, a la sinonimia en beneficio de una expresin

    ms rica.

    La riqueza del lenguajenatural

    Ejemplos de sinnimos delmismo concepto: Cosmos /Universo / Infinito / Firma-mento / Cielo.

    Ejemplo del mismo concep-to en formas diferentes, si-glas o frases, y en idiomasdiferentes: OTAN / NATO /Organitzaci del Tractat delAtlntic Nord / Organiza-cin del Tratado del Atln-tico Norte / North AtlanticTreaty Organization.

    Ejemplo de polisemia: Ban-co / Planta / Carta / Sierra /Estrella / Lengua / Capital.

    Univocidad

    La univocidad consiste en re-presentar un concepto con unnico trmino.

  • CC-BY-NC-ND PID_00195714 20 Anlisis de contenidos

    Los lenguajes documentales reducen considerablemente el nmero de trmi-

    nos del lenguaje natural, ya que slo tienen en consideracin los sustantivos

    y algunos sintagmas nominales, pero no adjetivos, preposiciones, conjuncio-

    nes, adverbios, verbos, etc. Adems, entre todos los sustantivos, escogen uno

    que representar al resto cuando el significado sea el mismo. Y entre diversas

    formas aceptadas por el mismo trmino, slo una ser la aceptada, como es

    el caso de las siglas.

    Los lenguajes documentales son en esencia sencillos, su eficacia aumenta a

    medida que las reiteraciones y la redundancia son controladas en una nica

    forma que rene conceptos afines.

    2.1.2. Control de las formas

    Los lenguajes documentales controlan las formas plural/singular, el uso

    de acrnimos y siglas y la construccin de las frases, y de esta manera

    establecen unos modelos.

    Modelo Ejemplo

    Sustantivo Pintura

    Sustantivo + adjetivo Pintura medieval

    Sustantivo + preposicin + sustantivo Pintores de vitrales

    Estas reglas gramaticales y sintcticas unifican las palabras seleccionadas y las

    frases.

    Ejemplos en las listas de encabezamientos de materia

    Se acostumbra a usar el singular para expresar conceptos abstractos. As, por ejemplo,es solidaridad y no solidaridades.

    No se permite el uso de siglas; se prefiere la expresin entera del concepto y en lalengua del servicio de informacin y documentacin (SID4). Por ejemplo, Organiza-cin del Tratado del Atlntico Norte.

    Es preferible la expresin natural del concepto compuesto, y no su forma inversa. Escorrecto Objetos de arte, y no Arte, objetos de.

    2.1.3. Control del significado

    Los problemas ms importantes en cuanto al significado son la sinonimia y

    la polisemia.

    (4)SID es la sigla de servicio de infor-macin y documentacin.

  • CC-BY-NC-ND PID_00195714 21 Anlisis de contenidos

    a)Sinonimia: decimos que las palabras son sinnimas cuando tienen el mis-

    mo significado. En un sistema documental, si no se controlan y se usan indis-

    criminadamente, comportan silencio documental. En el caso de alimento,

    nutriente, comida, provisin, el usuario puede estar buscando por alimento

    y no recuperar documentos porque se encuentran indizados con otras formas,

    como nutriente. La solucin de los lenguajes controlados es recoger todos

    los trminos sinnimos y seleccionar uno para representar a todo el conjunto

    de trminos que tienen el mismo significado, porque dos sinnimos son sus-

    tituibles el uno por el otro en cualquier contexto.

    Ejemplo

    Una lista de encabezamientos de materia como la del Consejo Superior de InvestigacionesCientficas (CSIC) recoge todos estos sinnimos:

    Hispanoamericanos. Iberoamericanos. Latinoamericanos. Sudamericanos.

    Pero slo da como trmino aceptado Latinoamericanos. Si al SID5 llegara un documen-to titulado Los sudamericanos del siglo XX, el analista lo indizara como Latinoameri-canos, ya que es el trmino aceptado.

    b)Polisemia: decimos que dos palabras son polismicas cuando el mismo

    signo lingstico, palabra o sonido tiene ms de un significado. Habitualmente

    el contexto de la conversacin o lectura donde est insertada la palabra desha-

    ce los problemas de ambigedad, pero una palabra polismica introducida en

    un sistema documental, sin el contexto, puede dar lugar a ruido documental.

    Ejemplo

    Un usuario puede estar buscando sobre columnas en arquitectura y recuperar datos sobrecolumnas tipogrficas de diarios. Los lenguajes documentales controlan la polisemia di-ferenciando cada significado con parntesis, usando el plural o el singular, adjetivando,etc.

    Un tipo de polisemia es la homonimia. La diferencia entre ellas radica en la

    etimologa de la palabra. Si la etimologa de las dos palabras es la misma, ha-

    blamos de polisemia; si la etimologa es diferente, hablamos de homonimia.

    Ejemplos de polisemia y homonimia

    Mismaetimologa=polisemia

    La polisemia se da cuando una palabra tiene un nico origen etimolgico y acaba te-niendo significados diferentes sin cambiar su categora gramatical: por ejemplo, no pasade sustantivo a verbo, como pasa en castellano entre el vino (bebida) y el vino (verbovenir). Es una palabra que con el tiempo ha ido adquiriendo diferentes significados, peroaun as, todos guardan entre s una relacin de significado; por ejemplo, en cataln ycastellano fulla/hoja, que viene del latn folia, tiene diversos significados, como hoja deuna planta, hoja de metal de una herramienta, pgina de un libro, cada una de las partesde una puerta doble o ventana, etc. Y en todos los significados lleva implcita la idea deuna lmina.

    Si queremos saber si una palabra es gramaticalmente polismico, basta con consultar undiccionario etimolgico y ver si proviene de un mismo origen. Encontraremos la palabra,un nico origen y una lista de diferentes significados. En castellano podemos consultarel Diccionario de la Real Academia.

    (5)A partir de ahora denotamos ser-vicios de informacin y documenta-cin con la sigla SID.

    http://buscon.rae.es/draeI/

  • CC-BY-NC-ND PID_00195714 22 Anlisis de contenidos

    Ms ejemplos de polisemia:

    Servicio, del latn servitium, que ha dado lugar a oficios religiosos, lavabos, misionesmilitares, cubiertos para comer y, en deportes, poner la pelota en juego. Y en todosellos permanece la idea de ser til.

    Crucero, del latn crux, significando cruz, interseccin entre las dos naves de unaiglesia, encargado de llevar la cruz a la cabeza de una procesin, viaje de placer porel mar, etc. En estos significados la idea es la de la forma de cruz, el cruzar como irde un extremo a otro.

    Columna, del latn columna, que usamos para referirnos a los pilares arquitectnicos,las partes verticales de una pgina impresa de un diario, en fsica la forma que adoptanalgunos fluidos, como columnas de humo, en el mbito militar, la formacin debarcos o soldados. Y la idea que permanece es la de verticalidad.

    Diferenteetimologa=homonimia

    La homonimia se da cuando dos conceptos han llegado a tener el mismo nombre, lamisma forma, pero vienen de orgenes diferentes y, por lo tanto, tienen etimologas di-ferentes.

    Por ejemplo, metro puede ser el transporte urbano, una unidad de medida o el utensiliopara medir. Pero el origen etimolgico entre el transporte y los otros dos significados esevidente: el primero es una abreviacin de la palabra inglesa metropolitan, y en el segundocaso viene del griego y significa medida.

    Otro ejemplo: la palabra castellana botn puede venir del latn bota y significar calzadohasta el tobillo, o puede venir del alemn bytin y significar premio de una conquista.

    En castellano y cataln este fenmeno es menos frecuente que en otras lenguas, como elingls o el francs, en las que abundan las palabras homnimas que dan mucho juegoen los chistes.

    Dentro de la homonimia podemos diferenciar las palabras que escribindose igual tienensignificados diferentes, llamadas homgrafas, como las anteriores metro o botn, de laspalabras que sonando igual tambin tienen significados diferentes, conocidas como pa-labras homfonas: vell/bell en cataln, o tubo/tuvo en castellano.

    En resumidas cuentas, la sinonimia provoca silencio documental y la

    polisemia y variantes provocan ruido documental. El control termino-

    lgico del vocabulario garantiza el criterio de univocidad que tienen que

    tener los lenguajes documentales controlados, segn el cual un concep-

    to se representa con un trmino y un trmino slo puede tener un sig-

    nificado.

    2.1.4. Relaciones de significado de los trminos

    Por relacionesdesignificado entendemos la relacin de genrico, es-

    pecfico o relacionado que puede tener un trmino con respecto a otro.

    En el lenguaje natural estas relaciones son implcitas. Por ejemplo, cuando ha-

    blamos de manzanas todos entendemos que se trata de una fruta fresca y que

    las Fuji y las Golden son variedades concretas. Es decir, situamos el trmino

    manzana dentro de una jerarqua de trminos conceptualmente ms gen-

    ricos (fruta) y ms especficos (Golden, Fuji). Incluso podemos relacionar por

  • CC-BY-NC-ND PID_00195714 23 Anlisis de contenidos

    asociacin de ideas la manzana con otras frutas, como la naranja o el pltano.

    Pero en un lenguaje documental hay que definir estas relaciones, agrupando

    y relacionando los trminos afines.

    La estructura que relaciona los trminos es implcita en el lenguaje natural,

    pero en los lenguajes documentales hay que hacerla explcita. Eso se puede

    hacer de dos maneras:

    a) En una secuencia jerrquica, donde la propia posicin del concepto ya de-

    fine sus trminos genricos y especficos. Tambin deshace problemas de sig-

    nificado.

    Ejemplo de la pesca

    Ved el ejemplo de la pesca extrado de la Clasificacin Decimal Universal (CDU). El con-cepto pesca puede ser la actividad econmica o la pesca como deporte. Si nos fijamos enla cadena jerrquica vemos que cada uno cuelga de una clase diferente:

    6 Ciencias aplicadas. Medicina. Tecnologa63 Agricultura y ciencias relacionadas 639 Caza. Pesca

    7 Bellas artes. Juegos. Deportes79 Diversiones. Espectculos. Juegos 799 Caza deportiva. Pesca deportiva.

    b) En una presentacin alfabtica donde cada trmino se acompaa de todos

    sus trminos relacionados, ya sean equivalentes, genricos, especficos o rela-

    cionados.

    El tesauro del CSIC

    En el tesauro de Psicologa del CSIC6 , consultamos Sueos y encontramos:

    Sueos

    TGDinmica de la personalidad

    TEContenido del sueoTEPesadilla

    TRDj vuTRInterpretacin de los sueosTRSueo fisiolgicoTRSueo REMTRTrastornos de consciencia

    Las siglas nos informan del tipo de relacin que establecen: TG significa trmino genri-co (por encima de Sueos el tesauro tiene Dinmica de la personalidad), TE son lostrminos especficos (son trminos especficos de Sueos: Contenido del sueo, Pesa-dilla) y los TR son los trminos relacionados (se relacionan con Sueo, Dja vu, laInterpretacin de los sueos, el Sueo REM, etc.).

    Finalmente, las principales ventajas e inconvenientes del lenguaje natural y

    el documental controlado son:

    (6)Centro Superior de Investigacio-nes Cientficas

  • CC-BY-NC-ND PID_00195714 24 Anlisis de contenidos

    Ventajas e inconvenientes de los lenguajes documentales

    Ventajas Inconvenientes

    Lenguajenatural AmigableActualizadoEconmico

    Dificulta la bsquedaPoco preciso

    Lenguajedocumentalcon-trolado

    UnvocoFacilita la bsqueda

    CaroPoco actualizado

    A modo de conclusin

    Indizar es la accin de describir o identificar un documento en relacin con su contenido.

    La indizacin la puede realizar una persona (de forma centralizada o de forma coordina-da) o un programa.

    Por lenguaje natural entendemos el lenguaje que usamos de forma cotidiana (cataln,castellano, vasco), y por lenguaje documental entendemos el listado o vocabulario detrminos que usamos para indizar y que puede estar en formato libre o controlado. Laprincipal diferencia entre el lenguaje natural y el documental controlado es el controlterminolgico:

    El control del nmero de trminos del vocabulario: los lenguajes documentales sonentrpicos, tienden a la seleccin, a la restriccin del vocabulario.

    El control de las formas: los lenguajes controlados, controlan las formas plural/sin-gular, el uso de acrnimos y siglas y la construccin de las frases.

    El control del significado: los lenguajes controlados controlan la sinonimia y la poli-semia. Decimos que las palabras son sinnimas cuando tienen el mismo significado.Decimos que dos palabras son polismicas cuando el mismo signo lingstico tienems de un significado. La sinonimia provoca silencio documental y la polisemia yvariantes provocan ruido documental. El control terminolgico del vocabulario ga-rantiza el criterio de univocidad que tienen que tener los lenguajes documentalescontrolados, segn el cual un concepto se representa con un trmino y un trminoslo puede tener un significado.

    Las relaciones de significado entre los trminos son las relaciones de genrico, espe-cfico o relacionado que puede tener un trmino con respecto a otro. En el lenguajenatural estas relaciones son implcitas pero en los lenguajes documentales hay quehacerlas explcitas a travs de una secuencia jerrquica o una presentacin alfabtica.

    2.2. Cmo se indiza

    Ahora que ya hemos visto la necesidad de contar con lenguajes documentales

    para paliar la ambigedad del lenguaje natural, estamos en condiciones de

    preguntarnos por el proceso de indizacin que lleva a cabo un analista.

    A continuacin presentamos las fases que proponen diversos autores antes de

    llegar a la que nos servir como marco de referencia en este subapartado:

    Dos fases: anlisis del texto y traduccin (Chaumier, 1988; Fidel, 1994).

    Tres fases: anlisis del texto, identificacin de conceptos y traduccin

    (Amat, 1989; Norma UNE 50-121-91).

    Cuatro fases: anlisis del texto, identificacin de conceptos, traduccin y

    establecer enlaces sintcticos entre descriptores (Slype, 1991).

  • CC-BY-NC-ND PID_00195714 25 Anlisis de contenidos

    Cinco fases: registro de datos, anlisis del texto, identificacin de concep-

    tos, traduccin y examen de la indizacin.

    En este mdulo seguiremos la normaUNE50-121-91 y sus tres etapas:

    1) Examinar el documento para identificar su contenido.

    2) Seleccionar los conceptos principales del contenido.

    3) Traducir a un lenguaje documental.

    Ejemplo

    Examinamos un libro titulado Mitos de antiguas civilizaciones. Leemos el ttulo, el resu-men, el sumario, etc.

    En una segunda etapa seleccionamos como conceptos principales: Mitos, Grecia, Roma,India, Japn, Indios norteamericanos.

    En la tercera etapa indizamos. Si indizamos con un lenguaje libre podemos escribir eltrmino como deseamos o como salga en el texto. Por ejemplo:

    Mitologa india americana.

    En cambio, si indizamos con un lenguaje controlado tendremos que traducir estos con-ceptos a una forma controlada. Pongamos por ejemplo que pensbamos indizar Mitolo-ga india americana. Veamos cmo quedara en tres lenguajes documentales diferentes:

    CDU259.2LEMACMitologia amerndiaLEM del CSIC Indios de Amrica - Religin y mitologa

    A continuacin se detalla cada parte del proceso.

    1)Examendeldocumentoeidentificacindelosconceptos

    El analista tiene que examinar con precisin el documento. La lectura com-

    pleta es, a menudo, impracticable, pero s que tiene que prestar atencin al

    ttulo, resumen, sumario, introduccin, ilustraciones y palabras o frases des-

    tacadas en una tipografa diferente.

    No se recomienda la indizacin slo a partir del ttulo, ya que hay ttulos que

    llevan a error, y tampoco confiar en que el resumen sea un sustituto del texto,

    ya que no todos los resmenes estn bien elaborados.

    Norma UNE 50-121-91

    UNE50-121-91. Mtodos parael anlisis de documentos, de-terminacin de su contenido yseleccin de trminos de indiza-cin.

  • CC-BY-NC-ND PID_00195714 26 Anlisis de contenidos

    Ejemplo de ttulos y resmenes que no aportan datos significativos para laindizacin

    Chesneaux, Jean. Hacemos tabla rasa del pasado? Mxico: Siglo XXI Editores 1981.Su materia es Historia, historiadores, historiografa. En el catlogo de la Biblioteca Na-cional de Espaa (BNE7) lo encontramos indizado como Historia.

    Mallol, Tomas. Si la memria no em falla. Girona: CCG Ediciones 2005.Su materia es Memorias, cine, coleccionismo. En la Biblioteca de Catalunya (BC8) loencontramos indizado como Cine amateur.

    Si recordamos el resumen del libro de Carl Sagan, Cosmos, nos daremos cuenta de queno era suficiente para indizar el contenido de la obra. Por estos motivos se recomiendauna lectura gil del resto de partes significativas del documento.

    2)Seleccindelostrminosdeindizacin

    Tal como dice la norma UNE, el analista tiene que identificar las nociones que

    son elementos esenciales de la descripcin del contenido. Si la indizacin es

    compartida, la institucin que la patrocina tiene que establecer claramente los

    factores que considera importantes.

    Para seleccionar los conceptos del documento, el analista tiene que ser cons-

    ciente del nmero de conceptos (criterio de exhaustividad) y de la exactitud

    de los mismos (criterio de especificidad).

    a)Exhaustividad

    A medida que el analista va leyendo, tiene que ir tomando nota de los con-

    ceptos interesantes del documento.

    Una buena praxis es la que identifica los conceptos relevantes sobre:

    El tema.

    Los nombres personales que puedan ser interesantes de indizar.

    Los nombres geogrficos.

    Las fechas cronolgicas.

    La forma en que se presenta el documento: artculo, estadstica, formulario

    o divulgacin, cientfico, etc.

    La exhaustividad es un criterio relacionado con el nmero de conceptos que

    se tienen en cuenta para caracterizar el contenido entero de un documento.

    El principal criterio de seleccin es el valor potencial del concepto para los

    usuarios de su SID.

    (7)BNE es la sigla de Biblioteca Na-cional de Espaa.

    (8)BC es la sigla de Biblioteca de Ca-talunya.

  • CC-BY-NC-ND PID_00195714 27 Anlisis de contenidos

    Podemos distinguir entre una exhaustividad baja, media y alta en funcin del

    nmero de descriptores. Es en este entorno donde la norma UNE 50-121-91

    da sus recomendaciones en cuanto a la exhaustividad. Los criterios que el in-

    dizador tiene que tener en cuenta son:

    El tipo de SID y perfil de usuario. No es lo mismo indizar para una base de

    datos genrica que para una especfica.

    El tipo de documento. No se indiza con el mismo nmero de descriptores

    una monografa que un artculo de revista, una tesis, etc.

    Tal como recomienda la norma UNE, no es conveniente ser estrictos con el

    nmero de trminos, no se tiene que limitar el nmero de forma arbitraria,

    tipo para una monografa dos trminos de indizacin, ya que puede condu-

    cir a una prdida de objetividad y a una deformacin de la informacin. Es

    preferible sugerir un baremo, entre tantos y tantos trminos para cada tipo

    documental y SID y ser flexibles, ya que los criterios que tienen que regir son

    el propio contenido del documento y su posterior recuperacin.

    A partir del siguiente resumen informativo, elaboraremos tres tipos de indizaciones su-giriendo un baremo (para esta asignatura y sus prcticas) y una finalidad:

    Anlisis y descripcin de los errores ms frecuentes que cometen los profesionales y afi-cionados a la fotografa astronmica mientras intentan descubrir nuevos objetos celestestodava no identificados.

    Estos errores son debidos a cuatro causas: errores en el proceso de positivado de la copiacomo consecuencia de la presencia de partculas de polvo en los negativos o en las lentesdel equipo de laboratorio; errores en el negativo debidos a defectos de lavado, deficien-cias en la emulsin, rayas y rasguos o por el uso de pelculas de color destinadas a serforzadas, y errores en las lentes de los objetivos, debidos a efectos de distorsin y a alte-raciones en la refraccin. Finalmente se describen otras causas: reflejos de la luz del solsobre las antenas de satlites artificiales Iridum, retoques digitales o de fotocopiadoras yduplicadoras, uso de objetivos sencillos y poco potentes para captar imgenes de cieloprofundo y, en ltimo trmino, oscilaciones del condensador de luz del microscopio.

    Todos estos errores pueden dar lugar a imgenes falseadas: objetos inditos, dimetroserrneos, efectos de redondeo, alineaciones planetarias errneas, etc. El artculo facilitaimgenes de estos errores fotogrficos.

    Los autores concluyen que hace falta ser cauteloso y hacer las oportunas comprobacionesantes de dar a conocer el descubrimiento de un nuevo objeto celeste a las sociedadesastronmicas.

    Cuervo Herrero, C.; Fernndez Gonzlez, A.: Objetos celestes errneos. Tribuna de As-tronoma y Universo. Revista de Astronoma, Astrofsica y Ciencias del espacio. 2000. II poca,n 16 octubre. p. 36-40.

    Ejemplo de los tres grados de exhaustividad

    Exhaustividad baja Exhaustividad media Exhaustividad alta

    Baremo1-3 Baremo4-6 Baremo7...

    Ejemplo de uso: catlogo de una bibliote-ca pblica

    Ejemplo de uso: bases de datos de una bi-blioteca especializada en astronoma

    Ejemplo de uso: bases de datos de una bi-blioteca especializada en astrofotografa

  • CC-BY-NC-ND PID_00195714 28 Anlisis de contenidos

    Exhaustividad baja Exhaustividad media Exhaustividad alta

    Baremo1-3 Baremo4-6 Baremo7...

    Errores fotogrficosFotografa astronmica

    AstrofotografaErrores fotogrficosDescubrimientosIdentificacin de objetos celestesObjetos errneos

    Alineaciones planetariasDefectos de lavadoDeficiencias de la emulsinDimetros errneosEfectos de redondeoErrores en el negativoErrores en el positivadoErrores en las lentesObjetos inditosObjetivosOscilaciones del microscopioPartculas de polvoRayadasReflejos del solRetoques digitales

    b)Especificidad

    La especificidad est relacionada con la exactitud en que un concepto parti-

    cular que aparece en un documento est representado por un trmino de in-

    dizacin.

    Si en el texto que estamos indizando aparece el concepto Diplomacia, y este trmino apa-rece en el lenguaje documental controlado, tenemos que indizar Diplomacia. Si indi-zamos Relaciones internacionales o Embajadores no estaremos siendo especficos,como podis ver en la tabla siguiente:

    Ejemplo de especificidad

    Correcto,yporlotanto: Incorrectopor:Materia

    Especfico Genrico Demasiadoespecfico

    Diplomacia Diplomacia Relaciones internacionales Embajadores

    Los conceptos se tienen que identificar de la manera ms especfica posible,

    pero en determinados casos se pueden preferir nociones ms genricas:

    Cuando el indizador considere que un exceso de especificidad puede ser

    negativa en la recuperacin; por ejemplo, puede decidir que un modelo

    muy especfico de una mquina se indice con el nombre ms genrico de

    este tipo de mquinas.

    Cuando la idea no est plenamente desarrollada en el documento, o slo

    se haga alusin a ella.

    Cuando se est a la espera de validar el trmino ms especfico.

  • CC-BY-NC-ND PID_00195714 29 Anlisis de contenidos

    3)Traduccinaunlenguajedocumentalcontrolado

    Para traducir el concepto inicial escrito en lenguaje natural a un lenguaje do-

    cumental, el indizador tiene que consultar las listas del lenguaje buscando la

    forma correcta de introducir el concepto.

    Ejemplos

    Conceptotalcomosaleeneltexto Traduccin Lenguajedocumentalutilizado

    Tragicomdia 791.221.28 Classificacin Decimal Universal (CDU)

    Eoltic Edat de la pedra Lista de encabezamientos de materia en cataln

    Matriz tero Lista de encabezamientos del CSIC

    Monarqua absoluta Absolutismo Tesauro de Historia contempornea del CSIC

    Cuando el analista procede a traducir el concepto del texto se puede encontrar en lassiguientes situaciones:

    a) Encuentra el concepto, solo o repartido por las tablas:

    Consulta el lenguaje y encuentra el concepto a la primera. Entonces indiza con estetrmino de indizacin. Por ejemplo, buscaba Eoltic y encuentra que tiene queindizar Absolutismo.

    Consulta el lenguaje y encuentra el concepto o las partes del concepto repartidospor el lenguaje. Entonces tiene que conocer las reglas de combinacin de las partesintegrantes del trmino de indizacin. Ejemplos: Una notacin con CDU como 391.91(961.3) Tatuajes de la isla de Samoa est

    formada por 2 elementos, tatuajes + Samoa. Estos elementos van colocados enun orden determinado por las reglas de precoordinacin de la CDU (primero laclase principal + auxiliar).

    Un encabezamiento construido con la LEM del CSIC como Agua-Aspectos eco-nmicos est formado por dos partes: Agua + Aspectos econmicos, que es unencabezamiento y un subencabezamiento respectivamente y van en este orden.

    Con los lenguajes tesauros y listado de autoridades no hay una sintaxis de combinacin.

    b) No encuentra el concepto:

    Consulta el lenguaje y no encuentra el concepto. Entonces el indizador tiene queconocer las obras de referencia que su SID considera como autoridades reconocidas enla materia. Estas obras de referencia son diccionarios, enciclopedias, otros lenguajesdocumentales (especialmente los tesauros construidos de acuerdo con las normas ISOy UNE 50-106 y UNE 50-125), atlas, etc.

    Hay lenguajes, como tesauros, donde el indizador tiene que proponer el trminonuevo como descriptor candidato y esperar a que la direccin del tesauro lo validecomo descriptor. Mientras tanto indiza con un trmino ms genrico.

    2.3. Lenguajes documentales

    Para indizar necesitamos los lenguajes documentales, que son vocabularios de

    trminos que facilitan la representacin del contenido de los documentos.

  • CC-BY-NC-ND PID_00195714 30 Anlisis de contenidos

    Las principales funciones de los lenguajes documentales son indizar el

    contenido de los documentos y permitir su recuperacin a partir del

    campo materia.

    Los lenguajes documentales son de seis tipos:

    1) los sistemas de clasificacin,

    2) las listas de encabezamientos de materia,

    3) las listas de autoridades,

    4) los tesauros,

    5) las listas de descriptores libres, y

    6) las listas de palabras clave o indizacin automtica.

    Lostrminosdeindizacin

    Cada lenguaje documental proporciona un nombre diferente a su trmino de

    indizacin y es conveniente que, cuando nos expresemos, lo hagamos con

    propiedad.

    Trminos de indizacin

    Lenguaje documental Su trmino de indiza-cin se conoce como

    Ejemplo

    Sistemas de clasificacin Notacin o smbolo de clase 351.851:069 (Ley de Museos)

    Listas de encabezamientos de materia Encabezamiento Francs-argot

    Listas de autoridades Autoridad, identificador o descriptor Bcquer, Gustavo Adolfo, 1836-1870

    Tesauro Descriptor Ramon Berenguer III el Gran NA: [1097-1131]

    Listas de descriptores libres Descriptor Semana_santa

    Listas de palabras clave Palabra clave Metro

    Existe otro trmino, denominado unitrmino, que no hace referencia a nin-

    gn lenguaje documental concreto, sino al hecho de que el trmino de indi-

    zacin sea simple o compuesto.

    La Norma UNE 50-113-92/1 define los unitrminos como el elemento

    significativo ms pequeo de un lenguaje documental utilizado para

    representar un concepto especfico en un sistema de indizacin coordi-

    nado; no se tiene que confundir con palabra clave o descriptor.

    Tercera funcin de loslenguajes documentales

    Existe una tercera finalidad,que solo se da en los sistemasde clasificacin: la ordenacinaltamente significativa del fon-do documental del SID.

  • CC-BY-NC-ND PID_00195714 31 Anlisis de contenidos

    El descriptor Semana Santa est formado por dos unitrminos: Semana ySanta. Y el des-criptor Navidad est formado por un nico unitrmino.

    Diferencia entre descriptor y unitrmino

    Una palabra Ms de una

    Navidad Semana Santa

    Hay que prestar atencin al trmino palabraclave porque su uso en la biblio-

    grafa cientfica tiene varias aplicaciones que nos pueden confundir. Es habi-

    tual encontrar en los artculos un apartado, bajo el resumen, denominado "pa-

    labras clave", en el que el autor nos da los trminos que considera ms repre-

    sentativos del texto. Estas palabras clave son muy a menudo descriptores de

    procedencia desconocida (no sabemos si son libres o controlados). En cambio,

    en este material docente, palabra clave se entiende como el trmino de indiza-

    cin proveniente de la indizacin automtica habitualmente coincidente con

    un unitrmino.

    Lastipologasdeloslenguajesdocumentales

    Las tipologas de los lenguaje documentales son los criterios que nos permiten

    agrupar o clasificar los seis lenguajes documentales en categoras afines. Son

    las siguientes:

    1)Naturaleza:codificadoonatural

    Por codificado entendemos el uso de un cdigo artificial compuesto por n-

    meros, letras y smbolos que traducen un concepto. Solo existe un tipo de len-

    guaje codificado: los sistemas de clasificacin.

    Ejemplos de trminos de indizacin codificados

    CDU DDC LCC

    94 483 RE 1-994

    Por natural entendemos el uso de palabras del lenguaje usual, habitual, no

    cdigos. Es mucho ms prximo al usuario, ms amigable. Hay cinco lenguajes

    documentales naturales: las listas de encabezamientos de materia, las listas de

    autoridades, los tesauros, las listas de descriptores libres y las listas de palabras

    clave.

    Siguiendo el ejemplo anterior:

    Ejemplos de trminos de indizacin naturales

    Historia Diccionarios de griego clsico Oftalmologa

    Reflexin

    Si dominis las tipologas, po-dris responder a cuestionesdel tipo: comparad lenguajes,buscad ventajas e inconvenien-tes, causas de la complemen-tariedad, etc. Se recomiendaque las interioricis.

  • CC-BY-NC-ND PID_00195714 32 Anlisis de contenidos

    2)Control:libreocontrolado

    Un vocabulario libre es una lista de trminos extrados del lenguaje na-

    tural sin sufrir ningn tipo de actuacin sobre el nmero de trminos,

    la forma (singular, plural, masculino, femenino), el significado (sinni-

    mo, polismico) o las relaciones entre los trminos.

    Normalmente, los lenguajes libres se usan en sistemas automatizados en los

    que hay un fichero inverso o diccionario de la base de datos. Presentan nume-

    rosas ventajas en la indizacin, como por ejemplo el gasto mnimo de cons-

    truccin, la actualizacin inmediata, una mxima coherencia y la riqueza ter-

    minolgica. Sin embargo, plantean inconvenientes en la recuperacin, ya que,

    al trabajar con lenguaje natural, arrastra todos los problemas derivados de la

    ambigedad (sinonimia, polisemia, homonimia). Hay dos tipos de lenguajes

    libres: las listas de descriptores libres y la lista de palabras clave.

    Un vocabulariocontrolado es una lista previamente redactada de tr-

    minos que se consideran aceptados y unvocos para la indizacin. Solo

    los trminos de la lista se pueden emplear para indizar.

    Se trata de trminos seleccionados tanto en su forma (plural, singular, sintag-

    ma nominal, adjetivo, siglas, etc.) y en su contenido (se elige un sinnimo

    de todos los posibles, los homnimos se diferencian entre ellos con parnte-

    sis o adjetivos, etc.) como en sus relaciones de jerarqua y asociacin (trmi-

    nos conceptualmente ms genricos o especficos y trminos que se evocan

    mutuamente). Requieren unos gastos de construccin elevados, no solo en

    personal cualificado, sino tambin en tiempo. Para muchos autores, son los

    verdaderos lenguajes documentales. Tambin se conocen con el nombre de

    lenguajesartificiales.

    Su funcin documental es la de representar un concepto con un nico

    trmino y que solo haya un trmino por concepto, lo que se conoce

    como univocidad.

    Los lenguajes controlados son cuatro:

    los sistemas de clasificacin,

    las listas de encabezamientos,

    las listas de autoridades, y

    los tesauros.

  • CC-BY-NC-ND PID_00195714 33 Anlisis de contenidos

    Ejemplos de trminos libres y controlados

    Concepto Libre Controlado

    Limpieza Higiene, Limpieza, Profilaxis, Aseo, Sanidad, Desinfeccin CDU: 613LEMAC: Higiene

    3)Coordinacin:precoordinacinoposcoordinacin

    La precoordinacin consiste en determinar a priori cmo se combinan

    los trminos, tanto en la construccin del lenguaje como a la hora de

    indizar o recuperar el documento.

    Asimismo, se hace referencia a la precoordinacin como la sintaxis del len-

    guaje documental. Por ejemplo, en las listas de encabezamientos de materia,

    los epgrafes siguen un orden concreto para evitar la dispersin de encabeza-

    mientos.

    As, un documento de congresos catalanes sobre arqueologa submarina se indizara co-mo Arqueologa submarina Catalunya Congresos, y no con ninguna otra de las com-binacionesposibles.

    Combinaciones posibles

    Las combinaciones errneas son las siguientes:

    Catalunya Congresos Arqueologa submarina Arqueologa submarina Congresos Catalunya Congresos Arqueologa submarina Catalunya Arqueologa submarina Congresos Catalunya

    Recordemos que el orden viene determinado por las indicaciones que acompaan a cadaepgrafe. As, vemos que Arqueologa submarina puede llevar subdivisin geogrfica y queCongresos es una subdivisin que puede ir detrs de nombres propios de persona, familias,entidades, clases de personas, grupos tnicos, guerras y temas; por lo tanto, el nico ordenposible es el de la solucin aportada.

    Existen dos lenguajes precoordinados: los sistemas de clasificacin y las listas

    de encabezamientos de materia.

    La poscoordinacin consiste en indizar trminos sueltos. No tienen

    sintaxis en el momento de la indizacin, sino que se combinarn a la

    hora de la recuperacin siguiendo la lgica de los operadores booleanos.

    Cada trmino indizado es un punto de acceso al documento: cuanto ms tr-

    minos indicemos, mayor es la posibilidad de recuperarlo. Siguiendo con el ca-

    so anterior, lo formularamos poniendo los tres conceptos en cualquier orden,

    ya que no resulta relevante, por ejemplo:

    Congresos and Catalunya and Arqueologa submarina

    La precoordinacin en lasbibliotecas manuales

    La precoordinacin era unaautntica necesidad en el en-torno de las bibliotecas ma-nuales (fichas de cartulina), yaque no se poda buscar poruna combinacin de dos tr-minos o ms.

  • CC-BY-NC-ND PID_00195714 34 Anlisis de contenidos

    Existen cuatro lenguajes poscoordinados: las listas de autoridades, los tesauros,

    las listas de descriptores libres y la indizacin automtica.

    4)Estructura:jerrquicaoalfabtica(combinatoria)

    En la estructurajerrquica o sistemtica, el vocabulario se presenta en forma

    de arborescencia, con trminos genricos que agrupan otros ms especficos.

    Todos los trminos dependen de un trmino superior y de significado ms

    genrico. Esta estructura permite agrupar los conceptos por temas, as como

    situarlos en su contexto, ya que la secuencia jerrquica nos informa del campo

    temtico al que se adscribe el concepto.

    La estructura jerrquica informa del campo del conocimiento.

    Clase 1 Clase 3 Clase 6

    123 Libertad y necesidad123.1 LIBERTAD. INDETERMI-NISMO123.11 Casualidad123.2 NECESIDAD123.21 Fatalismo

    342.7 DERECHOS FUNDAMENTALES.DERECHOS HUMANOS.DERECHOS Y DEBERES DE LOS CIUDADANOS342.71 Nacionalidad. Ciudadana342.72/.73 Derechos de los ciudadanos. Derechosciviles. El Estado y el ciudadano342.721 Libertad individual. Habeas corpus

    62-23 ENGRANAJES. ELEMENTOS MECNICOS DETRANSMISIN. DISPOSITIVOS TRANSPORTADO-RES Y DE SUJECIN62-231 Estructuras de los mecanismos de transmi-sin62-231.2 Sistemas lineales. Pares cinemticos62-231.21 Sistemas sin grados de libertad. Acopla-miento automtico. Centrado automtico62-231.22 Sistemas con un grado de libertad. Coji-nete. Barra de gua. Par de roscado (tornillo y tuer-ca)

    Los lenguajes jerrquicos son dos: los sistemasdeclasificacin y los tesauros

    (en la parte de presentacin sistemtica o jerrquica).

    En la estructuracombinatoria, los trminos no forman cadena, sino que se

    organizan en listas por orden alfabtico. Este tipo de estructura surgi como

    contrapunto a la rigidez de la estructura jerrquica, que no era fcil de actua-

    lizar.

    Ejemplo extrado de la Lista de encabezamientos del CSIC.

    rbol de la papaya

    rbol de la vida

    rbol del conocimiento

    rboles

    rboles Crecimiento

    rboles Cuidados

    rboles Cultivo

    rboles Culto

    La estructura combinatoria permite la inclusin de trminos nuevos y la elimi-

    nacin de los obsoletos sin que esto afecte al resto de la estructura del lenguaje.

    Ejemplo

    Pongamos como ejemplo elconcepto libertad, que tienemuchas acepciones. Simple-mente viendo dnde est in-sertado, ya deducimos si setrata de la libertad filosfica,de derechos humanos o de lalibertad de movimientos enmquinas.

  • CC-BY-NC-ND PID_00195714 35 Anlisis de contenidos

    En la secuencia anterior podramos incluir: rboles Adobo, sin alterar el resto.

    La facilidad para actualizar el vocabulario los convierte en lenguajes adecua-

    dos para todo tipo de entornos: enciclopdicos, cientficos y tcnicos. Los len-

    guajes de estructura combinatoria son cinco:

    las listas de encabezamientos de materia,

    las listas de autoridades,

    los tesauros,

    la lista de descriptores libres, y

    las listas de palabras clave.

    5)Anlisis:pormaterias,porconceptosoporpalabrasclave

    La diferencia entre uno y los otros estriba en indizar un tema del documento,

    varios conceptos o todas las palabras con significado.

    a)Pormaterias

    Es la indizacin ms sinttica: indiza uno o dos trminos de indizacin. Res-

    ponde a la pregunta cul es el tema de este documento?. Existen dos len-

    guajes que indizan por materias: los sistemas de clasificacin y las listas de

    encabezamientos de materia.

    b)Porconceptos

    Responden a la pregunta cules son los conceptos de este documento?.

    Van ligados necesariamente a sistemas automatizados, ya que no sera factible

    elaborar tantas fichas de cartulina como conceptos se indizaran. Existen tres

    lenguajes que indizan por conceptos: las listas de autoridades, los tesauros y

    las listas de descriptores libres.

    c)Porpalabrasclave

    Indizar por palabras clave representa indizar todas y cada una de las palabras

    con significado del texto. Es el proceso ms analtico que hay. No se trata de

    una tarea de indizacin humana, sino automtica. Solo hay un lenguaje por

    palabras clave, y es evidentemente el nico lenguaje automtico: la lista de

    palabras clave.

    Resumen de las tipologas

    Sistemas declasificacin

    Listas de en-cabezamien-

    tos de materia

    Listas deautoridades

    Tesauros Lista dedescripto-res libres

    Lista de pa-labras clave

    Codificado XSegnlanatura-lezadelostr-minos Natural X X X X X

    Tesauro

    Como podis observar, el te-sauro participa de las dos es-tructuras: tiene una presenta-cin sistemtica en forma je-rrquica y una presentacin al-fabtica en forma combinato-ria.

    Reflexin

    Hoy en da, la evolucin y au-tomatizacin de los sistemasde informacin posibilitan queestos lenguajes, en origen sin-tticos, puedan indizar de ma-nera ms analtica, en especiallos encabezamientos de ma-teria, que pueden indizar dos,tres o cuatro encabezamientos.O las notaciones con sistemasde clasificacin, que duplicanel campo 080 del MARC.

  • CC-BY-NC-ND PID_00195714 36 Anlisis de contenidos

    Sistemas declasificacin

    Listas de en-cabezamien-

    tos de materia

    Listas deautoridades

    Tesauros Lista dedescripto-res libres

    Lista de pa-labras clave

    Libre X XSegnelniveldecontrolsobrelostrminos Controlado X X X X

    Precoordinado X XSegnelniveldecoordinacindelostrminos Poscoordinado X X X X

    Jerrquico X XSegnlaformadeagruparlostrminosoes-tructura

    Alfabtico X X X X X

    Por materias X X

    Por conceptos X X X

    Segnelniveldeanlisis

    Por palabrasclave

    X

    Una buena praxis es estudiar los seis lenguajes segn la tipologa y re-

    cordar frmulas como por ejemplo:

    1 codificado + 5 naturales = 6

    4 controlados + 2 libres = 6

    2 precoordinados + 4 poscoordinados = 6

    2 jerrquicos + 4 combinatorios = 6

    2 por materias + 3 por conceptos + 1 por palabras clave = 6

    2.3.1. Clasificar y recuperar con sistemas de clasificacin

    Este apartado apuesta por redescubrir la potencia combinatoria de los sistemas

    de clasificacin y comprobar su estado actual. Constataremos que, si bien son

    muy prcticos en la indizacin, no lo son tanto en la recuperacin en lnea,

    al menos por el momento.

  • CC-BY-NC-ND PID_00195714 37 Anlisis de contenidos

    Sistemas de clasificacin en la Web

    De los nueve principales sistemas de clasificacin implementados en estos mo-

    mentos en todo el mundo, seleccionamos tres para hacer las prcticas de es-

    te mdulo, aunque el porcentaje ms elevado de prcticas lo haremos con la

    clasificacin decimal universal, en la versin abreviada en espaol:

    1) Clasificacin decimal universal (CDU)

    Universal Decimal Classification Consortium Homepage (2002, 1 de agos-

    to) [en lnea]. La Haia: UDC Consortium. Act. 2002-08-01. [Fecha de con-

    sulta: 10 de octubre del 2008.]

    2) Clasificacin decimal Dewey (DDC)

    http://www.oclc.org/dewey/resources/summaries/default.htm, 025.431:

    The Dewey blog [en lnea]. [Fecha de consulta: 10 de octubre del 2008.]

    Online Computer Library Center. Dewey services, Dewey decimal classifi-

    cation for use with OCLC's online cataloging services [en lnea]. [Fecha de

    consulta: 10 de octubre del 2008.]

    3) Clasificacin de la Library of Congress (LCC)

    Library of Congress Classification system [en lnea]. [Fecha de consulta: 1

    de octubre del 2008.]

    Clasificacin en la actualidad

    Sistemas de clasificacindocumental vigentes

    Los sistemas de clasificacindocumental vigentes son lossiguientes: clasificacin deci-mal universal (CDU), clasifica-cin Dewey (DDC), clasifica-cin de la Library of Congres(LCC), clasificacin china, cla-sificacin japonesa, clasifica-cin rusa (LBC, antigua BBK),clasificacin Colon (CC), cla-sificacin Bliss (CB) y clasifica-cin Brown.

    Los sistemas de clasificacin son ms que centenarios. Estn considerados los

    primeros lenguajes documentales verdaderos y, desde su generalizacin en las

    bibliotecas en el siglo XIX, han demostrado su eficacia recuperando por mate-

    rias. Ahora bien, no han estado exentos de los embates de la crtica, ya que

    algunas de sus caractersticas inherentes (como el tiempo que requieren, la

    sntesis o la codificacin) no parecan encajar en momentos de explosin do-

    cumental, de acceso a grandes bases de datos y en red.

    La dcada de 1960 supuso un momento crtico, al cuestionarse que los sistemas

    de clasificacin fueran el lenguaje documental adecuado para abarcar la gran

    cantidad de documentacin cientfica que se iba generando (documentacin

    cada vez ms abundante y, por lo tanto, lenta de clasificar), con terminologa

    nueva (que la lentitud de las actualizaciones hara imposible de asumir), con

    necesidades nuevas como acceder por conceptos y palabras (cuando las clasi-

    ficaciones optaban por materias).

    Sistemas de clasificacin

    Los sistemas de clasificacinson lenguajes controlados, co-dificados, precoordinados, sis-temticos o jerrquicos y sint-ticos por materias.

    http://www.udcc.org/http://www.oclc.org/dewey/resources/summaries/default.htmhttp://ddc.typepad.com/http://ddc.typepad.com/http://www.oclc.org/dewey/updates/default.htmhttp://www.oclc.org/dewey/updates/default.htmhttp://geography.about.com/library/congress/bllc.htm

  • CC-BY-NC-ND PID_00195714 38 Anlisis de contenidos

    Otro embate, este ms reciente, ha sido el papel que pueden tener estos siste-

    mas en un entorno web, donde imperan los paradigmas de la indizacin social

    y la indizacin automtica. En este contexto, tienen sentido las jerarquas y

    las notaciones codificadas?

    Afortunadamente, todos los lenguajes documentales tienen cabida en la repre-

    sentacin del conocimiento. Las jerarquas, tambin llamadas presentaciones

    sistemticas, arborescencias o incluso taxonomas, presentan una virtud ex-

    cepcional a la hora de indizar y recuperar, y es que permiten situarnos en una

    secuencia de trminos ms genricos o ms especficos; por lo tanto, podemos

    elegir el grado de especificidad y el trmino en el contexto que nos interesa.

    En la cadena siguiente observamos cmo se abre el concepto religin hasta llegar a las re-ligiones especficas del hinduismo. El analista decidir si indiza con una clase ms gen-rica o ms especfica. La decisin depender de las necesidades del SID. Por ejemplo, unSID especializado en documentacin sobre religiones probablemente indizar de maneraespecfica y escoger uno de los tres ltimos.

    En el ejemplo siguiente observamos que la posicin dentro de una cadena nos informadel contexto de cada concepto. Podemos localizar el concepto iglesia cristiana en la clase27 Religin o en la 726.54 Arquitectura, segn si nos interesa un enfoque de la fe o dela arquitectura.

    Ejemplo de enfoque

    2 Religin 7 Arte

    27 Cristianismo. Iglesias cristianas 72 Arquitectura726 Arquitectura religiosa726.5 Arquitectura de las iglesias726.54 Iglesia

    Esta eleccin es posible en cuadros jerrquicos, no en listas alfabticas que

    resuelven el tema de los enfoques reservando el trmino simple para un tema

    y creando uno compuesto para el otro.

    En la LEMAC se soluciona de la manera siguiente:

    Solucin en una lista de encabezamientos de materia.

    Religin Arte

    Iglesia Arquitectura religiosa

  • CC-BY-NC-ND PID_00195714 39 Anlisis de contenidos

    A los sistemasdeclasificacin se les reconoce el papel principal que han te-

    nido a la hora de estructurar el conocimiento creando sistemas que permitan

    representar y recuperar los datos a partir del significado de los documentos,

    es decir, a partir de la materia y no de datos formales como nombres propios

    o ttulos.

    Las estructuras clasificatorias son elementos muy importantes en la organiza-

    cin del conocimiento. Nos permiten representar y ordenar el conocimiento,

    y esto, en un momento como el actual, en el que la informacin est cada vez

    ms atomizada y dispersa, hace que los sistemas de clasificacin nos propor-

    cionen una visin coherente y homognea, una perspectiva integradora.

    Por lo que respecta a las notaciones, los cdigos numricos o alfanumricos,

    todava suponen una buena opcin ante el uso amigable del lenguaje natu-

    ral? Esta pregunta equivale a interrogarse sobre si un lenguaje documental

    codificado tiene suficientes utilidades para merecer la inversin en tiempo y

    esfuerzo. Pues bien, obtendremos la respuesta observando las ventajas que re-

    presenta la codificacin, y que son las siguientes:

    Los cdigos son internacionales y, por lo tanto, la codificacin permite el

    intercambio (en red de mbito nacional o internacional).

    Permite ordenar el fondo y disponerlo en anaqueles de manera altamente

    significativa.

    Permite elaborar tanto productos bibliogrficos como bibliografas nacio-

    nales o selectivas (existe constancia de que la CDU se usa al menos en

    treinta bibliografas nacionales).

    Permite confeccionar ndices y guas por materias.

    Permite difundir de forma selectiva la informacin (DSI).

    Observacin

    En la bibliografa cientfica encontraris que contraponen la codificacin de las clasifica-ciones con el lenguaje natural, no con el lenguaje libre, por lo que el principal inconve-niente de los sistemas de clasificacin no es que sean controlados, sino que estn codi-ficados. Si el problema fuera el control, otros lenguajes, como los encabezamientos demateria, las autoridades y los tesauros, tambin recibiran la misma crtica.

    Como hemos visto, las estructuras, las jerarquas y los cdigos tienen su utili-

    dad; aun as, los sistemas de clasificacin han evolucionado y han mejorado

    tres aspectos bsicos: la estructura, el contenido y la visibilidadenlaWeb.

    Estructura

    En el caso de la CDU, que es la clasificacin que ms trabajaremos, la mejora

    de la estructura pasa por potenciar lafacetacin (Broughton, 2009).

    Encuesta sobre el uso de laCDU

    En una encuesta del Consor-cio de la CDU (Aida Slavic,2007) llevada a cabo en dos-cientos siete pases del mundo,se concluy que ciento veinti-cuatro pases (el 60%) clasifi-caban con CDU. De estos pa-ses, treinta y cuatro (el 28%)tienen la CDU como sistemaprincipal, cuarenta y cinco (el36%) la usan en determina-dos tipos de bibliotecas y loscuarenta y cinco restantes (el36%) solo la usan en algunasbibliotecas de sus naciones.

  • CC-BY-NC-ND PID_00195714 40 Anlisis de contenidos

    Las facetas son principios de divisin, caractersticas que las materias

    tienen en comn. Las facetas agrupan los conceptos segn una caracte-

    rstica concreta que comparten con otras clases.

    Hay facetas de tipo universal, aplicables a todos los campos del saber (como

    el tiempo y el espacio), y laspropiasdeunamateria.

    Ejemplo de facetas

    El espacio, el tiempo, la forma, la lengua. Por ejemplo, dentro de la faceta formapodemosencontrar miniatura, que podremos aplicar a todo tipo de conceptos,