STANALYST ayuda para el an á lisis de la informaci ó n
description
Transcript of STANALYST ayuda para el an á lisis de la informaci ó n
STANALYST ayuda para el análisis de la información
Xavier PolancoCNRS-INIST, France
Santiago de Chile II Sem. Intern. 16-18/01/2006 2
Contexto ICyT
• Personas – autores, investigadores, ingenieros, …
• Textos – publicaciones, p.ej. artículos y patentes
• Conocimientos– en los sujetos o personas– en los textos
Santiago de Chile II Sem. Intern. 16-18/01/2006 3
Concepción del sistema
• Un sistema informático para facilitar el trabajo humano de análisis de la información en CyT
• Análisis automatizado:– estadística descriptiva
– Indicadores estadísticos
– procesamiento del lenguaje (PAL) & indización automática (textos)
– Indicadores lingüísticos et de terminología
– clasificación automática– Indicadores temáticos o centros de interés
Santiago de Chile II Sem. Intern. 16-18/01/2006 4
Descripción del sistema
Navigador – Interface usuario
2BIBLIOMETRIA
Estadísticasdescriptivas
1CORPUS
Interrogacióny Datos
3INDIZACION
Manual o Automática
4INFOMETRIAClasificación y
Cartografía
Bases de datos Recursos terminológicos
Proyecto
Acceso e identificación
Santiago de Chile II Sem. Intern. 16-18/01/2006 5
Consorcio: BIREME (Brasil)CAICYT (Argentina)CNRS-INIST (Francia)CONICYT (Chile)RICYT (América)
Con el apoyo del Ministère des Affaires Etrangères de France
Proyecto en curso: Una nueva versión multibases capaz de explotar las bases SciELO, LILACS, MEDLINE, además de las bases FRANCIS y PASCAL
Santiago de Chile II Sem. Intern. 16-18/01/2006 6
Ejemplo de la organización del sistema en módulosy de las interfaces de trabajo
Santiago de Chile II Sem. Intern. 16-18/01/2006 7
Datos: Descripción estadística
• Primera etapa, el análisis de los datos• Frecuencia y distribución sobre:
– Datos bibliográficos:– Tipos de documentos– Fecha de publicación– Lenguas– País de publicación
– Revistas (journals) (ley de Bradford)– Nombre de artículos por revista– País de publicación
– Autores y afiliaciones institucionales (ley de Lotka)– Palabras claves (ley de Zipf)
Santiago de Chile II Sem. Intern. 16-18/01/2006 8
PAL e Indización automática
• Reconocimiento de términos en los textos en función de recursos terminológicos
• Lematización y etiquetaje
• Analizador morfológico-sintáctico (FASTR)
• Variación morfológica-sintáctica (coordinación, inserción, permutación)
• Indización automática
• Control y validación
Santiago de Chile II Sem. Intern. 16-18/01/2006 9
Clasificación o clustering
• Clasificación automática no supervisada a partir de D(n,p)
• Dos métodos:– NDOC clasificación no jerárquica (k-means
axiales)– SDOC clasificación jerárquica ascendente
(co-word analysis)
• Cartografía: Mapas (ACP, D/C)
Santiago de Chile II Sem. Intern. 16-18/01/2006 10
1) D(n,p)2) A(ij)3) Ci, i =1…m4) G(Cm,A(ij))5) M(C[d,c])
Y =
D
ensi
dad
X = Centralidad
Santiago de Chile II Sem. Intern. 16-18/01/2006 11
Analizar ~ Clasificar ~ Ordenar
• "Le savant doit ordonner ; on fait la science avec des faits comme une maison avec de pierres ; mais une accumulation de faits n’est pas plus une science qu’un tas de pierres n’est pas une maison"
• Henri Poicaré (1854-1912), La Science et l’hypothèse (1902)
Santiago de Chile II Sem. Intern. 16-18/01/2006 12
Muchas gracias
¿preguntas?