Charla SEC, 19 de diciembre de 2013
-
Upload
christian-sifaqui -
Category
Technology
-
view
226 -
download
4
description
Transcript of Charla SEC, 19 de diciembre de 2013
![Page 1: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/1.jpg)
Archivos y repositorios digitales
19 de diciembre de 2013Christian Sifaqui
![Page 2: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/2.jpg)
Archivo
Consejo Internacional de Archivos (ICA):• Conjunto de documentos• Institución responsable• Edificio o parte del edificio donde se
conservan (depósito)
![Page 3: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/3.jpg)
Archivística
• Identificación: fase del tratamiento archivístico que consiste en la investigación y sistematización de las categorías administrativas y archivísticas en que se sustenta la estructura de un fondo
• Clasificación: operación archivística que consiste en el establecimiento de las categorías y grupos que reflejan la estructura jerárquica del fondo
• Ordenamiento: operación archivística realizada dentro del proceso de organización, que consiste en establecer secuencias naturales cronológicas y/o alfabéticas, dentro de las categorías y grupos definidos en la clasificación
![Page 4: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/4.jpg)
Archivística
• Instalación: conjunto de medios físicos dispuestos para la adecuada conservación de los documentos
• Descripción: fase del tratamiento archivístico destinada a la elaboración de los instrumentos de consulta para facilitar el conocimiento y consulta de los fondos documentales y colecciones de los archivos
• Digitalización: conjunto de procedimientos de copia o microcopia realizados mediante cualquier tecnología y en distintos soportes
![Page 5: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/5.jpg)
ArchivosRealidad
Ideal
![Page 6: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/6.jpg)
Digitalización
• Ingreso de documentos organizados archivísticamente
• Preparación de los documentos para digitalización
• Ingreso de metadatos• Escaneo• Retorno de documentos a su unidad• Instalación en los depósitos
![Page 7: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/7.jpg)
Digitalización
• Metadatos• negocio electrónico• conservación• descripción de los recursos de información• localización de recursos de información• gestión de derechos de propiedad intelectual
• Formato máster, formato distribución• Roles, comunidades, colecciones
![Page 8: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/8.jpg)
Mala práctica
Documentos grandes
Documento PDF complejo consistente en imágenes facsimilares + texto OCR + mapeo de cada palabra a su posición en cada página
XML
PDF imágenes con texto 72 páginas en PDF, tamaño 24 MB.
Mismo archivo en XML 0.5 MB
![Page 9: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/9.jpg)
Repositorios digitales (1)
• “Bolsa inteligente”
![Page 10: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/10.jpg)
Bolsa “inteligente”
Debe:• manejar objetos digitales, organizados en
colecciones y éstas a su vez agrupadas en comunidades
• ofrecer uso de metadatos estándar Dublin Core, y permitir extenderlo
• soportar amplio espectro de formatos de archivos: texto, videos, sonido, imágenes
• versionamiento
![Page 11: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/11.jpg)
Bolsa “inteligente”
Usar esta bolsa inteligente como backend y como frontend sitios web que sólo ofrezcan los documentos acorde a cierta metadata
Entrégame los objetos
más recientes
Objetos más recientes
Repositorio - Backend
Sitio web - Frontend
![Page 12: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/12.jpg)
Bolsa “inteligente”
Entrégame objetos con metadata
dc.subject=Legisla
ción Comparada
Objetos
![Page 13: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/13.jpg)
Bolsa “inteligente”
Frontend
BackendDocumentos
Objetos digitales Recursos legales
parlamentario.bcn.cl
transparencia.bcn.cl
historiapolitica.bcn.cl
www.bcn.cl/leyfacilarchivohales.bcn.cl
![Page 14: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/14.jpg)
Repositorios digitales (2)
• Adecuados al contenido (XML, videos, etc.)
![Page 15: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/15.jpg)
Adecuado al contenido
• Interesa determinar cambios en un documento o entre documentos
• Referenciar o reutilizar partes de o todo un documento
• Interoperabilidad• Otras consideraciones
![Page 16: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/16.jpg)
Adecuado al contenido
Videos
Música
XML
![Page 17: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/17.jpg)
Adecuado al contenido
Ley 22000
Artículo 1. abc.
Artículo 2. def.
Artículo 3. ghi.
Ley 22000
Artículo 1. abc.
Artículo 2. def.
Artículo 3. ghi.
Ley 22000
Artículo 1. xyzbc.
Artículo 2. def.
Artículo 3. ghi.
Ley 22000
Artículo 1. xyzbc.
Artículo 2. def.
Artículo 3. ghi.
t0 t1
Ejemplo: www.leychile.cl
![Page 18: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/18.jpg)
Adecuado al contenido
Modelar la “vida” del documento
![Page 19: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/19.jpg)
Adecuado al contenido
Modelar la “estructura” del documento
![Page 20: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/20.jpg)
Adecuado al contenido
LeyChile: XMLTexto: versiones, hiperenlaces, referencias, notas
Estructura: organización jerárquica de las partes de una norma legal
Metadatos: información adicional acerca de los documentos, como identificación de la norma, materia, términos libres, etc.
![Page 21: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/21.jpg)
Adecuado al contenido
Akoma Ntoso http://www.akomantoso.org/
Es un conjunto de representaciones electrónicas tecnológicamente neutral (en formato XML) de documentos parlamentarios, legislativos y judiciales
![Page 22: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/22.jpg)
Resumen
Mundo “papel”
Mundo digitalizados o creados digitalmenteDigitalizaciónRepositorios
Bolsa inteligenteAcorde al contenidoOAI-PMH
Firma electrónicaPreservación digital
![Page 23: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/23.jpg)
Malas prácticas URL
Texto “no web”: en esta página bla blaTexto se contradice con los documentos
Apunta a un PDF quefue “extraído” de la BCN ¿?
![Page 24: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/24.jpg)
Malas prácticas
PDF imagen
![Page 25: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/25.jpg)
Malas prácticas
Documento almacenado en el mismo sitio web
![Page 26: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/26.jpg)
Malas prácticas
Apunta a un PDF quefue “extraído” de la BCN ¿?
![Page 27: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/27.jpg)
Malas prácticas
Son archivos propietarios
![Page 28: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/28.jpg)
Web semántica
Open Data: es un idea que impulsa la publicación de datos de forma libre y asequible a cualquier persona para usar y republicar sin restricciones de ningún tipo
Linked Data: es usar la web para conectar datos relacionados que no estaban enlazados previamente. Usa algunas de las mejores prácticas de la Web Semántica
![Page 29: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/29.jpg)
Web semántica
Web• Repleta de información• Orientada al ser humano:
• para comprender el contenido de una página• para relacionar contenidos dentro de una
página (textos, imágenes, videos, etc.)
![Page 30: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/30.jpg)
Web semántica
Web• Dificultad en localización de la información (adaptar a una
región específica, por ejemplo, traducir)
• Buscadores actuales funcionan bien, pero orientados al keyword
• Por ejemplo: “constitución”¿la de Chile?¿ciudad del sur?
![Page 31: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/31.jpg)
Web semántica
Soluciones
• ad hoc: usar métodos de IA para analizar la información no estructurada existente en la Web
• a priori: estructurar la información en la Web para facilitar el análisis automático Web Semántica
![Page 32: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/32.jpg)
Web semántica
Estándares
![Page 33: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/33.jpg)
Web semántica
Estándares
![Page 34: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/34.jpg)
Web semántica
Endpoint SPARQL
![Page 35: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/35.jpg)
Web semántica
Encontrar todas las normas emitidas por una municipalidad entre los años 1995 y 2000, pero que fueron modificadas después del año 2005
PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ?Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ?Fecha_modificacionWHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005"))}ORDER BY (?pubDate)
PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ?Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ?Fecha_modificacionWHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005"))}ORDER BY (?pubDate)
![Page 36: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/36.jpg)
Web semántica
Visualizaciones
![Page 37: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/37.jpg)
Web semántica
Visualizaciones
![Page 38: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/38.jpg)
Finalmente
Dos mundos• Mundo de documentos para el ser
humano• Mundo de datos para las máquinas
![Page 39: Charla SEC, 19 de diciembre de 2013](https://reader035.fdocuments.ec/reader035/viewer/2022062308/558ba042d8b42af4798b4635/html5/thumbnails/39.jpg)
De documentos a datos
Documentos• OCR• aplicación de algoritmos Named-entity
Recognition• Enlaces a ontologías
• Ejemplo: proyecto Historia de la Ley y Labor Parlamentaria (http://lphl.bcn.cl)