El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

52
Mar Pérez Morillo – Jefe del Servicio de Coordinación Web Icíar Muguerza López – Servicio de Coordinación Web Cita en la BNE / Salón de Actos / 8 de Junio de 2011 PATRIMONIO DEL FUTURO Y FUTURO DEL PATRIMONIO

description

Presentada en "Cita en la BNE". 8 de junio de 2011. Biblioteca Nacional de España

Transcript of El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Page 1: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Mar Pérez Morillo – Jefe del Servicio de Coordinación WebIcíar Muguerza López – Servicio de Coordinación Web

Cita en la BNE / Salón de Actos / 8 de Junio de 2011

PATRIMONIO DEL FUTURO Y FUTURO DEL PATRIMONIO

Page 2: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

ÍNDICE1. INTRODUCCIÓN:

La importancia del medioCaracterísticas de la web¿Por qué archivar la web? El Patrimonio DigitalLa misión del bibliotecario ante los “nacidos digitales”

2. INICIATIVAS MUNDIALESProyectos internacionales: Internet Archive, IIPC, Minerva, Pandora, BnF, British LibraryProyectos nacionales: PADICAT, ONDARENET

3. ASPECTOS TÉCNICOS• ¿Cómo se archiva Internet? Recolección masiva/selectiva/híbrida• Nociones esenciales: herramientas y formato de archivo WARC

4. EL PROYECTO DE LA BNEMarco legalEl Internet Archive y el archivo web de la BNEEstado actual: tamaño de la colección, contenido y formato. Hosting. Análisis de la colecciónNuevo contrato y recolecciones futurasUso de la colecciónCooperación con especialistas y otras instituciones

5. CUESTIONES A DEBATE

Archivo de la web española

Page 3: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

Ruptura y continuidadRuptura y continuidad

Archivo de la Web española

Page 4: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

Afán de permanencia sufre la amenaza de lo

efímero

Hoy los bytes → rivales del papel

Internet → fruto del progreso acumulativo del saber

humano

El medio condiciona

El uso de internet condiciona la producción cultural

Ruptura y continuidadRuptura y continuidad

Page 5: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

Grande → casi inabarcable

Global → límites borrosos

Rápida → contenidos efímeros, cambiantes

Intangible → archivos virtuales

Universal

Puzzle

Características de la web

Page 6: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

¿Cuánto contenido hay en la web? Cruzando la frontera de los ZB…

¿Cuánto contenido hay en la web? Cruzando la frontera de los ZB…

1 B = 1 carácter

10 KB = 1 página escrita

500 MB = 1 CD-ROM

1 GB = 1 película

10 TB = toda la colección impresa de la LoC

200 PB = todo el material impreso en la Historia

5 EB = todas las palabras pronunciadas por el hombre

1 ZB = todo el universo digital

Archivo de la Web española

Page 7: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

– Directrices de la UNESCO para la Preservación del Patrimonio Digital (marzo, 2003)

– Recomendación de la Comisión Europea (24 de agosto de 2006) sobre la digitalización y la accesibilidad en línea del material cultural y la conservación digital

– Orden CUL/1014/2007, de 30 de marzo, por la que se constituye la Comisión Española sobre la digitalización y la accesibilidad en línea del material cultural y la conservación digital

Archivo de la web española

¿Por qué archivar la web?

Page 8: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

La misión del bibliotecario

El rol del bibliotecario descansaba sobre algunas certidumbres del mundo impreso…

Archivo de la Web española

Hasta que el advenimiento de los documentos “nacidos digitales” nos hace replantearnos muchas de esas certidumbres

Page 9: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

Primeros proyectos: Internet Archive

Page 10: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

400.000500.000950.000

2.700.000150.000.000.000

Horas de televisiónImágenes en movim.Grabaciones sonorasLibrosPáginas web

Archivo de la Web española

Desde 1996

Page 11: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

Institución pionera en este campo

Archiva la web desde 1996

Objetivo principal: construir biblioteca de internetaccesible y permanente

Recolecta para distintas instituciones:

– BN de Australia

– LoC

– BNE…

Desde 2001 da acceso público a sus colecciones (Wayback Machine)

Miembro fundador del IIPC: posición de liderazgo

Internet Archive

Page 12: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

LAS DISTINTAS VERSIONES DE LA WEB DE LA BNE EN LA WAYBACK MACHINE DEL IA

Page 13: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

Otros proyectos internacionales

Page 14: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

Proyecto PANDORA (Biblioteca Nacional de Australia)

Page 15: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

Proyecto PANDORA(Biblioteca Nacional de Australia)

Uno de los proyectos pioneros mundiales en este campo (1996)

Colección en línea de publicaciones históricas relativas a Australia

Archivado selectivo según los criterios de su política de recolección

Acceso público

Colección organizada por materias

Page 16: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

Proyecto MINERVA (Library of Congress)

Page 17: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

Proyecto MINERVA (Library of Congress)

La LoC archiva la web desde el año 2000

Colaboración con Internet Archive

Recolección selectiva → asesoría de especialistas

Acceso público

Destacan sus recolecciones por acontecimientos:

– Guerra de Irak (2003)

– 11-S

– Elección papal tras la muerte de Juan Pablo II (2005)

– Elecciones presidenciales EE.UU.

Page 18: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

Archives de l’Internet (BnF)

Page 19: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

Archivan la web desde 2002 con la colaboración de Internet Archive

Al amparo de su ley de DL desde 2006

Recolectan:

– El dominio .fr

– Webs en otros dominios con contenidos relativos a Francia

En 2009 recolectan por sí mismos

Combinan recolecciones masivas y selectivas

Acceso a la colección restringido a investigadores en terminales de su sede

Archives de l’Internet (BnF)

Page 20: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

Panorama internacional:lista de iniciativas de archivado web

Page 21: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

– Fundado en 2003 por 11 bibliotecas nacionales e Internet Archive

– Adquirir, preservar y hacer accesible la información en internet para el futuro

– Objetivos:• Posibilitar recolección, preservación y acceso a largo

plazo a contenidos de internet• Desarrollar herramientas comunes para crear archivos

internacionales• Defender iniciativas internacionales con este propósito• Apoyar a instituciones dedicadas a esta tarea

El International Internet Preservation Consortium (IIPC)

Page 22: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

El International Internet Preservation Consortium (IIPC)

– Grupos de trabajo muy activos:

• Recolección

• Acceso

• Preservación

– Proyectos de colaboración:

• Facebook

• Wikileaks

• Terremoto y tsunami en Japón (Internet Archive - National Diet)

• Olimpiadas 2012

• Memento

Page 23: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

La revolución del jazmín: Túnez 2011; archivado a cargo del Internet Archive; contribuciones de la LOC y la BnF; idiomas: francés, árabe e inglés

Archivo de la Web española

Page 24: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

LA BNE UNE SUS ESFUERZOS A LOS DE ORGANISMOS INTERNACIONALES

Archivo de la Web española

Page 25: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

ISO TC 46/SC 8/WG 9Estadísticas y aspectos de calidad en los archivos web

– Objetivo: elaborar un informe técnico– Reflejar el estado actual de la cuestión– Definición de términos y elementos relativos a estos proyectos– Establecer aspectos cuantificables para medir la calidad

(indicadores)

Page 26: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

Proyectos nacionales

PADICAT

ONDARENET

Page 27: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

Proyecto pionero en España (2005)

Objetivo: archivar la web catalana

Recolección híbrida:

– Masiva del dominio .cat

– Producción web de las entidades catalanas (convenios)

Recursos fácilmente localizables por:

– Categorías temáticas

– Palabras clave

– URL

Acceso público en línea

Desarrollan CAT (Curator Archiving Tool)

Page 28: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

ONDARENET

Proyecto de recolección web del gobierno vasco

Objetivo: recopilar la memoria digital vasca

Modelo de recolección híbrido:

– Recolección integral regional

– Recolección selectiva y temática

Page 29: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

Software de rastreo: rastreador (crawler) a gran escala de código abierto

respeta exclusiones del tipo robots.txt

diseñado para no interrumpir la actividad del sitio web rastreado

rastreo continuo

Paquetes de software que utilizan Heritrix:

Netarchive Suite

Web Curator Tool

CAT (Curator Archiving Tool)

¿Cómo se archiva Internet?

Page 30: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

Formato de archivo para almacenamiento→ WARC (Web ARChive)

Norma ISO 28500:2009:– guarda contenido junto a información de control de

los protocolos– guarda metadatos enlazados a otros datos– permite compresión de datos y preservar integridad

de registros– permite manejo de registros excesivamente largos– detecta duplicados y transformaciones posteriores de

un archivo

¿Cómo se archiva Internet?

Archivo de la Web española

Page 31: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

¿Cómo se archiva Internet?

Softwares de búsqueda

Page 32: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

¿Cómo se archiva Internet?Almacenamiento

• Reto constante

• Ahorro de espacio, fiabilidad

• Mantener la accesibilidad

• Minimizar riesgo de pérdidas

• Distribución de copias en distintos sitios

• Impedir la degradación de los datos

• El Petabox: 1 PB = 1.000 TB = 1.000.000 GB

Page 33: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

El petabox, hoy

Archivo de la Web española

Mayor densidad que el modelo anteriorDiciembre, 2010: almacenamiento total de IA → 5,8PB

Page 34: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

Según el alcance:

Masiva

Selectiva

Temática

Por acontecimientos

Híbrida

Ventajas e inconvenientes

Según los permisos:

Sin permiso (al amparo de una ley de DL)

Con permiso expreso de los propietarios

Ventajas e inconvenientes

Tipos de recolección

Page 35: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

EL PROYECTO DE LA BNEMarco legal

– Decreto del 57:

• Preocupación por regular “las obras derivadas

de los inventos modernos”

– Proyecto de ley de DL (2011)

• Publicaciones digitales → patrimonio a preservar

• Acceso y consulta de publicaciones almacenadas

• Sitios web → incluidos en el DL

• Centros de conservación → habilitados para rastrearlosy conservarlos

• Límites: propiedad intelectual y protección de datos

Archivo de la Web española

Page 36: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

EL PROYECTO DE LA BNEPrimeros pasos

• Primer contrato con Internet Archive: 2009-2010

• Objetivo: recolectar, archivar y preservar el dominio .es

• Primeras recolecciones

4 recolecciones masivas: 1 en 2009 y 3 complementarias en 2010

• Después de cada recolección:

Deduplicación

Indización

Rastreo de parcheado

Archivo de la Web española

Page 37: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

EL PROYECTO DE LA BNEPrimeros pasos

Archivo de la Web española

Page 38: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

EL PROYECTO DE LA BNESituación actual (I)

• Resultados:

30 TB de información almacenada

Más de 875 millones de URL:

Más de 317 millones en la primera recolección

Cantidades menores en las tres siguientes complementarias

• Acceso a la colección

• Interfaz de consulta que necesita personalización

• Búsquedas:

Por URL

Por palabra a texto completo (necesita depuración)

Archivo de la Web española

Page 39: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

EL PROYECTO DE LA BNESituación actual (II)

• Informes

MIME (Multipurpose Internet Mail Extension)

Respuestas de servidores

Servidores

Exclusiones

• Análisis de la colección mediante calas:

Páginas recolectadas con éxito

Niveles de navegación que se han guardado

Porcentaje de webs guardadas que han desaparecido (casi un 3%)

Otros dominios capturados aparte de .es

Aproximación a porcentaje de temáticas

Archivo de la Web española

Page 40: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

EL PROYECTO DE LA BNEPruebas

Archivo de la Web española

Page 41: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

EL PROYECTO DE LA BNEPruebas

Con motivo de las elecciones municipales y autonómicas de 2011

Pruebas de rastreo selectivo de la web española

NetarchiveSuite:

– Software de código abierto y gratuito

– También utilizado por Dinamarca, Francia y Austria

Búsqueda de conclusiones para evaluar capacidad de autogestión

Selección de 23 dominios:

– Cabeceras de prensa

– Medios de comunicación audiovisuales

– Partidos políticos

Page 42: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

EL PROYECTO DE LA BNEPruebas

Archivo de la Web española

Page 43: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

EL PROYECTO DE LA BNEPruebas

Archivo de la Web española

Page 44: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

EL PROYECTO DE LA BNEPlanes inmediatos

• Nuevo contrato con Internet Archive:

2 recolecciones masivas (2011), alternadas con

2 recolecciones selectivas (2011 y 2012):

Temáticas

Acontecimientos (Elecciones Generales 2012)

• Probablemente estaremos cerca de duplicar la colección actual

• Análisis de la colección más de cerca durante los rastreos

• Seguiremos con pruebas de recolección y archivado autogestionadas

Archivo de la Web española

Page 45: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

EL PROYECTO DE LA BNEPlanes inmediatos: cooperación

Colaboración para las recolecciones selectivas:

• Personal de la BNE

• Universidades

• Otras instituciones (CSIC, bibliotecas, ministerios…)

Aunar esfuerzos con otros proyectos de archivado web en España:

• PADICAT

• ONDARENET

Cooperación con Comunidades Autónomas ??

[email protected]

Archivo de la Web española

Page 46: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

EL PROYECTO DE LA BNEPlanes a medio plazo

Trasladar la colección

Dar acceso a los investigadores

Realizar rastreos de la web con medios propios

Page 47: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

Cuestiones a debate¿Podemos capturarlo todo?

¿Debemos capturarlo todo?

Conveniencia de una selección: criterios

Derecho al olvido

Acceso universal

Límites legales

¿Cómo usarán los investigadores estos archivos?

Uso de los metadatos: descriptivos/de preservación

Preservación: emulación/migración

Page 48: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

Enlaces de interés

IIPC: www.netpreserve.org

Wiki de proyectos de archivado web: http://en.wikipedia.org/wiki/List_of_Web_Archiving_Initiatives

Internet Archive: www.archive.org

Preservación digital del dominio .es: http://www.bne.es/es/LaBNE/PreservacionDominioES/index.html

Heritrix: http://crawler.archive.org/

NetarchiveSuite: http://netarchive.dk/suite/Welcome

NutchWax: http://archive-access.sourceforge.net/projects/nutch/

Blog de Hanzo Archives: http://web.hanzoarchives.com/

Proyecto de Ley de depósito legal:http://www.congreso.es/portal/page/portal/Congreso/PopUpCGI?CMD=VERLST&BASE=puw9&DOCS=1-1&DOCORDER=LIFO&QUERY=%28CDA20110602011808.CODI.%29#(Página1)

Archivo de la Web española

Page 49: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

Colecciones web

Wayback Machine: http://www.archive.org/web/web.php

PANDORA (Archivo web de Australia): http://pandora.nla.gov.au

MINERVA (Biblioteca del Congreso): http://lcweb2.loc.gov/diglib/lcwa/html/lcwa-home.html

Archivo web de la Biblioteca Británica: http://www.webarchive.org.uk/ukwa/

PADICAT (Patrimonio Digital de Cataluña): http://www.padicat.cat/

ONDARENET (Patrimonio Digital Vasco): http://www.ondarenet.kultura.ejgv.euskadi.net:8085/consulta/editC

onsultaBase.do?dispatch=editConsultaBase

Archivo de la Web española

Page 50: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

Bibliografía

A Memory of Webs Past”, http://spectrum.ieee.org/telecom/internet/a-memory-of-webs-past/0

Oxford Internet Institute, “Web archives: the future(s)” [documento de trabajo], 2011, http://www.netpreserve.org/events/Hague/Presentations/OII-IIPC.pdf

E. Bermes, L. Fauduet et al., “A data first approach to digital preservation: the SPAR project”, World Library and Information Congress: 76th IFLA General Conferenceand Assembly (2010), http://www.ifla.org/files/hq/papers/ifla76/157-bermes-en.pdf

E. Bermes y G. Illien, “Metrics and Strategies for Web Heritage. Management andPreservation”, 75th IFLA General Conference and Assembly (2009), http://www.ifla.org/files/hq/papers/ifla75/92-bermes-en.pdf

G. Mohr, et al., “An introduction to Heritrix. An open source archival quality webcrawler”, 4th International Web Archiving Workshop (2004), http://iwaw.europarchive.org/04/Mohr.pdf

WARC File Format ISO/DIS 28500 (Borrador, 2008), http://bibnum.bnf.fr/WARC/warc_ISO_DIS_28500.pdf

Archivo de la Web española

Page 51: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de EspañaArchivo de la Web española

Agradecimientos

Page 52: El archivo web de la BNE. Mar Pérez Morillo, Icíar Muguerza López

Biblioteca Nacional de España

Icíar Muguerza LópezMar Pérez Morillo

Servicio de Coordinación Web

[email protected]

Pº de Recoletos 20 -22 28071 Madrid

Tfno: 91 580 782

www.bne.es

Archivo de la Web española