Digitalizacion y Bibliotecas Digitales

16
4. Producción y manejo de documentos electrónicos - 3. Requisitos básicos para la digitalización página 1 Repertorio de Recursos para la Gestión de Información Módulo sobre la Digitalización y Bibliotecas Digitales UNIDAD 4. PRODUCCIÓN Y MANEJO DE DOCUMENTOS ELECTRÓNICOS LECCIÓN 3. REQUISITOS BÁSICOS PARA LA DIGITALIZACIÓN © FAO y UNESCO 2006 NOTA Note que esta versión PDF no tiene las características interactivas ofrecidas en el curso electrónico de IMARK, como ejercicios con comentarios, pantallas animadas, animaciones, etc. Le recomendamos que siga la lección usando el ambiente interactivo del curso electrónico, y use la versión en PDF para imprimir la lección como referencia después de haber completado el curso.

description

Digitalizacion y Bibliotecas Digitales

Transcript of Digitalizacion y Bibliotecas Digitales

Page 1: Digitalizacion y  Bibliotecas Digitales

4. Producción y manejo de documentos electrónicos - 3. Requisitos básicos para la digitalización página 1

Repertorio de Recursos para la Gestión de Información

Módulo sobre la Digitalización y Bibliotecas Digitales

UNIDAD 4. PRODUCCIÓN Y MANEJO DE DOCUMENTOS ELECTRÓNICOS

LECCIÓN 3. REQUISITOS BÁSICOS PARA LA DIGITALIZACIÓN

© FAO y UNESCO 2006

NOTA

Note que esta versión PDF no tiene las características interactivas ofrecidas en el curso electrónico de IMARK, como ejercicios con comentarios, pantallas animadas, animaciones, etc.

Le recomendamos que siga la lección usando el ambiente interactivo del curso electrónico, y use la versión en PDF para imprimir la lección como referencia después de haber completado el curso.

Page 2: Digitalizacion y  Bibliotecas Digitales

4. Producción y manejo de documentos electrónicos - 3. Requisitos básicos para la digitalización página 2

Al final de esta lección, usted podrá:

• Identificar el equipo, software, recursoshumanos y fondos necesarios para digitalizardocumentos impresos.

Objetivos

Introducción

Estamos de acuerdo que debemos empezar a digitalizar nuestros documentos. También hemosdecidido cuáles documentos debemos digitalizar.Ahora, planeemos lo que necesitamos hacer…

Usted necesitará varios tipos de recursos para digitalizar los documentos que se incluirán en una biblioteca digital.

¿Qué recursos se necesitan?

¿Cuánto costarán?

En esta lección, recibirá algunas guías que le ayudarán a determinar lo que necesitará.

Page 3: Digitalizacion y  Bibliotecas Digitales

4. Producción y manejo de documentos electrónicos - 3. Requisitos básicos para la digitalización página 3

Requisitos

El siguiente cuadro lista los tipos de recursos que usted podría necesitar para digitalizar susdocumentos:

Para cubrir:• salarios• equipo• software• costos de funcionamiento, y demás

Fondos

Personal y habilidadesRecursoshumanos

• Escaneo• Reconocimiento óptico de caracteres• Procesamiento de textos• Revisión ortográfica• Manejo de imágenes• Captura de sonido y video (si va a manejar grabaciones)

Software

• Escáneres, computadoras y dispositivos de almacenamiento• Equipo de captura de sonido y video (si va a manejar grabaciones)

Equipo

Analicemos cada uno de estos ítemes en detalle...

CUÁNDO USAR

Equipo

Lo primero que se necesita es el escáner. Los escáneres vienen en tres amplios rangos de precio:

Escáneres planos económicos

Escáneres planos económicos

Escáneres medianos conalimentador de documentos

Escáneres medianos conalimentador de documentos

Escáneres profesionales

Escáneres profesionales

PRECIO VENTAJAS

De $100

a $300.

Los escáneres económicos planos pueden escanear imágenes en blanco y negro, y a color.

Como el precio es bajo, cada computador puede estar equipado con su propio escáner.

Conveniente para trabajos pequeños con un número limitado de páginas - hasta aproximadamente 400 páginas regularmente por mes, o trabajos de una vez de hasta 2.000 páginas.

Cada página tiene que ser puesta cuidadosamente a mano en la superficie de vidrio del escáner, y el propio proceso de escaneo es lento (sólo se puede escanear una docena de páginas por hora).

DESVENTAJAS

Si se quieren escanear tipos especiales de materiales, como microfichas, diapositivas o materiales sobredimensionados, se necesitará de un equipo especial. En este caso, una solución podría ser juntar los recursos y comprar un escáner o un PC entre 5 ó 10 organizaciones locales.

Page 4: Digitalizacion y  Bibliotecas Digitales

4. Producción y manejo de documentos electrónicos - 3. Requisitos básicos para la digitalización página 4

Escáneres planos económicos

Escáneres planos económicos Escáneres medianos con

alimentador dedocumentos

Escáneres medianos conalimentador dedocumentos

Escáneres profesionales

Escáneres profesionales

PRECIO VENTAJAS CUÁNDO USARDESVENTAJAS

De $500

a $1.200.

Éstos pueden manejar 10–50 páginas al mismo tiempo, o aproximadamente 200 páginas por día.

• Es necesario cortar la encuadernación de los libros para hacer que las hojas se puedan alimentar al escáner (fotocopiar es una opción, pero esto consume tiempo y es caro). • El escáner puede escanear sólo un lado de la página a la vez, entonces la pila de páginas se debe voltear y alimentarlas de nuevo en la máquina, para escanear el otro lado. • El alimentador de hojas se puede atascar.

Estos escáneres son útiles hasta por 3.000 páginas al mes.

Equipo

Lo primero que se necesita es el escáner. Los escáneres vienen en tres amplios rangos de precio:

Escáneres planos económicos

Escáneres planos económicos Escáneres medianos con

alimentador de documentos

Escáneres medianos conalimentador de documentos

Escáneres profesionales

Escáneres profesionales

PRECIO VENTAJAS CUÁNDO USARDESVENTAJAS

De $5.000

a $50.000.

Los escáneres profesionales son máquinas de trabajo pesado con un sistema de bandeja alimentadora de hojas, como una fotocopiadora. Los mejores pueden escanear ambos lados de la página de una vez.

Varias empresas producen escaneo dedicado y sistemas de archivado. Por ejemplo, un escáner de primera clase automáticamente crea un archivo para cada documento, y le permite asignar temas y palabras claves en un solo proceso.

Estos sistemas son caros, y algunos usan sistemas patentados de archivado que lo atan a usted al software de esa empresa.

Estos sistemas son de interés para grandes instituciones que deseen crear grandes bibliotecas digitales.

Lo primero que se necesita es el escáner. Los escáneres vienen en tres amplios rangos de precio:

Equipo

Page 5: Digitalizacion y  Bibliotecas Digitales

4. Producción y manejo de documentos electrónicos - 3. Requisitos básicos para la digitalización página 5

ComputadorEl escaneo y el reconocimiento óptico de caracteres requiere mucho poder de procesamiento del computador.

Es posible escanear varios cientos de páginas, usando un computador con un escáner instalado. Para trabajos más grandes, de miles de páginas, sin embargo, se necesitan más computadores y operadores.

Asegúrese de tener bastante capacidad en el disco (20 ó 30 Gb) para manejar los volúmenes de datos generados.

La corrección de pruebas demanda mucho tiempo, pero requiere menos poder de computación; por consiguiente, podrían usarse algunos computadores menos poderosos para esta tarea.

Si se planea crear una biblioteca digital, se necesitará un computador bastante poderoso para manejar grandes cantidades de procesamiento de datos.

Quemador de CDs

Necesitará un quemador de CDs, por dos razones:

1. para copiar y guardar (copia de resguardo) grandes cantidades de datos producidos (usando CDs reescribibles);

2. para crear la copia master del CD-ROM final para distribución (si se planean distribuir los documentos electrónicos en CD-ROM).

Una red de computación también es muy útil porque permite hacer fácilmente copias de resguardo de los archivos, y para compartir archivos entre las diferentes personas que trabajan en la producción.

Si no se tiene una red, se tendrá que confiar en los CD-ROMs para transferir los datos (o unidades de cinta o USB).

Page 6: Digitalizacion y  Bibliotecas Digitales

4. Producción y manejo de documentos electrónicos - 3. Requisitos básicos para la digitalización página 6

Software

Se necesitarán los siguientes tipos de software:

Adobe Reader* para ver documentos PDFSoftware para visualizardocumentos PDF

Adobe Acrobat, PDF-PHP*, PDFCreator*, PDF995*, CutePDF Writer*

para crear documentos PDF Software de creación de documentos PDF

Adobe PhotoShop, Corel PhotoPaint, Microsoft PhotoDraw

para modificar y crear nuevas imágenesSoftware de edición de imágenes

CompuPic, Kudo, ACDSeepara ver, modificar y manejar las imágenesSoftware para el manejo de la imagen

Microsoft WordProgramas de conversion de archivos y libros

para convertir los archivos de un formato a otro.Software de conversión de archivos

Microsoft Word, Corel WordPerfectpara corregir los errores de texto y perfeccionar el diseño de la página

Procesador de textos y corrector ortográfico

ReadIris, OmniPage, FineReaderpara convertir la imagen impresa en imagen digital y OCR, para convertir la imagen digital en texto que un procesador de textos pueda entender

Software de escaneo y OCR

EjemplosFunciónTipos de software:

Idiomas

¦pªG¦³¿ù»~ªº¦a¤è¡A½Ð¤£§[´£¥X«ü¥¿¡IÁÂÁ¡I¦pªG¦³¤H¦³½s½X-ì²z-±ªº®Ñ©Îºô¯¸½Ð´£¨Ñ¤@¤U¦n¶Ü¡H³Ìªñ°Ù¤F¤@¤

?

Puede tomar las siguientes precauciones para resolver estos problemas:

• buscar un software de OCR que sea específico a su idioma;

• preparar un diccionario específico al idioma en su revisor ortográfico o en el programa de procesamiento de textos (puede crear un diccionario específico al idioma para Microsoft Word); y

• si no está usando Unicode, encuentre programas que conviertan de otros sistemas de codificación a Unicode. Esto significa que los usuarios no tendrán que descargar fuentes especiales para leer el texto.

Usted puede estar tratando con idiomas que usan escrituras romanas con muchos caracteres acentuados (como á, å, etc.) y escrituras no-romanas (árabe, chino, cirílico, etc.). En ese caso, el software que está usando podría tener problemas al reconocer, corregir y representar los caracteres de estas escrituras.

Page 7: Digitalizacion y  Bibliotecas Digitales

4. Producción y manejo de documentos electrónicos - 3. Requisitos básicos para la digitalización página 7

Se necesita el siguiente personal para el proceso de digitalización:

Un curso de entrenamiento o taller será necesario para capacitar a los miembros del equipo en las habilidades extras que necesitan, y para desarrollar un flujo de trabajo apropiado a su organización.

Personal

Un gerente para coordinar el equipo y el flujo de trabajo de la digitalización.

Personal asignado a los metadatos.Los bibliotecarios experimentados familiares con el tema son mejores para esta tarea.

Se necesita el siguiente personal para el proceso de digitalización:

Personal

Personal para escanear, OCR, corrección de pruebas y diseño.Es necesario tener habilidades de computación, y entender el idioma de los documentos en que se está trabajando. No es necesario ser experto en el tema aunque ésta sería una ventaja.

El escaneo, el OCR, la corrección de pruebas y el diseño requiere de diligencia y concentración. Los mejores resultados se obtienen trabajando limitadas horas por día. Si tiene el personal a tiempo completo, emplee sólo personas experimentadas, motivadas y conscientes de calidad.

Personal logístico y secretarial.Tendrán que obtener los documentos, limpiarlos, ordenarlos, cortar las encuadernaciones y reencuadernarlos y luego devolverlos a su sitio original.

Page 8: Digitalizacion y  Bibliotecas Digitales

4. Producción y manejo de documentos electrónicos - 3. Requisitos básicos para la digitalización página 8

Costos

Cuando se presupueste el escaneo, se necesita considerar:

Gastos adicionales, no anticipados.Contingencia

Administración, gastos generales, entrenamiento del personal.

Administración y gastos generales

Tiempo del personal (depende del número de documentos, la dificultaddel tema, y los salarios de los especialistas).

Asignación de metadatos

Tiempo del personal, consumibles (discos, papel).

OCR, corrección de pruebas y diseño

Tiempo del personal, fotocopiado (sise fotocopian los documentos antes de escanearlos).

Escaneo

Registro, categorización, costos de correo y transporte, tiempo del personal.

Adquisición de documentos

Escáner, software, computadores, mobiliario de oficina.

Equipo y software

¿Cuánto costará el proceso de inicio al fin? ¡Es tiempo de echar una mirada al presupuesto!

En las siguientes pantallas nos enfocaremos en los costos de escaneo y OCR, pero ¡recuerdecubrir todos los costos listados en el cuadro!

Costos

El costo total dependerá del número de páginas a escanear y convertir. Esto determinará:

• Los costos del personal requerido para escanear y convertir el número de páginas. Éstos se calculan con base en el tiempo del personal requerido y sus niveles de salario.

• El tipo y costo del escáner requerido para la tarea.

Ahora, miremos cómo calcular los costos con base en estas variables.

Page 9: Digitalizacion y  Bibliotecas Digitales

4. Producción y manejo de documentos electrónicos - 3. Requisitos básicos para la digitalización página 9

Costos de escaneoCostos de escaneo

Costos

COSTOS DEL PERSONAL PARA ESCANEAR Y OCR

Costos de OCRCostos de OCR

US $

Para calcular el costo estimado de OCR, corrección de pruebas y diseño por página, haga clic en el botón Costos de OCR:

Para calcular el costo estimado de escanear por página, haga clic en el botón Costos de Escaneo:

Se pueden calcular los costos aproximados de digitalizar documentos en su organización como sigue:

Primero, se necesitará estimar el sueldo mensual típico del personal experimentado en el uso de computadores en su organización e introducir esta cantidad (en dólares) en el siguiente campo:

Costos

1,000 páginas1,000 páginas 5,000 páginas5,000 páginas 100,000 páginas100,000 páginas

Como se ha visto, el costo total de escaneo y OCR depende del tamaño del trabajo, y del nivel del personal y equipo usado. Por ejemplo, mientras que un escáner menos poderoso tiene un costo superior de escaneo por página, puede ser más efectivo que comprar un escáner más caro y poderoso para un trabajo de pequeño a mediano tamaño. Ahora, miremos tres escenarios de costos diferentes que tienen en cuenta el tamaño del trabajo y el escáner apropiado para usarse.

Estos estimados están basados en Loots et al., From Paper to Collection, 2004.

Primero, introduzca el salario típico mensual del personal experimentado en el uso de computadores (en dólares americanos) en el siguiente campo:

COSTO TOTAL DE ESCANEO Y OCR

Despúes, haga clic en los iconos para ver el costo estimado para cada escenario.

US $

Page 10: Digitalizacion y  Bibliotecas Digitales

4. Producción y manejo de documentos electrónicos - 3. Requisitos básicos para la digitalización página 10

Costos de escaneo por página, con base en el tipo de escáner y niveles del sueldo:

El costo resultante por estimado de página no incluye el costo de compra del escáner.

Estas estimaciones se basan en Loots et al., 2001.

Alimentación de hojas

Duplex profesional (baja prod.)

De cama plana

Costo por página (US$)

Tipo de escáner

Costos de OCR, corrección de pruebas y diseño por página con base en la productividad del personal * y los niveles de salario:

El costo resultante por estimación de página no incluye el costo del software usado para el OCR, corrección de pruebas, gráficos y diseño; o para cualquier instrucción del personal.

Estas estimaciones se basan en Loots et al., 2001.

6007 (tiempo completo)Alta (experimentado)

1503 (medio tiempo)Baja (novato )

Costo por página (US$)

Páginas por persona/mes

Horas por díaProductividad

• Recuerde, los mejores resultados y productividad en el OCR y la corrección de pruebas se logra durante un número limitado de horas cada día. Por consiguiente, el trabajo se debe organizar con base en media jornada, o en tiempo completo empleando personas experimentadas y altamente motivadas.

Producción delescáner por mes

40.000

8.000

2.500

Costos

Costo total para escaneo y OCR (1.000 páginas)Un trabajo de 1000 páginas representa media jornada de aproximadamente un mes para escanear, y un media jornada hasta por seis meses para el OCR, corrección de pruebas y diseño. Un escáner plano económico y un computador equipado con un CD-R bastará para esta tarea.

El costo estimado resultante asume que hay disponible un computador con el adecuado poder de procesamiento, almacenamiento y un dispositivo de copias de resguardo. Si no, esto también se necesita agregar a la estimación del costo total.

1) escaneo = 1.000 X costo por página (con base en los costos del salario y el uso de un escáner plano, capaz de 2.500 páginas por mes como se calculó previamente).

2) OCR, corrección de pruebas y diseño = 1.000 X costo por página (con base en el nivel bajo de productividad para el OCR, corrección de pruebas y diseño según se calculó previamente).

286OCR, corrección de pruebas y diseño de la hoja

40Escaneo

626Total (aproximado)

300Escáner de cama plana

Costo (US$)Entradas

Costos

Page 11: Digitalizacion y  Bibliotecas Digitales

4. Producción y manejo de documentos electrónicos - 3. Requisitos básicos para la digitalización página 11

Subcontratar

Tomando los escenarios anteriores, como un punto de partida, se puede determinar el mejor enfoque y combinación de recursos para sus necesidades. Se puede considerar subcontratar el trabajo.

Subcontratar podría ser conveniente si:

• se tiene un trabajo “único”, no una actividad continua; y• se tiene que escanear muchas páginas pero no se puede justificar comprar un escáner profesional caro.

Pondere los costos y compromisos del personal requerido para el OCR interno, corrección de pruebas y diseño contra el costo de subcontratar el trabajo con una compañía

profesional de OCR.

Ahora podemos estimar mejor los costos y las consideraciones del personal, nuestro equipo podrá determinar el mejor enfoque global.

Guía y procedimientos

De aquí puede descargar e imprimir los documentos provistos en esta lección.

Los puede usar como herramientas para su trabajo.

Software necesario para digitalizardocumentos

Categorías de costos

Page 12: Digitalizacion y  Bibliotecas Digitales

4. Producción y manejo de documentos electrónicos - 3. Requisitos básicos para la digitalización página 12

•Para digitalizar publicaciones impresas, usted necesitará de equipo adecuado, software, recursos humanos y fondos.

•El tipo y cantidad de equipo necesario depende de la cantidad de páginas que se digitalizarán.

•Necesitará una variedad de software, pero puede conseguir muchos si quiere usar software de fuente abierta.

•Tratar con idiomas diferentes en documentos impresos es un problema que se debe considerar.

•Los costos de la biblioteca digital dependen de la cantidad de páginas a escanear y los sueldos del personal experimentado. Considere subcontratar esta tarea si no puede hacerlo internamente.

Resumen

Ejercicios

Los siguientes seis ejercicios le ayudarán a probar su comprensión de los conceptos tratados en la lección y le proporcionarán información adicional.

¡Buena suerte!

Page 13: Digitalizacion y  Bibliotecas Digitales

4. Producción y manejo de documentos electrónicos - 3. Requisitos básicos para la digitalización página 13

Ejercicio 1

Antes de empezar el proceso de escaneo, el Sr. López consideró varios asuntos. Éstas son algunas de sus notas:

“El proceso de escaneo es un compromiso constante, que tiene la ventaja de permitirnos crear nuestra propia pequeña biblioteca digital. Una vez digitalizados, nuestros documentos impresos se pueden distribuir fácilmente; ya he identificado al personal que participará en el proceso”.

¿Qué asunto clave todavía no ha mencionado el Sr. López?

Escriba su respuesta en el recuadro y pulse Respuesta.

Ejercicio 2

El Sr. López ha listado varios ítemes para incluir en su presupuesto de la bibliotecadigital:

• Equipo y software• Adquisición de documentos• Escaneo• OCR, corrección de pruebas y diseño• Manejo y gastos generales• Contingencia

¿Qué ha olvidado?

Escriba su respuesta en el recuadro y pulse Respuesta.

Page 14: Digitalizacion y  Bibliotecas Digitales

4. Producción y manejo de documentos electrónicos - 3. Requisitos básicos para la digitalización página 14

Ejercicio 3

Cierto

Falso

Mi procesador de textos no maneja el idioma de estos documentos, entonces no vale la pena pasarlos por el verificadorortográfico…

Haga clic en su respuesta

Ejercicio 4

Un escáner plano económico

Un escáner de bajo nivel con un alimentador de hojas

Un escáner profesional de primera clase

Si tuviera que escanear aproximadamente 2000 páginas, ¿qué tipo de escáner sería el más conveniente para sus necesidades?

Haga clic en su respuesta

Page 15: Digitalizacion y  Bibliotecas Digitales

4. Producción y manejo de documentos electrónicos - 3. Requisitos básicos para la digitalización página 15

4 computadores poderosos

1 computador poderoso y 3 menos poderosos

3 computadores poderosos y 1 menos poderoso

Ejercicio 5

Si tuviera que hacer la corrección de pruebas de 2000 páginas, ¿qué equiposeleccionaría?

Haga clic en su respuesta

El número de individuos involucrados.

El tiempo necesario para el proceso.

El número de páginas a convertir.

El número de computadores necesarios.

Los niveles de salario de aquellos que harán el trabajo.

Ejercicio 6

¿Cuál de estos factores influenciarán principalmente el costo total del proceso de escaneo?

Seleccione sus respuestas (2 o más) y pulse Verifique

Page 16: Digitalizacion y  Bibliotecas Digitales

4. Producción y manejo de documentos electrónicos - 3. Requisitos básicos para la digitalización página 16

Para saber más …

Recursos en línea:

ACDSee (visualizador y conversor de imágenes): (http://es.acdsystems.com/)

Adobe Reader: (http://www.adobe.com/es/CompuPic (programa de gestión de imágenes): (http://www.photodex.com)CutePDF Writer (Genera documentos PDF desde cualquier aplicación): (http://www.cutepdf.com/Products/CutePDF/writer.aspFineReader website: ejemplo de escaneo y software OCR : (http://www.finereader.com

Guide to Digital Scientific Artwork: (http://www.mlab.nl/GtoDSA/Start.htm)Irfanview (visualizador de imagen y vídeo): (http://www.irfanview.com)Jornadas de Bibliotecas Digitales: (http://imhotep.unizar.es/JBIDI/index.html)

OmniPage website: ejemplo de escaneo y software OCR : (http://spain.scansoft.com/omnipage/)PDF995 (Crea documentos PDF desde cualquier aplicación): (http://www.pdf995.com)PDF-PHP (Libreria para PDF en PHP): (http://sourceforge.net/projects/pdf-php)PDFCreator (programa para crear documentos en formato PDF):(http://sourceforge.net/projects/pdfcreator )ReadIris website: ejemplo de escaneo y software OCR : (http://www.readiris.com)

El software de fuente abierta está disponible gratuitamente en varios sitios web. He aquí la lista de ellos:

Freshmeat (repositorio de software para linux): freshmeat.net: (http://freshmeat.net/)OpenOffice.org - incluye un procesador de textos (Writer) que le permite crear documentos estructurados (utilizando docbook) y convertirlos fácilmete a pdf: es.openoffice.org (http://es.openoffice.org)

The UNESCO Free Software Portal: (http://www.unesco.org/cgi-bin/webworld/portal_freesoftware/cgi/page.cgi?d=1)Oss4lib - Software Abierto para Bibliotecas: www.oss4lib.org: (http://www.oss4lib.org)Open Source and Linux News and Software: http://osdir.com: (http://osdir.com/)

Lectura adicional:

Witten, I.H. & Bainbridge, D. 2002. How to build a digital library. The Morgan Kaufmann Series in Multimedia Information and Systems, Edward Fox, Series Editor. ISBN:1-55860-790-0.