SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles...

16
La automatización de los procesos de captura de información y gestión documental mediante tecnologías ICR / OCR D. Sergio Navarro Responsable desarrollo negocio Área de Visión.

Transcript of SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles...

Page 1: SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles de ... soporte electrónico como base para el almacenamiento de todos los documentos.

La automatización de los procesos de captura de procesos de captura de información y gestión documental mediante tecnologías ICR / OCR

D. Sergio NavarroResponsable desarrollo negocio Área de Visión.

Page 2: SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles de ... soporte electrónico como base para el almacenamiento de todos los documentos.

Indice

1 – Formato papel y formato electrónico

2 – Necesidad de la digitalización de documentos

3 – Tecnologías de digitalización del ITI3 – Tecnologías de digitalización del ITI

4 – Automatización y optimización de procesos de

Gestión Documental

Page 3: SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles de ... soporte electrónico como base para el almacenamiento de todos los documentos.

Formato papel y formato electrónico

• Llevamos muchos años diciendo que el papel se va a dejar de usar, algún día, pero es evidente que ese día no termina de llegar.

• Las razones son variadas, entre otras están:

• Usabilidad• Manejabilidad• Bajo coste• La inercia de usuarios y procesos• etc…

• Esto hace que aún resista frente a algunos inconvenientes:

• Espacio de almacenamiento• Consulta de contenidos• Búsqueda de documentos

Page 4: SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles de ... soporte electrónico como base para el almacenamiento de todos los documentos.

Formato papel y formato electrónico

• Como sustituto del papel tenemos el documento electrónico, existen ya (o están a punto de hacerlo) todas las regulaciones necesarias para darle validez completa a nivel jurídico en todos los ámbitos.

• Los documentos electrónicos tienen muchas ventajas frente al papel, pero tienen dos inconvenientes:pero tienen dos inconvenientes:

• Perdurabilidad en el tiempo (soporte físico de almacenamiento, estandarización de formatos y validez de firmas)

• Soporte físico de visualización y tratamiento más dependiente y costoso, la pérdida del soporte puede ser desastrosa (por ejemplo un simple pendrive con capacidad de almacenar miles de documentos potencialmente confidenciales)

Page 5: SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles de ... soporte electrónico como base para el almacenamiento de todos los documentos.

Necesidad de la digitalización de documentos

• Pese a las ventajas e inconvenientes de uno y otro formato la realidad impone la necesidad de compatibilizar ambos.

• Algunas de las ventajas del documento en formato electrónico (optimización del espacio, consulta y búsqueda de documentos…) hacen que la Gestión Documental se haya decantado por usar el soporte electrónico como base para el almacenamiento de todos los documentos.documentos.

• Para eliminar la distancia que separa a ambos formatos tenemos las herramientas de Digitalización, generalmente con capacidad de extracción de información:

• OCR � Optical Character Recognition• ICR ���� Intelligent Character Recognition• OMR � Optical Mark Recognition• BCR � Barcode recognition• Otros…

Page 6: SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles de ... soporte electrónico como base para el almacenamiento de todos los documentos.

• El ITI dispone aproximadamente desde el año 1997 de tecnología propia de extracción de información de documentos digitalizados.

• La tecnología desarrollada se ubica en el área de ICR

Tecnologías de digitalización del ITI

• La tecnología desarrollada se ubica en el área de ICR

• Diferencias entre OCR e ICR:

•OCR: extrae información de documentos digitalizados cuyo contenido es texto impreso (por cualquier medio mecánico, ya sea imprenta, impresora u otros)

• ICR: extrae información de documentos digitalizados cuyo contenido es texto manuscrito, continuo (escritura libre) o encasillado (formularios)

Page 7: SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles de ... soporte electrónico como base para el almacenamiento de todos los documentos.

• La tecnología de ICR del ITI permite combinar extracción de información de documentos mixtos que incluyan texto manuscrito continuo (con algunas restricciones) y encasillado.

• Integra capacidad de OCR sobre texto impreso “flotante”

Tecnologías de digitalización del ITI

• Integra capacidad de OCR sobre texto impreso “flotante”

• Integra capacidad de reconocimiento de marcas (OMR) para formularios tipo encuesta.

• Esto posibilita el tratamiento de documentos variados (facturas, albaranes, liquidaciones, acuses de recibo postales, partes de trabajo, etc…) de forma unificada en una sola herramienta.

Page 8: SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles de ... soporte electrónico como base para el almacenamiento de todos los documentos.

Tecnologías de digitalización del ITI. Algunos ejemplos

• Ejemplo: Parte de trabajo

Page 9: SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles de ... soporte electrónico como base para el almacenamiento de todos los documentos.

Tecnologías de digitalización del ITI. Algunos ejemplos

• Ejemplo: Acuse de recibo

Page 10: SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles de ... soporte electrónico como base para el almacenamiento de todos los documentos.

Tecnologías de digitalización del ITI. Algunos ejemplos

• Ejemplo: Formulario encasillado

Page 11: SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles de ... soporte electrónico como base para el almacenamiento de todos los documentos.

Tecnologías de digitalización del ITI. Corrección por ML’s

• El ITI ha desarrollado una tecnología única para incrementar la calidad de la información extraída de los documentos.

• Se denomina corrección por Modelo de Lenguaje o ML y es una mejora respecto a las tecnologías habituales de verificación basadas en diccionarios.

• Con esta tecnología el software del ITI es capaz no sólo de detectar • Con esta tecnología el software del ITI es capaz no sólo de detectar cadenas de texto erróneas (mediante diccionarios) sino que además es capaz de corregirlas automáticamente en base a una probabilidad estadística (frecuencia de aparición asociada a cada cadena en el Modelo) y devolver la cadena bien escrita.

• Esta técnica permite que la fase de validación que habitualmente requieren estos sistemas se reduzca y permite alcanzar tasas de acierto en el reconocimiento equiparables a las del OCR, optimizando así el proceso y los costes del mismo.

Page 12: SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles de ... soporte electrónico como base para el almacenamiento de todos los documentos.

Automatización y optimización de procesos de Gestión Documental

• Habitualmente creemos que la Gestión Documental consiste en tener instalado en nuestra organización un sistema informático que permita gestionar la documentación � ERROR

• La Gestión Documental empieza por tener definido un proceso de gestión de la documentación (física y electrónica) que garantice el gestión de la documentación (física y electrónica) que garantice el control en todo momento sobre el ciclo de vida de los documentos, desde su creación hasta su archivado definitivo (probatorio e histórico)

• El ejemplo más claro es el típico archivador de oficina, el no tener un proceso definido lleva a un archivo caótico (cajón de sastre), a veces se piensa que la solución es la implantación de un Gestor Documental pero ello lleva a trasladar el cajón de sastre al sistema informático no dando solución al problema real e incluso agravándolo.

Page 13: SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles de ... soporte electrónico como base para el almacenamiento de todos los documentos.

Automatización y optimización de procesos de Gestión Documental

• Para optimizar el proceso de gestión de la documentación en una organización hay que empezar por definir un procedimiento que abarque todos los aspectos del ciclo de vida de nuestros documentos. Esto nos llevará a obtener una lista de requisitos que serán los que exigiremos a la herramienta de Gestión Documental.

•El ciclo de vida típico de un documento es el siguiente:

• Creación � Fase activa del documento (se crea, edita, revisa)• Cierre � Se firma (si procede) y se almacena para consulta. • Archivado � Archivo del documento que garantice perdurabilidad temporal (con fines probatorios, como una factura, o por valor intrínseco del documento, como una escritura de propiedad, por ejemplo).

Page 14: SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles de ... soporte electrónico como base para el almacenamiento de todos los documentos.

Automatización y optimización de procesos de Gestión Documental

• Una vez definido el proceso de Gestión Documental, ¿Cómo se automatiza y optimiza? � Implantando una herramienta de Gestión Documental que incorpore capacidades de: OCR/ICR, almacenamiento, indexación, clasificación, etc…

Entrada del documento (o creación)

Captura del Contenido(OCR/ICR e indexación)

Gestión del contenido(aplicación de políticas,

clasificación)

AlmacenamientoEntrega

(puesta a disposiciónde los usuarios)

Page 15: SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles de ... soporte electrónico como base para el almacenamiento de todos los documentos.

Automatización y optimización de procesos de Gestión Documental

• ¿Qué debe poder hacer el Gestor Documental para optimizar el proceso?

• Capturar los documentos tanto físicos (papel) como electrónicos

• Automatizar la extracción Inteligente de la información para su • Automatizar la extracción Inteligente de la información para su indexación y clasificación por palabras clave (OCR/ICR)

• Almacenar los documentos en un repositorio central

• Proporcionar medios para recuperar la información con métodos de búsqueda sencillos e intuitivos para los usuarios

• Gestionar los ciclos de retención y eliminación de la documentación

Page 16: SOIS OCR ICR V2.ppt [Modo de compatibilidad] · un simple pendrive con capacidad de almacenar miles de ... soporte electrónico como base para el almacenamiento de todos los documentos.

MUCHAS GRACIAS POR SU ATENCIÓN