Reconocimiento Óptico de Caracteres

10
Primer Foro Universitario de Software Libre 3, 4, y 5 de Junio de 2013 Proyecto GNU FreeBSD Linux Utilería para digitalizar, generar OCR y crear archivos PDF de código abierto Luis René Salas López [email protected] Coordinación de Automatización Bibliotecaria Xalapa

description

Utilería para digitalizar, generar OCR y crear archivos PDF de código abierto Luis René Salas López [email protected] Coordinación de Automatización Bibliotecaria Xalapa. Reconocimiento Óptico de Caracteres. OCR. Los despido a todos. _ Estoy muy cansado… Quiero dormirme . - PowerPoint PPT Presentation

Transcript of Reconocimiento Óptico de Caracteres

Page 1: Reconocimiento Óptico de Caracteres

Primer Foro Universitario de Software Libre3, 4, y 5 de Junio de 2013

Proyecto GNU

FreeBSD

Linux

Utilería para digitalizar, generar OCR y crear archivos PDF de código abierto

Luis René Salas Ló[email protected]

Coordinación de Automatización Bibliotecaria

Xalapa

Page 2: Reconocimiento Óptico de Caracteres

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Reconocimiento Óptico de Caracteres

Los despido a todos._Estoy muy cansado… Quiero dormirme._¿No vas a merendar?_No. Tengo mucho sueño...

OCR

Page 3: Reconocimiento Óptico de Caracteres

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Tesseract-OCR

• Desarrollado por HP entre 1985 y 1994.• Nunca se usó en un producto HP.• Código liberado en 2005 y adoptado por

Google.• Altamente portable• Reconoce más de 60 lenguajes.

Page 4: Reconocimiento Óptico de Caracteres

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Creación del documento

• Cuando se realiza el proceso de OCR sobre una imagen, podemos obtener un archivo con ubicación espacial del texto: hocr

Page 5: Reconocimiento Óptico de Caracteres

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Creación del documento

• hOcr2Pdf.NETEs una librería para convertir .hocr html producidos por el motor Tessract-OCR o Cuneiform en pdf buscable. Liberado bajo licencia GNU General Public License version 2 (GPLv2).

Page 6: Reconocimiento Óptico de Caracteres

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Creación del documento

• iTextSharpEs una librería compatible con C# de iText para java de código abierto para la creación y manipulación de archivos PDF. Liberado bajo licencia Affero GNU Public License.

Page 7: Reconocimiento Óptico de Caracteres

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Creación del documento

Page 8: Reconocimiento Óptico de Caracteres

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Creación del PDF

Page 9: Reconocimiento Óptico de Caracteres

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Capacidad de búsqueda

Page 10: Reconocimiento Óptico de Caracteres

Primer Foro Universitario de Software Libre3, 4 y 5 de Junio de 2013

Referencias

• “hOcr2Pdf.NET”, consultada por Internet el 29 de Abril del 2013. Dirección de Internet: https://hocrtopdf.codeplex.com/

• “iTextSharp”, consultada por Internet el 29 de Abril del 2013. Dirección de Internet: http://sourceforge.net/projects/itextsharp/

• “Tesseract-OCR”, consultada por Internet el 29 de Abril del 2013. Dirección de Internet: https://code.google.com/p/tesseract-ocr/