Linux para mi, Linux para todos.: OCR en Ubuntu

El Reconocimiento Óptico de Caracteres (OCR), así como el reconocimiento de texto, en general son aplicaciones dirigidas a la digitalización de textos. Identifican automáticamente símbolos o caracteres que pertenecen a un determinado alfabeto, a partir de una imagen para almacenarla en forma de datos con los que podremos interactuar mediante un programa de edición de texto o similar.

A) OCR LIBRES

Lista de todos los programas que había encontrado:

Clara OCR
CuneiForm
FreeOCR
GOCR
HOCR
Ocrad
Ocre
OCRopus
Tesseract

Estuve leyendo la historia de cada uno de ellos e investigando sobre los proyectos.

Entre ellos se encuentra el oficial de GNU "OCRAD", tenemos el HOCR que está especializado para el Hebreo y los dos más importantes que vi fueron el Tesseract y el OCRopus.

B) TESSERACT

Tesseract es un motor OCR libre. Fue desarrollado originalmente por Hewlett Packard como software propietario entre 1985 y 1995. Tras diez años sin ningún desarrollo, fue liberado como código abierto en el año 2005 por Hewlett Packard y la Universidad de Nevada, Las Vegas. Tesseract es desarrollado actualmente por Google y distribuido bajo la licencia Apache, versión 2.0.

Tesseract está considerado como uno de los motores OCR libres con mayor precisión disponibles actualmente.

Trabaja con Inglés, Francés, Italiano, Alemán, Español, Brasileño, Portugués e incluso otros idiomas si lo entrenas para ello.

Tesseract funciona por terminal (aunque es posible encontrar algun GUI en Java por ejemplo según los resultados de mis búsquedas. Ej: jtOCR). Cabe destacar tambien que no tiene formato de salida. Simplemente procesa imágenes TIFF y crea un archivo de texto con el resultado.

Uno de los problemas de Tesseract es que solo puede procesar imagenes TIFF.

Para Instalar Tesseract (Inglés y Español):

$ sudo apt-get install tesseract-ocr-spa tesseract-ocr-eng

Esto instalará el tesseract y además el soporte para el Español. Es necesario instalar el inglés si no vas a definir el parámetro de lenguaje)

Si tu distribución no está basada en debian puedes compilar el codigo fuente:

$ wget -c http://tesseract-ocr.googlecode.com/files/tesseract-2.04.tar.gz
$ tar xzvf tesseract-2.04.tar.gz
$ cd tesseract-2.04.tar.gz
$ ./configure
$ make
$ sudo make install

Es posible que tengas algún PDF dando vueltas por ahi y quieras correrle un OCR (como tesseract). Para poder hacerlo necesitas una aplicación para convertir el PDF a imágenes TIFF, en éste caso utilizaremos Imagemagick.

ImageMagick es una aplicación que sirve para crear, editar y componer imágenes. Puede leer, convertir y guardar imágenes en una gran variedad de formatos (más de 100) incluyendo formatos como GIF, JPEG, JPEG-2000, PNG, PDF, PhotoCD, TIFF y DPX.

Para Instalar:

$ sudo apt-get install imagemagick

Para convertir un archivo pdf podemos usar el comando:

$ convert archivo.pdf archivo.tif

Lo cual nos dara como salida una o varias imagenes tiff (leer las paginas de manual para más detalles).

Para correr el OCR sobre los tif:

$ tesseract archivo.tif archivo.txt -l spa

El "-l spa" le dice a Tesseract que el texto está en Español.

Donde "archivo.txt" es el resultado en texto plano del origen tiff.

La calidad del resultado depende íntegramente de la calidad de la imagen. También podemos usar el corrector ortográfico de algún procesador de textos para corregir errores.

C) OCRopus

Bien, por otra parte tenemos a OCRopus, tambien con licencia Apache versión 2.

Este a diferencia del anterior, funciona de forma modular mediante plugins. Es más, OCRopus usa Tesseract para su detección de carácteres únicos.

OCRopus incluye tambien soporte para reconocimiento de escritura a mano, pero está desactivado, pensando en activarse en el futuro.

Como se puede observar, este es un proyecto más grande que el anterior, con más potencia. Está pensado para procesar grandes cantidades de documentos. Este tambien funciona en línea de comandos.

D) PDFOCR

Se trata un programa (creado por Geza Kovacs) que partiendo de un archivo PDF genera uno nuevo al que le añade una capa de texto por lo que si lo imprimimos lo veremos igual que el original pero ahora podemos buscar texto o seleccionarlo.

Se puede instalar desde Launchpad, añadiendo al repositorio de las maneras conocidas:

$ sudo -v
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Para hacerlo funcionar simplemente:

$ pdfocr -i inputfile.pdf -o outputfile.pdf -l spa

El archivo resultante tiene una capa de texto incrustada, que puedes utilizar para copiar y pegar.

Para ver la lista completa de idiomas que soporta cuneiform ejecuta:

$ cuneiform -l

Si el archivo PDF no indica la resolución, pdfocr la establecerá a 300 y esto implicará que las búsquedas no encontrarán el texto correctamente (estará desplazado). También puede suceder que tengamos que modificar la versión del archivo PDF ya que puede que no sea compatible con pdfocr (Utilizar pdftk para éste propósito).

E) GSCAN2PDF

gscan2pdf es un utilitario que nos ayuda a escanear una o más imágenes y exportarlas a formato PDF.

En realidad gscan2pdf es una interfase gráfica que usa SANE para escanear las páginas y se vale de PDF::API2 para crear los PDF.

Se puede instalar desde el repositorio de Ubuntu gscanpdf

$ sudo apt-get install tesseract-ocr-spa gscan2pdf

Para hacerlo funcionar, corremos gscan2pdf desde un terminal

Importamos las imágenes que queramos someter al OCR

En herramientas seleccionamos OCR, y en la ventana que nos sale seleccionamos el motor de OCR que queramos utilizar (A mi me funciono bien con GOCR pero no con tesseract).

En la parte inferior, veremos los caracteres detectados por el OCR. Al exportar en formato PDF gscan2pdf incrusta el texto detrás de la imagen.

Linux para mi, Linux para todos.

jueves, 25 de noviembre de 2010

OCR en Ubuntu

No hay comentarios:

Labels

Archivo del blog

Datos personales