A) OCR LIBRES
Lista de todos los programas que había encontrado:
- Clara OCR
- CuneiForm
- FreeOCR
- GOCR
- HOCR
- Ocrad
- Ocre
- OCRopus
- Tesseract
Estuve leyendo la historia de cada uno de ellos e investigando sobre los proyectos.
Entre ellos se encuentra el oficial de GNU "OCRAD", tenemos el HOCR que está especializado para el Hebreo y los dos más importantes que vi fueron el Tesseract y el OCRopus.
B) TESSERACT
Tesseract es un motor OCR libre. Fue desarrollado originalmente por Hewlett Packard como software propietario entre 1985 y 1995. Tras diez años sin ningún desarrollo, fue liberado como código abierto en el año 2005 por Hewlett Packard y la Universidad de Nevada, Las Vegas. Tesseract es desarrollado actualmente por Google y distribuido bajo la licencia Apache, versión 2.0.
Tesseract está considerado como uno de los motores OCR libres con mayor precisión disponibles actualmente.
Trabaja con Inglés, Francés, Italiano, Alemán, Español, Brasileño, Portugués e incluso otros idiomas si lo entrenas para ello.
Tesseract funciona por terminal (aunque es posible encontrar algun GUI en Java por ejemplo según los resultados de mis búsquedas. Ej: jtOCR). Cabe destacar tambien que no tiene formato de salida. Simplemente procesa imágenes TIFF y crea un archivo de texto con el resultado.
Uno de los problemas de Tesseract es que solo puede procesar imagenes TIFF.
Para Instalar Tesseract (Inglés y Español):
$ sudo apt-get install tesseract-ocr-spa tesseract-ocr-eng
Esto instalará el tesseract y además el soporte para el Español. Es necesario instalar el inglés si no vas a definir el parámetro de lenguaje)
Si tu distribución no está basada en debian puedes compilar el codigo fuente:
$ wget -c http://tesseract-ocr.googlecode.com/files/tesseract-2.04.tar.gz
$ tar xzvf tesseract-2.04.tar.gz
$ cd tesseract-2.04.tar.gz
$ ./configure
$ make
$ sudo make install
Es posible que tengas algún PDF dando vueltas por ahi y quieras correrle un OCR (como tesseract). Para poder hacerlo necesitas una aplicación para convertir el PDF a imágenes TIFF, en éste caso utilizaremos Imagemagick.
ImageMagick es una aplicación que sirve para crear, editar y componer imágenes. Puede leer, convertir y guardar imágenes en una gran variedad de formatos (más de 100) incluyendo formatos como GIF, JPEG, JPEG-2000, PNG, PDF, PhotoCD, TIFF y DPX.
Para Instalar:
$ sudo apt-get install imagemagick
Para convertir un archivo pdf podemos usar el comando:
$ convert archivo.pdf archivo.tif
Lo cual nos dara como salida una o varias imagenes tiff (leer las paginas de manual para más detalles).
Para correr el OCR sobre los tif:
$ tesseract archivo.tif archivo.txt -l spa
El "-l spa" le dice a Tesseract que el texto está en Español.
Donde "archivo.txt" es el resultado en texto plano del origen tiff.
La calidad del resultado depende íntegramente de la calidad de la imagen. También podemos usar el corrector ortográfico de algún procesador de textos para corregir errores.
C) OCRopus
Bien, por otra parte tenemos a OCRopus, tambien con licencia Apache versión 2.
Este a diferencia del anterior, funciona de forma modular mediante plugins. Es más, OCRopus usa Tesseract para su detección de carácteres únicos.
OCRopus incluye tambien soporte para reconocimiento de escritura a mano, pero está desactivado, pensando en activarse en el futuro.
Como se puede observar, este es un proyecto más grande que el anterior, con más potencia. Está pensado para procesar grandes cantidades de documentos. Este tambien funciona en línea de comandos.
D) PDFOCR
Se trata un programa (creado por Geza Kovacs) que partiendo de un archivo PDF genera uno nuevo al que le añade una capa de texto por lo que si lo imprimimos lo veremos igual que el original pero ahora podemos buscar texto o seleccionarlo.
Se puede instalar desde Launchpad, añadiendo al repositorio de las maneras conocidas:
$ sudo -v
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr
Para hacerlo funcionar simplemente:
$ pdfocr -i inputfile.pdf -o outputfile.pdf -l spa
El archivo resultante tiene una capa de texto incrustada, que puedes utilizar para copiar y pegar.
Para ver la lista completa de idiomas que soporta cuneiform ejecuta:
$ cuneiform -l
Si el archivo PDF no indica la resolución, pdfocr la establecerá a 300 y esto implicará que las búsquedas no encontrarán el texto correctamente (estará desplazado). También puede suceder que tengamos que modificar la versión del archivo PDF ya que puede que no sea compatible con pdfocr (Utilizar pdftk para éste propósito).
E) GSCAN2PDF
gscan2pdf es un utilitario que nos ayuda a escanear una o más imágenes y exportarlas a formato PDF.
En realidad gscan2pdf es una interfase gráfica que usa SANE para escanear las páginas y se vale de PDF::API2 para crear los PDF.
Se puede instalar desde el repositorio de Ubuntu gscanpdf
$ sudo apt-get install tesseract-ocr-spa gscan2pdf
Para hacerlo funcionar, corremos gscan2pdf desde un terminal
Importamos las imágenes que queramos someter al OCR
En herramientas seleccionamos OCR, y en la ventana que nos sale seleccionamos el motor de OCR que queramos utilizar (A mi me funciono bien con GOCR pero no con tesseract).
En la parte inferior, veremos los caracteres detectados por el OCR. Al exportar en formato PDF gscan2pdf incrusta el texto detrás de la imagen.
No hay comentarios:
Publicar un comentario