miércoles, 1 de diciembre de 2010
Hacker High School
El proyecto HHS es una herramienta de aprendizaje y, como tal, la formación final debe proceder realmente de la influencia del instructor y no basarse únicamente en el uso de la herramienta. ISECOM no puede aceptar o hacerse cargo de responsabilidad por el modo en como se utilice, aplique o abuse cualquier información aquí contenida.
El proyecto HHS es un proyecto abierto de la comunidad.
Temas:
Lección 00 - Indice - TOC - Glosario
Lección 01 - Ser un Hacker
Lección 02 - Windows y Linux
Lección 03 - Puertos y Protocolos
Lección 04 - Servicios y Conexiones
Lección 05 - Identificación de Sistemas
Lección 06 - Malware (Viruses, Trojans, etc.)
Lección 07 - Attack Analysis
Lección 08 - Digital Forensics
Lección 09 - Seguridad del Correo Electrónico
Lección 10 - Web Security and Privacy
Lección 11 - Passwords
Lección 12 - Legalidad y Ética en Internet
Video de Iniciación: HHS.demo.DivX.avi
Enlace 1: http://www.isecom.info/mirror/HHS.demo.DivX.avi
Enlace 2: http://isecom.securenetltd.com/HHS.demo.DivX.avi
Vía: http://www.hackerhighschool.org
Descargar:
http://www.megaupload.com/?d=SLXWW0WH
jueves, 25 de noviembre de 2010
OCR en Ubuntu
A) OCR LIBRES
Lista de todos los programas que había encontrado:
- Clara OCR
- CuneiForm
- FreeOCR
- GOCR
- HOCR
- Ocrad
- Ocre
- OCRopus
- Tesseract
Estuve leyendo la historia de cada uno de ellos e investigando sobre los proyectos.
Entre ellos se encuentra el oficial de GNU "OCRAD", tenemos el HOCR que está especializado para el Hebreo y los dos más importantes que vi fueron el Tesseract y el OCRopus.
B) TESSERACT
Tesseract es un motor OCR libre. Fue desarrollado originalmente por Hewlett Packard como software propietario entre 1985 y 1995. Tras diez años sin ningún desarrollo, fue liberado como código abierto en el año 2005 por Hewlett Packard y la Universidad de Nevada, Las Vegas. Tesseract es desarrollado actualmente por Google y distribuido bajo la licencia Apache, versión 2.0.
Tesseract está considerado como uno de los motores OCR libres con mayor precisión disponibles actualmente.
Trabaja con Inglés, Francés, Italiano, Alemán, Español, Brasileño, Portugués e incluso otros idiomas si lo entrenas para ello.
Tesseract funciona por terminal (aunque es posible encontrar algun GUI en Java por ejemplo según los resultados de mis búsquedas. Ej: jtOCR). Cabe destacar tambien que no tiene formato de salida. Simplemente procesa imágenes TIFF y crea un archivo de texto con el resultado.
Uno de los problemas de Tesseract es que solo puede procesar imagenes TIFF.
Para Instalar Tesseract (Inglés y Español):
$ sudo apt-get install tesseract-ocr-spa tesseract-ocr-eng
Esto instalará el tesseract y además el soporte para el Español. Es necesario instalar el inglés si no vas a definir el parámetro de lenguaje)
Si tu distribución no está basada en debian puedes compilar el codigo fuente:
$ wget -c http://tesseract-ocr.googlecode.com/files/tesseract-2.04.tar.gz
$ tar xzvf tesseract-2.04.tar.gz
$ cd tesseract-2.04.tar.gz
$ ./configure
$ make
$ sudo make install
Es posible que tengas algún PDF dando vueltas por ahi y quieras correrle un OCR (como tesseract). Para poder hacerlo necesitas una aplicación para convertir el PDF a imágenes TIFF, en éste caso utilizaremos Imagemagick.
ImageMagick es una aplicación que sirve para crear, editar y componer imágenes. Puede leer, convertir y guardar imágenes en una gran variedad de formatos (más de 100) incluyendo formatos como GIF, JPEG, JPEG-2000, PNG, PDF, PhotoCD, TIFF y DPX.
Para Instalar:
$ sudo apt-get install imagemagick
Para convertir un archivo pdf podemos usar el comando:
$ convert archivo.pdf archivo.tif
Lo cual nos dara como salida una o varias imagenes tiff (leer las paginas de manual para más detalles).
Para correr el OCR sobre los tif:
$ tesseract archivo.tif archivo.txt -l spa
El "-l spa" le dice a Tesseract que el texto está en Español.
Donde "archivo.txt" es el resultado en texto plano del origen tiff.
La calidad del resultado depende íntegramente de la calidad de la imagen. También podemos usar el corrector ortográfico de algún procesador de textos para corregir errores.
C) OCRopus
Bien, por otra parte tenemos a OCRopus, tambien con licencia Apache versión 2.
Este a diferencia del anterior, funciona de forma modular mediante plugins. Es más, OCRopus usa Tesseract para su detección de carácteres únicos.
OCRopus incluye tambien soporte para reconocimiento de escritura a mano, pero está desactivado, pensando en activarse en el futuro.
Como se puede observar, este es un proyecto más grande que el anterior, con más potencia. Está pensado para procesar grandes cantidades de documentos. Este tambien funciona en línea de comandos.
D) PDFOCR
Se trata un programa (creado por Geza Kovacs) que partiendo de un archivo PDF genera uno nuevo al que le añade una capa de texto por lo que si lo imprimimos lo veremos igual que el original pero ahora podemos buscar texto o seleccionarlo.
Se puede instalar desde Launchpad, añadiendo al repositorio de las maneras conocidas:
$ sudo -v
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr
Para hacerlo funcionar simplemente:
$ pdfocr -i inputfile.pdf -o outputfile.pdf -l spa
El archivo resultante tiene una capa de texto incrustada, que puedes utilizar para copiar y pegar.
Para ver la lista completa de idiomas que soporta cuneiform ejecuta:
$ cuneiform -l
Si el archivo PDF no indica la resolución, pdfocr la establecerá a 300 y esto implicará que las búsquedas no encontrarán el texto correctamente (estará desplazado). También puede suceder que tengamos que modificar la versión del archivo PDF ya que puede que no sea compatible con pdfocr (Utilizar pdftk para éste propósito).
E) GSCAN2PDF
gscan2pdf es un utilitario que nos ayuda a escanear una o más imágenes y exportarlas a formato PDF.
En realidad gscan2pdf es una interfase gráfica que usa SANE para escanear las páginas y se vale de PDF::API2 para crear los PDF.
Se puede instalar desde el repositorio de Ubuntu gscanpdf
$ sudo apt-get install tesseract-ocr-spa gscan2pdf
Para hacerlo funcionar, corremos gscan2pdf desde un terminal
Importamos las imágenes que queramos someter al OCR
En herramientas seleccionamos OCR, y en la ventana que nos sale seleccionamos el motor de OCR que queramos utilizar (A mi me funciono bien con GOCR pero no con tesseract).
En la parte inferior, veremos los caracteres detectados por el OCR. Al exportar en formato PDF gscan2pdf incrusta el texto detrás de la imagen.
viernes, 12 de marzo de 2010
domingo, 7 de marzo de 2010
Mover archivos de los Subdirectorios al directorio actual
subdirectorios recursivamente al directorio actual... he aqui la
solución:
$ find -type f -exec mv {} . \;
Cuidado... puedes tener problemas con archivos de igual nombre.
viernes, 26 de febrero de 2010
Randtype
Ejemplo:
$ echo "pretty realistic virtual typing" | randtype -m 4