Los OCR modernos no están construidos encima de Tesseract directamente. Pero Tesseract: fue una base histórica enorme, influyó muchísimo en el ecosistema OCR y luego él mismo adoptó IA parcialmente. Tesseract abrió muchísimo camino, fue una base histórica enorme e influyó profundamente en todo el ecosistema OCR. Tesseract es para OCR lo que Linux fue para servidores o Blender para el 3D libre: quizá no siempre el más avanzado, pero sí uno de los proyectos más influyentes e importantes.
Instalar Tesseract en debian y deribadas.
sudo apt install tesseract-ocr-spa
Así se instala un lenguaje para Tesseract en Debian, por ejemplo si el último parámetro fuera -eng sería el lenguaje inglés.
sudo pacman -S tesseract
Instalar Tesseract en Arch y deribadas.
sudo pacman -S tesseract-data-spa
Así se instala un lenguaje para Tesseract en Arch, igualmente si el último parámetro fuera -eng sería el lenguaje inglés.
tesseract imagen.png salida
Esto genera un .txt con texto detectado, imagen.png es el archivo imagen con texto y salida será el archivo.txt donde se copiará el texto.
tesseract imagen.png salida -l spa
Basicamente lo mismo que el comando anterior pero forzando la salida en español con el parámetro -l spa.
tesseract imagen.png salida -l spa
Basicamente lo mismo que el comando anterior pero forzando la salida en español con el parámetro -l spa.
tesseract imagen.png stdout
cCopia el texto de la imagen elegida y lo muestra en la terminal (no lo guarda en ningún tipo de archivo).
tesseract imagen.png salida -l spa --psm 6
El parámetro psm 6 proporciona una mayor precisión en el OCR.
tesseract imagen.png salida pdf
Este comando genera la salida de una imagen con texto seleccionable en un archivo .pdf
Así se instala ocrmypdf en Debian y deribadas.
yay -S ocrmypdf
Así se instala ocrmypdf en Arch y deribadas (si solo está por AUR, pero si quieres instalarlo de otra forma te dejo un enlace con las indicaciones para hacerlo: enlace).
ocrmypdf archivo.pdf archivo-ocr.pdf
Esto convierte un archivo pdf a pdf seleccionable ahora en este nuevo archivo podemos buscar palabras, copiar texto, y hasta indexarlo.
ocrmypdf —deskew entrada.pdf salida.pdf
Esto mejora páginas torcidas.
ocrmypdf —clean entrada.pdf salida.pdf
Esto elimina el ruido, o distorsión en el texto, mostándolo más limpio.
ocrmypdf —force-ocr entrada.pdf salida.pdf
Esto fuerza a que el documento sobreponga el ocr aunque ya tenga texto encima.
Bueno, eso es todo por ahora, si alguien desea ver estos comandos en acción dejo un video sobre el tema en este enlace y ojalá este artículo ojalá sea de utilidad. Larga vida al software libre.

0 Comentarios:
Publicar un comentario