OCR, Tesseract y la evolución del reconocimiento de texto ~ Entropía binaria

En este artículo te voy a hablar de OCR, Tesseract, ocrmypdf, algo de hisotoria y algo de práctica con OCR. Vamos allá.

¿Qué es OCR?

OCR significa Optical Character Recognition (Reconocimiento Óptico de Caracteres). Es una tecnología que permite extraer texto desde imágenes, PDFs escaneados, fotografías y documentos impresos.

Tesseract: Un Breve Resumen

Tesseract es un motor de OCR de código abierto que fue desarrollado inicialmente por Hewlett-Packard en la década de 1980 y posteriormente mantenido por Google. Su capacidad para reconocer texto en imágenes ha hecho de Tesseract una herramienta fundamental en el campo del OCR. A lo largo de los años, ha evolucionado para incorporar técnicas avanzadas de aprendizaje automático, lo que lo ha convertido en un referente en la comunidad de OCR. El reconocimiento óptico de caracteres (OCR) ha avanzado significativamente en las últimas décadas, impulsado por innovaciones tecnológicas y el desarrollo de algoritmos más sofisticados. En este contexto, Tesseract se destaca como un hito histórico que ha influido profundamente en el ecosistema OCR. Aunque los sistemas OCR modernos no se basan directamente en Tesseract, su impacto es innegable.

Dominio del OCR Libre

Tesseract ha sido un pionero en el ámbito del OCR libre, permitiendo a los desarrolladores y empresas acceder a una herramienta poderosa sin costo alguno. Su licencia de código abierto ha fomentado la colaboración y la innovación, permitiendo a la comunidad contribuir a su desarrollo. Esto ha llevado a la creación de una amplia gama de aplicaciones y herramientas que utilizan Tesseract como motor de OCR, desde aplicaciones móviles hasta sistemas de gestión de documentos.

Influencia en Datasets y Herramientas

La popularidad de Tesseract ha influido en la creación de datasets y herramientas que son fundamentales para el desarrollo de modelos de OCR modernos. Muchos datasets de texto e imágenes han sido diseñados específicamente para ser utilizados con Tesseract, lo que ha facilitado la investigación y el desarrollo en este campo. Además, la comunidad ha creado herramientas complementarias que mejoran la funcionalidad de Tesseract, como bibliotecas para la preprocesamiento de imágenes y algoritmos de corrección de errores.

Integración con IA Moderna

Con el auge de la inteligencia artificial, Tesseract ha evolucionado para incorporar técnicas de aprendizaje profundo. Esto ha permitido mejorar su precisión y adaptabilidad en el reconocimiento de texto, especialmente en contextos complejos como la lectura de documentos manuscritos o textos en diferentes idiomas. La integración de modelos de IA ha ampliado las capacidades de Tesseract, permitiéndole competir con soluciones comerciales que antes dominaban el mercado.

Conclusiones

La influencia de Tesseract en el campo del OCR es innegable. Ha definido workflows, inspirado pipelines, dominado el OCR libre y ha influido en la creación de datasets y herramientas modernas. A medida que la tecnología avanza, Tesseract continúa siendo un pilar en el desarrollo de soluciones de OCR, adaptándose a las nuevas demandas y desafíos que presenta la inteligencia artificial moderna. Su legado perdura, y su impacto se siente en cada rincón del ecosistema de OCR actual.

Los OCR modernos no están construidos encima de Tesseract directamente. Pero Tesseract: fue una base histórica enorme, influyó muchísimo en el ecosistema OCR y luego él mismo adoptó IA parcialmente. Tesseract abrió muchísimo camino, fue una base histórica enorme e influyó profundamente en todo el ecosistema OCR. Tesseract es para OCR lo que Linux fue para servidores o Blender para el 3D libre: quizá no siempre el más avanzado, pero sí uno de los proyectos más influyentes e importantes.

Como usar Tesseract y ocrmypf en la terminal de Linux

Comandos con Tesseract

sudo apt install tesseract-ocr

Instalar Tesseract en debian y deribadas.

sudo apt install tesseract-ocr-spa

Así se instala un lenguaje para Tesseract en Debian, por ejemplo si el último parámetro fuera -eng sería el lenguaje inglés.

sudo pacman -S tesseract

Instalar Tesseract en Arch y deribadas.

sudo pacman -S tesseract-data-spa

Así se instala un lenguaje para Tesseract en Arch, igualmente si el último parámetro fuera -eng sería el lenguaje inglés.

tesseract imagen.png salida

Esto genera un .txt con texto detectado, imagen.png es el archivo imagen con texto y salida será el archivo.txt donde se copiará el texto.

tesseract imagen.png salida -l spa

Basicamente lo mismo que el comando anterior pero forzando la salida en español con el parámetro -l spa.

tesseract imagen.png salida -l spa

Basicamente lo mismo que el comando anterior pero forzando la salida en español con el parámetro -l spa.

tesseract imagen.png stdout

cCopia el texto de la imagen elegida y lo muestra en la terminal (no lo guarda en ningún tipo de archivo).

tesseract imagen.png salida -l spa --psm 6

El parámetro psm 6 proporciona una mayor precisión en el OCR.

tesseract imagen.png salida pdf

Este comando genera la salida de una imagen con texto seleccionable en un archivo .pdf

Comandos con ocrmypdf

sudo apt install ocrmypdf

Así se instala ocrmypdf en Debian y deribadas.

yay -S ocrmypdf

Así se instala ocrmypdf en Arch y deribadas (si solo está por AUR, pero si quieres instalarlo de otra forma te dejo un enlace con las indicaciones para hacerlo: enlace).

ocrmypdf archivo.pdf archivo-ocr.pdf

Esto convierte un archivo pdf a pdf seleccionable ahora en este nuevo archivo podemos buscar palabras, copiar texto, y hasta indexarlo.

ocrmypdf —deskew entrada.pdf salida.pdf

Esto mejora páginas torcidas.

ocrmypdf —clean entrada.pdf salida.pdf

Esto elimina el ruido, o distorsión en el texto, mostándolo más limpio.

ocrmypdf —force-ocr entrada.pdf salida.pdf

Esto fuerza a que el documento sobreponga el ocr aunque ya tenga texto encima.

Bueno, eso es todo por ahora, si alguien desea ver estos comandos en acción dejo un video sobre el tema en este enlace y ojalá este artículo ojalá sea de utilidad. Larga vida al software libre.

Entropía binaria

Un aporte global desde la Filosofía, la Política y la Sociología, confluyendo en las ciencias computacionales, con proyección -dentro y fuera del aula- hacia el ámbito educativo.

Menu

OCR, Tesseract y la evolución del reconocimiento de texto

0 Comentarios:

Publicar un comentario

Artículos aleatorios

Páginas:

Translate (traductor)

Buscador del blog:

Sitios que te invitamos a visitar.

Redes de Entropía y enlaces de interés

Canales linuxeros amigos.

Autores

Total de vistas del blog:

La transmutación del CopyRigth