Cómo funciona la imagen a texto (también conocido como reconocimiento óptico de caracteres)

Extraer el texto de las imágenes nunca ha sido tan fácil como hoy en día gracias a la tecnología de reconocimiento óptico de caracteres (OCR)..

OCR nos permite hacer todo tipo de cosas útiles, como buscar imágenes usando consultas de texto, reproducir documentos sin tener que escribirlos a mano, e incluso convertir texto escrito a mano en texto digital. una imagen con escritura manual a texto usando OCR Para convertir una imagen de texto escrito a mano en texto digital que puede editar y buscar, necesita una herramienta OCR (reconocimiento óptico de caracteres). Pruebe una de estas herramientas de OCR para digitalizar la escritura a mano. Lee mas .

Pero, ¿qué es el reconocimiento óptico de caracteres? ¿Cómo funciona realmente? Puede parecerle magia negra, pero al final de este artículo, tendrá una comprensión sólida de cómo las computadoras pueden reconocer letras y palabras..

Cómo funciona el reconocimiento óptico de caracteres

Para comprender cómo se extrae el texto de una imagen, primero debemos entender qué son las imágenes y cómo se almacenan en las computadoras..

UNA píxel Es un solo punto de un color particular. Un imagen Es esencialmente una colección de píxeles. Cuantos más píxeles haya en una imagen, mayor será su resolución. Una computadora no sabe que la imagen de un poste indicador es realmente un poste indicador; simplemente sabe que el primer píxel es este color, el siguiente píxel es ese color y muestra todos sus píxeles para que los vea..

Esto significa que el texto y el no texto no son diferentes de una computadora, y es por eso que el reconocimiento óptico de caracteres es tan difícil. Con eso en mente, así es como funciona.

Paso 1: Pre-procesamiento de la imagen

Antes de poder extraer el texto, la imagen debe ser masajeada de ciertas maneras para que la extracción sea más fácil y más probable que tenga éxito. Esto se denomina preprocesamiento y diferentes soluciones de software utilizan diferentes combinaciones de técnicas.

Las técnicas de preprocesamiento más comunes incluyen:

Binarización
Cada píxel de la imagen se convierte en blanco o negro. El objetivo es aclarar qué píxeles pertenecen al texto y qué píxeles pertenecen al fondo, lo que acelera el proceso real de OCR.

Deskew
Dado que los documentos rara vez se escanean con una alineación perfecta, los caracteres pueden terminar inclinados o incluso al revés. El objetivo aquí es identificar líneas de texto horizontales y luego girar la imagen para que esas líneas sean realmente horizontales.

Despeckle
Ya sea que la imagen haya sido binarizada o no, puede haber ruido que pueda interferir con la identificación de los caracteres. Despeckling se deshace de ese ruido y trata de suavizar la imagen..

Remoción de línea
Identifica todas las líneas y marcas que probablemente no sean caracteres, luego las elimina para que el proceso real de OCR no se confunda. Es especialmente importante cuando se escanean documentos con tablas y cajas..

Zonificacion
Separa la imagen en distintos trozos de texto, como identificar columnas en documentos de varias columnas.

Crédito de la imagen: WayneRay / Wikimedia

Paso 2: Procesando la imagen

Lo primero es lo primero, el proceso de OCR intenta establecer la línea de base para cada línea de texto en la imagen (o si se dividió en zonas en el preprocesamiento, funcionará en cada zona de una en una). Cada línea de caracteres identificada se maneja uno por uno.

Para cada línea de caracteres, el software OCR identifica el espacio entre los caracteres buscando líneas verticales de píxeles que no sean de texto (lo que debería ser obvio con la binarización adecuada). Cada fragmento de píxeles entre estas líneas que no son de texto está marcado como “simbólico” que representa un personaje. Por lo tanto, este paso se llama tokenización.

Una vez que todos los caracteres potenciales en la imagen se tokenizan, el software OCR puede usar dos técnicas diferentes para identificar qué caracteres son realmente esos tokens:

Reconocimiento de patrones
Cada token se compara píxel a píxel con un conjunto completo de glifos conocidos, incluidos los números, la puntuación y otros símbolos especiales, y se selecciona la coincidencia más cercana. Esta técnica también se conoce como coincidencia de matrices..

Hay varios inconvenientes aquí. Primero, los tokens y los glifos deben ser de un tamaño similar o, de lo contrario, ninguno de ellos coincidirá. En segundo lugar, los tokens deben estar en una fuente similar a los glifos, lo que descarta la escritura a mano. Pero si se conoce la fuente del token, el reconocimiento de patrones puede ser rápido y preciso.

Extracción de características
Cada token se compara con diferentes reglas que describen qué tipo de personaje podría ser. Por ejemplo, dos líneas verticales de igual altura conectadas por una sola línea horizontal probablemente sean una H mayúscula.

Esta técnica es útil porque no se limita a ciertas fuentes o tamaños. También puede tener más matices al reconocer las diferencias sutiles entre una I mayúscula, una L minúscula y el número 1. ¿El inconveniente? Programar las reglas es mucho más complejo que simplemente comparar los píxeles en un token con los píxeles en un glifo.

Paso 3: Post-procesamiento de la imagen

Una vez que haya finalizado toda la coincidencia de tokens, el software OCR podría llamarlo un día y presentarle los resultados. Pero, por lo general, es necesario hacer un poco más de maniobra para asegurarse de que no está poniendo los ojos en blanco..

Restricción léxica
Todas las palabras se comparan con un léxico de palabras aprobadas, y las que no coincidan se reemplazan con la palabra que más se ajuste. Un diccionario es un ejemplo de un léxico. Esto puede ayudar a corregir palabras con caracteres erróneos, como “espina” en lugar de “th0rn”.

Optimizaciones específicas de la aplicación
Cuando se usa OCR en configuraciones de nicho, como para documentos médicos o legales, se puede usar un tipo especial de OCR que está especialmente diseñado para esa configuración. En estos casos, el software OCR puede buscar ecuaciones matemáticas, términos específicos de la industria, etc..

Lenguaje natural
Esta técnica avanzada corrige oraciones usando un modelo de lenguaje que describe la probabilidad de que ciertas palabras sean seguidas por otras palabras. Es similar a la tecnología que predice qué palabra quiere escribir a continuación en un teclado móvil.

Cuando se hace bien, esto puede resultar en un texto que es notablemente legible.

Herramientas de reconocimiento óptico de caracteres recomendadas

Ahora que sabe cómo funciona el OCR, debería ser fácil ver que no todas las herramientas de OCR son iguales. La precisión de sus resultados dependerá en gran medida de qué tan bien el software implemente las diversas técnicas de OCR analizadas en este artículo..

Recomendamos altamente OneNote para esto, que es solo una de las razones por las que le gana a Evernote por tomar notas de Evernote en comparación con OneNote: ¿Cuál es la aplicación para tomar notas adecuada para usted? Evernote vs. OneNote: ¿Qué aplicación para tomar notas es adecuada para usted? Evernote y OneNote son aplicaciones sorprendentes para tomar notas. Es difícil elegir entre los dos. Comparamos todo, desde la interfaz a la organización de notas para ayudarte a elegir. Que funciona mejor para usted? Lee mas . Si está dispuesto a pagar por una solución premium, considere OmniPage. Vea nuestra comparación de OneNote vs. OmniPage para OCR. Software de OCR gratuito vs. pago: Microsoft OneNote y Nuance OmniPage Software de comparación de OCR gratuito versus pago: Microsoft OneNote y Nuance OmniPage El software de escáner OCR comparado le permite convertir texto en imágenes o PDF en texto editable documentos. ¿Una herramienta OCR gratuita como OneNote es suficientemente buena? ¡Vamos a averiguar! Lee mas . Para documentos móviles, querrá revisar estas aplicaciones de OCR para dispositivos Android. 6 Las mejores aplicaciones de Android OCR para extraer texto de las imágenes. 6 Las mejores aplicaciones de Android OCR para extraer texto de las imágenes. ¿Necesita digitalizar algún texto impreso para poder mantener una copia blanda de la misma? Si es así, todo lo que necesita es una herramienta de reconocimiento óptico de caracteres (OCR). Lee mas .

¿Cómo se usa OCR? ¿Tienes alguna herramienta favorita de OCR que no mencionemos? Háganos saber en los comentarios a continuación.!

Explorar más sobre: Image Converter, OCR.

« Cómo funcionan los motores de búsqueda de imágenes [Explica MakeUseOf] Cómo Infolio puede ayudar a su equipo a colaborar como nunca antes »