Anexo IV

This page is a translated version of the page Addendum IV and the translation is 100% complete.

Recomendaciones Sobre el Uso Del Software de Reconocimiento Óptico de Caracteres (Ocr) en la Digitalización

Software adecuado: Debe ser altamente preciso, confiable y trabajar con varios idiomas.
Parámetros de escaneo correctos: Al escanear documentos, es importante establecer los parámetros correctos en la configuración del escáner. El más importante de ellos es la orientación. Asegúrese de que el documento se introduzca en el escáner en el ángulo correcto porque un escaneo torcido puede afectar seriamente la precisión del software de reconocimiento óptico de caracteres (OCR). Pruebe y modifique la configuración hasta que logre el resultado deseado.
Configuración de resolución: La mejor resolución para un OCR preciso es de 300 ppp. Esta resolución permite que el motor de OCR funcione con el doble de puntos de referencia en comparación con 150 ppp.
Selección del modo de color: Para documentos descoloridos o antiguos, RGB es el modo de color recomendado, pues permite que el escáner capture completamente el contenido del documento físico. Sin embargo, en general, escanear en modo de escala de grises es la mejor opción para la precisión de OCR. Aunque el modo en blanco y negro ayuda a escanear la imagen a un ritmo más rápido, esto podría afectar la calidad del reconocimiento de texto.
Ajustes de brillo y contraste: En relación con el brillo, ambos extremos (demasiado alto y demasiado bajo) pueden afectar negativamente la calidad y la precisión del OCR. Es por ello que el 50% es la configuración de brillo recomendada. Sin embargo, esto también depende del propio escáner, por lo que se puede esperar una fase inicial de prueba y error. En términos de contraste, generalmente se prefiere la configuración más alta.
Corrección de imagen y descontaminación: Estos dos componentes tienen un gran impacto en la calidad del escaneo de OCR. La corrección de imágenes cubre aspectos como aumentar la resolución, aplicar correcciones de color y probar diferentes configuraciones de contraste; mientras que la descontaminación implica la eliminación de caracteres que no son de texto como iconos, imágenes que no son de texto, caracteres inusuales, etc. Ambos son importantes porque permiten que el motor de OCR “lea” el documento con mayor precisión.
Corrección manual cuidadosa: Dependiendo de qué tan preciso desee que sea el resultado final, es posible que se requiera o no una revisión manual. Si la precisión es primordial, entonces este es un paso indispensable. Básicamente, implica la verificación humana de una muestra de archivos procesados para garantizar que los caracteres escaneados se reconozcan correctamente. Es un proceso tedioso y minucioso, pero esencial en muchos casos.