Annexe IV

From Wiki
Revision as of 20:24, 11 March 2024 by DEV (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)


Recommandations sur l’utilisation de Logiciels de Reconnaissance Optique de Caractères dans la Numérisation

  1. Utilisation du bon logiciel : Il doit être très précis, fiable et fonctionner avec plusieurs langues.
  2. Utilisation des bons paramètres de numérisation : Lorsque vous numérisez des documents, il est important de définir les bons paramètres dans les réglages de votre scanner. Le premier de ces paramètres est l’orientation. Assurez-vous que le document est placé correctement dans le scanner, en veillant à ce qu’il soit aligné avec précision, car une numérisation inclinée peut sérieusement affecter la précision du logiciel de reconnaissance optique de caractères (OCR). Testez et modifiez les paramètres jusqu’à obtenir le résultat souhaité.
  3. Réglage de la résolution : La meilleure résolution pour une OCR précise est de 300 PPP. Ce niveau de résolution permet au moteur d’OCR de travailler avec le double de points de référence par rapport à une résolution de 150 PPP.
  4. Sélection du mode de couleur : Pour les documents défraîchis ou anciens, il est recommandé d’utiliser le mode couleur RVB afin de permettre au scanner de capturer intégralement le contenu du document physique. En général, cependant, la numérisation en mode niveaux de gris est la meilleure option pour la précision de l’OCR. Bien que le mode noir et blanc permette de numériser l’image plus rapidement, cela pourrait affecter la qualité de la reconnaissance de texte.
  5. Réglages de la luminosité et du contraste : En ce qui concerne la luminosité, les deux extrêmes, trop élevée ou trop faible, peuvent négativement affecter la qualité et la précision de l’OCR. Pour cette raison, il est recommandé de régler la luminosité à 50 %. Néanmoins, cela dépend aussi du scanner lui-même et il faut donc s’attendre à une phase initiale d’essais et d’erreurs. En termes de contraste, le réglage le plus élevé est généralement préférable.
  6. Correction de l’image et décontamination : Ces deux paramètres ont un impact considérable sur la qualité de la numérisation OCR. La correction d’image englobe des aspects tels que l’augmentation de la résolution, l’application de corrections de couleur et l’essai de différents réglages de contraste. La décontamination, quant à elle, implique la suppression de caractères non textuels tels que des icônes, des images non textuelles, des caractères inhabituels, etc. Ces deux aspects sont importants car ils permettent au logiciel d’OCR de « lire » le document avec plus de précision.
  7. Une relecture manuelle minutieuse : Selon le niveau de précision que vous souhaitez obtenir, une relecture manuelle peut être nécessaire. Si la précision est primordiale, cette étape est indispensable. Elle consiste essentiellement en une vérification humaine d’un échantillon de fichiers traités afin de s’assurer que les caractères numérisés sont correctement reconnus. C’est un processus fastidieux et minutieux, mais essentiel dans de nombreux cas.