Qu'est-ce que l'OCR (Reconnaissance Optique de Caractères)?
La reconnaissance optique de caractères (OCR) est un processus de conversion de documents imprimés en fichiers de traitement de texte ou de texte faciles à modifier et à stocker. La technologie a permis de stocker de tels matériaux en utilisant beaucoup moins d’espace de stockage que les matériaux imprimés. La technologie OCR a eu un impact considérable sur la manière dont les informations sont stockées, partagées et éditées. Avant la reconnaissance optique des caractères, si quelqu'un souhaitait transformer un livre en fichier de traitement de texte, il fallait taper mot à mot chaque page.
La technologie OCR nécessite à la fois du matériel et des logiciels. De plus, les systèmes OCR sophistiqués nécessitent une carte de circuit imprimé supplémentaire dans l'ordinateur lui-même pour mener à bien le processus. Un scanner optique numérise le texte d'une page, puis décompose les polices en une série de points appelés bitmap. Le logiciel peut lire les polices les plus courantes et distinguer le début et la fin des lignes. Ce bitmap est ensuite traduit en texte informatique.
Bien que la reconnaissance optique de caractères ait fait d’énormes progrès ces dernières années, elle n’est toujours pas performante pour la reconnaissance de l’écriture manuscrite ou des polices ayant l’apparence de celle-ci. Il existe des systèmes dans le secteur bancaire qui utilisent la technologie OCR pour essayer de lire les montants sur des chèques manuscrits, en plus de la capacité de l'ordinateur à lire les numéros d'acheminement et de compte.
Pour donner une idée de la puissance de l'OCR, il peut être utile de regarder un exemple du monde réel. Imaginez un service de police qui conserve tous ses casiers judiciaires dans de vastes classeurs. Bien que numériser des millions de pages serait une entreprise longue et coûteuse, les avantages sont énormes.
Une fois que le système d'OCR a converti les pages en texte lisible par ordinateur, un détective, par exemple, pourrait parcourir l'historique complet en quelques secondes. Trouver manuellement un dossier particulier peut ne pas être trop difficile, mais imaginons un détective qui tente de rechercher tous les crimes commis à un certain croisement entre 8h00 et 8h30. Cet exemple ne fait qu'effleurer le pouvoir du texte interrogeable, et ce n'est que l'une des raisons pour lesquelles de nombreuses entreprises et institutions dépensent des millions de dollars pour OCR de leurs données héritées.