Comment choisir le meilleur logiciel OCR?
Le logiciel OCR, ou logiciel de reconnaissance optique de caractères, est un logiciel conçu pour traduire des images de texte en texte réel pouvant être lu par un ordinateur. Généralement, le logiciel OCR est utilisé après la numérisation d'une image sur un ordinateur, bien que d'autres formes de saisie puissent également être utilisées. Le logiciel OCR fonctionne mieux sur un texte déjà saisi, soit dans les cas où une impression originale a été perdue, soit pour numériser des feuilles sur une machine à écrire. Un bon logiciel peut également être capable de traduire un texte manuscrit, bien que le taux d'erreur sur ce type de conversion ait tendance à être beaucoup plus élevé.
Le terme logiciel OCR est un peu trompeur, car la plupart des logiciels OCR modernes n'utilisent pas la reconnaissance optique de caractères, mais la reconnaissance numérique de caractères. En effet, il y a quelques années, les domaines ont effectivement fusionné et les deux domaines ont adopté le terme plus attrayant de reconnaissance optique des caractères. Le logiciel OCR a beaucoup progressé ces dernières années, les programmes modernes étant nettement meilleurs que leurs prédécesseurs pour identifier les textes.
En fait, les premiers logiciels OCR nécessitaient de former le programme sur une police spécifique avant de pouvoir la saisir avec précision. De même, lors de la saisie manuscrite, le programme devrait être formé, un processus qui pourrait prendre énormément de temps. Les méthodes se sont toutefois améliorées et des systèmes plus intelligents sont désormais la norme. Les méthodes utilisées sont maintenant relativement statiques, peu de recherches étant consacrées au développement de méthodes entièrement nouvelles, et la plupart des recherches visant à affiner les procédures existantes pour les rendre toujours plus précises. Les premiers logiciels OCR étaient utilisés dans une large gamme d’applications. Les grandes entreprises l’utilisaient pour lire les empreintes de cartes de crédit dans les années 50, et le service postal des États-Unis l’utilisait pour trier le courrier depuis le milieu des années 1960.
Il y a dix ans, choisir un logiciel de ROC était difficile, car de nombreux programmes étaient assez mauvais pour certaines tâches et raisonnablement bons pour d'autres. Ces jours-ci, cependant, le terrain a été en grande partie nivelé. Les taux de précision de tout bon logiciel OCR pour la traduction de scripts latins tapés dépassent 99%. Toutefois, s’il s’agit de saisie manuscrite ou de caractères plus complexes, le logiciel de reconnaissance optique de caractères a encore une portée relativement élevée.
Le coût du logiciel OCR varie également considérablement, souvent en fonction des taux de précision dont il dispose. On peut trouver une bonne quantité de logiciels OCR gratuits adaptés à la saisie d'imprimés, et certains assez bons pour détecter l'écriture manuscrite, en particulier avec une certaine formation. Des suites logicielles plus coûteuses, telles que la suite OmniPage, qui coûte environ 100 USD pour la version domestique et environ 450 USD pour la version professionnelle, offrent une gamme impressionnante de fonctionnalités et des taux de réussite généralement plus élevés.
Malheureusement, il n’existe toujours pas de logiciel OCR parfait. Le choix d’un programme à acheter peut donc être en grande partie un processus frustrant. Même les meilleurs programmes connaîtront probablement des difficultés avec l’écriture manuscrite, et les erreurs se répercuteront inévitablement, même à des niveaux bas. Le plus souvent, choisir un programme à acheter se résume en des fonctionnalités supplémentaires: prise en charge multilingue, intégration par numérisation et numérisation en une touche, conversion automatique au format PDF et reconnaissance de mots entiers dans des disciplines spécialisées comme les domaines juridique et médical.