Hoe kies ik de beste OCR-software?
OCR-software of optische tekenherkenningssoftware is software die is ontworpen om afbeeldingen van tekst te vertalen naar daadwerkelijke tekst die een computer kan lezen. Over het algemeen wordt OCR-software gebruikt nadat een afbeelding naar een computer is gescand, hoewel andere vormen van invoer ook kunnen worden gebruikt. OCR-software werkt het beste op tekst die al is getypt, hetzij in gevallen waarin een originele afdruk verloren is gegaan, of in scanbladen die op een typemachine zijn getypt. Goede software kan echter ook in staat zijn om handgeschreven tekst te vertalen, hoewel het foutenpercentage bij dit soort conversie vaak veel hoger is.
De eigenlijke term OCR-software is een beetje misleidend, omdat de meeste moderne OCR-software in feite geen optische karakterherkenning gebruikt, maar in feite digitale karakterherkenning gebruikt. Dit komt omdat enkele jaren geleden de velden effectief zijn samengevoegd en beide velden de aantrekkelijkere term optische karakterherkenning hebben aangenomen. OCR-software heeft de afgelopen jaren veel vooruitgang geboekt, met moderne programma's die aanzienlijk beter zijn dan hun voorgangers in het identificeren van tekst.
Vroegere OCR-software vereiste zelfs een training van het programma op een specifiek lettertype voordat het nauwkeurig kon worden ingevoerd. Evenzo zou bij het invoeren van handschrift het programma moeten worden getraind, een proces dat ongelooflijk tijdrovend kan zijn. Methoden zijn echter verbeterd en intelligentere systemen zijn nu de norm. De gebruikte methoden zijn nu relatief statisch, met slechts een klein beetje onderzoek naar het ontwikkelen van volledig nieuwe methoden en het meeste onderzoek gaat naar het verfijnen van bestaande procedures om ze steeds nauwkeuriger te maken. Vroege OCR-software werd gebruikt in een breed scala van toepassingen, met grote bedrijven die het gebruikten om creditcardafdrukken te lezen in de jaren 1950, en de United States Postal Service gebruikte het om post te sorteren sinds het midden van de jaren 1960.
Tien jaar geleden was het kiezen van een stuk OCR-software moeilijk, omdat veel programma's behoorlijk slecht waren in bepaalde taken en redelijk goed in andere. Tegenwoordig is het veld echter grotendeels geëgaliseerd. Nauwkeurigheidspercentages in goede OCR-software voor het vertalen van Latijnse scripts die zijn getypt, zijn hoger dan 99%. Als het gaat om het invoeren van handschrift, of meer ingewikkelde lettertypen, heeft OCR-software nog steeds een relatief hoog bereik.
De kosten van OCR-software fluctueren ook sterk, vaak in relatie tot de nauwkeurigheid ervan. Er is een behoorlijke hoeveelheid gratis OCR-software te vinden die geschikt is voor het invoeren van drukwerk, en sommige kunnen worden gevonden die relatief goed zijn in het detecteren van handschrift, vooral met wat training. Duurdere softwaresuites, zoals de OmniPage-suite, die ongeveer $ 100 US Dollar (USD) kost voor de thuisversie en ongeveer $ 450 USD voor de professionele versie, beschikken over indrukwekkende reeksen functies en over het algemeen hogere succespercentages.
Helaas bestaat er nog steeds niet zoiets als perfecte OCR-software, dus het kiezen van een programma om te kopen kan nog steeds grotendeels een frustrerend proces zijn. Zelfs de beste programma's zullen het waarschijnlijk moeilijk hebben met handschrift, en fouten zullen onvermijdelijk doorkruipen, zelfs op lage niveaus. Meestal komt het kiezen van een te kopen programma neer op extra functies: meertalige ondersteuning, one-touch scan- en conversie-integratie, automatische PDF-conversie en hele woordherkenning in gespecialiseerde disciplines zoals juridische en medische vakgebieden.