Co je OCR (rozpoznávání optických znaků)?
Optické rozpoznávání znaků (OCR) je proces převodu tištěných materiálů na textové nebo textové zpracování souborů, které lze snadno upravit a ukládat. Tato technologie umožnila ukládat takové materiály pomocí mnohem méně úložného prostoru než tištěné materiály. Technologie OCR měla obrovský dopad na způsob, jakým jsou informace ukládány, sdíleny a upravovány. Před rozpoznáním optických znaků, pokud by někdo chtěl proměnit knihu v soubor zpracování textu, musela by být každá stránka zadána slovo pro slovo.
OCR technologie vyžaduje hardware i software. Sofistikované systémy OCR navíc vyžadují, aby tento proces dokončil další desku obvodů v samotném počítači. Optický skener skenuje text na stránce a poté rozbije písma na řadu teček nazývaných bitmap. Software může číst nejběžnější písma a rozlišovat, kde se linky začínají a zastavují. Tato bitmapa je poté přeložena do textu počítače.
Zatímco rozpoznávání optických znaků způsobilo obrovskéPokroky v posledních letech stále nefunguje vždy dobře při rozpoznávání rukopisu nebo písem, která vypadají podobně jako rukopis. V bankovním průmyslu jsou systémy, které používají technologii OCR k pokusu o přečtení částek na ručně psaných kontrolách, aby šli spolu se schopností počítače číst čísla směrování a účtů.
Abychom poskytli představu o síle OCR, může to pomoci podívat se na příklad v reálném světě. Představte si policejní oddělení, které má všechny své rejstříky trestů uložené v rozlehlých souborových skříních. Ačkoli skenování milionů stránek by bylo drahým a časově náročným podnikem, výhody jsou obrovské.
Jakmile systém OCR přeměnil stránky na počítačově čitelný text, mohl například detektiv prohledat celou historii během několika sekund. Ruční nalezení konkrétního záznamu nemusí být příliš obtížné, ale představte si detektiv, který se snaží opěchatCH pro všechny zločiny spáchané na určité křižovatce mezi 8:00 a 8:30. Tento příklad poškrábají povrch síly prohledávatelného textu a je to jen jeden z důvodů, proč mnoho společností a institucí utrácí miliony dolarů na OCR jejich dědictví.