интернет

Как выбрать лучшее программное обеспечение для распознавания текста?

Программное обеспечение для оптического распознавания символов или программное обеспечение для оптического распознавания символов - это программное обеспечение, предназначенное для преобразования изображений текста в реальный текст, который может прочитать компьютер. Как правило, программное обеспечение OCR используется после того, как изображение было отсканировано в компьютер, хотя также могут использоваться другие формы ввода. Программное обеспечение OCR лучше всего работает с текстом, который уже был напечатан, либо в случае потери оригинальной распечатки, либо при сканировании листов, напечатанных на пишущей машинке. Однако хорошее программное обеспечение может также переводить рукописный текст, хотя частота ошибок при таком преобразовании обычно намного выше.

Сам термин « программное обеспечение для распознавания текста» немного вводит в заблуждение, поскольку большинство современных программ для распознавания символов фактически не использует оптическое распознавание символов, а фактически использует цифровое распознавание символов. Это потому, что несколько лет назад поля эффективно слились, и оба поля приняли более привлекательный термин оптическое распознавание символов. Программное обеспечение для оптического распознавания текста значительно продвинулось в последние годы, причем современные программы значительно лучше, чем их предшественники, распознавали текст.

Фактически, раннее программное обеспечение OCR требовало обучения программы определенному шрифту, прежде чем он мог быть точно введен. Точно так же, при вводе рукописного ввода, программа должна быть обучена, процесс, который может быть невероятно трудоемким. Однако методы улучшились, и теперь более интеллектуальные системы стали нормой. Используемые методы в настоящее время относительно статичны, и лишь небольшое исследование посвящено разработке совершенно новых методов, а большинство исследований - усовершенствованию существующих процедур, чтобы сделать их еще более точными. Раннее программное обеспечение OCR использовалось в широком спектре приложений, причем крупные корпорации использовали его для считывания оттисков с кредитных карт в 1950-х годах, а Почтовая служба США использовала его для сортировки почты с середины 1960-х годов.

Десять лет назад выбор части программного обеспечения для оптического распознавания текста был трудным, поскольку многие программы были довольно плохими при выполнении определенных задач и достаточно хорошими при выполнении других. В эти дни, однако, область была в значительной степени выровнена. Точность в любом хорошем программном обеспечении для распознавания текста для переведенных латинских шрифтов выше 99%. Однако, когда дело доходит до ввода рукописного ввода или более сложных шрифтов, программное обеспечение OCR все еще имеет относительно высокий диапазон.

Стоимость программного обеспечения OCR также колеблется в широких пределах, часто в зависимости от степени точности, которой оно может похвастаться. Можно найти достаточное количество бесплатного программного обеспечения для распознавания текста, подходящего для ввода печатных материалов, и можно найти некоторое, которое относительно хорошо распознает почерк, особенно при некотором обучении. Более дорогие программные пакеты, такие как пакет OmniPage, стоимость которого составляет около 100 долларов США для домашней версии и около 450 долларов США для профессиональной версии, могут похвастаться внушительным набором функций и, как правило, более высокими показателями успеха.

К сожалению, до сих пор не существует такого понятия, как идеальное программное обеспечение для оптического распознавания символов, поэтому выбор программы для покупки может быть в значительной степени разочаровывающим процессом. Даже самым лучшим программам, скорее всего, будет тяжело с почерком, и ошибки неизбежно будут проскальзывать, даже на низких уровнях. В основном, выбор программы для покупки сводится к дополнительным функциям: многоязычная поддержка, интеграция сканирования и преобразования в одно касание, автоматическое преобразование PDF и распознавание целых слов в специализированных дисциплинах, таких как юридическая и медицинская области.