Che cos'è l'OCR (riconoscimento ottico dei caratteri)?
Il riconoscimento ottico dei caratteri (OCR) è un processo di conversione di materiali stampati in file di testo o di elaborazione testi che possono essere facilmente modificati e archiviati. La tecnologia ha consentito di archiviare tali materiali utilizzando molto meno spazio di archiviazione rispetto ai materiali cartacei. La tecnologia OCR ha avuto un impatto enorme sul modo in cui le informazioni sono archiviate, condivise e modificate. Prima del riconoscimento ottico dei caratteri, se qualcuno volesse trasformare un libro in un file di elaborazione testi, ogni pagina dovrebbe essere digitata parola per parola.
La tecnologia OCR richiede sia hardware che software. Inoltre, i sofisticati sistemi OCR richiedono un circuito aggiuntivo nel computer stesso per completare il processo. Uno scanner ottico esegue la scansione del testo su una pagina, quindi suddivide i caratteri in una serie di punti chiamati bitmap. Il software è in grado di leggere i caratteri più comuni e di distinguere il punto di inizio e di fine delle linee. Questa bitmap viene quindi tradotta in testo per computer.
Sebbene il riconoscimento ottico dei caratteri abbia fatto enormi progressi negli ultimi anni, non sempre funziona bene nel riconoscere la calligrafia o i caratteri che assomigliano alla scrittura. Esistono sistemi nel settore bancario che utilizzano la tecnologia OCR per cercare di leggere gli importi sugli assegni scritti a mano, in linea con la capacità del computer di leggere i numeri di routing e conto.
Per dare un'idea del potere dell'OCR, può essere utile dare un'occhiata a un esempio del mondo reale. Immagina un dipartimento di polizia che ha tutti i suoi precedenti penali archiviati in vasti schedari. Sebbene la scansione di milioni di pagine sia un'impresa costosa e dispendiosa in termini di tempo, i vantaggi sono enormi.
Una volta che il sistema OCR ha convertito le pagine in testo leggibile dal computer, un detective, ad esempio, potrebbe cercare in tutta la cronologia in pochi secondi. Trovare manualmente un particolare record potrebbe non essere troppo difficile, ma immagina un detective che cerca di cercare tutti i crimini commessi in un certo incrocio tra le 8:00 e le 8:30. Questo esempio graffia solo la superficie del potere del testo ricercabile ed è solo uno dei motivi per cui molte aziende e istituzioni stanno spendendo milioni di dollari per OCR i loro dati legacy.