Cos'è ocr? »Definizione e significato

OCR sono quelli del riconoscimento ottico dei caratteri o anche conosciuti in spagnolo come riconoscimento ottico dei caratteri. OCR è un software che consente il riconoscimento del testo, producendone un'immagine per trasformarlo in una successione di caratteri e quindi salvarli in un dato formato che può essere utilizzato in quei programmi di modifica del testo. In altre parole, grazie a questa nuova tecnologia, qualsiasi tipo di testo o documento, inclusi file PDF, documenti scansionati o anche immagini prese da fotocamere digitali, può essere convertito in dati per avere la possibilità di essere modificato.

Questo software funziona nel modo seguente, prima analizza ogni parte dell'immagine del documento in questione; distribuire la pagina in parti come tabelle, immagini, blocchi di testo tra gli altri; poi le righe vengono distribuite in parole per poi diventare personaggi; e poiché i caratteri sono già stati indicati, il software effettua il confronto con un gruppo di immagini del disegno. Questo procede secondo la serie di ipotesi su cosa sia ciascun personaggio; e sulla base di queste ipotesi, analizza le diverse varianti di spezzare le linee in parole e le parole in caratteri. Ed è dopo un gran numero di analisi ed elaborazioni delle ipotesi, che il programma presenta finalmente il testo già riconosciuto e trasformato con un nuovo formato.

Va notato che oggi esistono una serie di programmi che il mercato dei computer offre basati su OCR come OmniPage, Abbyy Fine Reader o READiris. YY che hanno la capacità, non solo di analizzare e riconoscere un testo come tale, ma anche di riconoscerne il formato e lo stile, ma con alcune limitazioni, richiedendo quindi che il testo, dopo essere stato analizzato, venga richiedono.