? Optical Character Recognition (OCR ) ist eine Dateneingabe Technik, die eine bestimmte Schriftart und eine OCR- Scanner, um den Zeichensatz zu lesen und senden Sie es an Ihren Computer benutzt . Das American National Standards Institute , ANSI , definiert die Schriftart als eine Reihe von Zeichen 0-9 , A bis Z, und ein paar Sonderzeichen , die jeweils eine definierte Größe und Form. OCR-Schriften sind reproduzierbar , und die Menschen -und OCR- Scanner lesen kann und sie zu unterscheiden . Kategorien
OCR -Scanner sind entweder Texteingabe oder Data Capture -Scannern. Texteingabe Scanner lesen Sie das gesamte Dokument , oder zumindest große Teile davon. Die Dateneingabe kann Hand gefüttert oder kann der Scanner automatisch Daten Fütterung, Lesen, Sortieren und Stapeln Fähigkeiten haben. Bei Verwendung eines Text Input Scanner nimmt Bearbeitung Platz entweder während oder nach dem Scannen . Data Capture -Scanner erfassen und Formatieren von Daten während des Scanvorgangs , und kein Mensch Bearbeitung der Daten erfolgt . Aus diesem Grund muss Data Capture Scannern genauer sein .
Typen
Scanner -Typen kann stationär oder Handgerät . Stationäre Scanner , wie Flachbett-, Bogen-und Trommel -Scanner verwenden hauptsächlich Text Input zu lesen, verarbeiten und speichern Daten Bilder auf Ihrem Computer , wo Sie dann bearbeiten können oder anderweitig formatieren Sie die erfassten Text . Handscanner , wie digitale Stifte oder Barcode-Scanner , verwenden Sie entweder Texteingabe oder Data Capture zu lesen und zu verarbeiten, Dateninformationen und dann speichern Sie es zur späteren Bearbeitung oder "Lock "-Daten , um zu verhindern Bearbeitung.
Methoden
kurz gesagt, nimmt eine OCR- Scanner ein Bild des Dokuments , und dann wird die OCR -Scanner-Software befasst sich mit der OCR-Schrift das Bild enthält , und dann liest und wandelt sie in Text entweder mit einer Matrix Matching oder Feature Extraction -Methode. Matrix Matching ist eine Form der Mustererkennung , wo der Scanner betrachtet ein Zeichen und vergleicht es mit einem in der Bibliothek von Zeichen oder Vorlagen. Feature Extraction nicht auf einer vordefinierten Bibliothek , sondern auf allgemeine Funktionen wie Freiflächen , geschlossenen Formen und sich kreuzenden Linien , wenn die Entschlüsselung Zeichen . Feature Extraction auch unter dem Namen Intelligent Character Recognition , oder ICR .
Vorteile
Der bedeutendste Vorteil der Verwendung eines OCR -Scanner ist die Beseitigung menschlicher Fehler bei der Dateneingabe . OCR -Scanner gelesenen Daten in Geschwindigkeiten, die über 200 Zeichen pro Sekunde erreichen kann . Die Genauigkeit von einer OCR- Scanner ist 99,9975 Prozent , oder ein Zeichen falsch interpretiert in 40.000 , im Vergleich zu einem menschlichen misread Rate von einem in 300 Zeichen . Automatische Prüfziffer Validierung können die OCR-Genauigkeit Rate auf weniger als ein in 3.000.000 bringen .
Überlegungen
Schlechte Qualität Originale werden in weniger genau OCR Dokumente führen. Handschriftliche Dokumente , Dokumente mit nicht formatierten Text , ältere Dokumente , Fotokopien und die meisten Dokumente gefaxt nicht gut mit OCR -Scanner. Empfehlungen für akzeptabel Dokumente enthalten gedruckten Text in einer Schriftgröße von weniger als 72 Punkte , Laser-und Tintenstrahldrucker, Text -, Fax- Dokumente mit 200 Punkten pro Zoll ( dpi) oder höhere Auflösung und kommerziell gedruckte Materialien wie Bücher , Broschüren und Zeitschriften.