ja 5.4 Von PDF nach Text per Texterkennungsprogramm - Wie sich blinde Computernutzer PDF-Dokumente zugänglich machen - [barrierefreies-webdesign.de]

Barrierefreies Webdesign ein zugängliches und nutzbares Internet gestalten

Wie sich blinde Computernutzer PDF-Dokumente zugänglich machen geschrieben von Oliver Nadig (2005)

Dieser Beitrag wurde von Oliver Nadig in Oktober 2005 verfasst. Die vorliegende Fassung ist die Version 1.02 vom 25.1.2006.

5.4 Von PDF nach Text per Texterkennungsprogramm

"Einige PDF-Dokumente bestehen aus reiner Grafik. Deren Inhalt kann weder mit dem A.R. gelesen, noch mit Hilfe von PDFToText oder GSView als Text zugänglich gemacht werden. Rein grafische PDF-Dokumente erkennen Sie unter Anderem an folgenden Merkmalen:

Ich möchte Ihnen in diesem Abschnitt den Einsatz folgender Texterkennungsprogramme demonstrieren:

Im Folgenden gehe ich davon aus, dass die benötigten Programme auf Ihrem Computer installiert sind. Über die Installation und Konfiguration von Omnipage Pro haben wir in Abschnitt Intern: 2.4 Installation und Konfiguration von Omnipage Pro ausführlich gesprochen."

5.4.1 Texterkennung mit Omnipage Pro, Version 14

"Starten Sie das Programm Omnipage, Version 14. Sie finden es entweder im Startmenü unter 'Programme > Scansoft Omnipage ...' oder als Symbol auf Ihrem 'Desktop'. Hinweis: Verfügen Sie über die ältere Programmversion 12, lesen Sie bitte den Abschnitt 5.4.2. Hier nun die Erläuterungen zur Programmversion 14:

  1. Wenn Sie zum ersten Mal ein PDF-Dokument von Omnipage 14 erkennen lassen, müssen Sie das Programm auf die Verarbeitung einer PDF-Datei vorbereiten. Dazu werden die Programmeinstellungen für die drei Arbeitsschritte 'Laden der zu erkennenden Datei', 'Erkennung des Textes' und 'Speichern der Texterkennungsergebnisse' entsprechend angepasst:
    1. Rufen Sie das Untermenü 'Verarbeiten > Seite abrufen' (ALT+A, S) auf und aktivieren Sie darin falls erforderlich den Menüpunkt 'Bilddatei laden'. Dies bewirkt, dass Omnipage nicht – wie üblich – erwartet, dass Sie ein Dokument über einen Scanner einlesen. Es soll vielmehr mit einer vorhandenen Datei eine Texterkennung durchführen.
    2. Rufen Sie das Untermenü 'Verarbeiten > OCR ausführen' (ALT+V, O) auf und aktivieren Sie darin falls erforderlich den Menüpunkt 'Automatisch'. Dies bewirkt, dass Omnipage die Anordnung der Textblöcke auf einer Textseite automatisch zu erkennen versucht und sich an keinerlei diesbezügliche – meist unnütze – Voreinstellungen hält.
    3. Rufen Sie das Untermenü 'Verarbeiten > Ergebnisse exportieren' (ALT+V, X) auf und aktivieren Sie darin falls erforderlich den Menüpunkt 'In Datei speichern'. Dies bewirkt, dass Omnipage Ihnen nach abgeschlossener Texterkennung die Möglichkeit anbietet, die Texterkennungsergebnisse in einer Datei zu speichern.
    Haben Sie Omnipage einmal auf die Verarbeitung einer PDF-Datei vorbereitet, merkt sich das Programm die getroffenen Einstellungen. Wenn Sie zwischendurch die Programmeinstellungen nicht verändern, so bleibt Ihnen zukünftig dieser Arbeitsschritt erspart, und Sie müssen lediglich die folgenden Arbeitsschritte ausführen:
  2. Rufen Sie das Untermenü 'Verarbeiten > Arbeitsprozesse' (ALT+V, A) auf und aktivieren Sie darin, falls erforderlich, den Menüpunkt '1 – 2 – 3'.
  3. Rufen Sie im Untermenü 'Verarbeiten > Arbeitsprozesse' den Menüpunkt 'Starten' auf. Weil Sie entweder die Programmeinstellungen von Omnipage in Schritt eins dieser Anleitung entsprechend angepasst haben oder weil sich das Programm an diese Einstellungen aus früheren Arbeitssitzungen 'erinnert', erscheint nun das Dialogfenster 'Bilddatei laden'.
  4. Wählen Sie im Dialogfenster 'Bilddatei laden' die PDF-Datei aus, mit der die Texterkennung durchgeführt werden soll und bestätigen Sie den Dialog über die Schaltfläche 'OK'. Omnipage beginnt darauf hin mit dem Öffnen und Erkennen der Datei. Sobald die erste Seite des Dokuments erkannt ist, wird sie im Texteditorfenster von Omnipage angezeigt. Den Fortschritt der Texterkennung, die automatisch für alle Dokumentseiten durchgeführt wird, können Sie über die Statusleiste verfolgen.
  5. Ist die Texterkennung beendet, wird automatisch der Dialog 'In Datei speichern' eingeblendet. Legen Sie darin Namen und Speicherort für die zu speichernde Textdatei fest, bestätigen Sie aber den Dialog noch nicht. Überprüfen Sie erst, ob die übrigen Optionen Ihren Vorstellungen entsprechen:
    • Wählen Sie in der Ausklappliste 'Dateityp' ein passendes Dokumentformat aus, zum Beispiel das Format für Microsoft Word 2000 und XP oder 'Text'.
    • Stellen Sie sicher, dass in der Liste 'Formatierungsgrad' der Eintrag 'Fließseite' ausgewählt ist. Damit stellen Sie sicher, dass Ihr Textdokument nicht übermäßig viele Formatierungsinformationen und vor allem keine Grafiken mehr enthält.
    • Stellen Sie sicher, dass in der Liste 'Dateioptionen' der Eintrag 'Eine Datei für alle Seiten anlegen' ausgewählt ist.
    • Stellen Sie sicher, dass in der Liste 'Seitenbereich' der Eintrag 'Alle Seiten' ausgewählt ist. Dies ist absolut wichtig, da ansonsten eventuell nur die gerade im Texteditor von Omnipage sichtbare Seite abgespeichert wird.
    Bestätigen Sie erst jetzt das Dialogfenster 'in Datei speichern' über die Schaltfläche 'OK'. Wenn Sie das nächste Mal die Erkennungsergebnisse einer PDF-Datei speichern, wird sich Omnipage an die im Fenster 'In Datei speichern' getroffenen Einstellungen erinnern, so dass Sie diese dann nicht nochmals überprüfen müssen."

5.4.2 Texterkennung mit Omnipage Pro, Version 12

"Starten Sie das Programm Omnipage, Version 12. Sie finden es entweder im Startmenü unter 'Programme > Scansoft Omnipage ...' oder als Symbol auf Ihrem 'Desktop'. Hinweis: Verfügen Sie über die neuere Programmversion 14, lesen Sie bitte den Abschnitt 5.4.1. Hier nun die Erläuterungen zur Programmversion 12:

Sollten Sie zum ersten mal ein PDF-Dokument mit Omnipage 12 erkennen lassen, gehen Sie bitte nach den im folgenden genannten Schritten vor:

  1. Rufen Sie den Menüpunkt 'Verarbeiten > Seite abrufen > Bilddatei laden' auf. Dies ist erforderlich, da Sie im vorliegenden Fall kein Dokument über einen Scanner, sondern eine als Bild vorliegende PDF-Datei verarbeiten möchten. Es erscheint das Dialogfenster 'Bilddatei laden'
  2. Wählen Sie im Dialogfenster 'Bilddatei laden' die PDF-Datei aus, mit der die Texterkennung durchgeführt werden soll und bestätigen Sie den Dialog mit 'OK'. Omnipage beginnt darauf hin mit dem Öffnen der PDF-Datei. Dies kann längere Zeit in Anspruch nehmen. Über den Fortschritt des Vorgangs können Sie sich jederzeit mit Hilfe der Meldungen in der Statuszeile informieren. Leider gibt Omnipage keine Meldung aus, wenn der Vorgang beendet ist, so dass Sie darauf achten müssen, wann das Laden der PDF-Datei abgeschlossen ist.
  3. Nachdem das Laden der PDF-Datei abgeschlossen ist, rufen Sie den Menüpunkt 'Verarbeiten > OCR ausführen > Automatisch' auf. Dies bewirkt, dass Omnipage die Anordnung der Textblöcke auf einer Textseite automatisch zu erkennen versucht und sich an keinerlei diesbezügliche – meist unnütze – Voreinstellungen hält. Omnipage wird darauf hin die erste Dokumentseite erkennen.
  4. Rufen Sie den Menüpunkt 'Verarbeiten > Automatische Verarbeitung starten' auf und aktivieren Sie im erscheinenden Dialogfenster 'Automatische Verarbeitung' die Schaltfläche 'Alle Seiten erneut verarbeiten'. Hierdurch erreichen Sie, dass nicht nur mit der Ersten, sondern mit sämtlichen Seiten der PDF-Datei eine Texterkennung durchgeführt wird. Den Fortschritt dieses Vorgangs können Sie jederzeit über die Meldungen verfolgen, die eine Zeile oberhalb der Statusleiste eingeblendet werden. Nachdem die Texterkennung beendet ist, erscheint das Dialogfenster 'Speichern unter'.
  5. Obwohl Sie jetzt bereits die Texterkennungsergebnisse speichern könnten, brechen Sie das Fenster 'Speichern unter' mit ESCAPE ab.
  6. Rufen Sie den Menüpunkt 'Verarbeiten > Ergebnisse exportieren > In Datei speichern' auf. Dadurch öffnet sich der Dialog 'Speichern unter' erneut. Legen Sie darin Namen und Speicherort für die zu speichernde Textdatei fest, bestätigen Sie aber den Dialog noch nicht. Überprüfen Sie erst, ob die übrigen Optionen Ihren Vorstellungen entsprechen:
    • Wählen Sie in der Ausklappliste 'Dateityp' ein passendes Dokumentformat aus, zum Beispiel das Format für Microsoft Word 2000 und XP oder 'Text'.
    • Stellen Sie sicher, dass in der Liste 'Formatierungsgrad' der Eintrag 'Fließseite' ausgewählt ist. dies bewirkt, dass Ihr Textdokument nicht übermäßig viele Formatierungsinformationen und vor allem keine Grafiken mehr enthält.
    • Betätigen Sie die Schaltfläche 'Erweitert', wodurch zusätzliche Optionen im Dialogfenster eingeblendet werden.
    • Stellen Sie sicher, dass in der Liste 'Seitenbereich' der Eintrag 'Alle Seiten' ausgewählt ist. Dies ist absolut wichtig, da ansonsten eventuell nur die gerade im Texteditor von Omnipage sichtbare Seite abgespeichert wird.
    • Stellen Sie sicher, dass in der Liste 'Dateioptionen' der Eintrag 'Eine Datei für alle Seiten anlegen' ausgewählt ist.

Haben Sie die soeben erläuterten Schritte bereits einmal durchgeführt, merkt sich Omnipage die getroffenen Einstellungen. diese müssen sie nicht wieder ändern – es sei denn, Sie setzen Omnipage neben dem Verarbeiten von PDF-Dokumenten auch für andere Zwecke ein.

Hat sich Omnipage die Einstellungen einmal gemerkt, so können Sie zukünftig eine PDF-Datei mit den folgenden wenigen Arbeitsschritten erkennen lassen:

  1. Rufen sie den Menüpunkt 'Verarbeiten > Automatische Verarbeitung starten' (ALT+V, S) auf. Es erscheint das Dialogfenster 'Bilddatei laden'.
  2. Wählen Sie im Dialog 'Bilddatei laden' die PDF-Datei aus, mit der die Texterkennung durchgeführt werden soll und bestätigen Sie das Fenster mit 'OK'. Omnipage beginnt darauf hin mit dem Öffnen und Erkennen der Datei. Sobald die erste Seite des Dokuments erkannt ist, wird sie im Texteditorfenster von Omnipage angezeigt. Den Fortschritt der Texterkennung, die automatisch für alle Dokumentseiten durchgeführt wird, können Sie über die Statusleiste verfolgen.
  3. Ist die Texterkennung beendet, wird automatisch der Dialog 'Speichern unter' angezeigt. Geben Sie darin Namen und Speicherort der zu sichernden Erkennungsergebnisse an und bestätigen Sie das Fenster über 'OK."

5.4.3 Texterkennung mit Openbook, Version 6 oder 7

"Das speziell für blinde und sehbehinderte Computernutzer entwickelte Programm 'An Open Book' (kurz: Openbook genannt), eignet sich besonders zum Verarbeiten grafischer PDF-Dokumente. Neben der gegenüber Omnipage komfortableren Bedienung gibt es einen weiteren wesentlichen Unterschied zwischen den beiden Programmen: Während 'Omnipage Pro' PDF-Dokumente unabhängig davon verarbeiten kann, ob eine Version des A.R. auf Ihrem System installiert ist oder nicht, setzt Openbook den A.R. zwingend voraus.

Grundsätzlich gibt es keine Unterschiede beim konkreten Vorgehen bei den neuesten Programmversionen 6 und 7 von Openbook; leider arbeiten jedoch beide Programmversionen nicht direkt mit dem A.R.7 zusammen. Wenn Sie also den A.R.7 auf Ihrem System installiert haben, müssen Sie einen geringfügig komplizierteren Weg wählen, um eine PDF-Datei mit Openbook (egal, ob Version 6 oder 7) erkennen zu lassen. Die geschilderte Vorgehensweise ist dafür jedoch allgemeiner. Bequemer können Sie arbeiten, wenn sie 'nur' den A.R.6 zusammen mit Openbook auf Ihrem Computer betreiben.

Zunächst also zum allgemeinen Vorgehen, das Sie unabhängig von der Openbook- und der Adobe Reader-Version nutzen können:

  1. Rufen Sie das PDF-Dokument, mit dem eine Texterkennung durchgeführt werden soll, über den "Arbeitsplatz" oder den "Windows Explorer" auf, so dass es sich im A.R. öffnet.
  2. Tun Sie so, als wollten Sie das Dokument drucken, indem Sie mit STRG+P den Dialog 'Drucken' aufrufen.
  3. Zusammen mit Openbook wird der sogenannte 'Freedom Import Printer' installiert. Dies ist ein sogenannter Druckertreiber. Allerdings hat er nicht die Aufgabe, einen Tintenstrahl- oder Laserdrucker zu steuern; es ist vielmehr eine Software-Komponente, die eine Datei an das Programm Openbook übergibt, das dann seinerseits damit dann eine Texterkennung durchführt. Um im angezeigten Dialogfenster 'Drucken' den Freedom Import Printer zu aktivieren, wählen Sie in der Liste 'Name' des Gruppenfeldes 'Drucker' den Eintrag 'Freedom Import Printer' und betätigen die Eingabetaste, um den 'Druckauftrag' zu geben.
  4. Nun öffnet sich das Programm Openbook und beginnt mit der Texterkennung für die gewählte PDF-Datei. Den Fortschritt bei diesem Vorgang können Sie jederzeit im Fenster 'Verarbeitung' verfolgen.
  5. Ist die Texterkennung abgeschlossen, liest die Openbook-Sprachausgabe die letzte erkannte Dokumentseite vor. Rufen Sie den Menüpunkt 'Datei > Speichern unter' auf.
  6. Legen sie im erscheinenden Dialogfenster 'Speichern unter' Namen und Speicherort für den erkannten Text fest. Achtung: Wenn Sie das Dokument außerhalb von Openbook weiter verarbeiten möchten, dann wählen Sie in der Liste 'Dateityp' ein anderes als das vorgegebene Openbook-Dokumentformat. Entscheiden Sie sich zum Beispiel für das Format einerWordVersion oder für eine reine Textdatei. Bestätigen Sie das Fenster über die "Eingabetaste".

Haben Sie auf Ihrem Computer 'nur' A.R.6 installiert, vereinfacht sich die Verarbeitung eines PDF-Dokumentes mittels Openbook dramatisch, weil der A.R.6 von allen Openbook-Versionen direkt unterstützt wird:

  1. Starten Sie das Programm Openbook.
  2. Rufen Sie mit STRG+O den Dialog 'Öffnen' auf und wählen Sie darin die PDF-Datei, mit der die Texterkennung durchgeführt werden soll. Bestätigen Sie das Fenster mit der "Eingabetaste".
  3. Die Texterkennung beginnt automatisch. Über den fortschritt dieses Vorgangs können Sie sich jederzeit im Fenster 'Verarbeitung' informieren.
  4. Ist die Texterkennung abgeschlossen, liest die Openbook-Sprachausgabe die letzte erkannte Dokumentseite vor. Rufen Sie den Menüpunkt 'Datei > Speichern unter' auf.
  5. Legen sie im erscheinenden Dialogfenster 'Speichern unter' Namen und Speicherort für den erkannten Text fest. Achtung: Wenn Sie das Dokument außerhalb von Openbook weiter verarbeiten möchten, dann wählen Sie in der Liste 'Dateityp' ein anderes als das vorgegebene Openbook-Dokumentformat. Entscheiden Sie sich zum Beispiel für das Format einerWordVersion oder für eine reine Textdatei. Bestätigen Sie das Fenster über die "Eingabetaste"."

"Was passiert denn, wenn ich trotz installiertem A.R.7 versuche, ein PDF-Dokument direkt in Openbook zu öffnen?"

"Dann behauptet das Programm im Rahmen einer Fehlermeldung, dass PDF-Dateien auf Ihrem System kein Programm zugeordnet sei und bricht die Verarbeitung ab. Ihnen bleibt wirklich nur der erste geschilderte Weg über den Aufruf des Freedom Import Printers über den 'Drucken'-Dialog des Adobe Readers."