Lesen, was drinsteht — rausholen, was drinsteckt: Wie blinde Computernutzer sich PDF-Dokumente zugänglich machen geschrieben von Oliver Nadig (2005)
Dieser Beitrag wurde von Oliver Nadig in Oktober 2005 verfasst. Die vorliegende Fassung ist die Version 1.02 vom 25.1.2006.
5.2 Von PDF nach Text mit PDFToText
"Wie im vorigen Abschnitt erwähnt: In den mit Hilfe von A.R. aus PDF-Dokumenten erzeugten Textdateien finden sich kaum noch Textstrukturmerkmale. Besonders unangenehm ist dies, wenn dadurch Zentrierungen, Einrückungen und hängende Absätze, wie sie zum Beispiel bei Nummerierungen und Aufzählungen vorkommen, verloren gehen. Möchten Sie die genannten Textstrukturmerkmale in Ihrer Textdatei wiederfinden, so sollten Sie PDF-Dateien nicht mit dem A.R., sondern mit PDFToText ins Textformat konvertieren. PDFToText konvertiert außerdem wesentlich schneller als der A.R.
Bevor ich Ihnen die nötigen Arbeitsschritte beschreibe, sind noch einige warnende Hinweise nötig:
- PDFToText ist nicht sehr gut darin, die Lesereihenfolge in mehrspaltigen Texten zu erkennen. Bei komplex gestalteten Dokumenten bleibt Ihnen nur der A.R. als Konvertierungswerkzeug.
- PDFToText verfügt über keine Windows-Benutzeroberfläche. Dies bedeutet, dass Sie das Programm aus der Eingabeaufforderung (auch 'DOS-Box' genannt) heraus über die Kommandozeile steuern. Für jemanden, der die Zeiten des textorientierten Betriebssystems MS-DOS nicht erlebt hat, wird dies als sehr störend empfunden.
- Genau wie der A.R., so kann auch PDFToText keine Inhalte aus PDF-Dokumenten entnehmen, bei denen dies vom Autor untersagt wurde. Ist also im A.R. der Menüpunkt 'Datei > Als Text speichern' nicht verfügbar, brauchen Sie PDFToText gar nicht erst zu bemühen.
- Die derzeit aktuelle Version 3.01 von PDFToText unterstützt die neueste Version 1.6 von PDF noch nicht direkt. Übergeben Sie PDFToText ein Dokument im Format PDF 1.6, gibt das Programm eine Warnung aus, dass das Ausgabeergebnis unter Umständen nicht zufriedenstellend sein könnte. Bisher waren die Umwandlungsergebnisse von PDF 1.6-Dokumenten in meiner Arbeitspraxis jedoch nie zu beanstanden. Vom A.R.7 wird PDF 1.6 übrigens voll unterstützt. Mehr zu den verschiedenen Versionen von PDF möchte ich Ihnen in Abschnitt 6.1 erzählen.
Zur Erinnerung: In Abschnitt 2.2 haben wir das Programmpaket Xpdf und damit das Programm PDFToText im Ordner 'C:\xPdf' installiert.
So konvertieren Sie mit Hilfe von PDFToText eine PDF-Datei ins Textformat:
- Benutzen Sie den "Arbeitsplatz" oder den "Windows Explorer", um die zu konvertierende Datei in denjenigen Ordner zu kopieren, in dem auch PDFToText installiert wurde. In unserem Beispiel ist das der Ordner 'C:\xpdf'. Durch diesen auf den ersten Blick unnötigen Schritt sparen Sie sich im Folgenden eine Menge Tipparbeit.
- Da PDFToText über die Kommandozeile gesteuert wird, sollten Sie zunächst ein Fenster für die sogenannte 'Eingabeaufforderung' öffnen. rufen Sie dazu den Menüpunkt 'Startmenü > Programme > Zubehör > Eingabeaufforderung' auf. Mit dem Eingabeaufforderungs-Fenster öffnet sich für Sie eine neue, textorientierte Welt: Statt mit grafischen Benutzeroberflächen arbeiten Sie in der Eingabeaufforderung mit Textkommandos. Auch die Rückmeldungen die Sie von den in der Eingabeaufforderung ausgeführten Befehlen und Programmen erhalten, werden in der Regel in Textform ausgegeben. Dabei gilt die Regel: Keine Nachricht ist eine gute Nachricht – Rückmeldungen gibt es meistens nur, wenn Fehler aufgetreten sind.
- Das Fenster der Eingabeaufforderung wartet nun auf Ihre Befehle. Um Ihnen dies zu signalisieren, zeigt die Eingabeaufforderung ein sogenanntes Prompt an, hinter dem der Cursor blinkt. Das Prompt besteht aus einer Pfadangabe der Art 'c:\windows' oder 'c:\dokumente und einstellungen\benutzer'. Danach folgt ein Größer-als-Zeichen, hinter dem der Cursor steht. Die Pfadangabe zeigt Ihnen das sogenannte 'aktuelle Verzeichnis' an. Stellen Sie sich das am besten wie einen Ordner vor, dessen Inhalt Sie sich mit Hilfe des "Arbeitsplatz" oder des Windows Explorers anzeigen lassen.
- Wechseln Sie nun in den Ordner, in dem das Programmpaket XpdfWIN installiert ist. Für unser Beispiel gehe ich vom Ordner 'C:\xpdf' aus. Geben Sie dazu zunächst in der Eingabeaufforderung die Zeichenfolge 'cd\' ein und lassen den Befehl durch Drücken der Eingabetaste ausführen. Das 'cd' steht für ' Change Directory', also für die Aufforderung, das aktuelle Verzeichnis zu wechseln. Der direkt an die Buchstaben 'cd' angehängte Backslash besagt, dass wir in den Stammordner des aktuellen Laufwerkes wechseln wollen. Der Stammordner hat die Bezeichnung 'C:\,' und genau dieser Text sollte jetzt links von einem Größer-als-Zeichen und dem Cursor angezeigt werden. Nun müssen Sie vom Stammordner aus in den Ordner 'c:\xpdf' wechseln. Tun Sie dies durch Eingabe von 'cd xpdf' und anschließendes Drücken der "Eingabetaste". 'cd' ist wieder der Befehl zum Ordnerwechsel, 'xpdf' ist der Name des Ordners, in den wir zu wechseln wünschen. Links von Ihrem Cursor sollte nun der Text 'C:\xpdf>' zu lesen sein.
- Nun starten Sie die Konvertierung mit PDFToText und übergeben dem Programm dabei die benötigten Informationen. Diese bestehen einerseits aus einem Befehl der Anzeigt, dass Sie die Übernahme möglichst vieler Layout-Merkmale in die Textdatei wünschen und andererseits im Namen der umzuwandelnden PDF-Datei. Tippen Sie also zunächst das Wort 'PDFToText' und dann ein Leerzeichen. Tippen Sie dann die Zeichenfolg '-layout' und ein Leerzeichen. Der Bindestrich vor dem Wort 'layout' zeigt an, dass es sich bei diesem Befehl um eine sogenannte Kommandozeilenoption handelt. PDFToText verfügt über eine Reihe von Kommandozeilenoptionen, wobei '-layout' die Wichtigste ist. Sie teilt dem Programm wie gesagt mit, dass wir die Übernahme möglichst vieler Layout-Merkmale der PDF-Originaldatei in die Textdatei wünschen.
Geben Sie jetzt noch den Namen der zu konvertierenden PDF-Datei mitsamt Dateiendung ein und führen den Befehl durch Drücken der "Eingabetaste" aus. Hier noch einmal zur Kontrolle die gesamte Eingabezeile:
PDFToText -layout handbuch.pdf
- Nachdem Sie den Befehl abgeschickt haben, verschwindet das Prompt für einige Augenblicke. Selbst bei PDF-Dateien, die aus mehreren hundert Seiten bestehen, sollte dies jedoch nicht länger als zehn Sekunden dauern! Wenn Ihr Screenreader nicht – wie beispielsweise JAWS ab Version 6.1 dies tut – die Meldungen der Eingabeaufforderung automatisch vorliest, sollten Sie beim Wiederauftauchen des Prompts mit Hilfe Ihres Screenreaders eine Textzeile nach oben wandern um nach zu lesen, ob PDFToText Meldungen ausgegeben hat. Unter Umständen sind mehrere Meldungen erschienen – wandern Sie dann mit Hilfe des Cursors Ihres Screenreaders entsprechend viele Zeilen aufwärts.
- Wurde gar keine Meldung ausgegeben, konnte PDFToText die Umwandlung erfolgreich durchführen. Sie finden die entstandene Textdatei im selben Ordner wie das PDF-Original. Sie sollten die Textdatei auf ihre Brauchbarkeit hin überprüfen. Wurden Absätze durcheinandergewürfelt oder Tabellen Zerpflückt, müssen Sie auf den A.R. als Umwandlungsprogramm zurück greifen. Ist die Konvertierung zu Ihrer vollen Zufriedenheit ausgefallen, können Sie bei Bedarf die ursprüngliche PDF-Datei löschen.
- Die wichtigsten ernst zu nehmenden Fehlermeldungen von PDFToText sind:
-
Zeigt an, dass Sie sich bei der Eingabe des Dateinamens oder der Kommandozeilenoptionen vertippt haben. PDFToText konnte jedenfalls keine Datei des angegebenen Namens finden und konvertieren.
Error: Couldn't open file
-
Dies zeigt Ihnen, dass das Entnehmen von Inhalten aus der PDF-Datei nicht gestattet ist. Sie müssen dann auf GSView als Umwandlungsprogramm zurück greifen.
Error: Copying of text from this document is not allowed
-
Diese Meldung weist auf eine vermutlich irreparabel beschädigte Datei hin. Sie brauchen keine Hoffnungen zu haben, dass sich das Dokument mit einem anderen Programm öffnen lässt, weil PDFToText selbst bereits eine gegen lesefehler sehr unempfindliche Software ist.
Error: Couldn't read xref table
-
Ich möchte den Vorgang der Textumwandlung mit PDFToText noch einmal in aller Kürze zusammenfassen:"
Zusammenfassung von Abschnitt 5.2
- "Kopieren Sie die zu konvertierende PDF-Datei in den Ordner, in dem sich auch das Programm PDFToText befindet.
- Öffnen Sie über 'Startmenü > Programme > Zubehör > Eingabeaufforderung' ein Fenster für die Eingabeaufforderung.
- Wechseln Sie mit dem Kommando cd\ in den Stammordner von Laufwerk C.
- Wechseln Sie mit dem Kommando 'cd xpdf' in den Ordner, in dem sich das Programm PDFToText befindet.
- Geben Sie den Befehl für die Textumwandlung durch eingabe von 'PDFToText -layout [PDF-Datei]' ein, wobei Sie '[PDF-Datei]' durch den Namen des zu konvertierenden Dokumentes ersetzen.
- Reagieren Sie angemessen auf eventuelle Fehlermeldungen oder überprüfen Sie im Falle einer erfolgreichen Konvertierung die Qualität der entstandenen Textdatei."
Der Beitrag Lesen, was drinsteht — rausholen, was drinsteckt: Wie blinde Computernutzer sich PDF-Dokumente zugänglich machen besteht aus folgenden einzelnen Webseiten:
- 1. Klagelied eines frustrierten PDF-Neulings
Besonders die schlechte Aufbereitung von PDF-Dokumenten verstellt blinden Nutzern oft die selbständige Verwendung der Dokumente.
- 2. Nützliche Software zum Lesen und Umwandeln von PDF-Dateien
Neben dem Adobe Reader bietet weitere Software die Möglichkeit für Screenreadernutzer, auf den Inhalt von PDF-Dokumenten zuzugreifen.
- 2.1 Installation und Konfiguration des Adobe Readers
Was blinde und sehbehinderte Nutzer bei der Installation des Adobe Readers beachten müssen. Beschreibung des Installationsvorgangs und der zu beachtenden Einstellungen, damit das Lesen von PDF-Dokumenten optimal gelingt.
- 2.2 Installation von XPDF
Installation von XPDF bzw. PDFToText mit Hinweisen für blinde und sehbehinderte Nutzer.
- 2.3 Installation von GhostScript und GSView
GSView und Ghostscript sind für Screenreadernutzer zusätzlich erforderlich zum Adobe Reader, wenn sie PDF-Dokumente mit Sicherheitseinstellungen lesen wollen. Hier finden Sie eine Anleitung zur Installation dieser Software mit Hinweisen zur Bedienung in einem Screenreader.
- 2.4 Installation und Konfiguration von Omnipage Pro
Zum Lesen von PDF-Dokumenten in einer Sprachausgabe ist die Installation einer OCR-Software für viele Fälle sinnvoll. Installation und Hinweise zu Einstellungen werden hier beschrieben für Omnipage Pro 14.
- 3. Wann wird welches Programm eingesetzt? — ein Entscheidungsschema
Ein Entscheidungsschema für blinde Nutzer, wann sie welches Programm zum Lesen von PDF-Dokumenten einsetzen sollen. Diese umfassen vor allem den Adobe Reader, OCR-Programmen PDFToText (XPDF) und GSView (Ghostscript).
- 4. Lesen, was drinsteht: Den Adobe Reader im Griff
Einführung in die Nutzung des Adobe Readers zum Lesen von PDF in Screenreadern.
- 4.1 Wie Screenreader und Adobe Reader zusammenarbeiten
Wie ein Screenreader mit dem Adobe Reader über MSAA und andere Methoden arbeitet.
- 4.2 PDF-Dokumente im Adobe Reader lesen
Die Bedienung des Adobe Readers mit der Tastatur ist für Screenreadernutzer wichtig.
- 4.3 Formularbearbeitung mit dem Adobe Reader
Das Einscannen von Formularen und die Bereitstellung als PDF reicht nicht aus, um die Zugänglichkeit der Formulare herzustellen. Screenreader benötigen die Auszeichnung mit Tags sowie weitere MSAA-Informationen.
- 4.4 Die Sprachausgabe des Adobe Readers
Die Verwendung der Adobe Reader-Sprachausgabe zum Vorlesen von PDF-Dokumenten und -Formularen erfordert eine SAPI-kompatible Sprachausgabe.
- 4.5 Weitere Einstellungstipps für den Adobe Reader
Einige Einstellungen sollten im Adobe Reader vorgenommen werden, wenn Screenreader auf PDF-Dokumente besser zugreifen können sollen.
- 5. Rausholen, was drinsteckt: PDF in Text umwandeln
Es gibt verschiedene Möglichkeiten, aus PDF Textdateien zu erstellen.
- 5.1 Von PDF nach Text mit dem Adobe Reader
Extrahieren von Text aus einer PDF unter Verwendung eines Screenreaders.
- 5.2 Von PDF nach Text mit PDFToText
(Aktuelle Seite)
- 5.3 Von PDF nach Text mit GSView
Umwandeln von PDF nach Text mit GSView.
- 5.4 Von PDF nach Text per Texterkennungsprogramm
Die Verwendung von PDF in Screenreadern ist oft problematisch. Diese Seite beschreibt, wie blinde Nutzer PDF-Dokumente mit einer OCR-Software (Omnipage Pro 12 und 14, An Open Book 6 und 7) in ein zugängliches Format wie Microsoft Word umwandeln können.
- 5.5 Von PDF nach Text oder HTML per Internet
Umwandlung einer PDF in eine Screenreader-fähigen Datei über einen kostenlosen Web-Service.
- 6. Noch mehr Hintergrundwissen zu PDF
Hintergrundwissen zu Tagged PDF oder Verschlüsselungsmöglichkeiten kann Screenreadernutzern bei der Interpretation von Fehlermeldungen hilfreich sein.
- 6.1 Die sieben Versionen des PDF
Probleme im Screenreader bereiten können Konflikte im Zusammenspiel verschiedener Versionen von z.B. PDF-, Adobe Reader und der Verschlüsselungstechnik.
- 6.2 Verschlüsselt und versiegelt? — Die PDF-Sicherheitseinstellungen
Bei der Verschlüsselung von PDF-Dokumenten ist die richtige Vorgehensweise besonders wichtig, um die Zugänglichkeit für Screenreadernutzer zu gewährleisten.
- 6.3 PDF mit und ohne Tags
Tags sind beim Lesen und beim Export in andere Formate notwendig, damit Screenreadernutzer die Struktur der Inhalte nachvollziehen können.
- 6.4 Zur fertigen PDF-Datei auf tausend (Irr)wegen
"Viele Wege führen nach Rom" — aber nur die richtige Technik im PDF-Erstellungsprozess führt zu zugänglichen Dokumenten.
- 7. Zugänglichkeit von PDF für Blinde: Eine kritische Bilanz
Blinde Nutzer sind bei der Verwendung von PDF-Dokumenten immer noch stark benachteiligt. Hersteller und Autoren könnten diese Situation verbessern.
- Weiterführende Literaturhinweise
Einige Artikel/Bücher und Online-Ressourcen zur Barrierefreiheit von PDF.
- Über den Autor
Einige Angaben zu Oliver Nadig.
Die folgenden Begriffe dieser Seite werden auch im Glossar definiert: