Lesen, was drinsteht — rausholen, was drinsteckt: Wie blinde Computernutzer sich PDF-Dokumente zugänglich machen geschrieben von Oliver Nadig (2005)
Dieser Beitrag wurde von Oliver Nadig in Oktober 2005 verfasst. Die vorliegende Fassung ist die Version 1.02 vom 25.1.2006.
3. Wann wird welches Programm eingesetzt? — ein Entscheidungsschema
"Nachdem Sie sich so viel Mühe mit dem Installieren und Konfigurieren von Programmen gemacht haben bin ich Ihnen einige Erläuterungen darüber schuldig, wann welche Software zum Einsatz kommen soll."
"Das hängt doch bestimmt davon ab, ob eine PDF-Datei beim Lesen Probleme macht oder nicht."
"Genau. Ich möchte Ihnen eine Art Entscheidungsschema dafür vorschlagen, was Sie mit einer vorliegenden PDF-Datei tun sollten. Dieses Schema besteht aus sechs Schritten und sieht wie folgt aus:
- Werden Sie sich zu Allererst darüber klar, ob Sie die vorliegende PDF-Datei lesen oder in ein anderes Dokumentformat umwandeln möchten. Falls Sie sich fürs Lesen entscheiden, öffnen Sie das Dokument zwangsläufig mit dem Adobe Reader (A.R.). Tipps, nützliche Tastenkombinationen und einige Hintergrundinformationen zum Lesen von PDF-Dokumenten mit dem A.R. erhalten Sie in
Abschnitt 4.1. Sollten Sie sich für die Umwandlung entscheiden, haben Sie zwei Möglichkeiten:
- Falls Sie wissen, dass das Dokument nur wenige Seiten umfasst und/oder mehrspaltig gesetzte Textseiten enthält, sollten Sie zur Konvertierung den A.R. verwenden. Wie Sie dabei vorgehen, schildere ich in
Abschnitt 5.1.
- Umfangreiche und einspaltig gesetzte Dokumente sollten Sie aus Geschwindigkeitsgründen mit PDFToText umwandeln. Wie Sie dabei vorgehen, schildere ich in
Abschnitt 5.2.
- Falls Sie wissen, dass das Dokument nur wenige Seiten umfasst und/oder mehrspaltig gesetzte Textseiten enthält, sollten Sie zur Konvertierung den A.R. verwenden. Wie Sie dabei vorgehen, schildere ich in
- Haben Sie sich in Schritt 1 entschieden, das Dokument mit Hilfe des A.R. lesen zu wollen, kann dieser Versuch zu drei verschiedenen Ergebnissen führen:
- Der Text lässt sich problemlos lesen. Es gibt keine Schwierigkeiten mit der Anzeige von Inhaltsverzeichnissen, die Lesereihenfolge der Textspalten ist korrekt, Tabellen sind entweder nicht vorhanden oder werden zufriedenstellend vorgelesen. Dann gibt es keine technischen Hürden mehr und Sie können sich dem eigentlichen Inhalt des PDF-Dokumentes zuwenden.
- Es wird zwar Text angezeigt, aber es gibt Probleme beim Vorlesen von Inhaltsverzeichnissen, mehrspaltig gesetztem Text oder Tabellen. Dann bleibt Ihnen nichts Anderes übrig, als das Dokument von einem Texterkennungsprogramm (einer OCR -Software) verarbeiten zu lassen und zu hoffen, dass dieses gute Verarbeitungsergebnisse liefert und die einzelnen Textblöcke auf den Seiten sinnvoller anordnet als der A.R. Wie Sie PDF-Dokumente von einer OCR verarbeiten lassen, erfahren Sie in
Abschnitt 5.4.
- Nach dem Versuch, das PDF-Dokument zu öffnen meldet Ihr Screenreader, dass das Dokument leer zu sein scheint. Es handelt sich dann um eine grafische PDF-Datei. Dann bleibt Ihnen nichts Anderes übrig, als das Dokument von einer OCR verarbeiten zu lassen und zu hoffen, dass diese gute Erkennungsergebnisse liefert. Wie Sie PDF-Dokumente von einer OCR erkennen lassen, erfahren Sie in
Abschnitt 5.4.
- Haben Sie sich in Schritt 1 entschieden, das Dokument mit Hilfe des A.R. in ein anderes Dokumentenformat um zu wandeln, kann dieser Versuch zu vier verschiedenen Ergebnissen führen:
- Das unter Verwendung des A.R. entstandene Dokument ist sehr gut lesbar. Es gibt kein Durcheinander bei Inhaltsverzeichnissen, die Textspalten sind korrekt angeordnet und Tabellen sind zufriedenstellend konvertiert worden. Dann gibt es keine technischen Hürden mehr und Sie können sich dem Inhalt der nunmehr in einem zugänglicheren Format vorliegenden Datei zuwenden.
- Das unter Verwendung des A.R. entstandene Dokument ist schlecht bis unmöglich lesbar. Bei der Umwandlung von Inhaltsverzeichnissen, Textspalten und Tabellen ist Textmischmasch entstanden. Mit Textumwandlungsversuchen ist dann nichts mehr zu machen, da der A.R. im Vergleich zu allen anderen Umwandlungswerkzeugen die beste Textreihenfolge-Erkennung aufweist. Obwohl es sich bei der ursprünglichen PDF-Datei nicht um Grafik, sondern um Text handelt, sollten Sie diese jetzt von einer OCR verarbeiten lassen. Dabei dürfen Sie hoffen, dass die Texterkennung möglichst fehlerfrei ist und die einzelnen Textblöcke auf den Seiten sinnvoller angeordnet werden als durch die Umwandlung mit Hilfe des A.R. Wie Sie PDF-Dokumente von einer OCR verarbeiten lassen, erfahren Sie in
Abschnitt 5.4.
- Das unter Verwendung des A.R. entstandene Dokument enthält entweder gar keinen Text oder vollkommen unleserlichen Buchstabensalat. Dies ist ein Zeichen dafür, dass es sich bei der Ursprünglichen PDF-Datei um ein rein grafisches Dokument handelt, dessen Inhalt durch eine Textkonvertierung natürlich nicht zugänglich gemacht werden kann. Dann bleibt Ihnen nichts Anderes übrig, als die entstandene Datei zu löschen, das ursprüngliche PDF-Dokument von einer OCR verarbeiten zu lassen und zu hoffen, dass dabei gute Erkennungsergebnisse geliefert werden. Wie Sie PDF-Dokumente von einer OCR verarbeiten lassen, erfahren Sie in
Abschnitt 5.4.
- Die Umwandlung mit dem A.R. schlägt fehl, weil die entsprechenden Menüpunkte überhaupt nicht verfügbar sind. Dies ist ein Zeichen dafür, dass der Autor das Drucken und die Entnahme von Dokumentinhalten untersagt hat. Dann bleibt Ihnen nichts Anderes übrig als zu versuchen, das Dokument mit dem Programm GSView zu öffnen und den enthaltenen Text in eine Textdatei zu extrahieren. Der Versuch, das ursprüngliche PDF-Dokument von einer OCR verarbeiten zu lassen wird mit an Sicherheit grenzender Wahrscheinlichkeit scheitern, da auch Texterkennungsprogramme den Sicherheitseinstellungen in PDF-Dokumenten Folge leisten. Wie Sie mit Hilfe von GSView den Text einer PDF-Datei extrahieren, erfahren Sie in
Abschnitt 5.3.
- Haben Sie sich in Schritt 1 entschieden, das Dokument mit Hilfe des Programms PDFToText in Text um zu wandeln, kann dieser Versuch – ähnlich wie die Konvertierung mit dem A.R. zu vier verschiedenen Ergebnissen führen:
- Die unter Verwendung von PDFToText entstandene Textdatei Ist sehr gut lesbar. Es gibt kein Durcheinander bei Inhaltsverzeichnissen, die Textspalten sind korrekt angeordnet und Tabellen sind zufriedenstellend in Text konvertiert worden. Dann gibt es keine technischen Hürden mehr und Sie können sich dem Inhalt der nunmehr im Textformat vorliegenden Datei zuwenden.
- Die unter Verwendung von PDFToText entstandene Textdatei Ist schlecht bis unmöglich lesbar. Bei der Umwandlung von Inhaltsverzeichnissen, Textspalten und Tabellen ist Textmischmasch entstanden. Dann können Sie die entstandene Datei löschen und haben zwei Möglichkeiten:
- Sie versuchen, die ursprüngliche PDF-Datei mit dem A.R. zu lesen oder um zu wandeln. Der A.R. ist beim Anordnen von Textblöcken nämlich sehr viel geschickter als PDFToText. Bringt das ebenfalls keine befriedigenden Ergebnisse, bleibt Ihnen nichts anderes übrig, als das PDF-Dokument von einer OCR verarbeiten zu lassen. Sie dürfen dann hoffen, dass die Texterkennung möglichst fehlerfrei ist und die einzelnen Textblöcke auf den Seiten sinnvoller angeordnet werden als von PDFToText und dem A.R. Wie Sie PDF-Dokumente von einer OCR verarbeiten lassen, erfahren Sie in
Abschnitt 5.4.
- Sie können eine OCR natürlich auch direkt nach dem erfolglosen Umwandlungsversuch mit PDFToText einsetzen. Lassen Sie sich nicht von der Tatsache beirren, dass die ursprüngliche PDF-Datei eigentlich gar keine Grafik ist. Eine OCR kann auch solche Dateien verarbeiten, die bereits in Textform vorliegen!
- Sie versuchen, die ursprüngliche PDF-Datei mit dem A.R. zu lesen oder um zu wandeln. Der A.R. ist beim Anordnen von Textblöcken nämlich sehr viel geschickter als PDFToText. Bringt das ebenfalls keine befriedigenden Ergebnisse, bleibt Ihnen nichts anderes übrig, als das PDF-Dokument von einer OCR verarbeiten zu lassen. Sie dürfen dann hoffen, dass die Texterkennung möglichst fehlerfrei ist und die einzelnen Textblöcke auf den Seiten sinnvoller angeordnet werden als von PDFToText und dem A.R. Wie Sie PDF-Dokumente von einer OCR verarbeiten lassen, erfahren Sie in
- Die unter Verwendung von PDFToText entstandene Textdatei enthält entweder gar keinen Text oder vollkommen unleserlichen Buchstabensalat. Dies ist ein Zeichen dafür, dass es sich bei der Ursprünglichen PDF-Datei um ein rein grafisches Dokument handelt, dessen Inhalt durch eine Textkonvertierung natürlich nicht zugänglich gemacht werden kann. Dann bleibt Ihnen nichts Anderes übrig, als die entstandene Datei zu löschen, das ursprüngliche PDF-Dokument von einer OCR verarbeiten zu lassen und zu hoffen, dass dabei gute Erkennungsergebnisse geliefert werden. Wie Sie PDF-Dokumente von einer OCR verarbeiten, erfahren Sie in
Abschnitt 5.4.
- Der Versuch der Textkonvertierung wird von PDFToText mit der Fehlermeldung
beantwortet und abgebrochen. Diese Meldung besagt, dass der Autor beim vorliegenden Dokument die Entnahme von Text verboten hat. Dann bleibt Ihnen nichts Anderes übrig als zu versuchen, das Dokument mit dem Programm GSView zu öffnen und den enthaltenen Text in eine Textdatei zu extrahieren. Der Versuch, das ursprüngliche PDF-Dokument von einer OCR verarbeiten zu lassen wird mit an Sicherheit grenzender Wahrscheinlichkeit fehlschlagen, da auch Texterkennungsprogramme den Sicherheitseinstellungen in PDF-Dokumenten Folge leisten. Wie Sie mit Hilfe von GSView den Text einer PDF-Datei extrahieren, erfahren Sie in
Error: Copying of text from this document is not allowed.
Abschnitt 5.3.
- Weil Lese- und Textumwandlungsversuche Textmischmasch, unlesbaren Buchstabensalat oder sogar leere Dateien geliefert haben, lassen Sie das PDF-Dokument von einer OCR verarbeiten. Hinweise zum Umgang mit derartigen Programmen erhalten Sie in
Abschnitt 5.4.
- Weil Zugriffsbeschränkungen dafür sorgen, dass sowohl der A.R., als auch das Programm PDFToText beim Versuch der Umwandlung von PDF in andere Dokumentformate scheitern, nehmen Sie die Software GSView zu Hilfe. In aller Regel kann GSView den Text extrahieren. Hinweise zur Bedienung von GSView erhalten Sie in
Abschnitt 5.3."
"Sehr hilfreich, so ein Entscheidungsschema! Trotzdem hätte ich dazu noch drei Fragen – zunächst: Warum empfehlen Sie nicht bereits in den ersten Schritten den Einsatz einer Texterkennungssoftware oder das Öffnen einer PDF-Datei mit GSView?"
"Das sind im Grunde zwei Fragen. Den sofortigen Einsatz eines Texterkennungsprogrammes empfehle ich nicht, weil solch eine OCR-Software beim Verarbeiten eines Dokumentes stets einige Erkennungsfehler macht. Wenn sich der Originaltext also zufriedenstellend lesen oder als Datei abspeichern lässt, sollte man die Qualität nicht durch eine Texterkennung vermindern lassen.
Den sofortigen Einsatz von GSView empfehle ich deshalb nicht, weil dieses Programm beim Konvertieren mehrspaltiger PDF-Dokumente dem A.R. deutlich unterlegen ist. Setzen Sie es nur ein, wenn weder der A.R. noch PDFToText auf den Inhalt einer PDF-Datei zugreifen können."
"Gut. Meine zweite Frage lautet: Kann ich einer PDF-Datei denn nicht schon 'von außen' anmerken, ob sie mehrspaltig gesetzten text enthält, rein grafisch aufgebaut ist oder ob Zugriffsbeschränkungen meinem Screenreader das Lesen des Dokumentinhalts verweigern?"
"Nun, Gewissheit über das Spaltenlayout eines PDF-Dokumentes erhalten Sie nur dann, wenn Sie die Datei zum Lesen öffnen. Als Faustregel können Sie sich aber merken: Handelt es sich bei dem Dokument um Prospektmaterial oder eine Broschüre, können Sie mehrspaltiges Layout fast mit Sicherheit voraussetzen; bei Referatstexten, Bedienungsanleitungen oder Gesetzestexten können Sie Glück haben und einem einfachen Spaltensatz begegnen. Ob die PDF-Datei nur aus Bildern besteht oder nicht, erkennen Sie im Extremfall – aber nur dann – an der Dateigröße. Bei PDF-Dateien, die größer sind als 20 Megabyte, handelt es sich mit 99%iger Wahrscheinlichkeit um reine Grafik, an deren Inhalt Sie nur mittels OCR herankommen. Ob der Zugriff auf den Inhalt eines Dokumentes eingeschränkt ist oder nicht, können Sie nicht herausfinden, ohne das Dokument zu öffnen oder zu analysieren. Die aktuell gültigen Sicherheitseinstellungen einer geöffneten PDF-Datei kann Ihnen der A.R. verraten. Auch im Programmpaket Xpdf ist neben dem bereits mehrfach erwähnten PDFToText ein Programm namens PDFInfo enthalten, das Ihnen ebenfalls über den Sicherheitsstatus eines PDF-Dokumentes Auskunft geben kann. Über das Thema 'Sicherheit in PDF-Dokumenten' sprechen wir in Abschnitt 6.2."
"Alles Klar. Nun meine dritte Frage: Wenn ich eine Umwandlung von PDF in Text sowohl mit dem A.R. als auch mit GSView vornehmen kann und wenn – wie Sie sagen – der A.R. bei mehrspaltigen Dokumenten sowieso die besten Umwandlungsergebnisse liefert – ist dann das Programm PDFToText nicht überflüssig?"
"Nein. PDFToText zeigt seine Stärken bei einspaltigen PDF-Dokumenten. Zunächst einmal verläuft die Textumwandlung sehr viel schneller als bei GSView und beim A.R. Zusätzlich gehen bei der Umwandlung mit PDFToText keine Leerzeilen im Text verloren, und auch Einrückungen und Zentrierungen bleiben erhalten. Wenn Sie also Wert auf einigermaßen ansehnliche Textdateien legen, dann geben Sie bei der Textumwandlung 'pflegeleichter' PDF-Dokumente früher oder später PDFToText den Vorzug."
"Schön! Jetzt hätte ich aber endlich gerne ein paar Tipps für das Lesen von PDF-Dokumenten mit dem A.R."
"Gut, die sollen Sie bekommen."
Der Beitrag Besonders die schlechte Aufbereitung von PDF-Dokumenten verstellt blinden Nutzern oft die selbständige Verwendung der Dokumente. Neben dem Adobe Reader bietet weitere Software die Möglichkeit für Screenreadernutzer, auf den Inhalt von PDF-Dokumenten zuzugreifen. Was blinde und sehbehinderte Nutzer bei der Installation des Adobe Readers beachten müssen. Beschreibung des Installationsvorgangs und der zu beachtenden Einstellungen, damit das Lesen von PDF-Dokumenten optimal gelingt. Installation von XPDF bzw. PDFToText mit Hinweisen für blinde und sehbehinderte Nutzer. GSView und Ghostscript sind für Screenreadernutzer zusätzlich erforderlich zum Adobe Reader, wenn sie PDF-Dokumente mit Sicherheitseinstellungen lesen wollen. Hier finden Sie eine Anleitung zur Installation dieser Software mit Hinweisen zur Bedienung in einem Screenreader. Zum Lesen von PDF-Dokumenten in einer Sprachausgabe ist die Installation einer OCR-Software für viele Fälle sinnvoll. Installation und Hinweise zu Einstellungen werden hier beschrieben für Omnipage Pro 14. (Aktuelle Seite) Einführung in die Nutzung des Adobe Readers zum Lesen von PDF in Screenreadern. Wie ein Screenreader mit dem Adobe Reader über MSAA und andere Methoden arbeitet. Die Bedienung des Adobe Readers mit der Tastatur ist für Screenreadernutzer wichtig. Das Einscannen von Formularen und die Bereitstellung als PDF reicht nicht aus, um die Zugänglichkeit der Formulare herzustellen. Screenreader benötigen die Auszeichnung mit Tags sowie weitere MSAA-Informationen. Die Verwendung der Adobe Reader-Sprachausgabe zum Vorlesen von PDF-Dokumenten und -Formularen erfordert eine SAPI-kompatible Sprachausgabe. Einige Einstellungen sollten im Adobe Reader vorgenommen werden, wenn Screenreader auf PDF-Dokumente besser zugreifen können sollen. Es gibt verschiedene Möglichkeiten, aus PDF Textdateien zu erstellen. Extrahieren von Text aus einer PDF unter Verwendung eines Screenreaders. Umwandlung von PDF nach Text mit PDFToText: Was Screenreadernutzer beachten müssen. Umwandeln von PDF nach Text mit GSView. Die Verwendung von PDF in Screenreadern ist oft problematisch. Diese Seite beschreibt, wie blinde Nutzer PDF-Dokumente mit einer OCR-Software (Omnipage Pro 12 und 14, An Open Book 6 und 7) in ein zugängliches Format wie Microsoft Word umwandeln können. Umwandlung einer PDF in eine Screenreader-fähigen Datei über einen kostenlosen Web-Service. Hintergrundwissen zu Tagged PDF oder Verschlüsselungsmöglichkeiten kann Screenreadernutzern bei der Interpretation von Fehlermeldungen hilfreich sein. Probleme im Screenreader bereiten können Konflikte im Zusammenspiel verschiedener Versionen von z.B. PDF-, Adobe Reader und der Verschlüsselungstechnik. Bei der Verschlüsselung von PDF-Dokumenten ist die richtige Vorgehensweise besonders wichtig, um die Zugänglichkeit für Screenreadernutzer zu gewährleisten. Tags sind beim Lesen und beim Export in andere Formate notwendig, damit Screenreadernutzer die Struktur der Inhalte nachvollziehen können. "Viele Wege führen nach Rom" — aber nur die richtige Technik im PDF-Erstellungsprozess führt zu zugänglichen Dokumenten. Blinde Nutzer sind bei der Verwendung von PDF-Dokumenten immer noch stark benachteiligt. Hersteller und Autoren könnten diese Situation verbessern. Einige Artikel/Bücher und Online-Ressourcen zur Barrierefreiheit von PDF. Einige Angaben zu Oliver Nadig. Die folgenden Begriffe dieser Seite werden auch im Glossar definiert:Lesen, was drinsteht — rausholen, was drinsteckt: Wie blinde Computernutzer sich PDF-Dokumente zugänglich machen besteht aus folgenden einzelnen Webseiten:
1. Klagelied eines frustrierten PDF-Neulings
2. Nützliche Software zum Lesen und Umwandeln von PDF-Dateien
2.1 Installation und Konfiguration des Adobe Readers
2.2 Installation von XPDF
2.3 Installation von GhostScript und GSView
2.4 Installation und Konfiguration von Omnipage Pro
3. Wann wird welches Programm eingesetzt? — ein Entscheidungsschema
4. Lesen, was drinsteht: Den Adobe Reader im Griff
4.1 Wie Screenreader und Adobe Reader zusammenarbeiten
4.2 PDF-Dokumente im Adobe Reader lesen
4.3 Formularbearbeitung mit dem Adobe Reader
4.4 Die Sprachausgabe des Adobe Readers
4.5 Weitere Einstellungstipps für den Adobe Reader
5. Rausholen, was drinsteckt: PDF in Text umwandeln
5.1 Von PDF nach Text mit dem Adobe Reader
5.2 Von PDF nach Text mit PDFToText
5.3 Von PDF nach Text mit GSView
5.4 Von PDF nach Text per Texterkennungsprogramm
5.5 Von PDF nach Text oder HTML per Internet
6. Noch mehr Hintergrundwissen zu PDF
6.1 Die sieben Versionen des PDF
6.2 Verschlüsselt und versiegelt? — Die PDF-Sicherheitseinstellungen
6.3 PDF mit und ohne Tags
6.4 Zur fertigen PDF-Datei auf tausend (Irr)wegen
7. Zugänglichkeit von PDF für Blinde: Eine kritische Bilanz
Weiterführende Literaturhinweise
Über den Autor
Blättern zur nächsten oder vorherigen Seite