Barrierefreies Webdesign ein zugängliches und nutzbares Internet gestalten

Lesen, was drinsteht — rausholen, was drinsteckt: Wie blinde Computernutzer sich PDF-Dokumente zugänglich machen geschrieben von Oliver Nadig (2005)

Dieser Beitrag wurde von Oliver Nadig in Oktober 2005 verfasst. Die vorliegende Fassung ist die Version 1.02 vom 25.1.2006.

5.3 Von PDF nach Text mit GSView

"Die Programme Ghostscript und GSView kommen immer dann zum Einsatz, wenn eine PDF-Datei dem Screenreader den Zugriff auf ihren Inhalt verweigert. Dabei stellt GSView die Bedienoberfläche für das Programm Ghostscript dar, mit dem Sie gar nicht in Berührung kommen (die Bedienung von Ghostscript selbst wäre übrigens noch weit unbequemer als diejenige von PDFToText).

In Abschnitt 2.3 habe ich erläutert, wie Ghostscript und GSView installiert werden, wie GSView auf deutsch umgestellt wird und wie man GSView in das Kontextmenü von PDF-Dateien einbaut. Ich gehe im folgenden davon aus, dass Sie diese Schritte nachvollzogen haben – dann ist das Umwandeln einer PDF-Datei in Text mittels GSView nur noch ein Kinderspiel:

  1. Wählen Sie im "Arbeitsplatz" oder im Windows die um zu wandelnde PDF-Datei mit den Pfeiltasten an.
  2. Öffnen Sie das Kontextmenü mit der KONTEXTTASTE oder der Tastenkombination UMSCHALT+F10.
  3. Rufen Sie darin den Menüpunkt 'Öffnen mit' auf.
  4. Wählen Sie im eingeblendeten Untermenü den Eintrag 'gsview32' und bestätigen Sie mit der "Eingabetaste".
  5. GSView öffnet sich und zeigt zunächst den Registrierungsdialog an. Bestätigen Sie diesen mit der "Eingabetaste". Warten Sie einige Sekunden, bis GSView das PDF-Dokument geladen hat.
  6. Rufen Sie den Menüpunkt 'Bearbeiten > Text extrahieren' (ALT+B, T) auf. Sollte sich daraufhin das Dialogfenster 'Auswahl Seiten' nicht öffnen, warten Sie noch ein paar Sekunden, bevor Sie erneut 'Bearbeiten > Text extrahieren' aufrufen.
  7. Im eingeblendeten Dialog 'Seiten auswählen' betätigen Sie zunächst mit der Tastenkombination ALT+S die Schaltfläche 'Alle Seiten' und drücken anschließend die "Eingabetaste", um das Fenster mit 'OK' zu bestätigen.
  8. Bei großen Dokumenten kann die Textextraktion mehrere Minuten in Anspruch nehmen. Sie können den Fortschritt überwachen, indem Sie sich von Ihrem Screenreader in gewissen Zeitabständen die Statusleiste des GSView-Fensters vorlesen lassen; dort erhöht sich nach und nach die angezeigte Prozentzahl.
  9. Konnte die Textextraktion erfolgreich durchgeführt werden, erscheint das Fenster 'Datei speichern unter'. Legen Sie darin für die zu speichernde Textdatei einen Namen (einschließlich der Endung .txt) und einen Speicherort fest; bestätigen Sie das Fenster durch Betätigen der Schaltfläche 'Speichern'. Bricht GSView die Textextraktion mit einer Fehlermeldung ab, ist die PDF-Datei höchst wahrscheinlich beschädigt. Sie brauchen dann keine großen Hoffnungen mehr zu haben, sie mit einem anderen Programm öffnen und Ihren Inhalt lesen zu können. Wenden Sie sich gegebenenfalls an den Autor, um ein unbeschädigtes Exemplar der Datei zu erhalten.
  10. Schließen Sie GSView mit ALT+F4.

Achtung: Überprüfen Sie die entstandene Textdatei unbedingt auf ihre Lesbarkeit. Unter Umständen werden für Anführungszeichen und Trennstriche nicht die korrekten Zeichen dargestellt. Tauschen Sie dann mit Hilfe der Funktion 'Suchen und Ersetzen' eines Textverarbeitungsprogramms die falschen Zeichen durch die Richtigen aus."