Heines »Neue Gedichte« sind über 175 Jahre alt. Viele der im Lauf der Zeit entstandenen Ausgaben des Buches haben auch den Weg ins Netz gefunden. Allerdings ist den Texten der Wandel in die elektronische Form in den seltensten Fällen bekommen. Denn man bedient sich zwar aktueller Technik, um die Texte zu digitalisieren, aber die dabei entstehenden Fehler werden korrigiert wie vor 175 Jahren: durch Korrektur lesen. Das geht besser.
Man könnte sich ja den Spaß machen und anfangen, Übertragungsfehler zu klassifizieren und als Indikatoren für die Zeit der Übertragung anzusehen. Denn es gibt Fehler, die eher den Setzern früherer Zeiten unterlaufen. wie den Fehlgriff bei »n« und »u«, weil beide Buchstaben in den »Neuen Gedichten« mit derselben Letter gesetzt werden und der Unterschied nur in der Drehung liegt, so dass aus »und« versehentlich »uud« wird. Demgegenüber haben heutige Computer-Programme bei der optischen Texterkennung (OCR) speziell im Fall von Frakturschrift Schwierigkeiten, etwa das kleine »f« und das ähnlich aussehende lange »s« auseinander zu halten.
Es gibt eine ganze Reihe von Fehlern, die beim Digitalisieren von Texten häufiger entstehen, und die dann beim Lesen einen Hinweis liefern, mit welcher Sorgfalt der Text behandelt wurde. Je nach Anspruch steigt die Sorgfalt. So werden beim Deutschen Textarchiv die Texte in der Regel zwei Mal erfasst und zwar von Mitarbeitern, deren Muttersprache nicht Deutsch ist. Die beiden Fassungen werden dann abgeglichen. Das Vorgehen sorgt für eine vergleichsweise niedrige Fehlerquote. Der persönlichen Erfahrung mit Seumes »Spaziergang nach Syrakus« nach bleibt allerdings noch genügend zu korrigieren.
Im Fall der »Neuen Gedichte« Heines stellt das Wikimedia-Projekt Wikisource eine Fassung der Erstausgabe bereit. Die Arbeit an der Fassung galt als abgeschlossen, da die Texte alle zwei Mal Korrektur gelesen worden waren. Das ließ die Wikisource-Ausgabe als gutes Korrektiv für die hier zur Verfügung gestellte Fassung erscheinen. Dabei tauchten dann doch noch eine ganze Reihe von Abweichungen zur Erstausgabe auf, die insbesondere Zeichensetzung und Rechtschreibung betrafen. Anscheinend hatten häufiger neuere Editionen der Texte als Vorlage gedient, die dann wieder der Erstausgabe angepasst wurden. Und trotz der Prozedur des zweimaligen Korrekturlesens durch verschiedene Personen, blieben eine ganze Reihe von Anachronismen erhalten.
Die Abweichungen der Wikisource-Fassung von der Erstausgabe fielen auf, weil sich im Lauf der Zeit mit den hier veröffentlichten Texten ein anderes Vorgehen als vorteilhaft erwiesen hat:
- - Den Ausgangspunkt bildet das Digitalisat einer Erstausgabe.
- - Möglichst hoch aufgelöste Screenshots der Textpartien auf den Seiten
- - werden vom OCR-Programm Tesseract eingelesen und als Textdateien ausgegeben.
- - Die Textdateien werden in einem ersten Durchgang zusammengefügt, wenn etwa ein Gedicht über mehrere Seiten reicht.
- - Per Copy & Paste kommt aus einer anderen Quelle, hier Wikisource, der Vergleichstext in eine weitere Datei.
- - OCR-Text und Vergleichstext lassen sich mit dem Programm diff vergleichen.
- - Von diff ausgewiesene Unterschiede werden anhand des Digitalisats der Erstausgabe überprüft.
Auf technische Hilfsmittel wie diff zurück zu greifen, mag in diesem Fall bloß effizient erscheinen. Wenn es aber wie in Kurt Schwitters' »Die Zwiebel« ans Abzählen der Buchstaben geht, weil das »a« sieben Mal hinter einander erscheint, erlöst diff auch von der Qual des Korrekturlesens. Allerdings findet dieser Ansatz des automatisierten Vergleichs gerade bei Schwitters auch wieder Grenzen, wenn etwa das Druckbild in die Überprüfung einfließen muss.
Trotz der technischen Hilfsmittel bildet das Korrekturlesen den Abschluss. Computer, die Programme und ihre Benutzer sind fehlbar, von daher sollte man dem entstandenen Text mit Misstrauen begegnen. Zudem wurde der Text in ein Format gebracht (epub, html), das selbst auf Konformität zur Vorlage und zum technischen Standard geprüft werden muss.