Zuverlässiges Texterkennungs-Tool für historische Druckschriften

    24. April 2019, 08:00
    11 Postings

    Deutsche Wissenschafter präsentierten kostenloses Programm zur Umwandlung digitalisierter Dokumente in bearbeitbaren Text

    Historiker und Sprachwissenschafter haben es nicht immer leicht. Bei der Arbeit mit jahrhundertealten Druckwerken ist der Aufwand, Schriften zu entziffern, oft groß. Sind die Seiten schlecht erhalten, wird es noch schwieriger. Viele historisch relevante Dokumente sind inzwischen digitalisiert verfügbar. Um mit ihnen arbeiten zu können, müssen sie aber in eine moderne Textform gebracht werden.

    Forscher der Universität Würzburg haben nun eine wichtige Weiterentwicklung in Sachen Texterkennungssoftware vorgestellt: Mithilfe der kostenlosen Anwendung OCR4all lassen sich digitalisierte Drucke mit einer Fehlerquote von weniger als einem Prozent in computerlesbaren Text umwandeln. Das Programm bietet eine grafische Benutzeroberfläche, für deren Bedienung kein Fachwissen nötig ist – ein entscheidender Fortschritt gegenüber vielen früheren Anwendungen.

    Gut trainierte Software

    Die Entwicklung von OCR4all erfolgte in enger Zusammenarbeit zwischen Informatikern und Geisteswissenschaftern, unter anderem mit Germanistikern und der Romanistikern im Projekt "Narragonien digital". Dort ging es darum, das "Narrenschiff" digital aufzubereiten – eine Moralsatire von Sebastian Brant aus dem 15. Jahrhundert, die in viele Sprachen übersetzt wurde. Das Programm steht auf der Plattform GitHub mit Anleitungen und Anschauungsbeispielen frei zur Verfügung.

    "Eines der größten Probleme war die Typographie", sagte Christian Reul, Leiter des Projekts. Das liege unter anderem daran, dass die ersten Druckereien des 15. Jahrhundert keine einheitlichen Schriften verwendeten. "Ihre Druckstempel waren alle selbst geschnitzt, jede Druckerei hatte praktisch ihre eigenen Buchstaben und Zeichen."

    Um die Texterkennung zu automatisieren, musste die Software zunächst anhand von Beispielmaterial lernen, feine Unterschiede zu erkennen. In einer Fallstudie mit sechs historischen Drucken aus den Jahren von 1476 bis 1572 konnte dadurch die Fehlerquote bei der automatischen Texterkennung im Schnitt von 3,9 auf 1,7 Prozent gesenkt werden. Für Reul ein bemerkenswertes Ergebnis: "Die Informatik, die dahinter steht, ist extrem spannend." (red, 24.4.2019)

    • Alte Druckwerke wie dieses (aus einer französischen Version des "Narrenschiffs") lassen sich mit OCR4all zuverlässig in computerlesbaren Text umwandeln.
      foto: staats- und universitätsbibliothek dresden (CC-Lizenz)

      Alte Druckwerke wie dieses (aus einer französischen Version des "Narrenschiffs") lassen sich mit OCR4all zuverlässig in computerlesbaren Text umwandeln.

    Share if you care.