Deutsche Forscher arbeiten an einem automatischen "Omnitranslator"

26. September 2015, 19:08
19 Postings

Hybride Übersetzungstechnologie kombiniert statistische Systeme mit linguistischem und semantischem Wissen

Jeder kann sich mit ein paar Klicks selbst davon überzeugen, dass automatisierte Übersetzungen im Internet nicht gerade optimale Ergebnisse liefern, auch wenn sich die Software dahinter in den letzten Jahren entscheidend verbessert hat. Dennoch leiden sie noch immer an einer Grundkrankheit: Online-Übersetzungssysteme lernen Sprachen, indem sie große Mengen von mehrsprachigen Texten mit statistischen Lernverfahren verarbeiten. Dabei berechnen sie die Wahrscheinlichkeiten bestimmter Wortfolgen.

Nur: Sprachen sind nicht bloß Folgen von Wörtern, sondern haben eine grammatische Struktur. Deutsche Wissenschafter arbeiten derzeit an einer hybriden Übersetzungstechnologie, die statistische Systeme mit linguistischem Wissen und semantischem Wissen aus dem Internet anreichert.

Das Lernen von Sprachen ist keine leichte Aufgabe. Während es Kindern spielerisch gelingt, ihre eigene oder sogar eine fremde Sprache zu erwerben, indem sie den Erwachsenen zuhören und sich ausprobieren, müssen Erwachsene sich für jede neue Sprache mühsam Grammatikregeln und Vokabeln aneignen.

Computerprogramme wie zum Beispiel die bekannten Online-Übersetzungssysteme lernen Sprache, indem sie große Mengen von mehrsprachigen Texten aus dem Internet mit maschinellen Lernverfahren verarbeiten ("Big Data") und so statistische Wahrscheinlichkeiten lernen, wie bestimmte Wörter und Folgen von Wörtern übersetzt werden. Die Systeme können dann ungefähre Übersetzungen erzeugen, deren Qualität je nach Eingabe sehr stark schwankt.

Das beste aus zwei Welten

Sprachen sind aber nicht bloß Folgen von Wörtern, sondern haben eine grammatische Struktur, die beispielsweise aus Subjekt, Prädikat und Objekt bestehen kann. Tatsächlich gibt es auch Computersysteme zur maschinellen Übersetzung, die diese Art von Information nutzen. Diese linguistisch motivierten Systeme sind allerdings recht unflexibel und finden heute nur in bestimmten Nischen eine Anwendung. So wird zum Beispiel die Zeitung La Vanguardia jede Nacht mit solch einem System von Spanisch ins Katalanische übersetzt und nur noch minimal von menschlichen Übersetzern nachbearbeitet, bevor sie in den Druck geht.

Im Internet gibt es auch semantisches Wissen, etwa in maschinenlesbaren Varianten von Wikipedia, dem sogenannten "Semantic Web". Diese Ressourcen kodieren Informationen wie "Paris ist die Hauptstadt von Frankreich", aber auch "Paris ist eine Stadt in Texas".

Im Rahmen des europäischen Verbundprojektes QTLeap entwickelt das Language Technology Lab des Deutschen Forschungszentrums für Künstliche Intelligenz zur Zeit eine hybride Technologie zur maschinellen Übersetzung, die statistische Systeme mit linguistischem Wissen und semantischem Wissen aus dem Internet anreichert, um bessere Übersetzungesergebnisse zu erzielen. Die konkrete Anwendungsdomäne in diesem Projekt ist eine Chat-Hotline, die Nutzeranfragen zu PC-Problemen automatisch in verschiedenen Sprachen beantworten kann.

Auf dem Weg zum "Omnitranslator"

Die ersten Prototypen sind vielversprechend, aber "wir stehen mit dieser hybriden Forschungsrichtung noch relativ am Anfang", sagt Hans Uszkoreit, Wissenschaftlicher Direktor und Leiter des Language Technology Labs am DFKI Berlin. "Noch schwieriger als die maschinelle Übersetzung selber ist die Bewertung der Übersetzungsqualität und insbesondere die Diagnose der Schwächen der einzelnen Übersetzungstechnologien. Leider ist es derzeit fast gar nicht möglich, Übersetzungsqualität verlässlich automatisch zu messen. Das ist eine große Herausforderung für das gesamte Forschungsgebiet, an der wir hier am DFKI ebenfalls intensiv arbeiten." Am Ende dieser Entwicklung könnte allerdings etwas stehen, das derzeit noch nach Science Fiction klingt: Ein funktionierender "Omnitranslator". (red, 26.9.2015)

Share if you care.