Vom Sprachschatz des Handys

1. August 2006, 19:23
posten

In Zukunft soll das Handy Fragen verstehen und beantworten können - Edward Schofield vom Forschungszentrum Telekommunikation berichtet im STANDARD-Interview über seine Arbeit in diesem Bereich

In Zukunft soll das Handy Fragen verstehen und beantworten können. Edward Schofield arbeitet am Forschungszentrum Telekommunikation im Bereich Sprachtechnologie genau an diesen Entwicklungen. Johannes Klostermeier sprach mit ihm.

*****

STANDARD: Was lange forschen Sie im Bereich Spracherkennung bereits am Forschungszentrum Telekommunikation in Wien (ftw.)?

Schofield: Seit viereinhalb Jahren arbeite ich am ftw. Wir untersuchen hier die Genauigkeit von Sprachmodellen. Ein Ziel ist es, dass in Zukunft Geräte wie etwa Handys laut ausgesprochene Fragen des Benutzers verstehen können. Dann könnten die Fragen auch automatisch beantwortet werden - basierend etwa auf den Informationen aus dem Internet.

STANDARD: Das klingt stark nach Weiterentwicklung in der Mensch-Maschine-Interaktion. Wie weit ist denn eigentlich hier der Stand der Dinge?

Schofield: Das heutige Niveau ist noch ziemlich primitiv. Die Menschen arbeiten immer noch hauptsächlich mit Tastatur und Maus. Und die Tastaturen sind immer noch die gleichen wie vor fünfzig Jahren. Es hat sich in den letzten Jahrzehnten wenig geändert, es besteht großer Verbesserungsbedarf.

STANDARD: Spracherkennung würde zum Beispiel das Leben mit mobilen Geräten und Handys deutlich vereinfachen. Warum ist die Technologie bislang nicht weiter vorangekommen?

Schofield: Es funktioniert heute schon für bestimmte Themen. Die Wiener Firma Philips Speech Processing etwa verkauft sehr erfolgreich Diktiergeräte an Radiologen und Anwälte. Vorher musste eine Sekretärin alles eintippen, jetzt geht das teilweise automatisch.

Dass es so gut funktioniert, liegt daran, dass beide Gruppen ein großes Bedürfnis für Abschriften haben, auch wenn sie Fehler haben, die händisch korrigiert werden müssen. Sie benutzen auch schon lange Zeit Diktiergeräte. Bei diesen Berufen gibt es auch einen begrenzten und spezialisierten Wortschatz, für den die Sprachmodelle erstellt sind.

STANDARD: Wann kann der Normalanwender von solchen Modellen profitieren? Es gibt ja schon Call-Center mit Spracherkennungsauswahl. Doch das funktioniert meistens nicht richtig. Oft hört man: "Ich habe Sie leider nicht verstanden"-und kann nur resignieren?

Schofield: Call-Center sind sehr teuer. Und weil die Technologie weniger kostet als Menschen, haben einige versucht, sie in Call-Centern einzusetzen. Sprachtechnologie ist dafür jedoch nicht die beste Anwendung. Manchmal funktioniert es, oft ist es aber sehr ärgerlich. Wenn man bei einer Fahrplanauskunft sagt, "ich möchte nach 'umpf'fahren", kann es sich um eine von 1000 Städten oder mehr handeln. Das überfordert die Technologie noch.

STANDARD: Wie lösen Sie zum Beispiel das Problem mit den Homofonen, Wörtern, die zwar gleich ausgesprochen werden, aber eine ganz andere Bedeutung haben wie 'Meer'und 'Mehr'im Deutschen oder 'Knight'und 'Night'im Englischen?

Schofield: Dafür gibt es akustisch keine Erfolg versprechende Möglichkeit. Das funktioniert nur durch Kontexterkennung, also die Analyse, welche anderen Wörter im Satz enthalten sind. Das ist so, wie wir Menschen das ausrechnen. Wenn wir die anderen Wörter nicht hören, können auch wir nicht wissen, was wirklich genau gemeint ist.

Wir müssen dann nachfragen. Das Gleiche gilt auch für Hintergrundlärm - ein großes Problem der Spracherkennung. Menschen können dann immer noch viel besser verstehen, weil sie vom Kontext des Gesagten mehr wissen; wovon genau gesprochen wird und wie die Wörter zusammenhängen.

STANDARD: Wo kann die Forschung hier effizient eingesetzt werden? Wie kann man hier Verbesserungen erzielen?

Schofield: Es gibt heute schon Software zu kaufen, um am Mikrofon Dokumente zu diktieren. Das funktioniert auch relativ gut. Es gibt aber nicht so viel Nachfrage dafür, wie vor Jahren prognostiziert. Die Menschen haben sich an die heutigen Computer mit ihren Tastaturen gewöhnt. Und das wird sich nicht so schnell ändern. Was sich schneller ändern könnte, sind die Möglichkeiten, mit dem Handy auf das Internet zuzugreifen.

Das ist eine attraktive Anwendung für Spracherkennung. Es ist besser, mit der Stimme fragen zu stellen, als alles einzutippen. Und die Antwort wiederum gesprochen oder schriftlich auf das Display zu bekommen. Eine Liste von großen Dokumenten wie bei der Suche am PC ist am Handy nicht besonders nützlich.

STANDARD: Wie lange dauert es noch, bis auch der Normalverbraucher diese Technologie anwenden können wird?

Schofield: Ich glaube, es ist technisch nicht so schwierig, weil die Syntax der Fragen begrenzt ist. Es kann noch bis zu fünf Jahren dauern, bis die ersten Produkte auf dem Markt sind. Aber man sollte mit Prognosen vorsichtig sein. Vor fünfzehn Jahren gab es noch so gut wie kein Internet, und seitdem hat sich die Welt total verändert. (DER STANDARD, Printausgabe, 26. Juli 2006)

Zur Person

Edward Schofield (27) wurde in Australien geboren. 1997 zog er nach Großbritannien, um an der Uni Cambridge Mathematik zu studieren. Schofield hat gerade seine Dissertation am Imperial College London im Bereich Statistische Mustererkennung abgegeben.

Zum Forschungszentrum Telekommunikation Wien (ftw.) kam er mit einem Marie-Curie-Auslandsstipendium der Europäischen Kommission. Schofield mag Wien im Sommer, geht gern schwimmen und laufen. Außerdem spielt er zusammen mit anderen Ausländern in der Theatergruppe "Die Fremden"mit. (jokl)

  • Ed Schofield glaubt, dass es nicht mehr lange dauernd wird, bis Normalverbraucher
neue Spracherkennungstechnologien nützen werden.
    foto: der standard

    Ed Schofield glaubt, dass es nicht mehr lange dauernd wird, bis Normalverbraucher neue Spracherkennungstechnologien nützen werden.

Share if you care.