Computer zum Sprechen zu bringen ist noch der leichteste Teil der Übung. Sie so zu dressieren, dass sie zuhören und einzelne Brocken kapieren, ist deutlich schwerer - und davon, mit dem Rechner einen echten verbalen Dialog zu führen, kann noch keine Rede sein. Aber Softwareentwickler arbeiten daran. Und reden darüber.

* * *

Damals, in einer Zukunft, die längst in der Vergangenheit liegt, war das Problem gelöst. Zumindest im Film. Da stand Mr. Scott, Maschinist der Enterprise, in einem der Kinoableger der endlosen Serie aus den unendlichen Weiten in einem US-amerikanischen Labor der 90er-Jahre - und wollte eine Formel in einen Rechner eingeben. (Zur Rettung der Zukunft hatte man sich "Zurück in die Gegenwart" begeben - das nur nebenbei.) Mr. Scott stand jedenfalls vor dem Terminal und hub an: "Computer!" Nichts geschah - nur die Gegenwartstechniker griffen sich an den Kopf.

Plastikvogel

Neulich, in einer Gegenwart, die immer nach gestern riecht, durfte sich dann Lizzy Engstler freuen: Vor der "Willkommen Österreich"-Moderatorin stand ein Plastikvogel auf dem ORF-Wohnzimmertisch, ruckelte mit Flügeln und Schnabel - und las ein E-Mail vor: "Ich kann E-Mails vorlesen." Angesichts der Verzückung der Moderatorin hätte sich Mr. Scott an den Kopf gegriffen.

Freilich: Im echten Leben ist die Sache ein wenig komplizierter. Dort, wo die Enterprise-Filmer die Technik der späten 90er-Jahre sahen, ist sie noch nicht - und was Lizzy Engstler begeistert, ist keine Sensation. Dass Spracherkennung und Sprachsynthese in Softwareschmieden und Hightech-Think-Tanks unter "heiß" laufen, ist aber unbestritten: Gerade dort, wo der Mensch mit Augen und Händen intensiv und konzentriert zu Werke geht, erklärt Christoph Schaffer, Studiengangsleiter der Fachhochschule Hagenberg, "ist der Weg vorgezeichnet - das ist der freie Kanal, über den man Informationen positionieren kann, ohne zu sehr abzulenken."

Navigationssysteme, die Autofahrer mit sanfter Stimme ans Ziel lotsen, oder sprachgesteuerte Telefonfreisprech- und -Wählanlagen, erklärt Schaffer, seien da aber erst der Anfang: "Vor allem bei der Arbeitssicherheit tut sich ein weites Feld auf." Thema der Hagenberger ist vor allem die "Emotionalisierung der Sprachsynthese", also die Modulation der Stimme aus der Kiste. Vom sanften Hinweis bis zur massiven Aufforderung: "Das funktioniert in Ansätzen. Der Bedarf an Systemen mit guter Sprachqualität ist da: Stellen Sie sich eine Drehbank vor - da zählt auch die Intensität der Warnung."

Die andere Richtung, also die akustische Befehlseingabe - oder gar "echte" verbale Kommunikation mit dem Automaten, ist aber ein anderes Thema: Zwar gibt es seit über einem Jahrzehnt Diktiersysteme, die vor allem in Anwaltskanzleien und Spitälern intensiv genutzt werden - aber Fehlerquoten von über zehn Prozent machen das "händische" Nachkontrollieren der Texte unverzichtbar. "Die Software kann gute Rohtranskripte erstellen, aber was die Fehlerquote angeht, liegt man derzeit bei einer technologieimmanenten Grenze", räumt Georg Niklfeld, Projektleiter im Bereich User-Interface Services im Forschungszentrum Telekommunikation Wien (ftw.), ein.

Überdies mache es einen Unterschied, ob sich die Software auf einen Sprecher, seine Stimme, seine Modulation, seinen Akzent und sein Tempo einstellen - diese also "lernen" - könne, oder ob eine Vielzahl an Sprechern auf das System losgelassen werden: Nachdem das ftw. eine eigene Sprachdatenbank für "österreichisches Deutsch" entwickelt hatte, konnte die Fehlerhäufigkeit um fast ein Drittel gesenkt werden.

Das Erkennen von Störgeräuschen, so Niklfeld, sei die nächste Hürde - und dann gelte es noch, die Scheu des Benutzers zu überwinden: In den USA gebe es bereits Callcenter, in denen der menschliche Telefonist durch Automaten, die auf ein bestimmtes Kommandovokabular programmiert sind, ersetzt wurde. "Das ist natürlich kosteneffizienter, jedoch stellt sich die Frage, wie gerne Anrufer mit Dialogsystemen reden." Von tatsächlich "kommunizierenden" Programmen könne man aber - noch - nicht sprechen, betont auch Ernst Buchberger, Computerlinguist am Institut für künstliche Intelligenz der medizinischen Universität in Wien: "Schlichte Wort- oder Phrasenerkennung funktioniert. Aufgrund statistischer Plausibilität - also welche Begriffe zu welchem Wort passen - sogar mit sinkender Fehlerquote. Aber davon, dass Systeme Inhalte verstehen können, kann nach wie vor keine Rede sein."

Standardfunktionen

Neben standardisierten akustischen Question-Answer-Funktionen (egal ob für Callcenter, Navigationssysteme, PDAs oder Heimcomputer), so die Forscher, liege das Potenzial von Spracherkennungssystemen derzeit aber vor allem in Recherche- und Suchdiensten im Multimediabereich: Unter dem Titel "Broadcast Indexing" können TV-Beiträge bereits jetzt nach bestimmten Stich- und Schlüsselwörtern gescannt werden. Freilich mit einer immer noch hohen Fehlerquote - aber darüber, wie man etwa "Bode Miller" korrekt ausspricht, sind sich ja nicht einmal österreichische Sportstimmen untereinander einig. (Thomas Rottenberg/DER STANDARD, Print-Ausgabe, 21.2.2005)