Klare Befehle

18. April 2004, 22:18
posten

Relativ einfache Computer-Anwendungen lassen sich schon heute über Sprache steuern. Forscher arbeiten nun daran, Systeme dem geräuschvollen Alltag anzupassen

Wer kennt ihn nicht, den Computer HAL 9000 aus Stanley Kubricks Film 2001: Odyssee im Weltraum? Er konnte nicht nur jedes Wort verstehen und Antworten formulieren, sondern sein Sprachverständnis trainieren und letztlich sogar von den Lippen ablesen. Blickt man in heutige Forschungslabors, ist auch drei Jahre nach dem filmisch inszenierten Jahr von einem HAL nichts zu sehen. Erst in den letzten zehn Jahren sind Produkte auf den Markt gekommen, die mit Sprache umgehen können (siehe Wissen).

Die technologischen Hürden, die Forscher in den verschiedenen Entwicklungslabors überwinden mussten, waren beachtlich: Am Anfang funktionierten Spracherkennungssysteme nur dann, wenn die Worte einzeln und mit Pausen gesprochen wurden sowie der Wortschatz auf einen bestimmten Umfang eingeschränkt war. Die kontinuierlich, also ohne künstliche Pausen gesprochene Sprache stellte die Forscher vor größere Probleme. Denn während es Menschen auch bei einem schnell gesprochenen Satz relativ leicht fällt, einzelne Wörter zu erkennen und den Sinn zu verstehen, tut sich eine Maschine da schon viel schwerer. Das System muss in Echtzeit entscheiden, an welcher Stelle Wörter zu Ende sind. Der Rechenaufwand explodiert förmlich, sobald ein Sprecher nicht mehr nach jedem Wort eine Pause einlegt, sondern fröhlich vor sich hin plaudert.

Statistische Verfahren

Damit der Computer die Töne verstehen und entweder in Text oder einen bestimmten Befehl übersetzen kann, wurden bisher vor allem statistische Verfahren eingesetzt. Der Computer kann in seinem Archiv auf Referenzmuster zurückgreifen, mit denen er die aufgenommenen akustischen Einheiten vergleicht und durch Wahrscheinlichkeitsrechnung Rückschlüsse auf die Bedeutung zieht. Um die Rechenzeit zu verkürzen, analysiert er außerdem die Phoneme genannten kleinsten Bestandteile eines Wortes und zieht in komplizierten Rechenverfahren Rückschlüsse auf den gesamten Ausdruck, den sie bilden können.

Die Anwendungsbereiche für Spracherkennung und Sprachsteuerung sind nach Ansicht von Georg Niklfeld vom Forschungszentrum Telekommunikation Wien (FTW) breit gestreut: Sie reichen von der Callcenter-Automatisierung und Diktiersystemen über die flexible Bedienung von Handys und sogar Kleincomputern (PDA) bis hin zur Gerätesteuerung vor allem im Auto und Zugangssicherungen durch Sprecherveri- fikation. Das Problem: Die Systeme sind noch immer relativ starr. Die Spracheingabe muss zielgerichtet, am besten über ein Mikrofon direkt vor dem Mund, erfolgen, außerdem dürfen keine zu starken Umweltgeräusche stören.

Klare Befehle

Am besten funktionieren Steuerungssysteme, die nur auf klare Befehle reagieren müssen wie "Licht an" oder "Mehr Lautstärke". Formulieren Menschen aber komplexere Sätze, taucht eine weitere Fehlerquelle auf: Die Sprache muss in Tonfall und Dialekt den Referenzmustern in der Datenbank des Computers zumindest stark ähneln, was bei Systemen, die für bundesdeutsche Sprecher aufgesetzt wurden, hierzulande immer wieder zu Problemen geführt hat. Für Letzteres wurde am FTW eine Lösung gefunden: Die Forscher nahmen 2000 Sprecher aus allen heimischen Dialektregionen auf und erstellten eine österreichische Datenbank. "Wir konnten die Fehlerrate bei der Worterkennung um 30 Prozent senken."

Spontane Dialogsituationen

Am meisten Kopfzerbrechen bereiten den Wissenschaftern die spontanen Dialogsituationen, in denen sich Menschen trotz Lärmkulisse und unvollständig gesprochenen Sätzen verständigen können. Sie verfügen nicht nur über ein gutes Gehör, sondern wissen auch Mimik und Gestik des Gegenübers zu deuten. Der Maschine fehlt diese Intelligenz, weshalb man sich mit verschiedenen Ansätzen behilft:

Zum einen könnten Verteilung und Ausrichtung der Mikrofone durch Antennengruppen verbessert werden, schildert Gernot Kubin, Leiter des Instituts für Signalverarbeitung und Sprachkommunikation sowie des Doppler-Labors für nicht lineare Signalverarbeitung an der TU Graz. Darüber hinaus könnte man durch spezielle Algorithmen den Nachhall, der ein Signal verzerrt, reduzieren oder versuchen, Störgeräusche durch Schwingungsanalyse auszuschalten. Die Forscher versuchen dabei, sich modellhaft dem menschlichen Gehör anzunähern, das Signale in verschiedenen Frequenzbereichen gleichzeitig aufnehmen und auswerten kann.

Ein HAL 9000 ist noch länger nicht in Sicht. Es wäre denkbar, Computer zu konstruieren, die auch Emotionen in der Stimme von Menschen erkennen und darauf reagieren können. Man müsse sich aber fragen, "ob die Menschen das tatsächlich wollen", so Kubin. Erfahrungen mit automatisierten Callcentern hätten gezeigt, dass Anrufer sofort erkennen möchten, ob eine Maschine oder ein Mensch mit ihnen spricht. (DER STANDARD, Printausgabe, 13.4.2004)

Von Elke Ziegler

Links

speech.ftw.at

www.spsc.tugraz.at

Share if you care.