Vorbild Gehirn: Computer lernen hören

16. August 2009, 16:40
5 Postings

Mathematisches Modell verbessert maschinelle Wahrnehmung

Forscher des Leipziger Max-Planck-Instituts für Kognitions- und Neurowissenschaften  und des Wellcome Trust Centre for Neuroimaging  in London haben ein mathematisches Modell entwickelt, um die maschinelle Wahrnehmung und Verarbeitung von gesprochener Sprache deutlich zu verbessern. Der Ansatz hat die Funktionsweise zur Spracherkennung des menschlichen Gehirns zum Vorbild. Er bezieht im Gegensatz zu bisher verfügbarer Spracherkennungs-Software nicht nur charakteristische Merkmale in den Frequenzen der Stimme heran, sondern analysiert das Gesprochene auch auf zeitliche Abfolgen hin.

Zuhören ist schwierig

Sprachautomaten, wie sie heute beispielsweise von Telefonhotlines eingesetzt werden, scheitern in der Regel sehr leicht an der Erkennung des Gesprochenen. Zu schnelle oder langsame Aussprache, Störgeräusche oder der Dialekt des Benutzers machten die Arbeit mit derartigen Systemen schwierig. "Viele Wahrnehmungsreize unserer Umwelt lassen sich als zeitliche Abfolge beschreiben", sagt der am Projekt beteiligte Stefan Kiebel. So bestehe gesprochene Sprache ebenso wie Musik aus einer Abfolge hierarchisch aufeinander aufbauender Abschnitte.

Veränderliche Informationen

Das menschliche Gehirn, so die Hypothese der Wissenschaftler, kategorisiert die verschiedenen Signale. Die Palette reicht hierbei von kleinen, schnell veränderlichen Signalen wie einzelnen Lauten und Silben bis hin zu langsam veränderlichen Informationen, etwa dem Gesprächsthema. "Das Gehirn sucht permanent nach zeitlicher Struktur in der Umwelt, aus der es ableiten kann, was als nächstes passieren könnte", so der Fachmann. Auf diese Weise wird es möglich, Laute und Wörter - basierend auf den langsam veränderlichen Informationen wie dem Gesprächsthema - vorauszuahnen. Das Modell, das die Leipziger Forscher entwickelt haben, kann dies ebenfalls.

Vokale, dann Konsonanten

Die "Sprache", mit der die Software rund um das mathematische Modell getestet wurde, war allerdings vereinfacht - sie bestand nur aus vier Vokalen. "Zunächst ging es uns darum, zu prüfen ob die prinzipielle Annahme stimmt", sagt Kiebel. Zukünftig könne man aber auch Konsonanten mit einbeziehen und neben Lauten und Silben auch weitere Hierarchie-Ebenen für Wörter und Sätze einbauen. So ließe sich das Modell auch auf natürliche Sprachen übertragen.

Die Zukunft

"Interessant für Neurowissenschaftler ist vor allen Dingen, dass die Reaktionen der Software dem ähnelten, was mit einem echten menschlichen Gehirn zu beobachten wäre", so Kiebel. Dies deutet darauf hin, dass das Modell tatsächlich den Abläufen im Gehirn entspricht und für zukünftige Weiterentwicklungen im Bereich maschineller Spracherkennung von Nutzen sein kann. (pte)

  • Bild nicht mehr verfügbar

    Die Erkenntnisse sollen das „Hörvermögen“ von Computern verbessern.

Share if you care.