DeepMind: Künstliche Intelligenz schlägt Menschen beim Lippenlesen

24. November 2016, 13:40
20 Postings

Nach Betrachtung von 5.000 Stunden an TV-Aufnahmen – Google-System erreicht Genauigkeit von 46,8 Prozent

Vor allem mit der Entthronung des weltbesten Spierls in "Go" hat Googles neuronales Netzwerk DeepMind sich heuer viele Lorbeeren verdient. Doch abseits der Publicity-wirksamen Experimente gewinnt die Technologie immer stärker an Bedeutung und wird vom Internetriesen auch zunehmend zur Stützung eigener Services verwendet.

Jetzt hat man einen weiteren Meilenstein gesetzt. DeepMind ist nach dem Konsum von 5.000 Stunden Fernsehen nun in der Lage, besser Lippen zu lesen, als menschliche Spezialisten.

Deutlich besser als Menschen

Die Google-Forscher und ihre Kollegen von der University of Oxford trainierten das selbstlernende System "Watch, Listen, Attend and Spell" (PDF) mit TV-Aufzeichnungen verschiedener BBC-Programme. Darunter auch Nachrichten und politische Diskussionssendungen wie "Question Time" und "Newsnight". 118.000 verschiedene Sätze und 17.500 unterschiedliche Wörter kamen vor.

Die künstliche Intelligenz kann mittlerweile nur visuell erfasstes Gesagtes mit einer Genauigkeit von 46,8 Prozent erfassen, traf also beinahe jedes zweite Wort. Sein menschlicher Kontrahent, ein professionelle Lippenleser, erreichte mit 12,4 Prozent nur eine viel niedrigere Erfolgsquote, fasst The Verge zusammen.

Andere Forscher der Uni Oxford hatten zuvor schon ein Programm namens "LipNet" entwickelt, das im Testlauf in 93,4 Prozent richtig lag, während der menschliche Teilnehmer lediglich auf 52,3 Prozent kam. Allerdings wurde hier auf eigens eingesprochenes Material und eine Datenbank aus nur 51 Wörtern zurückgegriffen.

Potenzial und Gefahr

Das DeepMind-Team sieht eine Reihe praktischer Anwendungsmöglichkeiten für computerisiertes Lippenlesen. Systeme mit der Technologie könnten beispielsweise eingesetzt werden, um Menschen mit beeinträchtigtem Gehör beim Verstehen von Konversationen zu helfen oder Sprachassistenten wie Siri und Google Now per Kamera zu nutzen.

Kritiker befürchten, dass derlei Technologie auch verwendet werden könnte, um von Überwachungskameras Gespräche erfassen zu lassen. Die Forscher argumentieren allerdings, dass dies bei den oft niedrig aufgelösten Aufnahmen mit geringer Bildwiederholrate und schlechter Qualität derzeit nicht realistisch sei. (gpi, 24.11.2016)

  • DeepMind konnte beinahe jedes zweite Wort korrekt erfassen.
    foto: derstandard.at

    DeepMind konnte beinahe jedes zweite Wort korrekt erfassen.

Share if you care.