Forscher entwickeln Algorithmus, der selektiv mithören kann

London/Wien – Auf Partys oder Empfängen herrscht oft ein hoher Geräuschpegel. Dem Gehirn gelingt es trotzdem, die relevanten Informationen aus dem Stimmengewirr herauszufiltern. Die Unterdrückung von Störgeräuschen erfordert jedoch Konzentration und Aufmerksamkeit. Wissenschafter sprechen vom sogenannten Cocktailparty-Effekt.

Mit dem Alter nimmt diese Fähigkeit ab. Entsprechend haben ältere Menschen Schwierigkeiten, im Stimmengewirr einzelne Geräusche zu verstärken und andere unterdrücken.

Menschen tun sich relativ leicht, bei einer Cocktailparty einzelne Stimmen gezielt herauszuhören.

Doch auch Maschinen bereitet der Cocktailparty-Effekt Schwierigkeiten. So gelingt es Netzwerklautsprechern wie Google Home oder Amazon Echo nicht, Stimmen im Raum von jenen aus dem Fernseher zu unterscheiden, was in den USA Anfang des Jahres beinahe zu einem Chaos geführt hätte: Ein Nachrichtensprecher hatte im Fernsehen ein Sprachkommando wiederholt und damit tausende Geräte aktiviert.

Frequenzfilter ohne Erfolg

Versuche, Schallquellen mit Frequenzfiltern zu lokalisieren, waren bislang wenig erfolgreich. Doch nun ist es Forschern des Mitsubishi Electric Research Laboratory in Cambridge (US-Bundesstaat Massachusetts) erstmals gelungen, eine Software so zu programmieren, dass sie einzelne Stimmen aus verschiedenen Gesprächen isolieren und einer Person zuordnen kann.

Wie die Fachzeitschrift "New Scientist" berichtet, nutzt die künstliche Intelligenz (KI) einen maschinell lernenden Algorithmus, der spezifische Merkmale des Sprechers als akustischen Fingerabdruck – den sogenannten "Voiceprint" – identifiziert.

Das System könne die Stimmen zweier Sprecher, die gleichzeitig in dasselbe Mikrofon sprechen, mit 90 Prozent Genauigkeit unterscheiden, so ein Sprecher von Mitsubishi Electric. Das KI-System hätte damit das Hörvermögen – wenn auch nicht das semantische Verständnis – eines jungen Erwachsenen.

Neue Chancen und Risiken

Dieser Durchbruch eröffnet ganz neue Möglichkeiten – etwa zur Verbesserung von Netzwerklautsprechern oder von Programmen zur automatischen Transkription. Die neue Software könnte aber auch dabei helfen, für polizeiliche Ermittlungen Audiodaten auszuwerten.

So etwa sind verrauschte Sprachaufzeichnungen, bei denen mehrere Personen durcheinanderreden, für die Ermittler ein Problem. Mithilfe des KI-Systems könnten Gesprächsinhalte maschinell transkribiert werden und wertvolle Erkenntnisse liefern. Wer hat im Streit dem anderen zugerufen?

Akustische Verbrechensaufklärung

Die neuen Stimmaufzeichnungsgeräte wie Amazon Echo werden freilich auch jetzt schon zur Verbrechensaufklärung eingesetzt: So verlangte die Polizei in Bentonville im US-Bundesstaat Arkansas von Amazon die Herausgabe von Audiodateien seines Netzwerklautsprechers Echo, um einen mysteriösen Mordfall zu klären. Die Polizei erhoffte sich Aufschlüsse darüber, was zur Tatzeit geschah und ob es Schreie des Opfers gab. Amazon rückte die Daten nach anfänglichem Zögern letztlich doch heraus.

In China treiben die Behörden die stimmbiometrische Erfassung und Überwachung längst noch weiter aus. Laut einem inzwischen gelöschten, aber von der auf ausländischen Servern laufenden Seite China Digital Times archivierten Artikel der Nachrichtenseite The Paper erprobt die Polizei in der Provinz Anhui ein automatisiertes Stimmerkennungssystem, das Telefongespräche in Echtzeit abhört und einzelne Stimmen isoliert.

Identifikation per Stimme

In einem Fall soll die stimmbiometrische Identifikation dabei geholfen haben, einem Betrüger das Handwerk zu legen. Als eine Frau in Huainan einen Anruf von einem Betrüger bekam, der sie Schritt für Schritt instruierte, wie sie das Geld zu transferieren habe, schlug das System Alarm und informierte die Polizei. Diese soll dann den Kommunikationsverkehr gekappt haben.

Datenschützern bereitet diese Entwicklung Kopfzerbrechen. Die Stimme ist wie das Gesicht ein sensibles biometrisches Merkmal. Aus dem menschlichen Organ lassen sich zahlreiche Persönlichkeitsmerkmale und teils auch situative Stimmungslagen ableiten. Ist der Sprecher nervös? Ist er erkrankt? Hat sie am Vortag Alkohol getrunken? Das alles können Algorithmen durch eine Stimmanalyse herausfinden.

Programmiertes Vergessen

Auf einer Party ist das Gesagte Schall und Rauch. Im Informationszeitalter wird das gesprochene Wort gespeichert und ausgewertet. Eine Maschine kann im Gegensatz zum Menschen nicht weghören. Aber vielleicht ist auch das etwas, was die Maschine noch lernen kann. (Adrian Lobe, 29.10.2017)

Akustische Überwachung