Bild nicht mehr verfügbar.

Joe Rogan arbeitet unter anderem als Kampfsportkommentator und -moderator.

Foto: APA/AFP/GETTY IMAGES/Sean M. Haf

Künstliche Intelligenz ist in aller Munde. Mehr und mehr Tätigkeiten sollen von ihr erleichtert oder komplett übernommen werden. Die Möglichkeiten scheinen unbegrenzt. Wie weit diese Technologie teilweise ist, zeigt die Firma Dessa. Das IT-Startup hat laut "The Verge" wohl eine der besten künstlichen Stimmimitationen kreiert, die bisher zu hören waren.

US-Podcaster vs. KI

Versuchskaninchen war Joe Rogan. Der US-Amerikaner werkt unter anderem als Podcaster, Comedian und Kommentator im Kampfsport. Seine Stimme ist also vielen Zuhörern bekannt. Sein Podcast "Joe Rogan Experience" – der unter anderem durch den Gastauftritt von Tesla-Chef Elon Musk, der sich einen Joint genehmigte, weltweit bekannt wurde – umfasst beinahe 1.300 Episoden und ist ein weltweiter Erfolg.

Und die Stimmsimulation dürfte auch als Erfolg durchgehen. Waren bisherige KI-Stimmimitationen oft von sehr robotisch klingendem Sound geprägt, kamen die Macher diesmal zumindest sehr nah ans Original ran. Auf fakejoerogan.com kann man testen, ob man KI und Mensch auseinanderhalten kann. Für Rogan selbst klingt die KI "erschreckend ähnlich".

Keine Details wegen "Deepfake"-Gefahr

Rogans Bekanntheit half freilich dabei, dadurch hatte die Maschine genug Übungsmaterial zum Lernen. Wie genau die KI-Stimme hergestellt wurde, darüber will Dessa schweigen, um den Missbrauch der Technologie zu verhindern. Immerhin könnten Stimmimitationen auch für Betrüger interessant sein.

Das Erzeugen von Audio- und Videomaterial, das immer echter wirkt, beschäftigt Experten und Politik immer öfter. Mit sogenannten "Deepfakes", so fürchtet man, könnten künftig etwa Politikern und anderen bekannten Persönlichkeiten Worte in den Mund gelegt werden, die sie eigentlich nie gesagt haben (das Ibiza-Video wurde von "Spiegel" und "SZ" übrigens vorab untersucht und für echt befunden).

Eine KI-Kostprobe.
RealTalk x Dessa

Visionen

Das Unternehmen unterstreicht lieber die möglichen positiven Effekte. So könnten zum Beispiele Filme und TV-Serien schneller synchronisiert werden. Auch Personen mit Stimmbeeinträchtigungen sollen davon profitieren.

Die Vision sei klar: "In ein paar Jahren wird der technische Fortschritt so weit sein, dass mit ein paar Sekunden Audio-Material die komplette Stimme eines Menschen simuliert werden kann". (red, 22.5.2019)