Ein Smartphone mit der Aufschrift
Auch ChatGPT ist ein System, das auf Natural Language Processing basiert.
AP/Michael Dwyer

Milliarden von Menschen werden aufgrund ihrer Sprache vom weltweiten Informationsstrom ausgegrenzt. Denn 17 Prozent der weltweiten Sprachen, viele davon in Afrika angesiedelt, sind sogenannte "low resource languages", also Sprachen, für die vergleichsweise wenige digitalen Datensätze verfügbar sind. Sie waren daher eher ungeeignet für die klassisch angewendete Natural-Language-Processing-(NLP-)Methode und wurden daher auch nicht in KI-Systeme eingespeist.

Alltäglich sind wir mit KI-Systemen konfrontiert: Übersetzungs-Apps, Suchmaschinen-Vorschläge, Auto-Reply-Assistenten, E-Mail-Filter und Sprachassistenten wie Alexa und Siri. Sie alle arbeiten im Hintergrund und stützen sich dabei auf Natural Language Processing). Da stellt sich schon die Frage: Welche Sprachen spricht die KI? Und welche nicht?

Die Organisation Masakhane, was so viel wie "Wir bauen gemeinsam" bedeutet, versucht, der Unterrepräsentation entgegenzuwirken. Ihre mehr als 1.000 Mitglieder aus 30 afrikanischen Ländern sammeln Daten zu afrikanischen Sprachen, organisieren Treffen und veröffentlichen wissenschaftliche Beiträge und Forschungsarbeiten.

Englisch immer noch alleinige Grundlage

Google Translate, Microsoft Bing, Chatbots und ChatGPT-3: Die meisten Anwendungen funktionieren auf Basis westlicher Sprachen. Allen voran natürlich Englisch und europäische Sprachen. In der Recherche zeigt sich: Die KI-Systeme sind gut darin, viele andere Sprachen ins Englische zu übersetzen, aber sie tun sich schwer damit, Englisch in andere Sprachen zu übersetzen – insbesondere in solche mit nichtlateinischen Schriften.

Der junge Mann steht im Vordergrund. Im Hintergrund ist verschwommen eine große Halle zu sehen.
Kelechi Ogueji ist KI-Techniker und Mitglied bei der Organisation Masakhane.
University of Waterloo

"Vorgefertigte Sprachmodelle haben die Art und Weise verändert, wie Computer Textdaten für Aufgaben von der maschinellen Übersetzung bis zur Beantwortung von Fragen verarbeiten und analysieren", sagt dazu Kelechi Ogueji von der Universität Waterloo in Kanada. Auch er ist Mitglied bei Masakhane und bringt das Problem folgendermaßen auf den Punkt: “Leider haben afrikanische Sprachen in der Forschung nur wenig Beachtung gefunden." Beispielsweise die Sprache Swahili: Sie wird auf dem afrikanischen Kontinent von 200 Millionen Menschen gesprochen, ist im Netz aber kaum vertreten. Zum Vergleich: Deutsch ist nach Englisch, Russisch und Chinesisch die viertmeistvertretene Sprache im Internet. Knapp 95 Millionen Menschen, also nur halb so viele wie bei Swahili, haben aber Deutsch als Muttersprache.

Sogenannte Large Language Models arbeiten mit Wörtern unter Verwendung statistischer Muster, die aus Milliarden von Wörtern aus dem Internet, Büchern und anderen Ressourcen gelernt wurden. Für ressourcenreiche Sprachen wie Englisch oder Deutsch ist es einfach, viel Text zu finden, um NLP-Systeme zu trainieren. Für viele andere Sprachen mit weniger Datenmaterial ist das schwieriger. Rund 7.000 weltweit gesprochene Sprachen werden als "datenarm" identifiziert: Sie bieten nicht genug digitale Information für die datenhungrigen Netzwerke. Viele afrikanische Sprachen konnten daher mit der NLP-Methode nicht so einfach in Systeme eingespeist werden. Das ändert sich nun langsam.

Das AfriBERTa-Sprachmodell

An der Cheriton School of Computer Science an der Universität Waterloo entwickelte Kelechi Ogueji mit Kolleginnen und Kollegen 2021 für die Methode des "Pretraining" ein neuronales Sprachmodell zur Analyse von elf afrikanischen Sprachen, darunter Amharisch, Hausa und Swahili. Sie tauften das System AfriBERTa – da es auf dem 2018 von Google vorgestellten Machine-Learning-Modell BERT basiert. Bemerkenswert ist dabei, dass AfriBERTa eine Ausgabequalität erreicht, die mit den besten bestehenden Modellen vergleichbar ist. Und das, obwohl es von nur einem Gigabyte Text lernt. Andere Modelle benötigen das Tausendfache an Daten.

Die Methode des Pretraining ermöglichte es, mit kleineren Datenmengen dem System eine Sprache "anzutrainieren". Die Forschenden legen dem Modell Texte vor, in denen Wörter verdeckt oder "maskiert" sind. Aufgabe des Computers ist es nun, die verdeckten Wörter zu erraten. Durch milliardenfache Wiederholung in Rechenzentren schafft es das Modell dann, menschliches Sprachverständnis nachzuahmen.

Jimmy Lin, Professor für Informatik an der Waterloo-Universität in Ontario, Kanada, sagt dazu: "Die Möglichkeit, Modelle vorzutrainieren, die für bestimmte nachgelagerte Aufgaben genauso treffsicher sind, aber mit wesentlich geringeren Datenmengen auskommen, hat viele Vorteile."

Weniger Daten benötigen auch weniger Rechenleistung, das geht einher mit einem kleineren ökologischen Fußabdruck. Von den Kosten ganz zu schweigen. Ein starker Kontrast im Gegensatz zu riesigen Datenzentren, wie sie von den Tech-Giganten im Silicon Valley betrieben werden. "Diese Arbeit ist ein kleiner, aber wichtiger Schritt, um mehr als 1,3 Milliarden Menschen auf dem afrikanischen Kontinent die Verarbeitung natürlicher Sprache zugänglich zu machen", sagt Lin abschließend.

Aufholbedarf in digitaler Sprachausgabe

Knapp zwei Jahre später übersetzt die Sprachtechnologie zwar mittlerweile den Text einiger afrikanischer Sprachen, aber sie "spricht" verbal noch keine der 2.000 auf dem Kontinent gesprochenen Sprachen und Dialekte. Für Analphabeten ist das ein besonders großes Problem. Da Analphabetismus in der Regel mit mangelnder Schulbildung und damit dem Unvermögen, eine gängige Weltsprache zu sprechen, einhergeht, steht die Sprachtechnologie denjenigen nicht zur Verfügung, die sie am dringendsten benötigen. Für sie könnte die Spracherkennungstechnologie dazu beitragen, die Kluft zwischen Analphabetismus und dem Zugang zu wertvollen Informationen und Dienstleistungen zu überbrücken. Doch warum gibt es keine Sprachtechnologieprodukte in afrikanischen und anderen lokalen Sprachen?

"Die Kolonialgeschichte hat Einfluss auf die afrikanischen Sprachen und führte zu einer Verzögerung bei der Entwicklung von Tools für lokale Sprachen", erklärt Vukosi Marivate von der Universität von Pretoria in Südafrika im "African Business". In den Forschungslabors, Unternehmen und Universitäten, die Technologien zur Spracherkennung entwickelt haben, sind Menschen aus afrikanischen Ländern stark unterrepräsentiert. Sprachen, die von kleineren Bevölkerungsgruppen gesprochen werden, fallen außerdem oft der kommerziellen Prioritätensetzung zum Opfer.

Die Sykline von Nairobi
Swahili, neben Englisch die zweite Amtssprache von Kenia, ist mittlerweile auf Google Translate und ChatGPT verfügbar. Im Bild die Skyline von Nairobi.
REUTERS/Thomas Mukoya

Der Bedarf für Spracherkennung und Sprachausgabe wäre besonders in diesen Teilen der Welt enorm: Beim heutigen Stand der Technik werden hunderte Millionen von Nutzerinnen und Nutzern, die im nächsten Jahrzehnt online gehen werden, nicht die Sprachen sprechen, mit denen ihre Endgeräte funktionieren. Immer mehr Menschen sprechen eine der 2.000 lebenden Sprachen Afrikas. Infolgedessen gibt es mittlerweile zahlreiche Bemühungen, insbesondere von Südafrika, Kenia und Ruanda, dieses reiche Erbe im digitalen Zeitalter zu bewahren. Datensätze werden erstellt, Sprachen digitalisiert, und es wird weiter in die Dokumentation investiert.

Tech-Unternehmen springen auf den Zug auf

Rund 32.000 Menschen lernen mittlerweile die afrikanische Sprache Zulu mit der Sprachenlern-App Duolingo. Zulu ist erst seit wenigen Monaten Teil des Angebots und wird weltweit von zwölf Millionen Menschen gesprochen. Seit 2022 ist auch Swahili, eine Sprache mit mehr als 200 Millionen Muttersprachlern, auf Duolingo verfügbar. Google fügte im vergangenen Jahr 24 neue Sprachen zu seinem gleichnamigen Übersetzungstool "Google Translate" hinzu, darunter Twi (Ghana), Sanskrit (Indien), und Luganda (Uganda und Rwanda). Auch das von OpenAI entwickelte Tool ChatGPT kann mittlerweile Englisch in einige afrikanische Sprachen übersetzen. Doch eine 2022 von Masakhane veröffentlichte Studie kommt zu einem klaren Ergebnis: Die Systeme sind für afrikanische Sprachen kaum geeignet. Die Qualität des Übersetzungsoutputs variiert themenabhängig stark.

Natürlich investieren Tech-Giganten wie Google, OpenAI oder Duolingo nicht aus reinem humanitärem Interesse in diese Sprachen. Die Bevölkerung des Kontinents wird sich laut Forschenden bis 2050 fast verdoppeln. Das bedeutet ein immenses Marktpotenzial für digitale Anwendungen für die Unternehmen. Und für einige ein womöglich steigendes Interesse, diese Sprachen auch zu lernen. (Sebastian Lang, 15.8.2023)