KI lernt vor allem von englischsprachigen Shoppingseiten

Die Welt verändert sich gerade grundlegend, aber nahezu unbemerkt. Es ist schließlich nur ein Chatfenster, in das man schreibt. Aber seitdem Nutzer generative künstliche Intelligenzen (KI) mit sogenannten Prompts per Chat auffordern können, menschliche Sprache (ChatGPT), Bilder (Midjourney, Stable Diffusion) und Videos (Sora) täuschend echt zu simulieren, ist KI zu einem Markt geworden, in den alleine 2023 mehr als 50 Milliarden Dollar geflossen sind. Die Ergebnisse sind so beeindruckend, dass Unternehmen, Behörden und Privatpersonen damit angefangen haben, sowohl ihren Alltag an Maschinen auszulagern, als auch diese Maschinen und ihre Ergebnisse als Inspirationsquelle zu verwenden.

Doch wie die Ergebnisse zustande kommen, darüber erfährt man kaum etwas – und das kann problematisch sein. Denn es gibt viele Beispiele von Recherchen, die gezeigt haben, dass es weitreichende Konsequenzen hat, sich auf offensichtlich willkürliche Entscheidungen zu verlassen, die von Maschinen getroffen werden: Menschen, die beim Video-Bewerbungsgespräch vor einem Bücherregal sitzen, bekommen eher einen Job als die, die vor einer weißen Wand sitzen. Algorithmen kürzen Menschen zu Unrecht ihre Sozialhilfe, in Extremfällen sorgen Algorithmen dafür, dass schwarze Menschen in den USA länger im Gefängnis bleiben.

Ein Roboter mit Einkaufswagen im Supermarkt. Dieses Symbolbild wurde mit der Bilder-KI Midjourney generiert.

KI als "black box"

KI basiert auf Datensätzen, auf deren Basis Modelle "trainiert" werden. Das ist grob vereinfacht, zeigt aber auch das Problem. Zwar reden Firmen wie Alphabet, Microsoft und Meta ununterbrochen von KI, um ihre Investoren zu beeindrucken, aber wie genau diese Modelle funktionieren, ist oft ein Geschäftsgeheimnis. Die Fachzeitschrift "Nature" hat diese Systeme deshalb als "black box" bezeichnet. Niemand kann in die Box hineinschauen, also kann sie auch niemand analysieren. OpenAI weigert sich offenzulegen, worauf ihre neuesten Modelle trainiert sind, weiß auch Kate Crawford von der USC Annenberg, die das aktuelle Forschungsprojekt begleitet hat: "Wir können zwar fundierte Vermutungen anstellen, aber das reicht nicht aus, um das Feld oder die Öffentlichkeit zu informieren." Geschlossene Datensätze würden die gesunde Entwicklung des KI-Bereichs einschränken.

Eine Ausnahme bildet dabei Laion, ein eingetragener Verein mit Sitz in Hamburg. Das Ziel von Laion – kurz für Large-Scale Artificial Intelligence Open Network – ist es, die "black box" zu öffnen und die Daten zu "demokratisieren". Gerade einmal 10.000 Dollar haben ausgereicht, um eine Datenbank anzubieten, die frei verfügbar ist, damit die Technik, die das kommende Jahrzehnt bestimmen könnte, nicht ausschließlich auf Servern liegt, auf die nur die großen Tech-Konzerne aus dem Silicon Valley Zugriff haben. "KI-Forschung darf nicht hinter verschlossenen Türen stattfinden", wie es einer der Gründer von Laion, Jenia Jitsev, im Interview formulierte.

Den größten Datensatz von Laion haben Forscher von Knowing Machines nun analysiert. Die in New York ansässige Forschungsgruppe hat sich zum Ziel erklärt, zu verstehen, wie Maschinen unsere Welt interpretieren. "Indem wir diese Datensätze analysieren, können wir viel über die Logiken, mit denen KI-Modelle trainiert werden, selber erkennen. Unser Ziel ist es, die Öffentlichkeit über diese Systeme zu informieren, damit die Menschen die Potenziale und Risiken besser verstehen können," erklärt Kate Crawford.

Es ist das erste Mal, dass die Öffentlichkeit einen Blick in den Maschinenraum einer Künstlichen Intelligenz bekommt. Woher wissen Maschinen eigentlich, was sie sehen? Und wie sicher sind sie sich? Diese Fragen lassen sich nun beantworten. Doch zuerst sollte man verstehen, wie der Datensatz aufgebaut ist.

Laion ist weitverbreitet: Selbst Firmen wie Google und populäre Dienste wie Midjourney und Stable Diffusion verwenden Datensätze von Laion, um ihre Modelle zu trainieren. Um ihren Datensatz zu bauen, suchten die Macher in einer zweiten, viel größeren Datenbank nach Bildern, die auch über eine Bildbeschreibung verfügten. Diese Datenbank archiviert Millionen Webseiten und ist frei verfügbar, zusammengestellt und gepflegt von einem gemeinnützigen Projekt namens "Common Crawl".

Die Bild- und Textpaare ließen die Macher von Laion automatisiert auswerten, Am Ende blieben 5,8 Milliarden Bilder übrig, kategorisiert in einen englischsprachigen Teil (2,3 Milliarden), einen internationalen Teil für sämtliche anderen Sprachen (auch 2,3 Milliarden) und einen Teil, bei der keine Spracherkennung möglich gewesen ist. Das B im Namen des Datensatzes Laion-5B steht für Billions, also Milliarden.

Wie Maschinen die Welt interpretieren

Die Analyse von Knowing Machines zeigt: Algorithmen interpretieren die Welt nach klar erkennbaren Mustern. Eines dieser Muster ist es, dass Maschinen sich überwiegend Werbung anschauen. Die mit Abstand größte Quelle für Bilder ist die Plattform Shopify. In Laion finden sich fast 140 Millionen Bilder, die ausschließlich von diesem Anbieter, mit dem man seinen eigenen Webshop basteln kann, stammen. Über 13 Prozent des gesamten Datensatzes kommt von solchen Shopping-Plattformen.

Damit die dort beworbenen Produkte auch verkauft werden, müssen sie in Suchergebnissen die ersten Plätze belegen. Wird ein Sofa verkauft, dann geht es in dem Text um das Sofa, auch wenn auf den Bildern Pflanzen, Lampen und sogar Menschen zu sehen sind. Schließlich sollen Suchmaschinen wie Googles Algorithmus Pagerank das Sofa leicht finden und als relevant einstufen. Das tun sie anhand der Bildbeschreibungen. Anders gesagt: Die eine Maschine arbeitet überwiegend mit Daten, die der anderen Maschine gefällt – und, so scheint es, leitet daraus ihre Sicht auf die Welt ab.

Daten qualitativ fragwürdig

Hinzu kommt, dass die überwiegende Mehrheit der Daten qualitativ zumindest fragwürdig ist. Die Bild- und Textpaare innerhalb von Laion haben einen Wert, der ihnen zugewiesen wird, mithilfe anderer KIs, zum Beispiel CLIP. Die Skala liegt zwischen minus 1 und 1. Je näher an einer 1, desto besser stimmt der Text mit dem überein, was auf dem Bild zu sehen ist. In der Praxis wird der Wert 1 nie erreicht, bei 0,5 hört es auf. Knapp 23.000 der 5,8 Milliarden Einträge erreichen diesen höchsten Wert. Doch die Daten allein täuschen: Denn als die Forscher sich diese Bilder genauer angeschaut haben, haben sie festgestellt, dass es sich nicht um Bilder handelt, sondern um Text, zum Beispiel ein Album-Cover – die Bildbeschreibung enthält denselben Text.

Beispiele

Wenn man sich die niedrigsten Schwellenwerte anschaut, fällt auf, dass sie die meisten Daten enthalten. Im internationalen Teil des Datensatzes liegt der Schwellenwert bei 0,26. Veränderte man ihn nur minimal auf 0,27, dann fiele knapp ein Viertel aller Daten weg. Ginge man wiederum minimal nach oben, auf 0,28, würden weitere 20 Prozent aus dem Datensatz fallen – insgesamt mehr als eine Milliarde Bild- und Textpaare allein im internationalen Teil.

Dies klingt alles abstrakt und kompliziert. Wenn wir als Menschen eine Sammlung Bilder zusammenstellen würden, würden wir uns jedes Bild einzeln anschauen und eine Entscheidung treffen, je nachdem was auf dem Bild zu sehen ist. In der Größenordnung moderner Datensätze geht sowas jedoch nicht mehr. Die kuratorische Entscheidung, ob etwas geeignet ist oder nicht, wird auf eine einzelne Metrik reduziert. Es ist diese eine Zahl, die mehr als alles andere bestimmt, ob es etwas in den Datensatz schafft, oder nicht.

Generell lässt sich beobachten: Die eigentliche Masse befindet sich nahe an jenen Werten, die es gerade noch in den Datensatz geschafft haben. Im Gespräch mit dem Standard erklärt Dr. Jenia Jitsev, KI-Experte und Mitgestalter von LAION5B, dass diese Werte basierend auf einer Serie von Experimenten definiert wurden. "Die von uns eruierten und gewählten Werte zwischen 0,25 und 0,3 gelten innerhalb der gesamten KI-Community als geeignet, alles darunter oder darüber führt zu wenig verwertbaren Ergebnissen".

Training geht weiter

Die Analyse zeigt auch: Große Teile der Welt sind unterrepräsentiert. Kommen auf einen niederländisch Sprechenden drei Bilder im Datensatz, liegt die Zahl bei nichteuropäischen Sprachen deutlich niedriger. Pro 40 Personen, die Hindi sprechen, gibt es ein Bild. Die Welt, die KI abbildet, schließt weite Teile aus.

Doch immerhin lassen sich dank des offenen Zugangs überhaupt Aussagen zu Laion-5B treffen. Die Konzerne aus dem Silicon Valley schweigen zu den Trainingsgrundlagen ihrer KI, während einer der Köpfe hinter Laion 5B Jenia Jitsev zu einem Interview bereit war. Die Erkenntnisse der Forscher von Knowing Machines sieht er "als sehr wertvolle Statistik". Er fordert sogar, solche Zusammenfassungen und Reports über die verwendeten Datensätze von KI sollten "generell verpflichtend werden". Er äußert allerdings auch Kritik an der Studie: "Manche Dinge darin sind mir zu spekulativ formuliert und bleiben Mutmaßungen, da hätte man konkrete Experimente machen können, um sie nachzuweisen."

Zurzeit ist Laion-5B offline. Eine Gruppe des Stanford Internet Observatory hatte herausgefunden, dass der Datensatz knapp 3.200 Bilder enthalten könnte, in denen sexuelle Gewalt an Kindern gezeigt werde. "Wir hatten uns vorher Gedanken dazu gemacht, verschiedene Filter vorgeschaltet und waren eigentlich der Überzeugung, fast übervorsichtig zu sein", sagt Jitsev. "Insofern waren wir überrascht und haben daraus gelernt. Wir kooperieren jetzt mit Organisationen wie der Internet Watch Foundation (IWF) und dem Canadian Center for Child Protection (C3P). Unser Ziel ist es, den bereinigten Datensatz baldmöglichst wieder zur Verfügung zu stellen, wir wollen aber diesmal auf Nummer sicher gehen." Mittlerweile gibt es auch eine neue Version des Datensatzes: "DataComp". Sie enthält 12,8 Milliarden Bilder. Das Training geht weiter. (Christo Buschek, Hakan Tanriverdi, 26.3.2024)

Netzpolitik