uni-hamburg.de

Wie schaffen wir eine KI, die kulturelle Vielfalt repräsentiert?

  • ️Anna Priebe
  • ️Tue Mar 11 2025

Künstliche Intelligenz für alleWie schaffen wir eine KI, die kulturelle Vielfalt repräsentiert?Serie Forschen und Verstehen

11. März 2025, von Anna Priebe

Mit KI generierte Bilder einer französischen Person – links das Ergebnis der Eingabe auf Deutsch, rechts auf Japanisch.

Foto: UHH

Wenn eine KI aufgefordert wird, ein Bild einer französischen Person zu generieren, sind die Ergebnisse je nach verwendeter Eingabesprache sehr verschieden: Links das Ergebnis der Eingabe auf Deutsch, rechts auf Japanisch.

Immer mehr Unternehmen und Privatpersonen nutzen generative künstliche Intelligenz wie ChatGPT oder Dall-E. Allerdings spiegeln die Daten, auf deren Grundlage die Ergebnisse generiert werden, nicht die gesamte Weltbevölkerung gleichermaßen wider. Prof. Dr. Anne Lauscher und Carolin Holtermann erforschen an der University of Hamburg Business School, wie es dadurch zu verzerrten Darstellungen kommt – und welche Gegenmaßnahmen ergriffen werden können.

Wie steht es um Multikulturalität und Mehrsprachigkeit in Anwendungen künstlicher Intelligenz (KI)? 

Anne Lauscher: Grundsätzlich erhalten Nutzende von Modellen wie ChatGPT qualitativ immer bessere Antworten. Auch die Vielfalt der Anwendungsmöglichkeiten wird größer. Aber die Programme werden mit Daten trainiert, die im World Wide Web vorliegen, etwa Texte und Bilder auf Social Media oder auf Nachrichtenseiten. Und diese Daten sind nicht global repräsentativ, sondern beziehen sich überwiegend auf große und privilegierte Gruppen.

Carolin Holtermann: Die Ungleichheit zeigt sich darin, dass weit verbreitete Sprachen wie Englisch und die Kulturen ‚dominanter‘ Gruppen, zum Beispiel der USA oder Deutschlands, durch mehr Daten widergespiegelt werden. Diese Daten sind zudem oft auch qualitativ hochwertiger. Andere Kulturen dagegen werden nur sehr einseitig und wenig divers dargestellt. Da die Daten jedoch die Grundlage für das Funktionieren der Modelle sind, führt dieses Missverhältnis dazu, dass Systeme auf Basis von generativer künstlicher Intelligenz (gKI) für einige Sprachen gar nicht funktionieren oder stereotype Darstellungen der Kulturen verstärkt werden.

Prof. Dr. Anne Lauscher und Carolin Holtermann (v. l.). Foto: UHH/Longe

Was ist das Ziel Ihrer Forschung in diesem Zusammenhang?

Holtermann: KI wird noch weiter Einzug in unseren Alltag halten, weshalb anzunehmen ist, dass sich eine solche Ungleichheit langfristig negativ auf unsere Gesellschaft auswirken wird. In einer Reihe von Forschungsprojekten untersuchen wir, wie genau Modelle der gKI unterschiedlichste Sprachen und Kulturen repräsentieren. Wir entwickeln neue Datensätze und Messmethoden, mit denen wir systematische Schwächen identifizieren können. Wir wollen genau verstehen, wie diese Verzerrungen entstehen und wie sie sich in Modellantworten manifestieren, um daraus abzuleiten, wie man die Modelle inklusiver gestalten und so verbessern kann.

Wie erforschen Sie das genau? 

Lauscher: In einem aktuellen Projekt untersuchen wir Bildgenerierungsmodelle hinsichtlich ihrer kulturellen und linguistischen Inklusivität. Konkret haben wir sieben KI-Modelle mit 14 verschiedenen Sprachen getestet und sie jeweils instruiert, Bilder von Menschen unterschiedlichster Kulturen zu erstellen. Die Sprachen reichten dabei von europäischen Sprachen wie Deutsch und Italienisch bis zu weniger oft gesprochenen Sprachen wie Amharisch, eine der Landessprachen von Äthiopien. Anschließend haben wir mittels einer neuen Messmethode untersucht, wie stark die generierten Bilder durch die Eingabesprache oder die erwähnte Kultur beeinflusst wurden und wie sich dies in der Darstellung äußert.

Was haben Sie bei den Tests herausgefunden? 

Holtermann: Es wird deutlich, dass viele Bildgenerierungsmodelle, wenn sie auf anderen Sprachen als Englisch angesprochen werden, Stereotype der Eingabesprache reproduzieren. So werden in vielen Bildern, welche mit der Eingabesprache ‚Hindi‘ erstellt werden, sehr häufig Menschen in einem Saree dargestellt oder einem Bindi auf der Stirn. Bei finnischen Eingaben werden dagegen oft Bäume und Schneelandschaften erstellt, meist auch ohne überhaupt eine Person darzustellen.

Lauscher: Das Beispielbild dieses Beitrags zeigt generierte Bilder, die eine ‚französische Person‘ darstellen sollen. Für die oberen Bilder war die Eingabesprache Deutsch, während für die unteren Bilder die Eingabe auf Japanisch erfolgte. Wie man sieht, sind die Ergebnisse sehr verschieden. Über unsere Messmethode, basierend auf der sogenannten Vektorrepräsentation der Bilder, konnten wir feststellen, dass das mit japanischen Eingaben erstellte Bild eher den Ergebnissen gleicht, die man bekommt, wenn man auf Englisch Bilder einer ‚japanischen Frau‘ erstellen lässt. Es unterscheidet sich aber stark von Bildern, die mit Eingaben in anderen Sprachen von einer ‚französischen Frau‘ generiert wurden.

Insgesamt konnten wir die stärksten Verzerrungen für Japanisch, Koreanisch, Chinesisch, aber auch Amharisch und Finnisch feststellen. Die Qualität der erzeugten Bilder war auch sehr unterschiedlich. Mit manchen Sprachen wurden sogar oft Tiere statt Menschen erzeugt oder es kam deutlich häufiger zur Abbildung expliziter Inhalte wie Blut oder Verletzungen.

Welche Schlüsse kann man aus den Ergebnissen ziehen?

Holtermann: Es liegt auf der Hand, dass ein solches Verhalten der Modelle nicht inklusiv ist. Nur 20 Prozent der Menschen weltweit sprechen fließend Englisch. Für viele andere Sprachen ist die Qualität der Ergebnisse sehr viel schlechter, was bedeutet, dass manche Menschen diese Modelle de facto nicht nutzen können. Sie werden also aktuell aus der technologischen Entwicklung ausgeschlossen. Hinzu kommt, dass stereotype und explizite Inhalte je nach Anwendungsfall und Kontext eine Gefahr für Nutzende darstellen können, zum Beispiel im Bildungsbereich.

Wie können Ihre Ergebnisse genutzt werden, um die Modelle zu verbessern? 

Lauscher: Die neue Messmethode, die wir innerhalb dieser Studie entwickelt haben, kann Entwickler:innen neuer und bestehender Modelle einen Eindruck davon geben, für welche Sprache und Kulturen solche Probleme bei ihren Anwendungen auftreten können. Außerdem bildet sie eine mögliche Basis für das Erforschen und die Entwicklung neuer Trainingsmethoden, die qualitativ hochwertige sowie inklusive und faire Bilder erstellen. Dafür arbeiten wir immer wieder auch mit den Forschungsabteilungen großer Unternehmen wie Intel oder Huggingface zusammen.

Die Professur

Die Forschung findet an der Professur für „Data Science im Bereich Betriebswirtschaftslehre/Informatik“ an der University of Hamburg Business School statt. Es handelt sich um eine von drei sogenannten Open-Topic-Professuren, die im Rahmen der Exzellenzstrategie des Bundes und der Länder besetzt wurden. Die Professor:innen tragen dazu bei, die Profilinitiativen der Universität zu Potenzialbereichen weiterzuentwickeln.

Forschen und Verstehen

In den acht Fakultäten der Universität Hamburg forschen rund 6.200 Wissenschaftlerinnen und Wissenschaftler. Auch viele Studierende wenden oft bereits im Studium ihr neu erworbenes Wissen in der Praxis an. Die Reihe „Forschen und Verstehen“ gibt einen Einblick in die große Vielfalt der Forschungslandschaft und stellt einzelne Projekt genauer vor. Fragen und Anregungen können gerne an die Newsroom-Redaktion(newsroom"AT"uni-hamburg.de) gesendet werden.