Künstliche Intelligenz 07.09.2022, 06:45 Uhr

DALL-E mini: Bildgenerator zeigt schwerwiegendes Problem auf

Gollum kocht Tomatensauce und Elon Musk spielt Trompete im Jazzclub: Die surrealen Bilder, die die KI DALL-E mini aus einfachen Sätzen generiert, gehen gerade viral. Doch neben allem Spaß zeigen die Grenzen der Software ein gesellschaftliches Grundproblem auf.

Captain Picard trifft Elvis: DALL-E mini macht nahezu alles möglich. Foto: Screenshot DALL-E mini

Captain Picard trifft Elvis: DALL-E mini macht nahezu alles möglich.

Foto: Screenshot DALL-E mini

Ein Dackel erfindet (endlich) das Perpetuum Mobile, Elon Musk spielt Trompete, eine Wurst eröffnet einen Supermarkt: Egal, wie absurd die Idee – der KI-Grafikgenerator DALL-E mini macht ein Bild daraus.

In den sozialen Medien gehen die kachelartigen Bildchen gerade viral, jeder will DALL-E mini ausprobieren. Was steckt dahinter? Wie funktioniert das Ganze? Und: Was soll das eigentlich? Klar wird schnell: Die Software ist nicht nur ein Beispiel für die Möglichkeiten von Maschinellem Lernen und bereitet eine Menge (Dada-)Spaß. Sondern sie zeigt ein gesellschaftliches Problem und Grenzen von Künstlicher Intelligenz auf, worauf die Programmierer sogar selbst hinweisen. Doch dazu später mehr.

KI im Recruiting: Werden Personaler überflüssig?

Wie funktioniert DALL-E mini?

Das Prinzip: Nutzer geben auf der kostenlosen Plattform einen beliebigen Text in ein Suchfeld ein. DALL-E mini interpretiert den Satz und erstellt dann nach ein bisschen Rechnerei (das kann schon mal bis zu eine Minute dauern) neun dazu mehr oder minder passende Grafiken. Dazu greift das Programm auf sämtliche verfügbaren Bilder im Internet zurück und setzt daraus ein eigenes Bild zusammen. Um die KI zu trainieren, wurde sie mit Millionen von Bildern aus dem Netz und deren jeweiligen Beschriftungen gefüttert. So lernt das Programm nach und nach, wie Bilder und Fragmente davon sprachlich zu deuten sind beziehungsweise wie welches Wort in welches Bild übertragen werden kann.

Stellenangebote im Bereich IT/TK-Projektmanagement

IT/TK-Projektmanagement Jobs
Frankfurt University of Applied Sciences-Firmenlogo
Professur "Vernetzte Eingebettete Systeme" (w/m/d) Frankfurt University of Applied Sciences
Frankfurt am Main Zum Job 
Energie und Wasser Potsdam GmbH-Firmenlogo
Geoinformatiker (m/w/d) / Vermessungsingenieur (m/w/d) als Projektleiter (m/w/d) GIS - Fachanwendungen Energie und Wasser Potsdam GmbH
Potsdam Zum Job 
Frankfurt University of Applied Sciences-Firmenlogo
Professur "Software Engineering - Moderne Verfahren" (w/m/d) Frankfurt University of Applied Sciences
Frankfurt am Main Zum Job 
Niedersächsische Landesbehörde für Straßenbau und Verkehr-Firmenlogo
BIM-Manager (m/w/d) für Bauprojekte Niedersächsische Landesbehörde für Straßenbau und Verkehr
Hannover Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Fachingenieur (w/m/d) BIM Die Autobahn GmbH des Bundes
NORDEX GROUP-Firmenlogo
SCADA Projektingenieur (m/w/d) NORDEX GROUP
Hamburg, Rostock Zum Job 
Westfälische Hochschule-Firmenlogo
Professur Künstliche Intelligenz und Industrielle Automation (W2) Westfälische Hochschule
Gelsenkirchen Zum Job 
FlowChief GmbH-Firmenlogo
Techniker:in Automatisierung (SCADA) (m/w/d) FlowChief GmbH
Wendelstein Zum Job 
Wirtgen GmbH-Firmenlogo
Software-Ingenieur (m/w/d) Elektrotechnik im Bereich Steuerungssoftware für mobile Arbeitsmaschinen Wirtgen GmbH
Windhagen Zum Job 
Niedersachsen.next GmbH-Firmenlogo
Themenmanager Mobilität und Digitalisierung | Mobilitätskonzepte (m/w/d) Niedersachsen.next GmbH
Hannover Zum Job 
Hochschule für Technik und Wirtschaft Berlin-Firmenlogo
Professor (W2) | Permanent Computer Architecture and Computer Systems Hochschule für Technik und Wirtschaft Berlin
Die Autobahn GmbH des Bundes-Firmenlogo
Ingenieur Vermessung (m/w/d) Die Autobahn GmbH des Bundes
Montabaur Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Lösungsentwickler (w/m/d) im Digitallabor Geoinformatik Die Autobahn GmbH des Bundes
Hochschule Osnabrück-Firmenlogo
Tandem-Professur Robotik, Data Science and AI, Digitalisierte Wertschöpfungsprozesse Hochschule Osnabrück
Osnabrück, Lingen Zum Job 
Tagueri AG-Firmenlogo
Consultant OTA - Connected Cars (m/w/d)* Tagueri AG
Stuttgart Zum Job 
Hochschule für Technik und Wirtschaft Berlin-Firmenlogo
Professur (W2) | auf Lebenszeit Fachgebiet Rechnerarchitekturen und Rechnersysteme Hochschule für Technik und Wirtschaft Berlin
B. Braun Melsungen AG-Firmenlogo
Global Lead (w/m/d) Operational Technology (OT) B. Braun Melsungen AG
Melsungen Zum Job 
WIRTGEN GmbH-Firmenlogo
Duales Studium Software Engineering - Bachelor of Engineering (m/w/d) WIRTGEN GmbH
Windhagen, Remagen Zum Job 
VIAVI-Firmenlogo
Senior / Software Engineer (C++, Python & Cloud) (m/w/d) VIAVI
Eningen Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Teamleitung (w/m/d) BIM-Management Die Autobahn GmbH des Bundes
Und da sind die Bias-Grenzen: Beim Wort "engineer" malt DALL-E mini ausschließlich Männer. Dass es auch Ingenieurinnen gibt, darauf kommt die Software von selbst nicht - und ihr Wissen holt sie aus dem Netz, wo der Eindruck, das Ingenieurtum sei eine männliche Domäne, offenbar verfestigt ist.
Abgesehen davon: Mit menschlichen Gesichtern kommt die KI nicht gut klar. Sie wirken meist seltsam verzerrt.
Und doch beeindruckt DALL-E mini: Oft erzeigt die KI anhand passende Bilder. Elon Musk spielt Trompete? Das Bild ist recht unproblematisch für DALL-E mini, denn Bilddateien vom Tesla-Chef gibt es zuhauf im Netz.
Apropos Elon Musk: Eine Maus und eine Grille auf dem Mars. Etwas eigenwillig interpretiert.
Ein Mops im Raumschiff. Warum nicht?
Wenn sich jemand mit Kampfrobotern anlegt, dann ein Dackel.
Dackel erfindet Perpetuum Mobile - darunter konnte sich die Software nicht viel vorstellen.
Beim zweiten Versuch erstellte DALL-E mini andere Bilder als beim ersten Mal.
Ja, auch eine Banane, die Jazz-Songs singt, ist theoretisch vorstellbar.

Das gelingt manchmal verblüffend amüsant – und manchmal überhaupt nicht. Klar ist: Je mehr Bilddateien es zu einem Begriff oder einer Phrase gibt, desto interessanter und passgenauer wird Ergebnis. Was auffällt: Mit menschlichen Gesichtern scheint die KI noch nicht so gut klarzukommen. Sie erscheinen häufig verzerrt, bisweilen bis ins Albtraumhafte grotesk. Wobei dieses Phänomen schon wieder einen gewissen „künstlerischen“ Reiz haben kann.

DALL-E mini: Too much Traffic – was kann ich tun?

Der Bildgenerator basiert auf der Software GPT-3 von OpenAI und wurde schon im Jahr 2021 erstellt. Doch jetzt erst ist DALL-E mini einer breiten Masse bekannt – einer sehr breiten wohl gemerkt. Nachdem Tausende Bilder von Nutzern viral gegangen sind, wollten immer mehr Menschen das Tool ausprobieren, so dass die Server zeitweise an den Rand der Belastbarkeit gerieten. Manchmal spuckt das Programm die Meldung „Too much traffic“ aus. Dann hilft nur eins: Warten und noch einmal probieren.

Wie Geisteswissenschaften die KI-Forschung nach vorne bringen können

Woher kommt der Name?

Der Name ist eine Hommage an den surrealistischen Künstler Salvador Dalí – in der Tat wirken die Werke oft seltsam traumartig.

Ist DALL-E mini kostenlos?

Ja, DALL-E mini ist für jeden kostenlos nutzbar. Das Programm ist eine Art abgespeckte Version der Software DALL-E 2 von OpenAI, das unter anderem auch fotorealistische Bilder aus Sätzen erzeugen kann – allerdings ist der Zugang zur Software nur möglich, wenn man sich auf einer Warteliste einträgt: Bislang dürfen nur einige wenige Forscher und Künstler DALL-E 2 testen.

Bias und Vorurteile: Die Moral der KI ist nur so gut wie die der Nutzer, die sie füttern

Ein interessanter Aspekt: Auf der Plattform findet sich ein deutlicher Hinweis zu den Grenzen der Software. Darin heißt es: „Obwohl die Fähigkeiten von Bildgenerierungsmodellen beeindruckend sind, können sie auch gesellschaftliche Vorurteile verstärken oder verschärfen. Während das Ausmaß und die Art der Verzerrungen von DALL-E mini noch vollständig dokumentiert werden müssen, kann es angesichts der Tatsache, dass das Modell mit ungefilterten Daten aus dem Internet trainiert wurde, Bilder erzeugen, die Stereotype gegen Minderheitengruppen enthalten.“ Das heißt: Wenn Bilder und ihre Beschriftungen im Netz bestimmte Vorurteile bedienen oder bestimmten Bias unterworfen sind, dann übernimmt die KI diese automatisch mit – und lässt sie wiederum in seine Bilder mit einfließen. Damit zeigt DALL-E mini ein grundsätzliches Problem von Künstlicher Intelligenz auf: Sie ist nicht von Natur aus neutral oder gar gut (oder besser als menschliche Instanzen).

Hören Sie zum Thema KI auch diese Ausgabe unseres Podcasts „Prototyp“: 

Hier wird Ihnen ein externer Inhalt von Podigee angezeigt.
Mit der Nutzung des Inhalts stimmen Sie der Datenschutzerklärung von youtube.com zu.

Wenn Sie mit bestimmten Bias gefüttert wird, wird es schwierig, diese wieder abzutrainieren. Wer „engineer“ in das Suchfeld eingibt, erhält mit einer hohen Wahrscheinlichkeit nur Bilder von Helm tragenden Männern – keine Frauen. Ein Phänomen, das sich insofern mit der Wirklichkeit deckt, als Frauen in den meisten MINT-Berufen nach wie vor stark unterrepräsentiert sind. Was wiederum auch daran liegen dürfte, dass der Beruf im medialen und gesellschaftlichen Denken immer noch als eher männlich gilt. Konsequenterweise produziert DALL-e mini beim Stichwort „nurse“ auch ausschließlich Bilder von weiblichen Pflegekräften.

Einerseits werden so zu überholende Denkmuster deutlich – aber eben auch die Grenzen von KI. Wird eine vorurteilsbehaftete Maschine zum Beispiel im Recruiting eingesetzt, in der Verwaltung oder gar in der Justiz, kann das fatale Folgen haben. „Wenn es um die Eingangsdaten geht, also dem Material, mit dem eine KI lernt, macht es Sinn, das mindestens arbeitsteilig anzugehen. Die Daten sind ja der Ausgangspunkt für solche Probleme. Ein Briefing für Programmierer und Programmierinnen mit welchen Daten sie es hier zu tun haben und inwiefern sie ihre eigene Rolle reflektieren sollten, ist wichtig. Die Komplexität bei der Modellierung von KI-Systemen kann fachübergreifend auch besser abgebildet werden“, sagt Christoph Bieber. Er ist seit Oktober 2021 Forschungsprofessor Digitale Demokratische Innovationen am Center for Advanced Internet Studies in Bochum.

Alternative: Stable Diffusion – das Ende der Stockfotos

Die Zahl praktischer Anwendungszwecke für die Allgemeinheit hält sich bei den Bildgeneratoren in Grenzen – sie sind eher Experiment als Werkzeug. Weil sie aber offenbar sehr beleibt sind, strömen allmählich weitere Modelle ins Netz. Aktuell trendet das Programm Stable Diffusion. Nach dem Open-Source-Prinzip steht das Bild-zu-Text-Tool der Allgemeinheit frei zur Verfügung.

Nutzer melden sich über die Seite beta.dreamstudio.ai an, und haben dann ein Kontigent von etwa 150 kostenlosen Bildern, die sie erstellen lassen können, zur Verfügung. Die Bilder, die die KI ausspuckt, sind weniger surrealistisch angehaucht, wirken eher realistisch. Womöglich könnten sich zum Beispiel Grafiker oder Mediendesigner mithilfe des Programms irgendwann ihre ganz eigene Bilddatenbank erstellen und sind nicht mehr auf Stockfotos angewiesen. Noch wirken die Bilder dafür allerdings zu künstlich.

Das Besondere: Das Modell lässt sich auch lokal nutzen, dazu ist eine Nvidia-Grafikkarte mit mindestens 4 Gigabyte VRAM Speicher vonnöten, wobei gilt: Je höher die Auflösung des Bildes sein soll, desto höhere VRAM-Werte werden gebraucht.

Data Scientist: Was macht der professionelle Datenauswerter?

Ein Beitrag von:

  • Peter Sieben

    Peter Sieben schreibt über Forschung, Politik und Karrierethemen. Nach einem Volontariat bei der Funke Mediengruppe war er mehrere Jahre als Redakteur und Politik-Reporter in verschiedenen Ressorts von Tageszeitungen und Online-Medien unterwegs.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.