Künstliche Intelligenz 07.09.2022, 06:45 Uhr

DALL-E mini: Bildgenerator zeigt schwerwiegendes Problem auf

Gollum kocht Tomatensauce und Elon Musk spielt Trompete im Jazzclub: Die surrealen Bilder, die die KI DALL-E mini aus einfachen Sätzen generiert, gehen gerade viral. Doch neben allem Spaß zeigen die Grenzen der Software ein gesellschaftliches Grundproblem auf.

Captain Picard trifft Elvis: DALL-E mini macht nahezu alles möglich. Foto: Screenshot DALL-E mini

Captain Picard trifft Elvis: DALL-E mini macht nahezu alles möglich.

Foto: Screenshot DALL-E mini

Ein Dackel erfindet (endlich) das Perpetuum Mobile, Elon Musk spielt Trompete, eine Wurst eröffnet einen Supermarkt: Egal, wie absurd die Idee – der KI-Grafikgenerator DALL-E mini macht ein Bild daraus.

In den sozialen Medien gehen die kachelartigen Bildchen gerade viral, jeder will DALL-E mini ausprobieren. Was steckt dahinter? Wie funktioniert das Ganze? Und: Was soll das eigentlich? Klar wird schnell: Die Software ist nicht nur ein Beispiel für die Möglichkeiten von Maschinellem Lernen und bereitet eine Menge (Dada-)Spaß. Sondern sie zeigt ein gesellschaftliches Problem und Grenzen von Künstlicher Intelligenz auf, worauf die Programmierer sogar selbst hinweisen. Doch dazu später mehr.

Top Stellenangebote

Zur Jobbörse
Harro Höfliger Verpackungsmaschinen GmbH-Firmenlogo
Mechaniker / Mechatroniker Sondermaschinenbau (m/w/d) Harro Höfliger Verpackungsmaschinen GmbH
verschiedene Standorte Zum Job 
Harro Höfliger Verpackungsmaschinen GmbH-Firmenlogo
Projektmanager für internationale Projekte (m/w/d) Harro Höfliger Verpackungsmaschinen GmbH
Satteldorf Zum Job 
Harro Höfliger Verpackungsmaschinen GmbH-Firmenlogo
Konstrukteur Maschinenbau (m/w/d) Harro Höfliger Verpackungsmaschinen GmbH
verschiedene Standorte Zum Job 
Harro Höfliger Verpackungsmaschinen GmbH-Firmenlogo
Softwareentwickler - Frontend (m/w/d) Harro Höfliger Verpackungsmaschinen GmbH
STERIS-Firmenlogo
Lead Talent Acquisition Partner STERIS
keine Angabe Zum Job 
E+E Elektronik-Firmenlogo
Vertriebsingenieur (m/w/d) im Außendienst E+E Elektronik
Vertriebsgebiet Neue Bundesländer Zum Job 
Harro Höfliger Verpackungsmaschinen GmbH-Firmenlogo
Projektierer (m/w/d) Harro Höfliger Verpackungsmaschinen GmbH
verschiedene Standorte Zum Job 
TTP Holding GmbH-Firmenlogo
Chemieingenieur / Verfahrensingenieur (m/w/d) 80% - 100% TTP Holding GmbH
Basel (Schweiz) Zum Job 
scanware electronic GmbH-Firmenlogo
Mitarbeiter (m/w/d) im technischer Vertriebsinnendienst scanware electronic GmbH
Bickenbach Zum Job 
DFS Deutsche Flugsicherung GmbH-Firmenlogo
Ingenieur* in der Instandsetzung und Entwicklung DFS Deutsche Flugsicherung GmbH
Langen (Hessen) Zum Job 
TTP Holding GmbH-Firmenlogo
Projektingenieur Pharmatechnik (m/w/d) 80% - 100% TTP Holding GmbH
Basel, Visp (Schweiz) Zum Job 
Dow-Firmenlogo
Campus Fresh Graduate - Electrical Engineer (m/f/d) Dow
Schkopau Zum Job 
TÜV Technische Überwachung Hessen GmbH-Firmenlogo
Sachverständiger für Brand- und Explosionsschutz (m/w/d) TÜV Technische Überwachung Hessen GmbH
Frankfurt am Main Zum Job 
Dow-Firmenlogo
Campus Internship - Process Engineering (Chemie-/Verfahrenstechnik) Dow
Prognost Systems GmbH-Firmenlogo
Elektroingenieur / Maschinenbauingenieur / Techniker (m/w/d) (Elektroniker, Elektrotechniker o. ä.) Prognost Systems GmbH
Dow-Firmenlogo
Jump-start Your Engineering Career at Dow - Talent Pool Dow
Schkopau Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Bauingenieur:in als Expertin oder Experte Kreuzungsprojekte und Qualitätsmanagement (w/m/d) Die Autobahn GmbH des Bundes
Hannover Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Ingenieurin oder Ingenieur (w/m/d) Vertragsmanagement Bauwerksprüfung Die Autobahn GmbH des Bundes
Hannover Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Teamleiter (w/m/d) im Projektteam Planung Die Autobahn GmbH des Bundes
RS Ingenieure GmbH & Co. KG-Firmenlogo
Bauingenieur als Tragwerksplaner (m/w/d) RS Ingenieure GmbH & Co. KG

KI im Recruiting: Werden Personaler überflüssig?

Wie funktioniert DALL-E mini?

Das Prinzip: Nutzer geben auf der kostenlosen Plattform einen beliebigen Text in ein Suchfeld ein. DALL-E mini interpretiert den Satz und erstellt dann nach ein bisschen Rechnerei (das kann schon mal bis zu eine Minute dauern) neun dazu mehr oder minder passende Grafiken. Dazu greift das Programm auf sämtliche verfügbaren Bilder im Internet zurück und setzt daraus ein eigenes Bild zusammen. Um die KI zu trainieren, wurde sie mit Millionen von Bildern aus dem Netz und deren jeweiligen Beschriftungen gefüttert. So lernt das Programm nach und nach, wie Bilder und Fragmente davon sprachlich zu deuten sind beziehungsweise wie welches Wort in welches Bild übertragen werden kann.

Und da sind die Bias-Grenzen: Beim Wort "engineer" malt DALL-E mini ausschließlich Männer. Dass es auch Ingenieurinnen gibt, darauf kommt die Software von selbst nicht - und ihr Wissen holt sie aus dem Netz, wo der Eindruck, das Ingenieurtum sei eine männliche Domäne, offenbar verfestigt ist.
Abgesehen davon: Mit menschlichen Gesichtern kommt die KI nicht gut klar. Sie wirken meist seltsam verzerrt.
Und doch beeindruckt DALL-E mini: Oft erzeigt die KI anhand passende Bilder. Elon Musk spielt Trompete? Das Bild ist recht unproblematisch für DALL-E mini, denn Bilddateien vom Tesla-Chef gibt es zuhauf im Netz.
Apropos Elon Musk: Eine Maus und eine Grille auf dem Mars. Etwas eigenwillig interpretiert.
Ein Mops im Raumschiff. Warum nicht?
Wenn sich jemand mit Kampfrobotern anlegt, dann ein Dackel.
Dackel erfindet Perpetuum Mobile - darunter konnte sich die Software nicht viel vorstellen.
Beim zweiten Versuch erstellte DALL-E mini andere Bilder als beim ersten Mal.
Ja, auch eine Banane, die Jazz-Songs singt, ist theoretisch vorstellbar.

Das gelingt manchmal verblüffend amüsant – und manchmal überhaupt nicht. Klar ist: Je mehr Bilddateien es zu einem Begriff oder einer Phrase gibt, desto interessanter und passgenauer wird Ergebnis. Was auffällt: Mit menschlichen Gesichtern scheint die KI noch nicht so gut klarzukommen. Sie erscheinen häufig verzerrt, bisweilen bis ins Albtraumhafte grotesk. Wobei dieses Phänomen schon wieder einen gewissen „künstlerischen“ Reiz haben kann.

DALL-E mini: Too much Traffic – was kann ich tun?

Der Bildgenerator basiert auf der Software GPT-3 von OpenAI und wurde schon im Jahr 2021 erstellt. Doch jetzt erst ist DALL-E mini einer breiten Masse bekannt – einer sehr breiten wohl gemerkt. Nachdem Tausende Bilder von Nutzern viral gegangen sind, wollten immer mehr Menschen das Tool ausprobieren, so dass die Server zeitweise an den Rand der Belastbarkeit gerieten. Manchmal spuckt das Programm die Meldung „Too much traffic“ aus. Dann hilft nur eins: Warten und noch einmal probieren.

Wie Geisteswissenschaften die KI-Forschung nach vorne bringen können

Woher kommt der Name?

Der Name ist eine Hommage an den surrealistischen Künstler Salvador Dalí – in der Tat wirken die Werke oft seltsam traumartig.

Ist DALL-E mini kostenlos?

Ja, DALL-E mini ist für jeden kostenlos nutzbar. Das Programm ist eine Art abgespeckte Version der Software DALL-E 2 von OpenAI, das unter anderem auch fotorealistische Bilder aus Sätzen erzeugen kann – allerdings ist der Zugang zur Software nur möglich, wenn man sich auf einer Warteliste einträgt: Bislang dürfen nur einige wenige Forscher und Künstler DALL-E 2 testen.

Bias und Vorurteile: Die Moral der KI ist nur so gut wie die der Nutzer, die sie füttern

Ein interessanter Aspekt: Auf der Plattform findet sich ein deutlicher Hinweis zu den Grenzen der Software. Darin heißt es: „Obwohl die Fähigkeiten von Bildgenerierungsmodellen beeindruckend sind, können sie auch gesellschaftliche Vorurteile verstärken oder verschärfen. Während das Ausmaß und die Art der Verzerrungen von DALL-E mini noch vollständig dokumentiert werden müssen, kann es angesichts der Tatsache, dass das Modell mit ungefilterten Daten aus dem Internet trainiert wurde, Bilder erzeugen, die Stereotype gegen Minderheitengruppen enthalten.“ Das heißt: Wenn Bilder und ihre Beschriftungen im Netz bestimmte Vorurteile bedienen oder bestimmten Bias unterworfen sind, dann übernimmt die KI diese automatisch mit – und lässt sie wiederum in seine Bilder mit einfließen. Damit zeigt DALL-E mini ein grundsätzliches Problem von Künstlicher Intelligenz auf: Sie ist nicht von Natur aus neutral oder gar gut (oder besser als menschliche Instanzen).

Hören Sie zum Thema KI auch diese Ausgabe unseres Podcasts „Prototyp“: 

Hier wird Ihnen ein externer Inhalt von Podigee angezeigt.
Mit der Nutzung des Inhalts stimmen Sie der Datenschutzerklärung von youtube.com zu.

Wenn Sie mit bestimmten Bias gefüttert wird, wird es schwierig, diese wieder abzutrainieren. Wer „engineer“ in das Suchfeld eingibt, erhält mit einer hohen Wahrscheinlichkeit nur Bilder von Helm tragenden Männern – keine Frauen. Ein Phänomen, das sich insofern mit der Wirklichkeit deckt, als Frauen in den meisten MINT-Berufen nach wie vor stark unterrepräsentiert sind. Was wiederum auch daran liegen dürfte, dass der Beruf im medialen und gesellschaftlichen Denken immer noch als eher männlich gilt. Konsequenterweise produziert DALL-e mini beim Stichwort „nurse“ auch ausschließlich Bilder von weiblichen Pflegekräften.

Einerseits werden so zu überholende Denkmuster deutlich – aber eben auch die Grenzen von KI. Wird eine vorurteilsbehaftete Maschine zum Beispiel im Recruiting eingesetzt, in der Verwaltung oder gar in der Justiz, kann das fatale Folgen haben. „Wenn es um die Eingangsdaten geht, also dem Material, mit dem eine KI lernt, macht es Sinn, das mindestens arbeitsteilig anzugehen. Die Daten sind ja der Ausgangspunkt für solche Probleme. Ein Briefing für Programmierer und Programmierinnen mit welchen Daten sie es hier zu tun haben und inwiefern sie ihre eigene Rolle reflektieren sollten, ist wichtig. Die Komplexität bei der Modellierung von KI-Systemen kann fachübergreifend auch besser abgebildet werden“, sagt Christoph Bieber. Er ist seit Oktober 2021 Forschungsprofessor Digitale Demokratische Innovationen am Center for Advanced Internet Studies in Bochum.

Alternative: Stable Diffusion – das Ende der Stockfotos

Die Zahl praktischer Anwendungszwecke für die Allgemeinheit hält sich bei den Bildgeneratoren in Grenzen – sie sind eher Experiment als Werkzeug. Weil sie aber offenbar sehr beleibt sind, strömen allmählich weitere Modelle ins Netz. Aktuell trendet das Programm Stable Diffusion. Nach dem Open-Source-Prinzip steht das Bild-zu-Text-Tool der Allgemeinheit frei zur Verfügung.

Nutzer melden sich über die Seite beta.dreamstudio.ai an, und haben dann ein Kontigent von etwa 150 kostenlosen Bildern, die sie erstellen lassen können, zur Verfügung. Die Bilder, die die KI ausspuckt, sind weniger surrealistisch angehaucht, wirken eher realistisch. Womöglich könnten sich zum Beispiel Grafiker oder Mediendesigner mithilfe des Programms irgendwann ihre ganz eigene Bilddatenbank erstellen und sind nicht mehr auf Stockfotos angewiesen. Noch wirken die Bilder dafür allerdings zu künstlich.

Das Besondere: Das Modell lässt sich auch lokal nutzen, dazu ist eine Nvidia-Grafikkarte mit mindestens 4 Gigabyte VRAM Speicher vonnöten, wobei gilt: Je höher die Auflösung des Bildes sein soll, desto höhere VRAM-Werte werden gebraucht.

Data Scientist: Was macht der professionelle Datenauswerter?

Ein Beitrag von:

  • Peter Sieben

    Peter Sieben schreibt über Forschung, Politik und Karrierethemen. Nach einem Volontariat bei der Funke Mediengruppe war er mehrere Jahre als Redakteur und Politik-Reporter in verschiedenen Ressorts von Tageszeitungen und Online-Medien unterwegs.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.