Künstliche Bewegtbilder 26.03.2024, 14:23 Uhr

Sora von OpenAI – so mächtig ist die generative Text-to-Video-KI

Mitte Februar 2024 hat OpenAI mit Sora ein neues KI-System vorgestellt, das kurze Videos aus Textanweisungen erstellen kann. Die veröffentlichten Beispielvideos aufgrund ihrer beeindruckenden Qualität eine Mischung aus Begeisterung und Besorgnis ausgelöst. Nun gibt es auch den ersten Kurzfilm.

Video

Mithilfe von Sora lassen sich aus einfachen Texteingaben Videos mit beindruckender Qualität generieren.

Foto: PantherMedia / alphaspirit

ChatGPT hat vor etwas mehr als einem Jahr die Welt in Aufregung versetzt, so neu und außergewöhnlich waren die Leistungen, die das Sprachmodell mithilfe künstlicher Intelligenz vollbrachte. Wer einmal den Dall-E2 aus dem gleichen Hause ausprobiert hat, wird ebenfalls staunen, wenn es um die Erzeugung von Bildern durch Texteingabe geht. Nun zum nächsten großen Ding von OpenAI. Mithilfe von Texteingabe lassen sich ganze Videos generieren, die absolut ruckelfrei ablaufen und fast wie ein Original aussehen. Man merkt kaum, dass sie von einer künstlichen Intelligenz erstellt wurden. Schauen wir uns einmal an, wie mächtig das Tool ist und wie erschreckend, was man damit alles anstellen kann.

Aus einfachen Eingaben werden beeindruckende Videos

OpenAI hat Beispielvideos veröffentlicht, die von seiner KI Sora erstellt wurden. Diese Videos entstanden durch einfache Texteingaben wie „fotorealistisches Nahaufnahmevideo zweier kämpfender Piratenschiffe in einer Tasse Kaffee“ und „historisches Filmmaterial aus Kalifornien während des Goldrauschs“. Auf den ersten Blick wirken sie täuschend echt.

Die hochwertige Darstellung der Texturen, die Dynamik der Szenen und die flüssigen Kamerabewegungen lassen die Videos fast wie echte Aufnahmen erscheinen und zeugen von einer beeindruckenden Konsistenz. Es ist schwer zu glauben, dass die einmütigen Videos nur aufgrund einer einfachen Zeile Text generiert wurden. OpenAI beteuert jedoch, dass nichts nachbearbeitet wurde.

Wie funktioniert Sora?

Sora kombiniert die Eigenschaften von Text- und Bildgenerierungswerkzeugen in einem sogenannten Diffusionstransformatormodell. Transformatoren, eine Art neuronales Netz, wurden 2017 von Google eingeführt und sind vor allem für ihre Rolle in großen Sprachmodellen wie ChatGPT und Google Gemini bekannt.

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs
ARTS Experts GmbH-Firmenlogo
Technischer Ausbilder für Luftfahrttechnik, Elektrik & Avionik (m/w/d) ARTS Experts GmbH
Oberpfaffenhofen bei München Zum Job 
IFCO Management GmbH-Firmenlogo
Electrical Engineer (m/f/d) IFCO Management GmbH
München Zum Job 
DFS Deutsche Flugsicherung GmbH-Firmenlogo
Ingenieur* Site Reliability DFS Deutsche Flugsicherung GmbH
DFS Deutsche Flugsicherung GmbH-Firmenlogo
Ingenieur/Informatiker/Techniker* Fluglotsensimulator DFS Deutsche Flugsicherung GmbH
München Zum Job 
DFS Deutsche Flugsicherung GmbH-Firmenlogo
Flugsicherungsingenieur* operative Inbetriebhaltung DFS Deutsche Flugsicherung GmbH
Karlsruhe Zum Job 
Deutsches Zentrum für Luft- und Raumfahrt e. V.-Firmenlogo
Abteilungsleiter/in für "Projekte und Querschnittsthemen" - (Wirtschafts-)Ingenieur/in, Naturwissenschaftler/in o. ä. (w/m/d) Deutsches Zentrum für Luft- und Raumfahrt e. V.
Hecklingen-Cochstedt Zum Job 
Bundeswehr-Firmenlogo
Ingenieurin / Ingenieur mit Master in Informatik / Elektrotechnik - Beamten - Ausbildung (m/w/d) Bundeswehr
Mannheim Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Ingenieur (w/m/d) Elektrotechnik / Kommunikationstechnik Die Autobahn GmbH des Bundes
Frankfurt am Main Zum Job 
AECOM Deutschland GmbH-Firmenlogo
Electrical Engineer (m/w/d) AECOM Deutschland GmbH
Frankfurt Zum Job 
Hochschule Hamm-Lippstadt-Firmenlogo
Wissenschaftliche*r Mitarbeiter*in (m/w/d) Bereich Energietechnik, Maschinenbau, Elektrotechnik - Schwerpunkt netzgebundene Lösungen Wärmeversorgung Hochschule Hamm-Lippstadt
Hochschule Hamm-Lippstadt-Firmenlogo
Wissenschaftliche*r Mitarbeiter*in (m/w/d) Bereich Energietechnik, Maschinenbau, Elektrotechnik - Schwerpunkt dezentrale Lösungen Wärmeversorgung Hochschule Hamm-Lippstadt
Hochschule Hamm-Lippstadt-Firmenlogo
Wissenschaftliche*r Mitarbeiter*in (m/w/d) Bereich Energietechnik, Maschinenbau, Elektrotechnik - Schwerpunkt netzgebundene Lösungen Hochschule Hamm-Lippstadt
RHEINMETALL AG-Firmenlogo
Verstärkung für unsere technischen Projekte im Bereich Engineering und IT (m/w/d) RHEINMETALL AG
deutschlandweit Zum Job 
Bau- und Liegenschaftsbetrieb NRW-Firmenlogo
Ingenieurinnen / Ingenieure bzw. Technikerinnen / Techniker oder Meisterinnen / Meister der Elektrotechnik (w/m/d) Bau- und Liegenschaftsbetrieb NRW
Münster Zum Job 
naturenergie netze GmbH-Firmenlogo
Meister / Techniker (m/w/d) Leit- und Fernwirktechnik naturenergie netze GmbH
Donaueschingen, Rheinfelden (Baden) Zum Job 
Safran Data Systems GmbH-Firmenlogo
Testingenieur / Certified Tester (m/w/d) Safran Data Systems GmbH
Bergisch Gladbach Zum Job 
DAkkS Deutsche Akkreditierungsstelle GmbH-Firmenlogo
Ingenieur/in der Elektrotechnik, Nachrichtentechnik, Hochfrequenztechnik oder Medizintechnik (w/m/d) DAkkS Deutsche Akkreditierungsstelle GmbH
Berlin, Frankfurt am Main Zum Job 
CoorsTek GmbH-Firmenlogo
Prozessingenieur / Ingenieur (m/w/d) Produktion CoorsTek GmbH
Mönchengladbach Zum Job 
Groeneveld-BEKA GmbH-Firmenlogo
Electronic Engineer / Elektroniker (m/w/d) Groeneveld-BEKA GmbH
Pegnitz Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Projektingenieur (w/m/d) mit Schwerpunkt Tunnelbetrieb Die Autobahn GmbH des Bundes

Hingegen bilden Diffusionsmodelle, die mit zufälligem Rauschen beginnen und sich allmählich zu einem klaren Bild entwickeln, das einer Eingabeaufforderung entspricht, die Grundlage vieler bildgenerierender KIs. Aus einer Reihe solcher Bilder kann ein Video erzeugt werden, wobei die Kohärenz und Konsistenz zwischen den Bildern für Videos von entscheidender Bedeutung ist.

Sora verwendet die Transformator-Architektur, um die Beziehungen zwischen den Bildern zu steuern. Während Transformatoren ursprünglich für die Mustererkennung in Text-Token entwickelt wurden, verwendet Sora Token, die kleine Segmente im Raum-Zeit-Kontinuum darstellen.

Im folgenden Video werden die beeindruckenden Fähigkeiten von Sora demonstriert:

Kann man Sora schon in Deutschland nutzen?

Sora ist noch nicht offiziell zugänglich, da sich das Tool noch in der Entwicklungsphase befindet. Ein ausgewählter Kreis von Fachleuten, darunter Designer, Filmemacher, Visual Artists und Personen, die beruflich regelmäßig mit Video arbeiten, hat jedoch bereits einen Vorabzugang erhalten. Ziel dieser Maßnahme ist es, durch deren Erfahrungen die Weiterentwicklung der Video-KI voranzutreiben.

Ähnlich wie bei anderen KI-Diensten planen die Entwickler, Sicherheitssysteme einzurichten, um die Erstellung schädlicher Inhalte zu verhindern. Laut OpenAI weist das Tool derzeit noch Zuverlässigkeitsprobleme auf, die zu Missverständnissen bei der Eingabe und unerwünschten Ergebnissen führen können. Informationen darüber, wann Sora einem breiteren Nutzerkreis zur Verfügung stehen wird und welche Bedingungen für die Nutzung der Text-to-Video-KI gelten werden, wurden noch nicht veröffentlicht.

Sora nicht das erste Text-zu-Video-Modell

Sora ist nicht das erste Modell, das Text in Video umwandelt. Zu seinen Vorgängern zählen Metas Emu, Runways Gen-2, Stable Video Diffusion und Googles Lumiere, das erst kürzlich auf den Markt kam. Lumiere erhob Anspruch auf eine höhere Videoqualität als seine Vorgänger, aber Sora übertrifft Lumiere in einigen Aspekten.

Sora erzeugt Videos mit einer Auflösung von bis zu 1920 × 1080 Pixel und unterstützt verschiedene Seitenverhältnisse, während Lumiere auf 512 × 512 Pixel beschränkt ist. Außerdem kann Sora Videos mit einer Länge von bis zu 60 Sekunden produzieren, während Lumiere auf etwa 5 Sekunden beschränkt ist.

Ein weiterer Vorteil von Sora ist die Möglichkeit, Videos aus mehreren Szenen zusammenzusetzen, was bei Lumiere nicht möglich ist. Wie die anderen Modelle verfügt auch Sora über Videobearbeitungsfunktionen, einschließlich der Erstellung von Videos aus Bildern oder anderen Videos, der Kombination verschiedener Videoelemente und der Verlängerung von Videos.

Obwohl beide Modelle im Allgemeinen realistische Videos erzeugen, können sie dennoch Halluzinationen aufweisen. Die Videos von Lumiere sind leichter als KI-generiert zu erkennen, während die Videos von Sora dynamischer erscheinen und mehr Interaktionen zwischen den Elementen zeigen. Bei genauerer Betrachtung werden jedoch häufig Unstimmigkeiten in den Beispielvideos deutlich.

Air Head: Sora erschafft Kurzfilm

Ein kleine kanadisches Produktionsstudio hat mit Sora einen Kurzfilm mit dem Titel „Air Head“ erstellt, der komplett aus KI-generierten Clips zusammengeschnitten wurde. In Air Head geht es um die Geschichte eines Mannes, der anstelle eines Kopfes einen gelben Luftballon hat. Im Film sehen wir den Mann in verschiedenen Phasen seines Lebens mit all seinen Freuden und Herausforderungen, die solch ein „Luftkopf“ mit sich bringt.

Der Clip ist in viele kurze Abschnitte unterteilt, was nicht verwundert, da Sora nur Videos von einer Minute Länge produzieren kann. Trotz der scheinbar unübersichtlichen Montage der Einblicke in das Leben des „Air Head“ entsteht ein faszinierendes Gesamtbild. Es bietet nicht nur einen interessanten Einblick, sondern auch eine Vorschau auf das, was Sora in Zukunft in der Filmindustrie möglich machen könnte.

„Obwohl Sora sehr gut darin ist, realistische Kreationen zu schaffen, fasziniert uns vor allem das Potenzial, völlig surreale Dinge zu erschaffen“, erklären Shy Kids, die kreativen Köpfe hinter dem Kurzfilm. Die Multimedia-Produktionsfirma aus Toronto sieht große Chancen für alle kreativen Köpfe – und solche, die es werden wollen. Die Zukunft verspricht, dass man nur eine Idee haben muss; mit den richtigen Anweisungen kann Sora die visuelle Umsetzung übernehmen. Nachfolgend können Sie sich den Kurzfilm anschauen.

Stellt Sora nicht nur die Filmindustrie auf den Kopf?

Videoinhalte werden derzeit entweder durch Aufnahmen aus der realen Welt oder durch Spezialeffekte erzeugt, was jedoch mit einem hohen Kosten- und Zeitaufwand verbunden ist. Sora könnte, wenn es zu einem vernünftigen Preis erhältlich wäre, als Prototyping-Werkzeug für die Visualisierung von Ideen dienen und so die Kosten erheblich senken.

Aufgrund der bekannten Fähigkeiten von Sora könnte die Software auch zur Produktion von kurzen Videoclips für Unterhaltung, Werbung und Bildung eingesetzt werden. Das von OpenAI veröffentlichte technische Papier zu Sora mit dem Titel „Video generation models as world simulators“ weist darauf hin, dass erweiterte Versionen von Videogeneratoren wie Sora in der Lage sein könnten, als leistungsfähige Simulatoren der realen und digitalen Welt und der darin enthaltenen Objekte, Tiere und Menschen zu fungieren.

Sollte sich dies bewahrheiten, könnten zukünftige Versionen von Sora wissenschaftliche Experimente in den Bereichen Physik, Chemie und Sozialwissenschaften ermöglichen. So könnten beispielsweise die Auswirkungen von Tsunamis unterschiedlicher Stärke auf verschiedene Infrastrukturen und deren Folgen für die physische und psychische Gesundheit der betroffenen Menschen simuliert werden.

Sind Simulationen wirklich möglich?

Das eben beschriebene Simulationsniveau zu erreichen, stellt eine große Herausforderung dar. Einige Experten glauben sogar, dass ein System wie Sora prinzipiell ungeeignet ist. Für eine vollständige Simulation müssten physikalische und chemische Reaktionen auf den feinsten Ebenen des Universums berechnet werden.

Eine grobe Annäherung an die Welt und realistische Videos für das menschliche Auge könnten jedoch in den nächsten Jahren möglich werden. Vor einigen Jahren war aber auch noch undenkbar, dass eine künstliche Intelligenz wie Sora überhaupt solche Videos generieren kann. Es bleibt daher spannend, was die Zukunft bringen wird – auch in Bezug auf Simulationen.

Deepfakes: Große ethische Bedenken

Die größten Bedenken in Bezug auf Technologien wie Sora betreffen ihre sozialen und ethischen Auswirkungen. In einer Welt, die bereits von Falschmeldungen heimgesucht wird, könnten solche Technologien das Problem noch verschärfen. Die Möglichkeit, überzeugende Fake-Videos zu jedem beliebigen Szenario zu erstellen, birgt das Risiko, dass Falschmeldungen verbreitet werden oder die Glaubwürdigkeit echter Aufnahmen untergraben wird.

Dies könnte die öffentliche Gesundheit gefährden, Wahlen beeinflussen oder die Justiz durch gefälschte Beweise belasten. Darüber hinaus ermöglichen Videogeneratoren die Erstellung gezielter Deepfakes, einschließlich solcher mit pornografischem Inhalt, was verheerende Auswirkungen auf die Betroffenen und ihre Familien haben kann. Zuletzt musste Taylor Swift gegen von künstlicher Intelligenz erstellte Nacktfotos vorgehen.

Wie sieht es mit dem Urheberrecht aus?

Neben Bedenken des Missbrauchs von Sora gibt es auch Fragen des Urheberrechts und des geistigen Eigentums. Zumal OpenAI nicht offenlegt, woher die Daten für Trainingszwecke stammen. Auch große Sprachmodelle und Bildgeneratoren sind aus diesem Grund in die Kritik geraten. In den USA hat eine Gruppe bekannter Autoren OpenAI wegen möglichen Missbrauchs ihres Materials verklagt. In der Klage wird argumentiert, dass große Sprachmodelle und die Unternehmen, die sie verwenden, die Arbeit der Autoren stehlen, um neue Inhalte zu erstellen.

Auch wenn diese Bedenken berechtigt sind, ist es aufgrund der bisherigen Erfahrungen nicht zu erwarten, dass sie die Entwicklung videobasierter Technologien aufhalten werden. OpenAI sagt zu dem Thema beispielsweise, dass verschiedene Sicherheitsmaßnahmen ergriffen werden, bevor Sora für die Öffentlichkeit freigeschaltet wird. Dazu gehört die Zusammenarbeit mit Experten für „Fehlinformationen, Hassinhalte und Voreingenommenheit“ und die „Entwicklung von Werkzeugen zur Erkennung irreführender Inhalte“.

Ein Beitrag von:

  • Dominik Hochwarth

    Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.