Künstliche Bewegtbilder 26.03.2024, 14:23 Uhr

Sora von OpenAI – so mächtig ist die generative Text-to-Video-KI

Mitte Februar 2024 hat OpenAI mit Sora ein neues KI-System vorgestellt, das kurze Videos aus Textanweisungen erstellen kann. Die veröffentlichten Beispielvideos aufgrund ihrer beeindruckenden Qualität eine Mischung aus Begeisterung und Besorgnis ausgelöst. Nun gibt es auch den ersten Kurzfilm.

Video

Mithilfe von Sora lassen sich aus einfachen Texteingaben Videos mit beindruckender Qualität generieren.

Foto: PantherMedia / alphaspirit

ChatGPT hat vor etwas mehr als einem Jahr die Welt in Aufregung versetzt, so neu und außergewöhnlich waren die Leistungen, die das Sprachmodell mithilfe künstlicher Intelligenz vollbrachte. Wer einmal den Dall-E2 aus dem gleichen Hause ausprobiert hat, wird ebenfalls staunen, wenn es um die Erzeugung von Bildern durch Texteingabe geht. Nun zum nächsten großen Ding von OpenAI. Mithilfe von Texteingabe lassen sich ganze Videos generieren, die absolut ruckelfrei ablaufen und fast wie ein Original aussehen. Man merkt kaum, dass sie von einer künstlichen Intelligenz erstellt wurden. Schauen wir uns einmal an, wie mächtig das Tool ist und wie erschreckend, was man damit alles anstellen kann.

Aus einfachen Eingaben werden beeindruckende Videos

OpenAI hat Beispielvideos veröffentlicht, die von seiner KI Sora erstellt wurden. Diese Videos entstanden durch einfache Texteingaben wie „fotorealistisches Nahaufnahmevideo zweier kämpfender Piratenschiffe in einer Tasse Kaffee“ und „historisches Filmmaterial aus Kalifornien während des Goldrauschs“. Auf den ersten Blick wirken sie täuschend echt.

Top Stellenangebote

Zur Jobbörse
RHEINMETALL AG-Firmenlogo
Verstärkung für unsere technischen Projekte im Bereich Engineering und IT (m/w/d) RHEINMETALL AG
deutschlandweit Zum Job 
MB Global Engineering GmbH & Co. KG-Firmenlogo
Projektleiter Elektrotechnik (m/w/d) MB Global Engineering GmbH & Co. KG
Darmstadt Zum Job 
Nitto Advanced Film Gronau GmbH-Firmenlogo
Projektingenieur (m/w/d) im Bereich Maschinen- und Anlagentechnik Nitto Advanced Film Gronau GmbH
Städtische Wohnungsgesellschaft Eisenach mbH-Firmenlogo
Bauingenieur Hochbau / Architekt (m/w/d) Städtische Wohnungsgesellschaft Eisenach mbH
Eisenach Zum Job 
IT-Consult Halle GmbH-Firmenlogo
Trainee SAP HCM / Personalwirtschaft (m/w/d) IT-Consult Halle GmbH
Halle (Saale) Zum Job 
Regierungspräsidium Freiburg-Firmenlogo
Bachelor / Dipl. Ing. (FH) (w/m/d) der Fachrichtung Wasserwirtschaft, Umwelt, Landespflege oder vergleichbar Regierungspräsidium Freiburg
Freiburg im Breisgau Zum Job 
Dorsch Gruppe-Firmenlogo
Projektleiter (m/w/d) Tragwerksplanung mit Perspektive auf Fachbereichsleitung Dorsch Gruppe
Wiesbaden Zum Job 
Clariant SE-Firmenlogo
Techniker* für Automatisierungstechnik Clariant SE
Oberhausen Zum Job 
Die Autobahn GmbH des Bundes, Niederlassung Südbayern-Firmenlogo
Projektingenieur für Brückenbau / Tunnelbau / Ingenieurbau (w/m/d) Die Autobahn GmbH des Bundes, Niederlassung Südbayern
München Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Bauingenieurin oder Bauingenieur in der Schlichtungsstelle (w/m/d) Die Autobahn GmbH des Bundes
Hannover Zum Job 
Big Dutchman International GmbH-Firmenlogo
Ingenieur / Techniker / Meister (m/w/d) Big Dutchman International GmbH
BOGE KOMPRESSOREN Otto Boge GmbH & Co. KG-Firmenlogo
Entwickler / Konstrukteur für die Verdichterentwicklung (m/w/x) BOGE KOMPRESSOREN Otto Boge GmbH & Co. KG
Großenhain Zum Job 
Griesemann Gruppe-Firmenlogo
Ingenieur Verfahrenstechnik / Prozessingenieur (m/w/d) Griesemann Gruppe
Wesseling, Köln Zum Job 
Energieversorgung Halle Netz GmbH-Firmenlogo
Fachingenieur Netzbetrieb Strom (m/w/d) Energieversorgung Halle Netz GmbH
Halle (Saale) Zum Job 
über ifp | Executive Search. Management Diagnostik.-Firmenlogo
COO (m/w/d) über ifp | Executive Search. Management Diagnostik.
Norddeutschland Zum Job 
Hamburger Wasser-Firmenlogo
Ingenieur/Referent (m/w/d) Vergabe Ingenieur-/ Bauleistungen Hamburger Wasser
Hamburg Zum Job 
Möller Medical GmbH-Firmenlogo
Industrial Engineer (m/w/d) Möller Medical GmbH
THU Technische Hochschule Ulm-Firmenlogo
W2-Professur "Elektrifizierte Fahrzeugantriebssysteme" THU Technische Hochschule Ulm
MÜNZING CHEMIE GmbH-Firmenlogo
Prozessoptimierer (m/w/d) für die chemische Industrie MÜNZING CHEMIE GmbH
Elsteraue Zum Job 
Energieversorgung Halle Netz GmbH-Firmenlogo
Projektingenieur - Fernwärme/Energietechnik (m/w/d) Energieversorgung Halle Netz GmbH
Halle (Saale) Zum Job 

Die hochwertige Darstellung der Texturen, die Dynamik der Szenen und die flüssigen Kamerabewegungen lassen die Videos fast wie echte Aufnahmen erscheinen und zeugen von einer beeindruckenden Konsistenz. Es ist schwer zu glauben, dass die einmütigen Videos nur aufgrund einer einfachen Zeile Text generiert wurden. OpenAI beteuert jedoch, dass nichts nachbearbeitet wurde.

Wie funktioniert Sora?

Sora kombiniert die Eigenschaften von Text- und Bildgenerierungswerkzeugen in einem sogenannten Diffusionstransformatormodell. Transformatoren, eine Art neuronales Netz, wurden 2017 von Google eingeführt und sind vor allem für ihre Rolle in großen Sprachmodellen wie ChatGPT und Google Gemini bekannt.

Hingegen bilden Diffusionsmodelle, die mit zufälligem Rauschen beginnen und sich allmählich zu einem klaren Bild entwickeln, das einer Eingabeaufforderung entspricht, die Grundlage vieler bildgenerierender KIs. Aus einer Reihe solcher Bilder kann ein Video erzeugt werden, wobei die Kohärenz und Konsistenz zwischen den Bildern für Videos von entscheidender Bedeutung ist.

Sora verwendet die Transformator-Architektur, um die Beziehungen zwischen den Bildern zu steuern. Während Transformatoren ursprünglich für die Mustererkennung in Text-Token entwickelt wurden, verwendet Sora Token, die kleine Segmente im Raum-Zeit-Kontinuum darstellen.

Im folgenden Video werden die beeindruckenden Fähigkeiten von Sora demonstriert:

Kann man Sora schon in Deutschland nutzen?

Sora ist noch nicht offiziell zugänglich, da sich das Tool noch in der Entwicklungsphase befindet. Ein ausgewählter Kreis von Fachleuten, darunter Designer, Filmemacher, Visual Artists und Personen, die beruflich regelmäßig mit Video arbeiten, hat jedoch bereits einen Vorabzugang erhalten. Ziel dieser Maßnahme ist es, durch deren Erfahrungen die Weiterentwicklung der Video-KI voranzutreiben.

Ähnlich wie bei anderen KI-Diensten planen die Entwickler, Sicherheitssysteme einzurichten, um die Erstellung schädlicher Inhalte zu verhindern. Laut OpenAI weist das Tool derzeit noch Zuverlässigkeitsprobleme auf, die zu Missverständnissen bei der Eingabe und unerwünschten Ergebnissen führen können. Informationen darüber, wann Sora einem breiteren Nutzerkreis zur Verfügung stehen wird und welche Bedingungen für die Nutzung der Text-to-Video-KI gelten werden, wurden noch nicht veröffentlicht.

Sora nicht das erste Text-zu-Video-Modell

Sora ist nicht das erste Modell, das Text in Video umwandelt. Zu seinen Vorgängern zählen Metas Emu, Runways Gen-2, Stable Video Diffusion und Googles Lumiere, das erst kürzlich auf den Markt kam. Lumiere erhob Anspruch auf eine höhere Videoqualität als seine Vorgänger, aber Sora übertrifft Lumiere in einigen Aspekten.

Sora erzeugt Videos mit einer Auflösung von bis zu 1920 × 1080 Pixel und unterstützt verschiedene Seitenverhältnisse, während Lumiere auf 512 × 512 Pixel beschränkt ist. Außerdem kann Sora Videos mit einer Länge von bis zu 60 Sekunden produzieren, während Lumiere auf etwa 5 Sekunden beschränkt ist.

Ein weiterer Vorteil von Sora ist die Möglichkeit, Videos aus mehreren Szenen zusammenzusetzen, was bei Lumiere nicht möglich ist. Wie die anderen Modelle verfügt auch Sora über Videobearbeitungsfunktionen, einschließlich der Erstellung von Videos aus Bildern oder anderen Videos, der Kombination verschiedener Videoelemente und der Verlängerung von Videos.

Obwohl beide Modelle im Allgemeinen realistische Videos erzeugen, können sie dennoch Halluzinationen aufweisen. Die Videos von Lumiere sind leichter als KI-generiert zu erkennen, während die Videos von Sora dynamischer erscheinen und mehr Interaktionen zwischen den Elementen zeigen. Bei genauerer Betrachtung werden jedoch häufig Unstimmigkeiten in den Beispielvideos deutlich.

Air Head: Sora erschafft Kurzfilm

Ein kleine kanadisches Produktionsstudio hat mit Sora einen Kurzfilm mit dem Titel „Air Head“ erstellt, der komplett aus KI-generierten Clips zusammengeschnitten wurde. In Air Head geht es um die Geschichte eines Mannes, der anstelle eines Kopfes einen gelben Luftballon hat. Im Film sehen wir den Mann in verschiedenen Phasen seines Lebens mit all seinen Freuden und Herausforderungen, die solch ein „Luftkopf“ mit sich bringt.

Der Clip ist in viele kurze Abschnitte unterteilt, was nicht verwundert, da Sora nur Videos von einer Minute Länge produzieren kann. Trotz der scheinbar unübersichtlichen Montage der Einblicke in das Leben des „Air Head“ entsteht ein faszinierendes Gesamtbild. Es bietet nicht nur einen interessanten Einblick, sondern auch eine Vorschau auf das, was Sora in Zukunft in der Filmindustrie möglich machen könnte.

„Obwohl Sora sehr gut darin ist, realistische Kreationen zu schaffen, fasziniert uns vor allem das Potenzial, völlig surreale Dinge zu erschaffen“, erklären Shy Kids, die kreativen Köpfe hinter dem Kurzfilm. Die Multimedia-Produktionsfirma aus Toronto sieht große Chancen für alle kreativen Köpfe – und solche, die es werden wollen. Die Zukunft verspricht, dass man nur eine Idee haben muss; mit den richtigen Anweisungen kann Sora die visuelle Umsetzung übernehmen. Nachfolgend können Sie sich den Kurzfilm anschauen.

Stellt Sora nicht nur die Filmindustrie auf den Kopf?

Videoinhalte werden derzeit entweder durch Aufnahmen aus der realen Welt oder durch Spezialeffekte erzeugt, was jedoch mit einem hohen Kosten- und Zeitaufwand verbunden ist. Sora könnte, wenn es zu einem vernünftigen Preis erhältlich wäre, als Prototyping-Werkzeug für die Visualisierung von Ideen dienen und so die Kosten erheblich senken.

Aufgrund der bekannten Fähigkeiten von Sora könnte die Software auch zur Produktion von kurzen Videoclips für Unterhaltung, Werbung und Bildung eingesetzt werden. Das von OpenAI veröffentlichte technische Papier zu Sora mit dem Titel „Video generation models as world simulators“ weist darauf hin, dass erweiterte Versionen von Videogeneratoren wie Sora in der Lage sein könnten, als leistungsfähige Simulatoren der realen und digitalen Welt und der darin enthaltenen Objekte, Tiere und Menschen zu fungieren.

Sollte sich dies bewahrheiten, könnten zukünftige Versionen von Sora wissenschaftliche Experimente in den Bereichen Physik, Chemie und Sozialwissenschaften ermöglichen. So könnten beispielsweise die Auswirkungen von Tsunamis unterschiedlicher Stärke auf verschiedene Infrastrukturen und deren Folgen für die physische und psychische Gesundheit der betroffenen Menschen simuliert werden.

Sind Simulationen wirklich möglich?

Das eben beschriebene Simulationsniveau zu erreichen, stellt eine große Herausforderung dar. Einige Experten glauben sogar, dass ein System wie Sora prinzipiell ungeeignet ist. Für eine vollständige Simulation müssten physikalische und chemische Reaktionen auf den feinsten Ebenen des Universums berechnet werden.

Eine grobe Annäherung an die Welt und realistische Videos für das menschliche Auge könnten jedoch in den nächsten Jahren möglich werden. Vor einigen Jahren war aber auch noch undenkbar, dass eine künstliche Intelligenz wie Sora überhaupt solche Videos generieren kann. Es bleibt daher spannend, was die Zukunft bringen wird – auch in Bezug auf Simulationen.

Deepfakes: Große ethische Bedenken

Die größten Bedenken in Bezug auf Technologien wie Sora betreffen ihre sozialen und ethischen Auswirkungen. In einer Welt, die bereits von Falschmeldungen heimgesucht wird, könnten solche Technologien das Problem noch verschärfen. Die Möglichkeit, überzeugende Fake-Videos zu jedem beliebigen Szenario zu erstellen, birgt das Risiko, dass Falschmeldungen verbreitet werden oder die Glaubwürdigkeit echter Aufnahmen untergraben wird.

Dies könnte die öffentliche Gesundheit gefährden, Wahlen beeinflussen oder die Justiz durch gefälschte Beweise belasten. Darüber hinaus ermöglichen Videogeneratoren die Erstellung gezielter Deepfakes, einschließlich solcher mit pornografischem Inhalt, was verheerende Auswirkungen auf die Betroffenen und ihre Familien haben kann. Zuletzt musste Taylor Swift gegen von künstlicher Intelligenz erstellte Nacktfotos vorgehen.

Wie sieht es mit dem Urheberrecht aus?

Neben Bedenken des Missbrauchs von Sora gibt es auch Fragen des Urheberrechts und des geistigen Eigentums. Zumal OpenAI nicht offenlegt, woher die Daten für Trainingszwecke stammen. Auch große Sprachmodelle und Bildgeneratoren sind aus diesem Grund in die Kritik geraten. In den USA hat eine Gruppe bekannter Autoren OpenAI wegen möglichen Missbrauchs ihres Materials verklagt. In der Klage wird argumentiert, dass große Sprachmodelle und die Unternehmen, die sie verwenden, die Arbeit der Autoren stehlen, um neue Inhalte zu erstellen.

Auch wenn diese Bedenken berechtigt sind, ist es aufgrund der bisherigen Erfahrungen nicht zu erwarten, dass sie die Entwicklung videobasierter Technologien aufhalten werden. OpenAI sagt zu dem Thema beispielsweise, dass verschiedene Sicherheitsmaßnahmen ergriffen werden, bevor Sora für die Öffentlichkeit freigeschaltet wird. Dazu gehört die Zusammenarbeit mit Experten für „Fehlinformationen, Hassinhalte und Voreingenommenheit“ und die „Entwicklung von Werkzeugen zur Erkennung irreführender Inhalte“.

Ein Beitrag von:

  • Dominik Hochwarth

    Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.