Erweiterte Realität als digitaler Alltags- und Notfallhelfer
Ein neu entwickeltes System mit Namen „LUMINOUS“ soll eine intuitive Interaktion mit virtuellen Welten ermöglichen. Es sammelt Daten, interpretiert Eindrücke aus der Umgebung und schlägt adäquate Handlungen vor. Es könnt zum Beispiel kranke Menschen im Alltag unterstützen oder Menschen aus Notsituationen führen.
In der hektischen Welt von heute sind wir ständig einer Vielzahl von Reizen ausgesetzt. Diese müssen wir nicht nur erfassen, sondern auch deuten und daraus mögliche Handlungen ableiten. Auf den ersten Blick scheint hier der Einsatz einer KI unmöglich. Doch eine Gruppe des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI) hat genau dafür eine neue Technologie entwickelt: das „LUMINOUS“-System (Language Augmentation for Humanverse). Diese Technologie erfasst die Flut von Eindrücken, analysiert sie und nutzt sogenannte generative und multimodale Sprachmodelle (MLLM), um passende Aktionen vorzuschlagen. Die erweiterte Realität erreicht damit eine neue Dimension der Interaktivität und Unterstützung im Alltag.
Das DFKI treibt mit dem Luminous-Projekt die Entwicklung von Systemen der erweiterten Realität (XR) voran. Zukünftig sollen MLLMs die bisherigen visuellen Erweiterungen unserer Realität, wie Texteinblendungen oder virtuelle Objekte, ergänzen und die Interaktion mit XR-Technologie neu definieren. Diese innovative Herangehensweise verspricht, die Art und Weise, wie wir mit unserer Umgebung interagieren, grundlegend zu verändern und zu verbessern. Die erweiterte Realität entwickelt sich dadurch von einem rein visuellen Hilfsmittel zu einem intelligenten, kontextbewussten Assistenten.
System macht virtuelle Welten intelligenter
„Durch die von uns entwickelte Technologie werden virtuelle Welten intelligenter. Die intuitive Interaktion (per Text) mit dem System und automatische Generierung komplexer Verhaltensweisen und Abläufe durch ‚generative KI‘ oder sogenannte ‚Multi-Modal Large Language Models‘ ermöglichen uns diese nicht nur zu erleben, sondern auch zu testen. Um das zu erreichen, arbeiten wir in Luminous parallel an mehreren Ansätzen wie automatische Code-Generierung, dem schnellen Einpflegen von neuen Daten, und weiteren Lösungen“, erklärt Didier Stricker, der den Forschungsbereich „Erweiterte Realität“ am DFKI leitet. Die erweiterte Realität transformiert sich dadurch von einer passiven zu einer aktiv unterstützenden Technologie.
Die Forschenden beschreiben ein konkretes Szenario, an dem sich die praktische Anwendung veranschaulichen lässt: Man stelle sich vor, es bricht ein Brand in einem Zimmer aus. In diesem Zimmer befindet sich eine Person, die mit dem neu entwickelten System ausgestattet ist. Im ersten Schritt wird es den Nutzer lokalisieren. Anschließend sammelt es relevante Umgebungsdaten, zum Beispiel wo sich der nächste Feuerlöscher oder Notausgang befindet. Diese Informationen werden an das Sprachmodell weitergeleitet, welches dann eine situationsgerechte Handlungsempfehlung generiert: das kann zum Beispiel das Einleiten von Löschmaßnahmen, das Schließen von Fenstern oder die Anweisung zur Evakuierung beinhalten. Die erweiterte Realität kann in diesem Fall als lebensrettender digitaler Assistent in Gefahrensituationen agieren.
Erweiterte Realität lernt durch Beschreibungen
Bislang stand in der Forschung hauptsächlich die räumliche Verfolgung von Nutzern und ihrer Umgebung im Fokus. Daraus ergaben sich vor allem sehr spezifische, eingeschränkte Darstellungen und nicht generalisierbare Visualisierungen und Animationen. Mit dem Einsatz von „Language Augmentation for Humanverse“ soll dieser Ansatz verändert werden. Dafür haben die Forschenden am DFKI eine sprachgestützte Plattform entwickelt, die sich flexibel an individuelle Bedürfnisse und unbekannte Umgebungen anpasst. Dieses adaptive Konzept basiert auf Zero-Shot Learning (ZSL), einem KI-System, das Objekte und Szenarien ohne vorheriges Training erkennt. Luminous soll durch eine umfangreiche Datenbank von Bildbeschreibungen ein flexibles Bild- und Textvokabular aufbauen, das auch unbekannte Elemente in Bildern und Videos identifizieren kann.
Die Forschergruppe untersucht aktuell einen möglichen Anwendungsfall, nämlich in er Alltagsbetreuung von erkrankten Menschen. Konkret soll das System bei Trainingsprogrammen, Leistungsüberwachung und Motivation eine wichtige Unterstützung bieten. Das Luminous-LLM ist als Übersetzer gedacht, der Alltagsaktivitäten auf Anfrage beschreibt und diese Informationen über ein Sprachinterface oder einen Avatar an die Nutzerinnen und Nutzer übermittelt. Durch visuelle Hilfestellungen und Handlungsempfehlungen werden Alltagsaktivitäten in Echtzeit unterstützt. Die erweiterte Realität wird somit zu einem allgegenwärtigen Helfer im täglichen Leben.
Erweiterte Realität in der praktischen Anwendung
Die Forschungsergebnisse finden in drei Pilotprojekten Anwendung: Neurorehabilitation für Schlaganfallpatientinnen und -patienten mit Sprachstörungen, immersives Sicherheitstraining am Arbeitsplatz und die Überprüfung von 3D-Architekturentwürfen. Bei der Neurorehabilitation unterstützen virtuelle Charaktere die Gesprächsinitiierung durch bilddirektionale Modelle. Objekte werden in Echtzeit mittels Eye-Tracking und Objekterkennung identifiziert. Patientinnen und Patienten können den Avatar bitten, Objektnamen oder Sprachlaute zu artikulieren. Ein personalisiertes XR-Training erfasst die Bewegungen des menschlichen Trainers mit minimaler Sensorik, um realistische 3D-Avatare zu modellieren. Die erweiterte Realität eröffnet hier neue Wege in der medizinischen Rehabilitation und Therapie.
Ziel des Systems ist es, zukünftigen Nutzerinnen und Nutzern eine nahtlose Interaktion mit ihrer Umgebung zu ermöglichen. Dabei greifen sie auf Sprachmodelle und ständig aktualisierte globale und fachspezifische Wissensquellen zurück. Diese XR-Technologien finden potenziell Anwendung in Fernunterricht, Unterhaltung oder Gesundheitsdiensten. Luminous lernt kontinuierlich dazu und erweitert sein Wissen über die ursprünglichen Trainingsdaten hinaus. Durch die Verknüpfung von Namen und Textbeschreibungen mit Bildmerkmalen kann das System auch unbekannte Objekte identifizieren und benennen. An dem Projekt sind diverse internationale Partner beteiligt.
Ein Beitrag von: