KI-Ohrhörer mit Kamera: System übersetzt Texte direkt im Alltag
Kameras in Earbuds: Forschende entwickeln VueBuds für visuelle KI-Unterstützung im Ohr. Texte übersetzen und Objekte erkennen – ganz ohne Datenbrille.
Forscher der UW haben ein System namens „VueBuds“ entwickelt, das winzige Kameras in handelsüblichen kabellosen Ohrhörern nutzt, damit Nutzer mit einem KI-Modell über die Szene vor ihnen sprechen können.
Foto: Kim et al./CHI ‘26
Forschende der University of Washington haben mit den „VueBuds“ ein System entwickelt, das Kameras in gewöhnliche Ohrhörer integriert. Mittels einer KI auf dem Smartphone können Nutzende Texte in Echtzeit übersetzen oder Objekte identifizieren lassen. Das System setzt auf stromsparende Schwarz-Weiß-Bilder und lokale Datenverarbeitung, um Datenschutz und Akkulaufzeit zu optimieren.
Inhaltsverzeichnis
Werden Ohrhörer bald zur Seh-Hilfe mit KI?
Vergessen Sie klobige Datenbrillen. Wer im Ausland vor einer Packung mit fremden Schriftzeichen steht, greift heute meist zum Smartphone oder hofft auf die Sprachausgabe. Doch eine Brille will kaum jemand den ganzen Tag tragen. Das Forschungsteam setzt daher dort an, wo Technik längst akzeptiert ist: direkt im Gehörgang.
Das System hört auf den Namen „VueBuds“. Es sind handelsübliche kabellose Ohrhörer, in die das Team winzige Kameras implantiert hat. Der Clou: Nutzerinnen und Nutzer unterhalten sich mit einer KI über das, was sie gerade ansehen. Ein kurzer Blick auf das Etikett, die Frage „Hey Vue, übersetze das für mich“, und schon liefert die KI-Stimme die Antwort: „Das bedeutet: Kalte Nudeln.“
Die Abkehr vom Brillen-Zwang
Bisher galt die Smart-Brille als das logische Interface für visuelle KI. Doch der Durchbruch am Massenmarkt blieb aus. Shyam Gollakota, Professor an der Paul G. Allen School der UW, sieht klare Barrieren:
„Wir haben nicht beobachtet, dass sich Smart-Brillen oder VR-Headsets bei den meisten Menschen durchgesetzt haben, zum Teil, weil viele Menschen keine Brillen tragen möchten, und oft gehen damit Datenschutzbedenken einher, wie beispielsweise die Aufzeichnung hochauflösender Videos und deren Verarbeitung in der Cloud.“
Fast jeder trägt heute ohnehin Earbuds. Die Idee der Forschenden: Warum nicht die vorhandene Akzeptanz nutzen und die visuelle Intelligenz dezent in die Hörer integrieren?
Der technische Drahtseilakt: Energie und Datenrate
Die Integration einer Kamera in das enge Gehäuse eines Ohrhörers ist eine Ingenieursleistung für sich. Kameras benötigen im Vergleich zu Mikrofonen enorme Mengen an Strom. Zudem ist die Bandbreite von Bluetooth-Verbindungen ein Nadelöhr; kontinuierliche Videostreams in hoher Auflösung würden das System sofort lahmlegen.
Die Lösung der Forschenden ist so simpel wie effektiv: Radikale Reduktion. In den VueBuds stecken Kameras, die kaum größer als ein Reiskorn sind. Anstatt bunter 4K-Videos liefern sie lediglich Schwarz-Weiß-Standbilder in niedriger Auflösung. Das schont die Batterie und ermöglicht eine flüssige Datenübertragung zum Smartphone, wo die eigentliche Rechenarbeit stattfindet.
Sichtfeld und Ergonomie: Der 10-Grad-Kniff
Eine zentrale Frage bei der Entwicklung war die Platzierung: Verdeckt der Kopf des Trägers das Sichtfeld der Kamera? Hauptautorin Maruchi Kim erklärt die Herausforderung:
„Eine große Frage, die wir hatten, war: Wird das Gesicht die Sicht zu sehr verdecken? Können Ohrhörer-Kameras die Sicht des Nutzers auf die Welt zuverlässig erfassen?“
Durch Experimente fand das Team heraus, dass eine Neigung der Kameras um 5 bis 10 Grad nach außen ein Sichtfeld von 98 bis 108 Grad ermöglicht. Das reicht völlig aus, um Objekte in normalem Leseabstand zu erfassen. Zwar entsteht ein kleiner toter Winkel bei Objekten, die näher als 20 Zentimeter am Gesicht gehalten werden, doch im Alltag ist das vernachlässigbar.
Datenschutz und lokale KI-Power
Ein wunder Punkt bei tragbaren Kameras ist die Privatsphäre. Die VueBuds adressieren dies durch ein geschlossenes System. Die gesamte Bildverarbeitung findet lokal auf dem gekoppelten Gerät statt, nicht in einer fernen Cloud. Ein kleines Licht am Hörer signalisiert zudem die aktive Aufzeichnung.
Hier die technischen Eckpunkte im Überblick:
- Reaktionszeit: Dank der „Bild-Fusion“, bei der Aufnahmen beider Ohren zu einem Panorama kombiniert werden, antwortet das System innerhalb einer Sekunde. Einzelbild-Verarbeitung würde doppelt so lange dauern.
- Präzision: In Tests erreichte das System eine Genauigkeit von 83 bis 84 % beim Übersetzen und Identifizieren von Objekten. Bei Buchtiteln und Autoren stieg die Quote sogar auf 93 %.
- Nachhaltigkeit: Der Verzicht auf Farbe reduziert die Rechenlast massiv, was die Akkulaufzeit der winzigen Hörer schont.
VueBuds im direkten Vergleich
In einer Studie mit 74 Teilnehmenden mussten sich die VueBuds gegen die Ray-Ban Meta Glasses beweisen. Das Ergebnis überrascht: Obwohl die Brille hochauflösende Bilder nutzt, schnitten die VueBuds bei der Textübersetzung besser ab. Die Teilnehmenden empfanden die akustische Rückmeldung im Ohr als natürlicher. Lediglich beim Zählen von Objekten hatte die Brille aufgrund der höheren Auflösung Vorteile.
Noch sind die VueBuds ein Prototyp. Die aktuelle Unfähigkeit, Farben zu erkennen, soll in künftigen Iterationen durch stromsparende Farbsensoren behoben werden. Maruchi Kim sieht das Potenzial vor allem in der Barrierefreiheit:
„Wir möchten das System jedoch noch gründlicher für Anwendungen wie das Vorlesen von Büchern – beispielsweise für Menschen mit Sehbehinderung oder Blinde – oder die Übersetzung von Texten für Reisende untersuchen.“
Ein Beitrag von: