KI-basierte Audioanalyse 23.06.2023, 08:59 Uhr

Dank Stimm-Biomarker: Neue Sprach-KI kann Gefühle erkennen

Menschen fällt es mit unter schwer, die Gefühle anderer richtig zu deuten. Eine neue Sprach-KI soll darin besser sein. Wir haben uns mit der Geschäftsführerin des Unternehmens unterhalten, dass diese Technik entwickelt hat.

Künstliche Intelligenz kann Gefühle erkennen

Eine neue Sprach-KI kann Gefühle erkennen. Wie das funktioniert und welchen Nutzen es hat, erfahren Sie in diesem Interview.

Foto: Panthermedia.net/AndreyPopov

Wie kann man erkennen, ob sich ein Mensch auch tatsächlich so fühlt, wie er es vorgibt? Dafür sind unsere kognitiven Möglichkeiten begrenzt. Die der Technik könnten weiter reichen, wie das Gilchinger Unternehmen audEERING zeigt. Es hat eine Technologie entwickelt, die mithilfe von Künstlicher Intelligenz Gefühle erkennen kann – und so beispielsweise das Autofahren sicherer macht. Wie, erklärt Dagmar Schuller, Geschäftsführerin und Mitgründerin des KI-Unternehmens audEERING.

Was versteht man unter Sprach-KI?

Unter Sprach-KI versteht man die Anwendung von KI-Verfahren auf Audiosignaldaten, insbesondere Stimmdaten. Im Grunde genommen geht es hier insbesondere darum, schwerpunktmäßig zu analysieren, wie jemand etwas sagt, anstelle des Inhalts, den jemand sagt. Unsere Algorithmen fokussieren sich dabei auf die Informationen, die wir aus der Stimme im Zusammenhang mit dem menschlichen Sprachproduktionsprozess erkennen können, sowie die Analyse von Sprecherzuständen und -merkmalen, die sich aus der Art und Weise, wie gesprochen wird, ergeben.

Erklären Sie bitte kurz ihren stimmbasierten KI-Ansatz? Wie funktioniert die Technologie?

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs
Frankfurt University of Applied Sciences-Firmenlogo
Professur "Elektrotechnik, insbesondere Nachhaltige intelligente Systeme" Frankfurt University of Applied Sciences
Frankfurt am Main Zum Job 
Frankfurt University of Applied Sciences-Firmenlogo
Professur "Vernetzte Eingebettete Systeme" (w/m/d) Frankfurt University of Applied Sciences
Frankfurt am Main Zum Job 
Otto-von-Guericke-Universität Magdeburg-Firmenlogo
Projektingenieur*in (m/w/d) für Elektro- Fernmelde- und IT-Technik / Verantwortliche Elektrofachkraft VEFK Betriebstechnik Otto-von-Guericke-Universität Magdeburg
Magdeburg Zum Job 
Alhäuser + König Ingenieurbüro GmbH-Firmenlogo
Ingenieur:in für Elektrotechnik / Master / Bachelor /Diplom (m/w/d) Alhäuser + König Ingenieurbüro GmbH
Bonn, Hachenburg Zum Job 
Stadtwerke Rüsselsheim GmbH-Firmenlogo
Messtechniker als Spezialist Gerätemanagement Strom (m/w/d Stadtwerke Rüsselsheim GmbH
Rüsselsheim Zum Job 
Fachhochschule Münster-Firmenlogo
Professur "Medizinische Bildgebung und Mathematik" (w/m/d) Fachhochschule Münster
Steinfurt Zum Job 
Agile Robots SE-Firmenlogo
Senior Projektingenieur - Industrial Automation (m/w/d) Agile Robots SE
München Zum Job 
Universität Münster-Firmenlogo
Ingenieur*in / Techniker*in Elektrotechnik in der Abteilung 4.4 (Elektrische Gebäudeausrüstung) Universität Münster
Münster Zum Job 
Freie Universität Berlin-Firmenlogo
Referatsleiter*in (m/w/d) für die Betriebstechnik und die bauliche Unterhaltung (Ingenieur*in für Aufgaben des technischen Betriebes) Freie Universität Berlin
BG ETEM-Firmenlogo
Aufsichtsperson gemäß des § 18 SGB VII (m/w/d) für ein Aufsichtsgebiet in der Region Dinkelsbühl, Aalen, Schwäbisch-Hall in den Branchenkompetenzen Elektrotechnische Industrie und Feinmechanik BG ETEM
Nürnberg Zum Job 
STOPA Anlagenbau GmbH-Firmenlogo
Ingenieur / Techniker (m/w/d) Elektrotechnik / Automatisierungstechnik für Inbetriebnahme Außendienst (Elektrotechniker, Maschinenbauingenieur o. ä.) STOPA Anlagenbau GmbH
Achern-Gamshurst Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Projektingenieur (w/m/d) Elektrotechnik Die Autobahn GmbH des Bundes
Hamburg Zum Job 
Hochschule Esslingen - University of Applied Sciences-Firmenlogo
Professor:in (W2) für das Lehrgebiet "Automatisierungssysteme in Gebäude-, Energie- und Umwelttechnik" Hochschule Esslingen - University of Applied Sciences
Esslingen am Neckar Zum Job 
Christian-Albrechts-Universität zu Kiel-Firmenlogo
Ingenieur*in der Fachrichtung Versorgungstechnik/ Maschinenbau oder Elektrotechnik Christian-Albrechts-Universität zu Kiel
Broadcast Solutions GmbH-Firmenlogo
Elektroingenieur* in Vollzeit (m/w/d) Broadcast Solutions GmbH
Frankfurt University of Applied Sciences-Firmenlogo
Professur "Software Engineering - Moderne Verfahren" (w/m/d) Frankfurt University of Applied Sciences
Frankfurt am Main Zum Job 
Steinmeyer Mechatronik GmbH-Firmenlogo
Entwicklungsingenieur (m/w/d) Steinmeyer Mechatronik GmbH
Dresden Zum Job 
AbbVie Deutschland GmbH & Co. KG-Firmenlogo
Senior Project Engineer - Capital Investments (all genders) AbbVie Deutschland GmbH & Co. KG
Ludwigshafen am Rhein Zum Job 
Stadtreinigung Hamburg Anstalt des öffentlichen Rechts-Firmenlogo
Ingenieurin (m/w/d) TGA Elektrotechnik Stadtreinigung Hamburg Anstalt des öffentlichen Rechts
Hamburg Zum Job 
Vermögen und Bau Baden-Württemberg - Amt Ulm-Firmenlogo
Diplom-Ingenieur (FH/DH) bzw. Bachelor (w/m/d) der Fachrichtung Elektrotechnik, Versorgungstechnik, Gebäudeklimatik, Gebäude- und Energietechnik Vermögen und Bau Baden-Württemberg - Amt Ulm

Die menschliche Produktion von Lauten, insbesondere von Sprache, ist mit einer hohen koordinativen Leistung verbunden, die oftmals nicht bewusst ist. So sind eine Vielzahl von Muskeln wie beispielsweise die Stimmbänder, die Zunge, die Wangenmuskulatur damit verbunden, die kognitiv gesteuert werden müssen. Ebenso sind Merkmale wie Intonation, Intensität und Tempo der Stimme hoch relevant oder wie gleichmäßig oder „sauber“ die Artikulation von bedeutungsunterscheidenden Lauten (Phoneme) erfolgt.

Unsere KI-Modelle verbinden hierbei diese spezifischen Merkmale, von denen wir nahezu 7000 in Echtzeit erkennen können, mit state-of-the-art „tiefe“ künstliche neuronale Netze und Methoden wie semi-supervised und unsupervised Learning. Wir erkennen hierbei Merkmale und Informationen aus der Stimme, die Rückschlüsse auf den Zustand des Sprechenden geben können.

Dagmar Schuller, Geschäftsführerin und Mitgründerin des KI-Unternehmens audEERING.

Dagmar Schuller, Geschäftsführerin und Mitgründerin des KI-Unternehmens audEERING.

Foto: Gorjan Gajanin

Worauf zielt diese Methode ab?

Ziel ist es, mit dieser Stimm-Biomarker-Technologie ein Tool zu liefern, das im Wellbeing und medizinischen Bereich sowohl effizient für Screening und Prävention genutzt werden kann als auch für verbessertes Monitoring und Individualisierung der Therapien von PatientInnen. Das bedeutet nicht nur frühere Aufmerksamkeit hinsichtlich Veränderungen und die Möglichkeit, rechtzeitig präventiv entgegenzuwirken, sondern natürlich auch, individuelle Verläufe von Krankheiten besser zu verstehen, effektiver zu behandeln und idealerweise negative Nebenwirkungen zu reduzieren.

Im allgemeinen Einsatz ist die Technologie insbesondere für eine verbesserte Mensch-Maschine-Kommunikation nutzbar, etwa einer optimierten Kommunikation mit dem Automobil, einer individualisierten Einstellung von Hearables/Wearables, einer verbesserten Interaktion mit Bots/Robotern, aber auch um mehr Information darüber zu erhalten, was den BenutzerInnen einen Mehrwert schafft und gut tut oder was für mehr Ärger sorgt, als nötig ist.

Unternehmen können dadurch die Kundenzufriedenheit und auch ihre Performance steigern, was wir in sehr schönen Beispielen schon nachgewiesen haben. Durch die ausschließliche Auswertung von Stimmdaten, nicht aber Sprachinhalten, ermöglicht unsere Technologie außerdem anonyme Auswertungen und ist dadurch uneingeschränkt datenschutzkonform.

Wie lassen sich die Emotionen eines Autofahrers erkennen und so deren Reaktionen voraussehen?

Unsere KI-Technologie erkennt Stimm-Biomarker, die Rückschlüsse auf den Zustand von AutofahrerInnen oder auch Fahrgästen ermöglichen. Auf Basis der Akustik werden wichtige Informationen über die Art und Weise, wie die Person etwas äußert oder kommuniziert, herausgefiltert. Die Information fokussiert dabei insbesondere auf den Grad der Erregtheit, die Valenz und die Dominanz der akustischen Merkmale und nicht auf den Inhalt.

Ebenso können beispielsweise bereits klinisch validierte Stimm-Biomarker wie Erschöpfung gemessen werden. Dadurch wird es ermöglicht, dass das Auto auf diese Informationen „reagiert“, indem beispielsweise vorgeschlagen wird, eine Pause einzulegen oder einen Kaffee zu trinken oder das On-Board-Entertainment entsprechend anzupassen. Bei Letzterem könnte man auch die Innenbeleuchtung, Duftstoffe, musikalische Darbietungen und ähnliches optimieren.

Für den Automobilbereich ist es unser Ziel, mit der Technologie insbesondere einen Mehrwert in den relevanten Bereichen Sicherheit, Nutzerfreundlichkeit und Cabin Comfort zu erwirken. Mehr Individualisierung und Verbesserung der FahrerInnensicherheit, aber auch zukünftig optimierter Fahrgast-Komfort, der auf die Person oder Personengruppen speziell eingeht und sich auch dynamisch anpassen kann.

Inwiefern kann KI für mehr Sicherheit von Verkehrsteilnehmern sorgen?

Unsere KI-Technologie ermöglicht eine kontinuierliche Kontrolle und Analyse von Merkmalen und Zuständen, indem sie diese in Echtzeit analysieren kann und Anzeichen von Ablenkung, Müdigkeit, Stress oder ungewöhnlichen Situationen, wie beispielsweise Schreie oder übermäßige Aggression, erkennen kann.

Durch diese Information kann beispielsweise im Fahrzeug eine entsprechende Reaktion getriggert werden, wie eben die automatisierte Anpassung der Möglichkeiten in der Kabine, aber auch externe Warnungen, automatisierte Vergrößerung von Abständen, systemische Rückfragen/Feedback, um die Sicherheit zu erhöhen und potenzielle Unfälle zu vermeiden. Der Einsatz unserer KI-Technologie im Fahrzeug kann damit zur Sicherheit auf der Straße und zur Verbesserung des Fahrerzustandes beitragen.

Wie ausgereift ist die Technologie? Wo wird sie bereits eingesetzt?

Wir gehören zu den ersten, die an dem Thema überhaupt international mitgewirkt haben und verfügen heute über mehr als 20 Jahre kontinuierlicher wissenschaftlicher Spitzenleistung sowie mehr als zehn Jahre industrieller Produkterfahrung in Stimm-basierter und Event-basierter Audio KI. Damit haben wir als europäisches Unternehmen in Europa ein Alleinstellungsmerkmal und sind mittlerweile mehrfach für die Technologie ausgezeichnet worden.

Welche Hürden gilt es noch zu nehmen, um Sprach-KI breit einzusetzen?

Die von uns entwickelten Produkte werden zwar bereits weltweit eingesetzt, trotzdem gibt es natürlich einige Herausforderungen, die es zu bewältigen gilt. Als Innovationsführer im Bereich der KI-basierten Audioanalyse arbeiten wir kontinuierlich daran, unsere Produkte neben voller Datenschutzkonformität quantitativ mit bester Erkennungsleistung und optimaler Robustheit, aber auch qualitativ unter Berücksichtigung höchster ethischer Standards, Transparenz und Ressourcenschonung (Stichwort: Energieoptimierung, Größe der Modelle, Rechenleistung etc.) weiterzuentwickeln.

Konkret ist insbesondere folgendes zu tun:

  1. Zur Verbesserung der Modelle ist der Zugriff auf hochwertige Daten in ausreichender Menge notwendig. Beispiel: Hierzulande ist der Datenschutz gerade im Gesundheitswesen eher hinderlich als fördernd, um die Chancen der KI im Sinne der PatientInnen optimal zu nutzen, ohne deren Risiko zu erhöhen. Mittlerweile werden namhafte deutsche Medizinprofessoren ebenfalls mit dem Thema konfrontiert und setzen sich hier für eine Verbesserung des Zugangs zu Daten für effizientere medizinische Versorgung und Therapien für ihre PatientInnen ein. Ich sehe hier sehr viel Potenzial für eine Optimierung des Gesundheits- und Pflegewesens.
  2. Vertrauen in die KI schaffen durch verbesserte Bildung und mehr Transparenz. Oftmals wird man im KI-Bereich mit Vorurteilen konfrontiert, die aus fiktiven Hollywood-Filmen und Schreckensszenarien stammen, die erschreckenderweise auch von Entscheidungsträgern im TV oder Print gezeichnet werden. Das sehe ich als sehr kritisch, da ein oftmals nicht korrektes Bild vermittelt wird. Es ist wichtig, dass wir aufklären und die BürgerInnen Informationen und Wissen bekommen, aufgrund dessen sie bessere Entscheidungen bei der Auswahl und dem Einsatz von KI-Tools treffen können, und so Chancen und Risiken besser abschätzen können. Dies ist deutlich essenzieller für den VerbraucherInnenschutz als jegliche breit gestreute und pragmatisch unrealistische Gesamtregulierung eines Technologiebereiches, von dem noch viel zu wenig eingesetzt wird und/oder bekannt ist.
  3. Infrastruktur und Wettbewerbsfähigkeit sind weitere wesentliche Punkte. Im Bereich der Foundation Models ist Europa aktuell überhaupt nicht relevant. Alle wesentlichen Foundation Models kommen aus den USA und Asien. Neben fehlenden Daten und der Überregulierung sind insbesondere die Infrastruktur, um diese Modelle zu berechnen und die Risikoaversität der europäischen Finanzierungen in dem Bereich als große Hindernisse zu nennen. Gleichzeitig müssen wir aufgrund der Ressourcenschonung und des Energiebedarfs gemeinsam an der Verkleinerung wesentlicher Modelle arbeiten.

Ein Beitrag von:

  • Chris Löwer

    Chris Löwer

    Chris Löwer arbeitet seit mehr als 20 Jahren als freier Journalist für überregionale Medien. Seine Themenschwerpunkte sind Wissenschaft, Technik und Karriere.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.