KI-basierte Audioanalyse 23.06.2023, 08:59 Uhr

Dank Stimm-Biomarker: Neue Sprach-KI kann Gefühle erkennen

Menschen fällt es mit unter schwer, die Gefühle anderer richtig zu deuten. Eine neue Sprach-KI soll darin besser sein. Wir haben uns mit der Geschäftsführerin des Unternehmens unterhalten, dass diese Technik entwickelt hat.

Künstliche Intelligenz kann Gefühle erkennen

Eine neue Sprach-KI kann Gefühle erkennen. Wie das funktioniert und welchen Nutzen es hat, erfahren Sie in diesem Interview.

Foto: Panthermedia.net/AndreyPopov

Wie kann man erkennen, ob sich ein Mensch auch tatsächlich so fühlt, wie er es vorgibt? Dafür sind unsere kognitiven Möglichkeiten begrenzt. Die der Technik könnten weiter reichen, wie das Gilchinger Unternehmen audEERING zeigt. Es hat eine Technologie entwickelt, die mithilfe von Künstlicher Intelligenz Gefühle erkennen kann – und so beispielsweise das Autofahren sicherer macht. Wie, erklärt Dagmar Schuller, Geschäftsführerin und Mitgründerin des KI-Unternehmens audEERING.

Was versteht man unter Sprach-KI?

Top Stellenangebote

Zur Jobbörse
Hochschule Esslingen-Firmenlogo
Professor:in für das Lehrgebiet "Konstruktion" Hochschule Esslingen
Göppingen, Esslingen Zum Job 
Safran Data Systems GmbH-Firmenlogo
Testingenieur / Certified Tester (m/w/d) Safran Data Systems GmbH
Bergisch Gladbach Zum Job 
Fraunhofer-Gesellschaft e.V.-Firmenlogo
Sachgebietsleiter*in Technisches Gebäudemanagement - Betrieb, Wartung & Weiterentwicklung Fraunhofer-Gesellschaft e.V.
München Zum Job 
Hochschule Esslingen-Firmenlogo
Professor:in für das Lehrgebiet "Elektrotechnik und Elektrische Energieversorgung" Hochschule Esslingen
Göppingen, Esslingen Zum Job 
Rhein-Sieg Netz GmbH-Firmenlogo
Ingenieur (m/w/d) Netzbetrieb Rhein-Sieg Netz GmbH
Siegburg Zum Job 
Röhm GmbH-Firmenlogo
Ingenieur (m/w/d) Elektrotechnik / Automatisierungstechnik / EMSR Röhm GmbH
Wesseling Zum Job 
BMI Deutschland GmbH-Firmenlogo
Sicherheitsfachkraft / Fachkraft für Arbeitssicherheit (m/w/d) BMI Deutschland GmbH
Dülmen Zum Job 
SWM Services GmbH-Firmenlogo
Inbetriebsetzungsleiter*in für Verfahrenstechnik (m/w/d) SWM Services GmbH
München Zum Job 
Stadtwerke München GmbH-Firmenlogo
Commissioning Manager Control, Field and Automation Engineering (m/w/d) Stadtwerke München GmbH
München Zum Job 
Herrenknecht AG-Firmenlogo
Technischer Redakteur (m/w/d) Herrenknecht AG
Schwanau Zum Job 
Wasserstraßen- und Schifffahrtsverwaltung des Bundes-Firmenlogo
Bauingenieurin /Bauingenieur (m/w/d) Wasserstraßen- und Schifffahrtsverwaltung des Bundes
Brunsbüttel Zum Job 
Wasserstraßen- und Schifffahrtsverwaltung des Bundes-Firmenlogo
Bauingenieurinnen / Bauingenieure (m/w/d) Fachrichtung konstruktiver Ingenieurbau Wasserstraßen- und Schifffahrtsverwaltung des Bundes
Brunsbüttel, Rendsburg Zum Job 
Fraunhofer-Institut für Arbeitswirtschaft und Organisation IAO-Firmenlogo
Wissenschaftliche*r Referent*in der Institutsleiterin Fraunhofer-Institut für Arbeitswirtschaft und Organisation IAO
Stuttgart Zum Job 
Fachhochschule Dortmund-Firmenlogo
Vertretungsprofessur "Produktions- und Qualitätsmanagement"; Fachbereich Maschinenbau Fachhochschule Dortmund
Dortmund Zum Job 
BMI Deutschland GmbH-Firmenlogo
Sicherheitsfachkraft / Fachkraft für Arbeitssicherheit (m/w/d) BMI Deutschland GmbH
Dülmen, Heyrothsberge Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Techniker als Fachexperte für Vertragsmanagement, Ausschreibung, Vergabe & Abrechnung (w/m/d) Die Autobahn GmbH des Bundes
Krailling bei München Zum Job 
KTR Systems GmbH-Firmenlogo
Berechnungsingenieur (m/w/d) KTR Systems GmbH
ONTRAS-Firmenlogo
Spezialist Strategische Technologie (m/w/d) ONTRAS
Leipzig Zum Job 
FH Münster-Firmenlogo
Professur für "Strömungstechnik" im Fachbereich Maschinenbau FH Münster
Münster Zum Job 
Technische Hochschule Rosenheim-Firmenlogo
Professorin / Professor (m/w/d) für Applied Embedded Computing Technische Hochschule Rosenheim
Rosenheim Zum Job 

Unter Sprach-KI versteht man die Anwendung von KI-Verfahren auf Audiosignaldaten, insbesondere Stimmdaten. Im Grunde genommen geht es hier insbesondere darum, schwerpunktmäßig zu analysieren, wie jemand etwas sagt, anstelle des Inhalts, den jemand sagt. Unsere Algorithmen fokussieren sich dabei auf die Informationen, die wir aus der Stimme im Zusammenhang mit dem menschlichen Sprachproduktionsprozess erkennen können, sowie die Analyse von Sprecherzuständen und -merkmalen, die sich aus der Art und Weise, wie gesprochen wird, ergeben.

Erklären Sie bitte kurz ihren stimmbasierten KI-Ansatz? Wie funktioniert die Technologie?

Die menschliche Produktion von Lauten, insbesondere von Sprache, ist mit einer hohen koordinativen Leistung verbunden, die oftmals nicht bewusst ist. So sind eine Vielzahl von Muskeln wie beispielsweise die Stimmbänder, die Zunge, die Wangenmuskulatur damit verbunden, die kognitiv gesteuert werden müssen. Ebenso sind Merkmale wie Intonation, Intensität und Tempo der Stimme hoch relevant oder wie gleichmäßig oder „sauber“ die Artikulation von bedeutungsunterscheidenden Lauten (Phoneme) erfolgt.

Unsere KI-Modelle verbinden hierbei diese spezifischen Merkmale, von denen wir nahezu 7000 in Echtzeit erkennen können, mit state-of-the-art „tiefe“ künstliche neuronale Netze und Methoden wie semi-supervised und unsupervised Learning. Wir erkennen hierbei Merkmale und Informationen aus der Stimme, die Rückschlüsse auf den Zustand des Sprechenden geben können.

Dagmar Schuller, Geschäftsführerin und Mitgründerin des KI-Unternehmens audEERING.

Dagmar Schuller, Geschäftsführerin und Mitgründerin des KI-Unternehmens audEERING.

Foto: Gorjan Gajanin

Worauf zielt diese Methode ab?

Ziel ist es, mit dieser Stimm-Biomarker-Technologie ein Tool zu liefern, das im Wellbeing und medizinischen Bereich sowohl effizient für Screening und Prävention genutzt werden kann als auch für verbessertes Monitoring und Individualisierung der Therapien von PatientInnen. Das bedeutet nicht nur frühere Aufmerksamkeit hinsichtlich Veränderungen und die Möglichkeit, rechtzeitig präventiv entgegenzuwirken, sondern natürlich auch, individuelle Verläufe von Krankheiten besser zu verstehen, effektiver zu behandeln und idealerweise negative Nebenwirkungen zu reduzieren.

Im allgemeinen Einsatz ist die Technologie insbesondere für eine verbesserte Mensch-Maschine-Kommunikation nutzbar, etwa einer optimierten Kommunikation mit dem Automobil, einer individualisierten Einstellung von Hearables/Wearables, einer verbesserten Interaktion mit Bots/Robotern, aber auch um mehr Information darüber zu erhalten, was den BenutzerInnen einen Mehrwert schafft und gut tut oder was für mehr Ärger sorgt, als nötig ist.

Unternehmen können dadurch die Kundenzufriedenheit und auch ihre Performance steigern, was wir in sehr schönen Beispielen schon nachgewiesen haben. Durch die ausschließliche Auswertung von Stimmdaten, nicht aber Sprachinhalten, ermöglicht unsere Technologie außerdem anonyme Auswertungen und ist dadurch uneingeschränkt datenschutzkonform.

Wie lassen sich die Emotionen eines Autofahrers erkennen und so deren Reaktionen voraussehen?

Unsere KI-Technologie erkennt Stimm-Biomarker, die Rückschlüsse auf den Zustand von AutofahrerInnen oder auch Fahrgästen ermöglichen. Auf Basis der Akustik werden wichtige Informationen über die Art und Weise, wie die Person etwas äußert oder kommuniziert, herausgefiltert. Die Information fokussiert dabei insbesondere auf den Grad der Erregtheit, die Valenz und die Dominanz der akustischen Merkmale und nicht auf den Inhalt.

Ebenso können beispielsweise bereits klinisch validierte Stimm-Biomarker wie Erschöpfung gemessen werden. Dadurch wird es ermöglicht, dass das Auto auf diese Informationen „reagiert“, indem beispielsweise vorgeschlagen wird, eine Pause einzulegen oder einen Kaffee zu trinken oder das On-Board-Entertainment entsprechend anzupassen. Bei Letzterem könnte man auch die Innenbeleuchtung, Duftstoffe, musikalische Darbietungen und ähnliches optimieren.

Für den Automobilbereich ist es unser Ziel, mit der Technologie insbesondere einen Mehrwert in den relevanten Bereichen Sicherheit, Nutzerfreundlichkeit und Cabin Comfort zu erwirken. Mehr Individualisierung und Verbesserung der FahrerInnensicherheit, aber auch zukünftig optimierter Fahrgast-Komfort, der auf die Person oder Personengruppen speziell eingeht und sich auch dynamisch anpassen kann.

Inwiefern kann KI für mehr Sicherheit von Verkehrsteilnehmern sorgen?

Unsere KI-Technologie ermöglicht eine kontinuierliche Kontrolle und Analyse von Merkmalen und Zuständen, indem sie diese in Echtzeit analysieren kann und Anzeichen von Ablenkung, Müdigkeit, Stress oder ungewöhnlichen Situationen, wie beispielsweise Schreie oder übermäßige Aggression, erkennen kann.

Durch diese Information kann beispielsweise im Fahrzeug eine entsprechende Reaktion getriggert werden, wie eben die automatisierte Anpassung der Möglichkeiten in der Kabine, aber auch externe Warnungen, automatisierte Vergrößerung von Abständen, systemische Rückfragen/Feedback, um die Sicherheit zu erhöhen und potenzielle Unfälle zu vermeiden. Der Einsatz unserer KI-Technologie im Fahrzeug kann damit zur Sicherheit auf der Straße und zur Verbesserung des Fahrerzustandes beitragen.

Wie ausgereift ist die Technologie? Wo wird sie bereits eingesetzt?

Wir gehören zu den ersten, die an dem Thema überhaupt international mitgewirkt haben und verfügen heute über mehr als 20 Jahre kontinuierlicher wissenschaftlicher Spitzenleistung sowie mehr als zehn Jahre industrieller Produkterfahrung in Stimm-basierter und Event-basierter Audio KI. Damit haben wir als europäisches Unternehmen in Europa ein Alleinstellungsmerkmal und sind mittlerweile mehrfach für die Technologie ausgezeichnet worden.

Welche Hürden gilt es noch zu nehmen, um Sprach-KI breit einzusetzen?

Die von uns entwickelten Produkte werden zwar bereits weltweit eingesetzt, trotzdem gibt es natürlich einige Herausforderungen, die es zu bewältigen gilt. Als Innovationsführer im Bereich der KI-basierten Audioanalyse arbeiten wir kontinuierlich daran, unsere Produkte neben voller Datenschutzkonformität quantitativ mit bester Erkennungsleistung und optimaler Robustheit, aber auch qualitativ unter Berücksichtigung höchster ethischer Standards, Transparenz und Ressourcenschonung (Stichwort: Energieoptimierung, Größe der Modelle, Rechenleistung etc.) weiterzuentwickeln.

Konkret ist insbesondere folgendes zu tun:

  1. Zur Verbesserung der Modelle ist der Zugriff auf hochwertige Daten in ausreichender Menge notwendig. Beispiel: Hierzulande ist der Datenschutz gerade im Gesundheitswesen eher hinderlich als fördernd, um die Chancen der KI im Sinne der PatientInnen optimal zu nutzen, ohne deren Risiko zu erhöhen. Mittlerweile werden namhafte deutsche Medizinprofessoren ebenfalls mit dem Thema konfrontiert und setzen sich hier für eine Verbesserung des Zugangs zu Daten für effizientere medizinische Versorgung und Therapien für ihre PatientInnen ein. Ich sehe hier sehr viel Potenzial für eine Optimierung des Gesundheits- und Pflegewesens.
  2. Vertrauen in die KI schaffen durch verbesserte Bildung und mehr Transparenz. Oftmals wird man im KI-Bereich mit Vorurteilen konfrontiert, die aus fiktiven Hollywood-Filmen und Schreckensszenarien stammen, die erschreckenderweise auch von Entscheidungsträgern im TV oder Print gezeichnet werden. Das sehe ich als sehr kritisch, da ein oftmals nicht korrektes Bild vermittelt wird. Es ist wichtig, dass wir aufklären und die BürgerInnen Informationen und Wissen bekommen, aufgrund dessen sie bessere Entscheidungen bei der Auswahl und dem Einsatz von KI-Tools treffen können, und so Chancen und Risiken besser abschätzen können. Dies ist deutlich essenzieller für den VerbraucherInnenschutz als jegliche breit gestreute und pragmatisch unrealistische Gesamtregulierung eines Technologiebereiches, von dem noch viel zu wenig eingesetzt wird und/oder bekannt ist.
  3. Infrastruktur und Wettbewerbsfähigkeit sind weitere wesentliche Punkte. Im Bereich der Foundation Models ist Europa aktuell überhaupt nicht relevant. Alle wesentlichen Foundation Models kommen aus den USA und Asien. Neben fehlenden Daten und der Überregulierung sind insbesondere die Infrastruktur, um diese Modelle zu berechnen und die Risikoaversität der europäischen Finanzierungen in dem Bereich als große Hindernisse zu nennen. Gleichzeitig müssen wir aufgrund der Ressourcenschonung und des Energiebedarfs gemeinsam an der Verkleinerung wesentlicher Modelle arbeiten.

Ein Beitrag von:

  • Chris Löwer

    Chris Löwer

    Chris Löwer arbeitet seit mehr als 20 Jahren als freier Journalist für überregionale Medien. Seine Themenschwerpunkte sind Wissenschaft, Technik und Karriere.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.