Sprachassistenten 24.10.2019, 07:02 Uhr

Alexa, Siri und Co. – sicherer dank Training

Ein Forscherteam der Ruhr-Universität Bochum entdeckt Sicherheitslücken bei Sprachassistenten wie Alexa und Siri und entwickelt Lösungen, sie zu beheben. Zum Glück sind die Spracherkennungssysteme bislang nicht in sicherheitsrelevanten Bereichen im Einsatz, sondern dienen nur dem Komfort zu Hause.

Alexa vor einem Laptop

In beliebigen Audiodateien wie Sprache, Musik oder Umgebungsgeräuschen – zum Beispiel Vogelgezwitscher – lassen sich geheime Botschaften für die Sprachassistenten verstecken.

Foto: RUB – Roberto Schirdewahn

Die IT-Experten vom Bochumer Horst-Görtz-Institut für IT-Sicherheit (HGI) beschäftigen sich seit einiger Zeit mit Spracherkennungssystemen wie Alexa und Siri. Sie erforschen, wie sicher diese Systeme funktionieren. Im Vergleich zu den Anfängen verstehen Alexa, Siri und Co. gut, was Menschen ihnen sagen. Die Forscher fanden nun heraus, dass sie manchmal sogar Dinge verstehen, die der Mensch gar nicht hören kann. Genau dort liege die Sicherheitslücke.

Geheime Befehle können Sprachassistenten ungewollt aktivieren

Versteckt man einen beliebigen Befehl in verschiedenen Arten von Audiosignalen, zum Beispiel in Musik, Sprache oder Vogelgezwitscher, führt der Sprachassistent diesen aus, ohne dass der Mensch es mitbekommt. Manipuliert etwa jemand ein Lied, das im Radio abgespielt wird, und fügt einen Befehl ein, wäre es möglich, dass der Sprachassistent zu Hause ein bestimmtes Produkt kauft oder die Kontrolle über ein sprachgesteuertes Smart Home übernimmt. Forscher nennen solche Angriffe „Adversarial Examples“.

Top Stellenangebote

Zur Jobbörse
BP Europa SE-Firmenlogo
EV Charging Delivery Engineer (m/f/d) - Aral Pulse BP Europa SE
Bochum, Hamburg Zum Job 
OTTO FUCHS Dülken GmbH & Co. KG-Firmenlogo
Mitarbeiter Technologie Strangpresse (m/w/d) OTTO FUCHS Dülken GmbH & Co. KG
Viersen Zum Job 
Infraserv GmbH & Co. Höchst KG-Firmenlogo
Ingenieur (m/w/d) Infraserv GmbH & Co. Höchst KG
Frankfurt am Main Zum Job 
Fraunhofer-Institut für Optronik, Systemtechnik und Bildauswertung IOSB-Firmenlogo
Business Development Industrie 4.0 und Digitalisierung Fraunhofer-Institut für Optronik, Systemtechnik und Bildauswertung IOSB
Karlsruhe Zum Job 
Bundeswehr-Firmenlogo
Leitende Ingenieurin / Leitender Ingenieur (m/w/d) mit Master Bundeswehr
verschiedene Standorte Zum Job 
UX Gruppe-Firmenlogo
Projektleiter (m/w/d) Forschung und Entwicklung UX Gruppe
Gilching Zum Job 
Bundeswehr-Firmenlogo
Leitende Ingenieurin / Leitender Ingenieur (m/w/d) Bundeswehr
verschiedene Standorte Zum Job 
ACONEXT Engineering GmbH-Firmenlogo
Konstrukteur / Technischer Produktdesigner CATIA V5 oder Siemens NX (m/w/d) von Kunststoff- oder Metallbauteilen ACONEXT Engineering GmbH
München Zum Job 
Bundeswehr-Firmenlogo
Ingenieurin / Ingenieur (m/w/d) mit Bachelor Bundeswehr
verschiedene Standorte Zum Job 
ACONEXT Engineering GmbH-Firmenlogo
Entwicklungsingenieur Automotive (m/w/d) ACONEXT Engineering GmbH
München Zum Job 
ACONEXT Engineering GmbH-Firmenlogo
Versuchsingenieur/-techniker zur Erprobung Gesamtfahrzeug und Testing von Komponenten (m/w/d) ACONEXT Engineering GmbH
München, Ingolstadt Zum Job 
ACONEXT Engineering GmbH-Firmenlogo
Softwaretester Automotive (m/w/d) ACONEXT Engineering GmbH
München Zum Job 
ACONEXT Engineering GmbH-Firmenlogo
Software Entwickler Automotive (m/w/d) ACONEXT Engineering GmbH
München Zum Job 
Richard Hönig Wirtschaftsberatungen-Firmenlogo
Strategischer Einkäufer (w/m/d) Richard Hönig Wirtschaftsberatungen
Südbayern Zum Job 
Mainova AG-Firmenlogo
Ingenieur (w/m/d) Instandhaltung Mainova AG
Frankfurt am Main Zum Job 
SWM Services GmbH-Firmenlogo
Projektleitung Mittelspannungsanlagen (m/w/d) SWM Services GmbH
München Zum Job 
DEKRA Automobil GmbH-Firmenlogo
Sachverständiger Schallschutz und Bauakustik (m/w/d) NRW DEKRA Automobil GmbH
Nordrhein-Westfalen Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Projektingenieur Ladeinfrastruktur (w/m/d) im Geschäftsbereich Betrieb und Verkehr Die Autobahn GmbH des Bundes
München Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Projektingenieur im Brückenbau für Neubau-, Ausbau- und Erhaltungsmaßnahmen (w/m/d) Die Autobahn GmbH des Bundes
München Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Projektingenieur im Hochbau (w/m/d) Die Autobahn GmbH des Bundes
München Zum Job 

Sobald das Gehör damit beschäftigt ist, einen Ton einer bestimmten Frequenz zu verarbeiten, können wir für einige Millisekunden andere, leisere Töne nicht mehr wahrnehmen. Exakt diese Frequenzbereiche nutzte das Forscherteam und versteckte dort geheime Befehle. Der Mensch hört diese zusätzlichen Informationen nicht. Für ihn klingt es wie ein Rauschen, das in Kombination mit dem Gesamtsignal kaum oder gar nicht auffällt. Für die Spracherkennung ändert es jedoch den Sinn. Es lässt sich etwa so beschreiben: Der Mensch hört Aussage A, die Maschine Aussage B. Konkret testeten die Wissenschaftler an dem Spracherkennungssystem Kaldi, das in Amazons Alexa sowie vielen anderen Sprachassistenten zum Einsatz kommt. Das Ergebnis: Die Spracherkennung verstand die geheimen Befehle zuverlässig.

Am Laptop werden Audiodateien bearbeitet
Ziel der Abwehrmaßnahmen ist es, dass die geheimen Botschaften enttarnt, also für den Menschen hörbar werden.

Foto: RUB – Roberto Schirdewahn

Forscher arbeiten an Sprachassistent
Die Forscherinnen und Forscher manipulieren Audiodateien so, dass Maschinen eine ganze andere Aussage verstehen als Menschen.

Foto: RUB – Roberto Schirdewahn

Audiodateien können Sprachassistenten manipulieren
Früher funktionierten die Angriffe nur, wenn die manipulierten Dateien als Daten in die Spracherkennungssoftware gefüttert wurden. Heute gelingen sie auch, wenn die Audiodateien über Lautsprecher abgespielt werden.

Foto: RUB – Roberto Schirdewahn

Verschiedene Angriffe getestet

Anfangs funktionierte die Manipulation nicht über die Luft, sondern die Audiodateien mussten direkt in Kaldi hineingespielt werden. Für den Luftweg mussten die Forscher verschiedene Parameter berücksichtigen, die auch den Raum widerspiegeln. Dabei bedienten sie sich der sogenannten Raumimpulsantwort, die beschreibt, wie ein Raum den Schall reflektiert und so den Klang verändert. „Wenn wir wissen, in welchem Raum der Angriff erfolgen soll, können wir die Raumimpulsantwort mit speziellen Computerprogrammen simulieren und beim Erzeugen der manipulierten Audiodatei berücksichtigen“, erklärt Lea Schönherr von der HGI-Arbeitsgruppe Kognitive Signalverarbeitung. Nachdem es gelungen war, einen für den Raum maßgeschneiderten Angriff zu programmieren, arbeiteten die Forscher an einem allgemeinen Angriff. Bei ihm werden keine Vorinformationen über den Raum benötigt. Dabei funktioniert er auf dem Luftweg genauso gut oder sogar noch besser.

Derzeit befinden sich keine Sprachassistenten in sicherheitskritischen Bereichen im Einsatz. Sie stehen hauptsächlich in privaten Haushalten und dienen der Komfortsteigerung. Die Adversarial Examples richten in diesem Umfeld keinen großen Schaden an. Deshalb lag es den Forschern am Bochumer HGI daran, die Sicherheitslücke rasch zu schließen. Dafür arbeitete die Arbeitsgruppe mit dem Lehrstuhl für Systemsicherheit zusammen. Die IT-Sicherheitsforscher wollen Kaldi beibringen, nur das zu hören, was übrig bleibt, und die für Menschen nicht hörbare Audiosignale auszusortieren.

MP3-Prinzip trainiert System

„Im Grunde soll die Erkennung der Maschine mehr wie das menschliche Gehör funktionieren, sodass es schwieriger wird, geheime Botschaften in Audiodateien zu verstecken“, sagt Thorsten Eisenhofer vom Lehrstuhl für Systemsicherheit. Die Manipulationen lassen sich nicht verhindern. Wenn sie sich allerdings nicht mehr verstecken lassen, sondern in den für Menschen hörbaren Bereichen platziert werden müssen, wären sie aufgedeckt. So entstand folgende Idee: Gelingt es, die Spracherkennung dahingehend zu verbessern, dass sie die für Menschen nicht hörbaren Bereiche aussortiert, müssten Angreifer auf die hörbaren Bereiche ausweichen. Dafür nutzte Eisenhofer das MP3-Prinzip.

Bei MP3-Dateien werden die für Menschen nicht hörbaren Bereiche löschen. Genau das entspricht der Strategie gegen Adversarial Examples. Deshalb kombinierte der Forscher Kaldi mit einem MP3-Encoder. Dieser bereinigt die Audiodateien, bevor sie zum eigentlichen Spracherkenner gelangen. Die Tests waren erfolgreich, Kaldi verstand die geheimen Botschaften nur dann, wenn sie in den für Menschen wahrnehmbaren Bereichen steckten. „Das veränderte die Audiodateien aber merklich. Die Störgeräusche, in denen die geheimen Befehle versteckt sind, wurden deutlich hörbar“, so Eisenhofer. An der Leistung der Spracherkennung änderte sich nichts, sofern das System auch mit MP3-komprimierten Dateien trainiert wurde. Das liegt an dem Machine-Learning-Modell in Kaldi, eine Art künstliche Intelligenz. Das Modell muss mithilfe vieler Audiodateien trainiert werden, um den Sinn von Tonsignalen richtig interpretieren zu können. Mit dem Training versteht das Spracherkennungssystem alles, was es verstehen soll, allerdings auch nicht mehr.

Mehr zum Thema Spracherkennung:

 

Ein Beitrag von:

  • Nina Draese

    Nina Draese hat unter anderem für die dpa gearbeitet, die Presseabteilung von BMW, für die Autozeitung und den MAV-Verlag. Sie ist selbstständige Journalistin und gehört zum Team von Content Qualitäten. Ihre Themen: Automobil, Energie, Klima, KI, Technik, Umwelt.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.