Sprachassistenten 24.10.2019, 07:02 Uhr

Alexa, Siri und Co. – sicherer dank Training

Ein Forscherteam der Ruhr-Universität Bochum entdeckt Sicherheitslücken bei Sprachassistenten wie Alexa und Siri und entwickelt Lösungen, sie zu beheben. Zum Glück sind die Spracherkennungssysteme bislang nicht in sicherheitsrelevanten Bereichen im Einsatz, sondern dienen nur dem Komfort zu Hause.

Alexa vor einem Laptop

In beliebigen Audiodateien wie Sprache, Musik oder Umgebungsgeräuschen – zum Beispiel Vogelgezwitscher – lassen sich geheime Botschaften für die Sprachassistenten verstecken.

Foto: RUB – Roberto Schirdewahn

Die IT-Experten vom Bochumer Horst-Görtz-Institut für IT-Sicherheit (HGI) beschäftigen sich seit einiger Zeit mit Spracherkennungssystemen wie Alexa und Siri. Sie erforschen, wie sicher diese Systeme funktionieren. Im Vergleich zu den Anfängen verstehen Alexa, Siri und Co. gut, was Menschen ihnen sagen. Die Forscher fanden nun heraus, dass sie manchmal sogar Dinge verstehen, die der Mensch gar nicht hören kann. Genau dort liege die Sicherheitslücke.

Geheime Befehle können Sprachassistenten ungewollt aktivieren

Versteckt man einen beliebigen Befehl in verschiedenen Arten von Audiosignalen, zum Beispiel in Musik, Sprache oder Vogelgezwitscher, führt der Sprachassistent diesen aus, ohne dass der Mensch es mitbekommt. Manipuliert etwa jemand ein Lied, das im Radio abgespielt wird, und fügt einen Befehl ein, wäre es möglich, dass der Sprachassistent zu Hause ein bestimmtes Produkt kauft oder die Kontrolle über ein sprachgesteuertes Smart Home übernimmt. Forscher nennen solche Angriffe „Adversarial Examples“.

Top Stellenangebote

Zur Jobbörse
FH Münster-Firmenlogo
Mitarbeiter/in (w/m/d) zur Koordination der Schulkontakte FH Münster
Steinfurt Zum Job 
über ifp l Personalberatung Managementdiagnostik-Firmenlogo
Stellvertretende Leitung Bau- und Gebäudetechnik (m/w/d) über ifp l Personalberatung Managementdiagnostik
Rhein-Main-Gebiet Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Bauingenieur (w/m/d) Brückenprüfung Die Autobahn GmbH des Bundes
TAUW GmbH-Firmenlogo
Projektingenieur:in (m/w/d) Hydro(geo)logische Modellierungen TAUW GmbH
verschiedene Standorte Zum Job 
PNE AG-Firmenlogo
Experte Technischer Einkauf für Windenergieanlagen (m/w/d) PNE AG
Hamburg, Husum, Cuxhaven Zum Job 
Stadtwerke München GmbH-Firmenlogo
Instandhaltungsmanager*in (m/w/d) Stadtwerke München GmbH
München Zum Job 
Rittal GmbH & Co. KG-Firmenlogo
Maschinenbauingenieur / Prüfingenieur (m/w/d) Dynamik / Schwingungstechnik Rittal GmbH & Co. KG
Herborn Zum Job 
Fraunhofer-Institut für Angewandte Festkörperphysik IAF-Firmenlogo
Wissenschaftler (m/w/d) - angewandte NV-Magnetometrie und Laserschwellen-Magnetometer Fraunhofer-Institut für Angewandte Festkörperphysik IAF
Freiburg im Breisgau Zum Job 
Deutsche Rentenversicherung Bund-Firmenlogo
Teamleiter*in Bauprojekte Elektrotechnik (m/w/div) Deutsche Rentenversicherung Bund
Stadtwerke Frankenthal GmbH-Firmenlogo
Energieberater (m/w/d) Stadtwerke Frankenthal GmbH
Frankenthal Zum Job 
Griesemann Gruppe-Firmenlogo
Lead Ingenieur Elektrotechnik / MSR (m/w/d) Griesemann Gruppe
Köln, Wesseling Zum Job 
Vita Zahnfabrik H. Rauter GmbH & Co. KG-Firmenlogo
Konstrukteurin / Konstrukteur Maschinen und Anlagen Vita Zahnfabrik H. Rauter GmbH & Co. KG
Bad Säckingen Zum Job 
PARI Pharma GmbH-Firmenlogo
Senior Projekt-/Entwicklungsingenieur (m/w/d) in der Konstruktion von Medizingeräten PARI Pharma GmbH
Gräfelfing Zum Job 
ABO Wind AG-Firmenlogo
Projektleiter (m/w/d) Umspannwerke 110kV für erneuerbare Energien ABO Wind AG
verschiedene Standorte Zum Job 
Berliner Wasserbetriebe-Firmenlogo
Bauingenieur:in Maßnahmenentwicklung Netze (w/m/d) Berliner Wasserbetriebe
Die Autobahn GmbH des Bundes-Firmenlogo
Abteilungsleitung (m/w/d) Umweltmanagement und Landschaftspflege Die Autobahn GmbH des Bundes
Residenzstadt Celle-Firmenlogo
Abteilungsleitung (d/m/w) für die Stadtplanung im Fachdienst Bauordnung Residenzstadt Celle
Die Autobahn GmbH des Bundes-Firmenlogo
Ingenieur (w/m/d) Verkehrsbeeinflussungsanlagen Die Autobahn GmbH des Bundes
Hamburg Zum Job 
VIVAVIS AG-Firmenlogo
Projektleiter (m/w/d) Angebotsmanagement VIVAVIS AG
Ettlingen, Berlin, Bochum, Koblenz Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Projektingenieur (w/m/d) Telematik-Infrastruktur Die Autobahn GmbH des Bundes
Frankfurt am Main Zum Job 

Sobald das Gehör damit beschäftigt ist, einen Ton einer bestimmten Frequenz zu verarbeiten, können wir für einige Millisekunden andere, leisere Töne nicht mehr wahrnehmen. Exakt diese Frequenzbereiche nutzte das Forscherteam und versteckte dort geheime Befehle. Der Mensch hört diese zusätzlichen Informationen nicht. Für ihn klingt es wie ein Rauschen, das in Kombination mit dem Gesamtsignal kaum oder gar nicht auffällt. Für die Spracherkennung ändert es jedoch den Sinn. Es lässt sich etwa so beschreiben: Der Mensch hört Aussage A, die Maschine Aussage B. Konkret testeten die Wissenschaftler an dem Spracherkennungssystem Kaldi, das in Amazons Alexa sowie vielen anderen Sprachassistenten zum Einsatz kommt. Das Ergebnis: Die Spracherkennung verstand die geheimen Befehle zuverlässig.

Am Laptop werden Audiodateien bearbeitet
Ziel der Abwehrmaßnahmen ist es, dass die geheimen Botschaften enttarnt, also für den Menschen hörbar werden.

Foto: RUB – Roberto Schirdewahn

Forscher arbeiten an Sprachassistent
Die Forscherinnen und Forscher manipulieren Audiodateien so, dass Maschinen eine ganze andere Aussage verstehen als Menschen.

Foto: RUB – Roberto Schirdewahn

Audiodateien können Sprachassistenten manipulieren
Früher funktionierten die Angriffe nur, wenn die manipulierten Dateien als Daten in die Spracherkennungssoftware gefüttert wurden. Heute gelingen sie auch, wenn die Audiodateien über Lautsprecher abgespielt werden.

Foto: RUB – Roberto Schirdewahn

Verschiedene Angriffe getestet

Anfangs funktionierte die Manipulation nicht über die Luft, sondern die Audiodateien mussten direkt in Kaldi hineingespielt werden. Für den Luftweg mussten die Forscher verschiedene Parameter berücksichtigen, die auch den Raum widerspiegeln. Dabei bedienten sie sich der sogenannten Raumimpulsantwort, die beschreibt, wie ein Raum den Schall reflektiert und so den Klang verändert. „Wenn wir wissen, in welchem Raum der Angriff erfolgen soll, können wir die Raumimpulsantwort mit speziellen Computerprogrammen simulieren und beim Erzeugen der manipulierten Audiodatei berücksichtigen“, erklärt Lea Schönherr von der HGI-Arbeitsgruppe Kognitive Signalverarbeitung. Nachdem es gelungen war, einen für den Raum maßgeschneiderten Angriff zu programmieren, arbeiteten die Forscher an einem allgemeinen Angriff. Bei ihm werden keine Vorinformationen über den Raum benötigt. Dabei funktioniert er auf dem Luftweg genauso gut oder sogar noch besser.

Derzeit befinden sich keine Sprachassistenten in sicherheitskritischen Bereichen im Einsatz. Sie stehen hauptsächlich in privaten Haushalten und dienen der Komfortsteigerung. Die Adversarial Examples richten in diesem Umfeld keinen großen Schaden an. Deshalb lag es den Forschern am Bochumer HGI daran, die Sicherheitslücke rasch zu schließen. Dafür arbeitete die Arbeitsgruppe mit dem Lehrstuhl für Systemsicherheit zusammen. Die IT-Sicherheitsforscher wollen Kaldi beibringen, nur das zu hören, was übrig bleibt, und die für Menschen nicht hörbare Audiosignale auszusortieren.

MP3-Prinzip trainiert System

„Im Grunde soll die Erkennung der Maschine mehr wie das menschliche Gehör funktionieren, sodass es schwieriger wird, geheime Botschaften in Audiodateien zu verstecken“, sagt Thorsten Eisenhofer vom Lehrstuhl für Systemsicherheit. Die Manipulationen lassen sich nicht verhindern. Wenn sie sich allerdings nicht mehr verstecken lassen, sondern in den für Menschen hörbaren Bereichen platziert werden müssen, wären sie aufgedeckt. So entstand folgende Idee: Gelingt es, die Spracherkennung dahingehend zu verbessern, dass sie die für Menschen nicht hörbaren Bereiche aussortiert, müssten Angreifer auf die hörbaren Bereiche ausweichen. Dafür nutzte Eisenhofer das MP3-Prinzip.

Bei MP3-Dateien werden die für Menschen nicht hörbaren Bereiche löschen. Genau das entspricht der Strategie gegen Adversarial Examples. Deshalb kombinierte der Forscher Kaldi mit einem MP3-Encoder. Dieser bereinigt die Audiodateien, bevor sie zum eigentlichen Spracherkenner gelangen. Die Tests waren erfolgreich, Kaldi verstand die geheimen Botschaften nur dann, wenn sie in den für Menschen wahrnehmbaren Bereichen steckten. „Das veränderte die Audiodateien aber merklich. Die Störgeräusche, in denen die geheimen Befehle versteckt sind, wurden deutlich hörbar“, so Eisenhofer. An der Leistung der Spracherkennung änderte sich nichts, sofern das System auch mit MP3-komprimierten Dateien trainiert wurde. Das liegt an dem Machine-Learning-Modell in Kaldi, eine Art künstliche Intelligenz. Das Modell muss mithilfe vieler Audiodateien trainiert werden, um den Sinn von Tonsignalen richtig interpretieren zu können. Mit dem Training versteht das Spracherkennungssystem alles, was es verstehen soll, allerdings auch nicht mehr.

Mehr zum Thema Spracherkennung:

 

Ein Beitrag von:

  • Nina Draese

    Nina Draese hat unter anderem für die dpa gearbeitet, die Presseabteilung von BMW, für die Autozeitung und den MAV-Verlag. Sie ist selbstständige Journalistin und gehört zum Team von Content Qualitäten. Ihre Themen: Automobil, Energie, Klima, KI, Technik, Umwelt.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.