Sprachassistenten 24.10.2019, 07:02 Uhr

Alexa, Siri und Co. – sicherer dank Training

Ein Forscherteam der Ruhr-Universität Bochum entdeckt Sicherheitslücken bei Sprachassistenten wie Alexa und Siri und entwickelt Lösungen, sie zu beheben. Zum Glück sind die Spracherkennungssysteme bislang nicht in sicherheitsrelevanten Bereichen im Einsatz, sondern dienen nur dem Komfort zu Hause.

Alexa vor einem Laptop

In beliebigen Audiodateien wie Sprache, Musik oder Umgebungsgeräuschen – zum Beispiel Vogelgezwitscher – lassen sich geheime Botschaften für die Sprachassistenten verstecken.

Foto: RUB – Roberto Schirdewahn

Die IT-Experten vom Bochumer Horst-Görtz-Institut für IT-Sicherheit (HGI) beschäftigen sich seit einiger Zeit mit Spracherkennungssystemen wie Alexa und Siri. Sie erforschen, wie sicher diese Systeme funktionieren. Im Vergleich zu den Anfängen verstehen Alexa, Siri und Co. gut, was Menschen ihnen sagen. Die Forscher fanden nun heraus, dass sie manchmal sogar Dinge verstehen, die der Mensch gar nicht hören kann. Genau dort liege die Sicherheitslücke.

Geheime Befehle können Sprachassistenten ungewollt aktivieren

Versteckt man einen beliebigen Befehl in verschiedenen Arten von Audiosignalen, zum Beispiel in Musik, Sprache oder Vogelgezwitscher, führt der Sprachassistent diesen aus, ohne dass der Mensch es mitbekommt. Manipuliert etwa jemand ein Lied, das im Radio abgespielt wird, und fügt einen Befehl ein, wäre es möglich, dass der Sprachassistent zu Hause ein bestimmtes Produkt kauft oder die Kontrolle über ein sprachgesteuertes Smart Home übernimmt. Forscher nennen solche Angriffe „Adversarial Examples“.

Top Stellenangebote

Zur Jobbörse
Ernst-Abbe-Hochschule Jena-Firmenlogo
Stiftungsprofessur Ressourceneffiziente Produkt- und Prozessentwicklung Bes. Gr.: W 2 Ernst-Abbe-Hochschule Jena
Bundesanstalt für Immobilienaufgaben-Firmenlogo
Baumanagerin / Baumanager (w/m/d) Bundesanstalt für Immobilienaufgaben
Bundesanstalt für Immobilienaufgaben-Firmenlogo
Ingenieurin / Ingenieur in der Fachrichtung Gebäude-, Elektro- oder Versorgungstechnik (w/m/d) Bundesanstalt für Immobilienaufgaben
Bundesagentur für Arbeit-Firmenlogo
Technische/-r Berater/-in (w/m/d) für den Technischen Beratungsdienst Bundesagentur für Arbeit
Recklinghausen, Ahlen-Münster, Coesfeld Zum Job 
Helmholtz-Zentrum Hereon-Firmenlogo
Doktorandin (m/w/d) Helmholtz-Zentrum Hereon
Geesthacht (bei Hamburg) Zum Job 
Harro Höfliger Verpackungsmaschinen GmbH-Firmenlogo
Mechaniker / Mechatroniker Sondermaschinenbau (m/w/d) Harro Höfliger Verpackungsmaschinen GmbH
verschiedene Standorte Zum Job 
Harro Höfliger Verpackungsmaschinen GmbH-Firmenlogo
Projektmanager für internationale Projekte (m/w/d) Harro Höfliger Verpackungsmaschinen GmbH
Satteldorf Zum Job 
Harro Höfliger Verpackungsmaschinen GmbH-Firmenlogo
Konstrukteur Maschinenbau (m/w/d) Harro Höfliger Verpackungsmaschinen GmbH
verschiedene Standorte Zum Job 
Harro Höfliger Verpackungsmaschinen GmbH-Firmenlogo
Softwareentwickler - Frontend (m/w/d) Harro Höfliger Verpackungsmaschinen GmbH
STERIS-Firmenlogo
Lead Talent Acquisition Partner STERIS
keine Angabe Zum Job 
E+E Elektronik-Firmenlogo
Vertriebsingenieur (m/w/d) im Außendienst E+E Elektronik
Vertriebsgebiet Neue Bundesländer Zum Job 
Harro Höfliger Verpackungsmaschinen GmbH-Firmenlogo
Projektierer (m/w/d) Harro Höfliger Verpackungsmaschinen GmbH
verschiedene Standorte Zum Job 
TTP Holding GmbH-Firmenlogo
Chemieingenieur / Verfahrensingenieur (m/w/d) 80% - 100% TTP Holding GmbH
Basel (Schweiz) Zum Job 
scanware electronic GmbH-Firmenlogo
Mitarbeiter (m/w/d) im technischer Vertriebsinnendienst scanware electronic GmbH
Bickenbach Zum Job 
DFS Deutsche Flugsicherung GmbH-Firmenlogo
Ingenieur* in der Instandsetzung und Entwicklung DFS Deutsche Flugsicherung GmbH
Langen (Hessen) Zum Job 
TTP Holding GmbH-Firmenlogo
Projektingenieur Pharmatechnik (m/w/d) 80% - 100% TTP Holding GmbH
Basel, Visp (Schweiz) Zum Job 
Dow-Firmenlogo
Campus Fresh Graduate - Electrical Engineer (m/f/d) Dow
Schkopau Zum Job 
TÜV Technische Überwachung Hessen GmbH-Firmenlogo
Sachverständiger für Brand- und Explosionsschutz (m/w/d) TÜV Technische Überwachung Hessen GmbH
Frankfurt am Main Zum Job 
Dow-Firmenlogo
Campus Internship - Process Engineering (Chemie-/Verfahrenstechnik) Dow
Prognost Systems GmbH-Firmenlogo
Elektroingenieur / Maschinenbauingenieur / Techniker (m/w/d) (Elektroniker, Elektrotechniker o. ä.) Prognost Systems GmbH

Sobald das Gehör damit beschäftigt ist, einen Ton einer bestimmten Frequenz zu verarbeiten, können wir für einige Millisekunden andere, leisere Töne nicht mehr wahrnehmen. Exakt diese Frequenzbereiche nutzte das Forscherteam und versteckte dort geheime Befehle. Der Mensch hört diese zusätzlichen Informationen nicht. Für ihn klingt es wie ein Rauschen, das in Kombination mit dem Gesamtsignal kaum oder gar nicht auffällt. Für die Spracherkennung ändert es jedoch den Sinn. Es lässt sich etwa so beschreiben: Der Mensch hört Aussage A, die Maschine Aussage B. Konkret testeten die Wissenschaftler an dem Spracherkennungssystem Kaldi, das in Amazons Alexa sowie vielen anderen Sprachassistenten zum Einsatz kommt. Das Ergebnis: Die Spracherkennung verstand die geheimen Befehle zuverlässig.

Am Laptop werden Audiodateien bearbeitet
Ziel der Abwehrmaßnahmen ist es, dass die geheimen Botschaften enttarnt, also für den Menschen hörbar werden.

Foto: RUB – Roberto Schirdewahn

Forscher arbeiten an Sprachassistent
Die Forscherinnen und Forscher manipulieren Audiodateien so, dass Maschinen eine ganze andere Aussage verstehen als Menschen.

Foto: RUB – Roberto Schirdewahn

Audiodateien können Sprachassistenten manipulieren
Früher funktionierten die Angriffe nur, wenn die manipulierten Dateien als Daten in die Spracherkennungssoftware gefüttert wurden. Heute gelingen sie auch, wenn die Audiodateien über Lautsprecher abgespielt werden.

Foto: RUB – Roberto Schirdewahn

Verschiedene Angriffe getestet

Anfangs funktionierte die Manipulation nicht über die Luft, sondern die Audiodateien mussten direkt in Kaldi hineingespielt werden. Für den Luftweg mussten die Forscher verschiedene Parameter berücksichtigen, die auch den Raum widerspiegeln. Dabei bedienten sie sich der sogenannten Raumimpulsantwort, die beschreibt, wie ein Raum den Schall reflektiert und so den Klang verändert. „Wenn wir wissen, in welchem Raum der Angriff erfolgen soll, können wir die Raumimpulsantwort mit speziellen Computerprogrammen simulieren und beim Erzeugen der manipulierten Audiodatei berücksichtigen“, erklärt Lea Schönherr von der HGI-Arbeitsgruppe Kognitive Signalverarbeitung. Nachdem es gelungen war, einen für den Raum maßgeschneiderten Angriff zu programmieren, arbeiteten die Forscher an einem allgemeinen Angriff. Bei ihm werden keine Vorinformationen über den Raum benötigt. Dabei funktioniert er auf dem Luftweg genauso gut oder sogar noch besser.

Derzeit befinden sich keine Sprachassistenten in sicherheitskritischen Bereichen im Einsatz. Sie stehen hauptsächlich in privaten Haushalten und dienen der Komfortsteigerung. Die Adversarial Examples richten in diesem Umfeld keinen großen Schaden an. Deshalb lag es den Forschern am Bochumer HGI daran, die Sicherheitslücke rasch zu schließen. Dafür arbeitete die Arbeitsgruppe mit dem Lehrstuhl für Systemsicherheit zusammen. Die IT-Sicherheitsforscher wollen Kaldi beibringen, nur das zu hören, was übrig bleibt, und die für Menschen nicht hörbare Audiosignale auszusortieren.

MP3-Prinzip trainiert System

„Im Grunde soll die Erkennung der Maschine mehr wie das menschliche Gehör funktionieren, sodass es schwieriger wird, geheime Botschaften in Audiodateien zu verstecken“, sagt Thorsten Eisenhofer vom Lehrstuhl für Systemsicherheit. Die Manipulationen lassen sich nicht verhindern. Wenn sie sich allerdings nicht mehr verstecken lassen, sondern in den für Menschen hörbaren Bereichen platziert werden müssen, wären sie aufgedeckt. So entstand folgende Idee: Gelingt es, die Spracherkennung dahingehend zu verbessern, dass sie die für Menschen nicht hörbaren Bereiche aussortiert, müssten Angreifer auf die hörbaren Bereiche ausweichen. Dafür nutzte Eisenhofer das MP3-Prinzip.

Bei MP3-Dateien werden die für Menschen nicht hörbaren Bereiche löschen. Genau das entspricht der Strategie gegen Adversarial Examples. Deshalb kombinierte der Forscher Kaldi mit einem MP3-Encoder. Dieser bereinigt die Audiodateien, bevor sie zum eigentlichen Spracherkenner gelangen. Die Tests waren erfolgreich, Kaldi verstand die geheimen Botschaften nur dann, wenn sie in den für Menschen wahrnehmbaren Bereichen steckten. „Das veränderte die Audiodateien aber merklich. Die Störgeräusche, in denen die geheimen Befehle versteckt sind, wurden deutlich hörbar“, so Eisenhofer. An der Leistung der Spracherkennung änderte sich nichts, sofern das System auch mit MP3-komprimierten Dateien trainiert wurde. Das liegt an dem Machine-Learning-Modell in Kaldi, eine Art künstliche Intelligenz. Das Modell muss mithilfe vieler Audiodateien trainiert werden, um den Sinn von Tonsignalen richtig interpretieren zu können. Mit dem Training versteht das Spracherkennungssystem alles, was es verstehen soll, allerdings auch nicht mehr.

Mehr zum Thema Spracherkennung:

 

Ein Beitrag von:

  • Nina Draese

    Nina Draese hat unter anderem für die dpa gearbeitet, die Presseabteilung von BMW, für die Autozeitung und den MAV-Verlag. Sie ist selbstständige Journalistin und gehört zum Team von Content Qualitäten. Ihre Themen: Automobil, Energie, Klima, KI, Technik, Umwelt.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.