Software 13.09.2002, 18:21 Uhr

Die Kommunikation zwischen Mensch und Maschine

„Bitte geben Sie mir Auskunft, wann der nächste Zug nach Hamburg fährt!“ Was hier innerhalb von wenigen Sekunden gesprochen wird, bedeutet für den PC und die Spracherkennungssoftware Schwerstarbeit.

Die Worte müssen für den Computer einen Sinn ergeben, damit er entsprechend darauf reagieren kann.
Gesprochene Sprache besteht aus analogen Signalen, die sich aus Lautstärke, Frequenz, aber auch Faktoren wie Sprechgeschwindigkeit, Modulation und Artikulation zusammensetzen. Damit ein Computer mit Sprache etwas anfangen kann, werden diese analogen Signale digitalisiert. Erst jetzt schließt sich die Spracherkennung an. Dazu werden die für die Erkennung relevanten Elemente Lautstärke, Dauer und Frequenz für einen definierten Zeitabschnitt ermittelt. Danach schließt sich die Klassifizierung an, bei der ermittelt wird, welchen Lauten oder auch welchen kompletten Worten das aufgezeichnete Sprachsignal entspricht.
Dabei gibt es zwei wesentliche Unterschiede. Zum einen die Erkennung ganzer Worte anhand einer Referenz und zum anderen die Erkennung ohne Referenz. Beim Referenzvergleich, den z.?B. Diktierprogramme nutzen, muss ein Anwender ein Sprachtraining durchführen. Dabei werden alle Eigenarten des Anwenders, wie Dialekt, Nuscheln oder Verschleifungen, mit gelernt. Wenn der Nutzer jetzt einen Text diktiert, vergleicht die Software das „Gehörte“ mit dieser antrainierten Referenz und ermittelt dadurch die gesprochenen Worte.
Bei telefonischen Auskunftsdiensten stehen oftmals Sprachcomputer zur Verfügung, wo die Spracherkennung ohne erlernte Referenzmodelle erfolgen muss. Bei diesen Systemen macht man sich zu Nutze, dass ein eingeschränkter Wortschatz zum Einsatz kommt, der Kunde wird meist nur nach auskunftsrelevanten Informationen fragen. Es wird ein neuronales Netz verwendet. Wie die Nervenzellen des menschlichen Körpers sind hier eine große Zahl künstlicher Neuronen mittels eines mathematischen Modells miteinander gekoppelt. In dieses neuronale Netz werden die Merkmale der Sprache, also die Lautstärke, Dauer und Frequenz eingespeist. Vereinfacht ausgedrückt, reagiert jetzt das Neuron, dessen Wortmuster der Eingabe am genauesten entspricht. Das System erkennt dann aus der Abfolge von Worten einen Zusammenhang, aus dem der „Sinn“ ermittelt wird, damit der Computer die entsprechende Antwort geben kann. ANDREAS LERG

 

Ein Beitrag von:

  • Andreas Lerg

Stellenangebote im Bereich Softwareentwicklung

Dynamic Engineering GmbH-Firmenlogo
Dynamic Engineering GmbH Software Entwickler (m/w/d) Embedded Systeme München
Hexagon DEU02 GmbH-Firmenlogo
Hexagon DEU02 GmbH Software-Projekt- und Anwendungsingenieur (m/w/d) Köln
WAFIOS AG-Firmenlogo
WAFIOS AG Elektro- und Softwareentwickler (m/w/d) Reutlingen
Hochschule Reutlingen-Firmenlogo
Hochschule Reutlingen W 2 – Professur Smart Systems Reutlingen
RTB GmbH & Co. KG-Firmenlogo
RTB GmbH & Co. KG Senior-Entwicklungs-Ingenieur/in Embedded-Software (m/w/d) Bad Lippspringe, Kamen
SKF GmbH-Firmenlogo
SKF GmbH Fertigungsingenieur (m/w/d) Betriebstechnik (OT) / Digitalisierung Schweinfurt
B. Braun Melsungen AG-Firmenlogo
B. Braun Melsungen AG Applikationsingenieur (w/m/d) MES Melsungen
Excellence AG-Firmenlogo
Excellence AG Embedded Software Entwickler C/C++ (m/w/d) Düsseldorf
Packsize GmbH-Firmenlogo
Packsize GmbH Software-/Systemintegrator Maschinenbau (m/w/d) Herford
Torqeedo GmbH-Firmenlogo
Torqeedo GmbH Entwicklungsingenieur Embedded Software (m/w/d) für elektrische Antriebssysteme Gilching

Alle Softwareentwicklung Jobs

Top 5 IT & T…

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.