Software 13.09.2002, 18:21 Uhr

Die Kommunikation zwischen Mensch und Maschine

„Bitte geben Sie mir Auskunft, wann der nächste Zug nach Hamburg fährt!“ Was hier innerhalb von wenigen Sekunden gesprochen wird, bedeutet für den PC und die Spracherkennungssoftware Schwerstarbeit.

Die Worte müssen für den Computer einen Sinn ergeben, damit er entsprechend darauf reagieren kann.
Gesprochene Sprache besteht aus analogen Signalen, die sich aus Lautstärke, Frequenz, aber auch Faktoren wie Sprechgeschwindigkeit, Modulation und Artikulation zusammensetzen. Damit ein Computer mit Sprache etwas anfangen kann, werden diese analogen Signale digitalisiert. Erst jetzt schließt sich die Spracherkennung an. Dazu werden die für die Erkennung relevanten Elemente Lautstärke, Dauer und Frequenz für einen definierten Zeitabschnitt ermittelt. Danach schließt sich die Klassifizierung an, bei der ermittelt wird, welchen Lauten oder auch welchen kompletten Worten das aufgezeichnete Sprachsignal entspricht.
Dabei gibt es zwei wesentliche Unterschiede. Zum einen die Erkennung ganzer Worte anhand einer Referenz und zum anderen die Erkennung ohne Referenz. Beim Referenzvergleich, den z.?B. Diktierprogramme nutzen, muss ein Anwender ein Sprachtraining durchführen. Dabei werden alle Eigenarten des Anwenders, wie Dialekt, Nuscheln oder Verschleifungen, mit gelernt. Wenn der Nutzer jetzt einen Text diktiert, vergleicht die Software das „Gehörte“ mit dieser antrainierten Referenz und ermittelt dadurch die gesprochenen Worte.
Bei telefonischen Auskunftsdiensten stehen oftmals Sprachcomputer zur Verfügung, wo die Spracherkennung ohne erlernte Referenzmodelle erfolgen muss. Bei diesen Systemen macht man sich zu Nutze, dass ein eingeschränkter Wortschatz zum Einsatz kommt, der Kunde wird meist nur nach auskunftsrelevanten Informationen fragen. Es wird ein neuronales Netz verwendet. Wie die Nervenzellen des menschlichen Körpers sind hier eine große Zahl künstlicher Neuronen mittels eines mathematischen Modells miteinander gekoppelt. In dieses neuronale Netz werden die Merkmale der Sprache, also die Lautstärke, Dauer und Frequenz eingespeist. Vereinfacht ausgedrückt, reagiert jetzt das Neuron, dessen Wortmuster der Eingabe am genauesten entspricht. Das System erkennt dann aus der Abfolge von Worten einen Zusammenhang, aus dem der „Sinn“ ermittelt wird, damit der Computer die entsprechende Antwort geben kann. ANDREAS LERG

 

Von Andreas Lerg

Stellenangebote im Bereich Softwareentwicklung

Pixida-Firmenlogo
Pixida Functional Owner – Digital Services und Connected Devices (m/w/d) München
Porsche AG-Firmenlogo
Porsche AG Softwareingenieur (m/w/d) ASPICE für Entwicklungsprozesse Weissach
Porsche AG-Firmenlogo
Porsche AG IT Security Expert (m/w/d) Digital Workplace Weilimdorf
in-tech GmbH-Firmenlogo
in-tech GmbH Informatiker als Softwareentwickler C++/Qt für industrielle Systeme (m/w/d) Garching bei München, München
Jungheinrich Aktiengesellschaft-Firmenlogo
Jungheinrich Aktiengesellschaft Embedded Softwareentwickler (m/w/d) Norderstedt
XTRONIC GmbH-Firmenlogo
XTRONIC GmbH Embedded Software Developer (w/m/d) Böblingen
SimonsVoss Technologies GmbH-Firmenlogo
SimonsVoss Technologies GmbH Senior Middleware Stack Architect (m/w/d) Unterföhring bei München
DIgSILENT GmbH-Firmenlogo
DIgSILENT GmbH Ingenieur Elektrotechnik (w/m/d) Anwendungsentwickler C++ Gomaringen
Porsche AG-Firmenlogo
Porsche AG Service-Experte (w/m/d) Data-Streaming Weilimdorf
XTRONIC GmbH-Firmenlogo
XTRONIC GmbH Requirements Engineer Bereich Kombiinstrumente (m/w/d) Böblingen

Alle Softwareentwicklung Jobs

Top 5 IT & T…

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.