Akademik

Spracherkennung
Sprach|er|ken|nung 〈f. 20; unz.; EDVautomatische Verarbeitung gesprochener Sprache durch den Computer, wobei digitalisierte Töne in Wörter u. Wortfolgen umgesetzt u. gespeichert werden

* * *

Sprach|er|ken|nung, die (EDV):
automatisches bzw. maschinelles Erkennen gesprochener Sprache.

* * *

Spracherkennung
 
[engl. speech recognition, voice recognition], die Umsetzung von gesprochenen Texten in elektronisch weiterverarbeitbare Buchstabenfolgen und Wörter. Diese werden entweder in Textdateien abgelegt oder aber als Befehle interpretiert und ausgeführt. Während v. a. Letzteres seit den 1960er-Jahren zum Standardrepertoire von Science-Fiction-Filmen und -Büchern gehört (»Computer, ich brauche andere Sternkarten«), ist die Spracherkennung tatsächlich auch heute noch ein mühsames Geschäft. Computer oder Roboter, die an einer normalen menschlichen Unterhaltung teilnehmen könnten, sind nach wie vor Zukunftsmusik.
 
Die Schwierigkeiten der maschinellen Spracherkennung sind mannigfaltig und zeigen sehr deutlich den Unterschied zwischen der Leistungsfähigkeit heutiger Rechner und der des menschlichen Gehirns, welches viele verschiedene Sprachen bis zur Gebärdensprache aktiv und passiv beherrscht und dabei mit Ironie, Andeutungen, Insider-Witzen und kompliziertesten rhetorischen Stilmitteln ohne größere Probleme zurechtkommt. Der Computer dagegen kommt sowohl beim passiven wie auch beim aktiven Sprachgebrauch »ins Schleudern«. Dies liegt u. a. an den folgenden Punkten:
 
- Abgrenzung von Wörtern: Menschen sprechen kein »Leerzeichen« zwischen einzelnen Wörtern, sondern verbinden Wortgruppen, z. T. auch ganze Sätze, zu akustischen Einheiten. Dies geschieht darüber hinaus in verschiedenen Sprachen auf unterschiedliche Weise, im Deutschen beispielsweise noch deutlich weniger als im Englischen oder in romanischen Sprachen. Je nach Kontext werden Wörter außerdem selbst in der geschriebenen Sprache zusammengezogen, die in anderem Zusammenhang getrennt stehen (z. B. beim, zum, isn't, we'll, je n'ai pas. ..).
 
- Aussprache, Tonhöhe und Aufnahmequalität: eine der erstaunlichsten Leistungen des Gehirns besteht darin, ein Wort wieder zu erkennen, auch wenn es von den verschiedensten Menschen in unterschiedlichen Stimmlagen, Betonungen, Modulationen und Dialekten ausgesprochen wird. Selbst gesungene Texte werden über einen Tonhöhenbereich von mehreren Oktaven (Frequenzen von etwa 100 bis über 1000 Hertz) verstanden. Für einen Computer erscheint dagegen ein Wort, das wie beschrieben unterschiedlich ausgesprochen oder gesungen wird, als immer wieder neues Signal. Die darin versteckten gleichen Klangmuster zu finden übersteigt die derzeitigen Rechnerleistungen noch deutlich. Ein weiterer Aspekt in diesem Zusammenhang ist die Tatsache, dass man auch verrauschte Langwellensender oder verstaubte Grammophonplatten noch einigermaßen verstehen kann, für einen Computer werden dagegen durch schlechte Wiedergabequalität aus Wörtern undefinierbare Geräusche.
 
- Vokabular: menschliche Sprachen haben ein Vokabular in der Größenordnung von 100 000 Wörtern, aus denen durch Kombination, Einführen von Fremdwörtern oder individuelle Neuschöpfungen ständig neue Begriffe entstehen.
 
- Verständnis: das größte Problem für den Rechner ist aber nicht das Erkennen von Wörtern, sondern das Verstehen ihrer Bedeutung. Viele Wörter haben je nach Kontext unterschiedliche Bedeutungen, und oft meint ein Sprecher oder eine Sprecherin etwas ganz anderes, als was er oder sie sagt. Hier befindet man sich in einem zentralen Bereich der menschlichen Intelligenz, weshalb das Problem des Sprachverständnisses auch ein wichtiger Gegenstand der KI-Forschung (künstliche Intelligenz) ist.
 
Trotz der vielen Stolpersteine auf dem Weg zu einem umfassenden Sprachverständnis gibt es in bestimmten Marktsegmenten bereits kommerziell eingesetzte Voice-Recognition-Systeme. Dies sind zum einen die Eingabe von Texten über Mikrofon (also sozusagen tippende Diktiergeräte) und zum anderen die telefonische Kundenbetreuung, insbesondere im Bankwesen. Bei Ersterem ist der erfolgreiche Einsatz von Spracherkennungssystemen auf einen Anwender beschränkt, der sein System eine gewisse Zeit über an seine Stimme gewöhnen muss. Für jeden neuen Benutzer ist eine weitere Lernphase des Programms notwendig. Weiterhin sollte man deutlich und mit erkennbaren Pausen zwischen den Wörtern diktieren. Je kleiner das Vokabular ist, desto weniger Fehler macht das System. Eine weitere Einschränkung besteht darin, dass die erfassten Texte auf jeden Fall noch einmal vom Menschen durchgesehen werden müssen, ähnlich wie beim automatischen Umsetzen von eingescannten Dokumenten (OCR).
 
Das bekannteste kommerziell erhältliche Spracherkennungsprogramm ist ViaVoice von IBM, das in der Version 9.0 (August 2001) demnächst auch unter Microsoft Office XP verfügbar sein soll.
 
In der Entwicklung befinden sich bei verschiedenen Herstellern und Universitäten anwenderunabhängige Speech-Recognition-Systeme, die beim Diktat auch große Vokabulare sicher erkennen sollen. Dazu wird das Gesprochene in möglichst kleine Lauteinheiten unterteilt (Silben, Halbsilben, Phoneme), man nennt diesen Vorgang Segmentierung. Die so erzeugte Folge von Sprachsegmenten wird mit einer sehr großen Referenzbibliothek abgeglichen, wobei aufeinander folgende Lauteinheiten bekannten Wörtern zugeordnet werden. Es ist derzeit offen, ob und wann sich sprachliche Diktiersysteme gegenüber dem vertrauten Eintippen von Text durchsetzen werden. Dies liegt nicht nur an der Macht der Gewohnheit (wer viel am Rechner arbeitet, tippt oft schneller, als er diktieren würde), sondern auch an den Abläufen in Gemeinschafts- und Großraumbüros, wo standardmäßiges Diktieren vermutlich die Arbeitsabläufe durcheinander bringen könnte.
 
Die zweite oben angesprochene Anwendung, Spracherkennung bei telefonvermittelten Dienstleistungen, ist vergleichsweise weiter verbreitet. Dabei werden dem Kunden nur einige wenige Befehle angeboten, die er zudem als einzelne Wörter oder kurze Wortfolgen aussprechen muss, um menügeführt zur gewünschten Dienstleistung zu gelangen. Auch Bankgeschäfte lassen sich auf diese Weise abwickeln (Phonebanking), hier treten zu den gesprochenen Benutzerbefehlen noch Zahlenkombinationen für Zugangsnummern oder Geldbeträge hinzu. Natürlich ist auch die Steuerung eines PCs durch gesprochene Einzelbefehle (Voice Control) heute technisch möglich und wird in Verbindung mit Spracherkennungspaketen angeboten. Hier besteht das Problem allerdings nicht darin, dass der Rechner zu wenig, sondern dass er zu viel verstehen könnte. Denn um zu wissen, dass wirklich er und nicht der Kollege am Nachbartisch mit dem Befehl »Aufhören!« gemeint ist, bräuchte er wiederum Textverständnis und künstliche Intelligenz.

* * *

Sprach|er|ken|nung, die (EDV): automatisches bzw. maschinelles Erkennen gesprochener Sprache: Experten erwarten in diesem Jahr den Durchbruch der S. als Standardtechnologie zur Computersteuerung (Woche 8. 1. 99, 21).

Universal-Lexikon. 2012.