Arndt, Holger: Einsetzbarkeit und Nutzen der digitalen Spracherkennung in der radiologischen Diagnostik

6

Kapitel 1. Einleitung

1.1. Allgemeine Forderungen an die radiologische Befundung

An die bildgebende Diagnostik werden zwei grundlegende Forderungen gestellt. Zum einen ist eine qualifizierte Befundung, die klinische Daten, Hergang bzw. Art der Diagnostik, Befundbeschreibung und die radiologische Diagnose enthält, gefordert. Zum anderen erwartet der Kliniker, daß die Befundung in einem adäquaten Zeitraum erfolgt und ihm mitgeteilt wird. Die maximal zu tolerierende Zeitspanne wird durch die klinische Fragestellung bestimmt. Während z.B. bei der Verlaufskontrolle einer konsolidierten Fraktur in der konventionellen Skelettdiagnostik durchaus ein bis zwei Tage zwischen der Untersuchung und dem Versand des Befundes an den Kliniker toleriert werden können, müssen die Ergebnisse anderer Untersuchungen, wie z.B. einer ZVK-Kontrolle, sofort vorliegen. Im letzteren Fall sollte der akute Befund natürlich als erstes telefonisch übermittelt werden, aber auch die nachfolgende schriftliche Befundung muß schnellstens erfolgen. Sicher kann im Klinikbereich bei der Festlegung der Priorität der Befundung auch in stationäre und ambulante Patienten unterteilt werden. Da die ambulant betreuten Patienten in der Regel erst nach einigen Tagen wieder in die poliklinische Sprechstunde bestellt werden, ist hier der zeitliche Abstand zwischen der eigentlichen Untersuchung und der schriftlichen Beurteilung variabler als bei stationären Patienten. Hier werden zumeist keine langfristigen Verlaufskontrollen durchgeführt, vielmehr entscheidet die bildgebende Diagnostik im Zusammenhang mit der Klinik über die aktuell durchzuführende Therapie, wie z.B. bei der Beurteilung der Progredienz oder Regredienz pneumonischer Infiltrationen als Anhalt für die Effektivität der antibiotischen Therapie oder das Staging von Tumoren zur Beurteilung der Operabilität. Aber auch diese Einteilung in akut und weniger akut zu befundende Untersuchungen birgt ein großes Risiko. Bei allen nicht schleunigst betrachteten und befundeten radiologischen Untersuchungen (welche z.B. als ambulant und nicht dringlich eingestuft wurden) besteht die potentielle Möglichkeit einen Zufallsbefund zu spät festzustellen bzw. an den klinischen Partner zu übermitteln und damit Zeit für eine spezielle Diagnostik oder schnelle Therapie zu verschenken.

Das heißt, es können keine Abstriche von den grundlegenden Anforderungen an die bildgebende Diagnostik gemacht werden.

Nach einer eventuell telefonischen Übermittlung bei einer akuten Diagnose ist der schriftliche Befund der durchgeführten Untersuchung sehr wichtig. Dem klinischen Kollegen gibt er die rechtliche Sicherheit eines Dokuments, anhand dessen er die Therapie durchführen kann. Desweiteren kann der Kliniker auf Grundlage der schriftlichen Beurteilung besser mit


7

Kollegen diskutieren, als wenn er ein Telefonat zitieren würde. Für den Radiologen wiederum ist der schriftliche Befund im Zusammenhang mit den angefertigten Aufnahmen ein Nachweis über die erbrachten Leistungen und deren Qualität. Ferner bietet der ausführliche, schriftlich fixierte Befund gerade bei langfristigen Verlaufskontrollen einen Anhaltspunkt für eine Verlaufsbeurteilung, auch wenn die Voraufnahmen gerade nicht verfügbar sind.

Welche Möglichkeiten gibt es für den Radiologen einen schriftlichen Befund zu erstellen?

Als schnellste und einfache Erstellungsweise wäre der handgeschriebene Befund zu nennen. Dieser ist jedoch im Zeitalter der elektronischen Daten- und Leistungserfassung obsolet und allenfalls für eine provisorische Befundübermittlung verwendbar.

Ein ordentlicher Befund muß heutzutage mit einem Computer geschrieben und in einem Radiologischen Informationssystem abgelegt werden. Nur so läßt sich eine exakte Leistungserfassung erstellen. Gleichzeitig ermöglicht das Informationssystem die Ansicht früherer Befunde ohne das die vollständige Patientenakte zur Verfügung stehen muß. Wie läßt sich nun ein computergeschriebener Befund erstellen?

Der Radiologe könnte den Befund selber am Computer schreiben. Diese Vorgehensweise hat verschiedene Vorteile :

Durch das Schreiben entstehen aber auch Nachteile:

Eine andere Möglichkeit der schriftlichen Befunderstellung bietet das Diktieren der Untersuchungsergebnisse. Nach Beendigung der Befundung wird das Diktat an eine Schreibkraft übergeben, die dann den gesprochenen Text in den Computer eintippt.

Gegenüber der vorherigen Methode bieten sich verschiedene Vorteile:

Aber auch das Diktat bietet Nachteile:

Der Transport der Diktate über eine Kassette kann durch ein vernetztes Sprachsystem ersetzt werden. Bei einem derartigen System wird das Diktat digitalisiert und zentral gespeichert und steht damit sofort nach Beendigung des gesprochenen Diktats den Schreibkräften zur Verfügung. Letztendlich werden die besseren Bedingungen bei der Beurteilung einer Untersuchung beim Diktieren trotz allem durch einen verlängerten Zeitraum zwischen Beur-


9

teilung der Untersuchung und dem Versand des schriftlichen Befundes erkauft. Beim individuellen Schreiben wiederum liegt der Befund sofort vor, es besteht aber ein erhöhter Arbeitsaufwand für den Radiologen. Eine ähnliche Problematik stellt sich auch in anderen medizinischen Bereichen ( 20 , 29 , 36 , 46 , 48 , 49 ).

Als interessante Alternative werden seit einiger Zeit digitale Spracherkennungssysteme zur Umwandlung von gesprochenem in geschriebenen Text angeboten. Diese Systeme verarbeiten das Sprachsignal und erstellen nach verschiedenen Algorithmen den geschriebenen Text ( 44 ).

1.2. Grundlagen der digitalen Spracherkennung

1.2.1. Entwicklung der digitalen Spracherkennung

Es gibt viele Möglichkeiten der Kommunikation der Menschen untereinander, wie z.B. Gestik, Bilder, Zeichnungen, gedruckter Text und die Sprache. Im alltäglichen Leben setzte sich hauptsächlich die Möglichkeit der sprachlichen Verständigung durch. Die Gründe dafür wurden von Flanagan ( 10 ) zusammengefaßt: ”Ich kann mir vorstellen, daß der Antrieb für die Sprachentwicklung nicht so sehr die Notwendigkeit des Ausdrucks der eigenen Gedanken war (was sicher über die Gestikulation ausreichend ermöglicht wurde), als vielmehr die Schwierigkeit mit ‘vollen Händen zu sprechen’ .“

Letztendlich ist die Sprache der einzige effektive Weg für den Menschen seine Gedanken und Wünsche auszudrücken. Da ist es nicht verwunderlich, daß schon immer der Wunsch bestand, sprachlich mit Maschinen zu kommunizieren bzw. sie zu steuern.

Als in der menschlichen Geschichte Tiere zum Antrieb von Maschinen genutzt wurden, bot sich die Möglichkeit, über eine Kommandosprache die Tiere und damit die Maschinen zu lenken. Natürlich wurden die Tiere auch über Hilfsmittel wie z.B. Zaumzeug gesteuert, die Sprachsteuerung ermöglichte jedoch eine anderweitige Nutzung der Hände. Zum Beispiel war es möglich, mit einem Ochsenpflug ein Feld zu pflügen und gleichzeitig mit den Händen die Saat auszubringen bzw. Steine aufzusammeln. Diese limitierte Sprachsteuerung verschwand, als Kraftmaschinen (Dampfmaschine, Benzinmotor,...) nach und nach die Tiere als Antrieb verdrängten.

Bei immer komplexeren technischen Abläufen wird zum einen die Notwendigkeit einer Sprachsteuerung zur vereinfachten Kommunikation mit der Technik und zum anderen die Anforderung an die Zuverlässigkeit einer Sprachsteuerung deutlich.

Vorteile der sprachlichen Kommunikation mit Maschinen:

1.2.2. Grundlagen für die Kommunikation Mensch/Maschine

Abb. 1: Kommunikationssystem Mensch/ Maschine

Ein Kommunikationssystem Mensch/Maschine ( Abb. 1 ) benötigt ein Mikrophon, um die menschliche Stimme aufzunehmen, sowie einen Lautsprecher oder Kopfhörer, um entweder eine Kontrolle des gesprochenen Textes zu ermöglichen oder dem Benutzer über eine synthetische oder vorher aufgenommene Stimme Reaktionen auf den gesprochenen Text mitzuteilen ( 44 ). So hat der Mensch die Möglichkeit mit dem System sprachlich zu kommunizieren. Das Sprachsystem muß den gesprochenen Text in der jeweiligen Art und Weise auswerten und die Informationen weiterleiten. Es besteht die Möglichkeit, den gesprochenen Text im Sinne von Kommandos zu Steuerungsvorgängen zu nutzen, den Text zu erkennen und als geschriebenen Text bzw. symbolisch darzustellen. Beispiele für das Ausführen von sprachlichen Kommandos wäre ein System, das Schaltfunktionen ausführt, die Steuerung von Fahrzeugen bzw. einzelner Funktionen des Fahrzeugs. Ein anderes Anwendungsgebiet wäre der Zugriff und die Steuerung von Informationen. Das System könnte auf einen sprachlichen Auftrag hin in einer Datenbank suchen, eine Berechnung erstellen und das Ergebnis auch in sprachlicher Form ausgeben.

Im Vordergrund des Kommunikationsystems steht sicher an erster Stelle das Problem der Spracherkennung bzw. des Sprachverständnisses. Jedoch auch die Sprachsynthese ist gerade bei komplexeren Systemen, z.B. als Nachricht über die korrekte Erkennung und Verarbeitung des gesprochenen Textes oder als Antwort auf eine Informationsabfrage ein wichtiger Bestandteil. Nicht zu vergessen ist die Notwendigkeit der einfachen Bedienung durch den Nutzer.


11

Die Fragen, die Pierce ( 38 ) schon 1969 aufwarf, beschäftigten sich mit dem Ziel, dem Wert und dem potentiellen Erfolg der Forschung im Gebiet der Spracherkennung. Er stimulierte damit wesentlich die Diskussion, die Gedanken und den Enthusiasmus der Wissenschaftler und Ingenieure in den späten 60-er Jahren ( 44 ). In den letzten 25 Jahren wurden große Fortschritte in beiden Gebieten, der Spracherkennung und der Sprachsynthese gemacht, so daß bereits heute komplexe Sprachkommunikationssysteme möglich sind und und auch in einzelnen Applikationen zur Verfügung stehen. Um die Entwicklung der Spracherkennung/ -synthese weiter voranzutreiben, ist eine enge Zusammenarbeit verschiedener wissenschaftlicher und technischer Gebiete, wie Psychologie, Linguistik, Akustik, Signalverarbeitung, Computertechnik sowie die IC-Technik notwendig.

1.2.3. Computer und Mikroelektronik

Seit über hundert Jahren erforschen Wissenschaftler und Ingenieure systematisch das Sprachsignal und die sprachliche Kommunikation. Die größten Fortschritte wurden aber erst durch den Einsatz digitaler Computer erzielt. Zuerst nutzte man die Rechner zur Simulation analoger Systeme. Dabei stellte sich heraus, daß komplexe Sprachverarbeitung nur mittels Computer möglich war. Ein großer Faktor für die beschleunigte Entwicklung war die Entwicklung digitaler Filter, der Spektrumanalyse sowie signalverarbeitender Techniken zur Sprachanalyse und Sprachsynthese ( 13 , 37 , 39 ). Außerdem stellt die programmierbare ”Intelligenz“ der Computer einen Grundbaustein für die sprachliche Kommunikation zwischen Mensch und Maschine dar. Ohne die fulminante Entwicklung der Mikroelektronik wäre die Entwicklung von sprachgesteuerten Kommunikationsystemen nur im Labormaßstab denkbar. Innerhalb weniger Jahre hat sich sowohl die Dichte der Transistoren auf einem einzelnen Chip als auch die Taktgeschwindigkeit vervielfacht ( 44 ). Zusätzlich wurde durch multiple bzw. parallele Bustechnologien in der Schaltungsarchitektur eine hohe Verarbeitungsgeschwindigkeit erreicht, so daß schon auf herkömlichen PC’s Operationen für die Verarbeitung der anfallenden Daten bei einem Kommunikationssytem in Echtzeit ablaufen können. Die weitere Nutzung der Computer und der Mikroelektronik wird sich in Abhängigkeit von der weiteren Entwicklung der IC-Technologien, der Erarbeitung effizienterer Algorithmen zur Signalverarbeitung sowie dem Einsatz der Multiprozessortechnik entfalten.

1.2.4. Sprachanalyse und Sprachsynthese

Bei einem Kommunikationssystem Mensch/Maschine ist die Sprache das informationenthaltende Medium. Daher ist es notwendig, die Grundlagen des Sprachsignals zu kennen. Wie wird es erzeugt, wie wird die Information darin codiert und wie wird es empfangen?


12

Abb. 2: Modell der Spracherzeugung - source system model ( 44 )

Die menschliche Sprache ist eine Schallwelle, die durch ein komplexes physikalisches System erzeugt wird. Es ist möglich, den Vorgang der Spracherzeugung über physikalische Gesetze zu veranschaulichen bzw. zu simulieren. Seit vielen Jahren beschäftigen sich intensive Forschungen mit diesem Problem, deren Ergebnisse in klassischen Monographien ( 9 , 10 ) sowie auch in neueren Arbeiten ( 39 , 6 ) zu finden sind.

Die Forschung orientiert sich dabei hauptsächlich an einem klassischen Modell der Spracherzeugung, dem sogenannten ‘source system model’ ( Abb. 2 ). Bei diesem Modell wird die Sprache über einen Wechsel der Anregung durch periodische Impulse (Tonhöhe) für stimmliche Klänge und ein Zufallsgeräusch für nichtstimmliche Klänge über eine Mischung beider Geräuschquellen erzeugt. Der Stimmapparat gestaltet zeitabhängig das gegebene Signal um, um geeignete Resonanzen oder Formanten zu erzeugen. Die Sprachanalyse beschäftigt sich mit der Ermittlung der Parameter des Modells, während die Sprachsynthese sich mit der Ausgabe des Modells bei vorgegebenen Parametern befaßt ( 44 ).

Ein zentrales Problem der Sprachverarbeitung ist das Umwandeln der analogen Schallwellen in digitale Daten. Sprache, wie auch jede andere bandbreitenbegrenzte Wellenart, kann mittels einem Analog-Digital-Wandler in eine Abfolge binärer Daten umgewandelt werden. Diese digitalen Daten repräsentieren das Sprachsignal und können mittels Digital-Analog-Wandler wieder in ein analoges Signal umgewandelt und so wieder ausgegeben werden ( Abb. 3 ).


13

Abb. 3: Wandlung, Codierung, Decodierung

Der digitale Wert, den der A-D-Wandler zu einem bestimmten Zeitpunkt erzeugt, wird auch als Sample bezeichnet. Je kürzer der Abstand zwischen der Ermittlung der einzelnen Sample-Werte ist, desto genauer wird die Änderung des analogen Signals erfaßt. Die Bitbreite bestimmt die Werte, die ein Sample annehmen kann. Bei einer Bitbreite von 4 Bit pro Sample könnte ein ganzzahliger Wert von 0 bis 15 angenommen werden. Eine Bitbreite von 16 Bit ermöglicht einen Sample-Wert von 0 bis 65535. Das heißt, eine höhere Bitbreite führt zu einer feineren Abstufung der bei der A-D-Wandlung erhaltenen Werte.

Wenn man die Bitbreite bei der Quantisierung und die Sampling-Rate hoch genug wählt, entspricht das Ausgabesignal weitgehend dem Originalsignal. Der notwendige Datenfluß für ein akustisches Signal läßt sich aus dem Produkt der Sampling-Rate (Samples pro Sekunde) und der genutzen Bitbreite (Bits pro Sample) ermitteln. Da der Datenfluß durch die Datenübertragungsrate sowie durch die Speicherkapazität beim Speichern der digitalen Informationen begrenzt wird, ist es notwendig, die anfallenden Daten durch eine Codierung zu verringern, ohne jedoch die Qualität des Sprachsignals unter ein bestimmtes Niveau sinken zu lassen. Zur Codierung der Daten gibt es Ansätze ( 44 ), die als Grundlage lineare prediktive Algorithmen (linear predictive coding- LPC) haben. Andere Codierungsansätze nutzen frequenzabhängige Algorithmen unter Berücksichtigung des Hörmodells, um die durch die Quantisierung hervorgerufenen Fehler unterhalb der Hörschwelle zu lassen ( 6 , 10 , 39 ).

Letztendlich führt eine Verringerung des Datenflusses zu einem komplexen Analyse-/Codierungprozess und ab einer bestimmten Schwelle zu einer signifikanten Verschlechterung des Audiosignals. Die sogenannte ”toll quality“ (vergleichbar mit einer guten Telephonverbindung über eine große Entfernung) kommt mit einer Bandbreite von 4000 Hz (mit einer Samplingrate von 8000 Hz) und 8 Bit pro Sample bei direktem Sampling, d.h. unkomprimierter Datenübertragung auf einen Datenfluß von 64000 Bits/s ( 44 ). Zur Zeit kann durch Nutzung der Codierung bei Erhaltung der ”toll quality“ die Datenübertragungsrate auf 8000 Bits/s gesenkt werden ( 11 ). Mit Qualitätsverlust des rekonstruierten Signals, aber noch verständlicher Sprache kann die Bit-Rate bis auf 2000 Bits /s gesenkt werden ( 11 ).

Das gesampelte Sprachsignal enthält viele Daten, die für die eigentliche Information nicht immer notwendig sind. Bei einem vorgelesenen Text entsteht schätzungsweise eine Text-Datenrate von ca. 100 Bits/s ( 44 ). Eine höhere Effektivität bei geringerem Datenfluß wäre


14

möglich, wenn Textdaten übertragen, zur Ausgabe in Parameter eines Sprachsynthesizers umgewandelt und über einen D-A-Wandler akustisch ausgegeben würden ( Abb. 4 ).

Abb. 4: Sprachsynthesizer - Schema

Zur Sprachsynthese ist ein digitales Lexikon des Ausspracheregelwerkes mit allen Besonderheiten wie Ausprachegeschwindigkeit, Stimmhöhe, Lautstärke, etc. notwendig. Die Senkung des Datenflusses bei der Übertragung von Textdaten könnte nur durch erhöhten Rechenaufwand des empfangenden/auswertenden Systems erkauft werden. Bei der Entwicklung eines sprachabhängigen Kommunikationssystems müssen also folgende Bedingungen berücksichtigt werden:

So wäre die Ausgabequalität von gesampelter Sprache bei hoher Datenübertragungsrate sicher optimal, es würde aber eine große zu verwaltende Datenmenge anfallen. Bei Nutzung der Sprachsynthese wiederum wäre ein erhöhter Rechneraufwand mit einem von der notwendigen Flexibilität abhängigen, umfassenden Regelwerk notwendig, wobei sich die Qualität der Sprachausgabe von fast unverständlicher ”Roboter“-Sprache in den Anfängen der Sprachsynthese zu einer heutzutage gut verständlichen fast natürlich klingenden synthetischen Sprache entwickelt hat. Die Entwicklung der Sprachanalyse und -synthese steht in engem Zusammenhang mit den Gebieten der Akustik, der digitalen Signalverarbeitung, der Sprachforschung und der Psychologie. In der nächsten Zeit werden große Fortschritte vor allem in den folgenden Bereichen erwartet ( 44 ):

Sprachmodell: Darstellung sprachlicher Strukturen und phonetischer Elemente (Silben, Betonung,...) im akustischen Sprachsignal.

Akustisches Modell: Das lineare Modell der Spracherzeugung ( Abb. 2 , Seite 12) stellt nur eine einfache Basis für Sprachanalyse/-Codierung dar. Es läßt alle nichtlinearen Vorgänge außer acht. Aktuelle Forschungen ( 11 , 26 ) auf diesem Gebiet beschäftigen sich mit der Entwicklung neuer nichtlinearer Modelle, die auf der Modulationstheorie, auf Fraktalen und der Chaostheorie basieren.


15

Hörmodelle: Forschungen auf dem Gebiet des Hörvorgangs sowie des Gehörs führen zu Modellen, die eine dramatische Verbesserung auf dem Gebiet der hochqualitativen Codierung ( 11 ) bewirken können.

Analyse durch Synthese: Das unveränderte Sprachsignal wird mit dem nach Parameterermittlung synthetisch erzeugten Signal (bei vorgegebenen Ausschlußkriterien) verglichen, bei Ungleichheit der beiden Signale kommt es zu einer optimierten Parametererzeugung mit erneutem Vergleich ( Abb. 5 ).

Abb. 5: Analyse durch Synthese

Dieses Prinzip stellt die Basis für verschiedene Codiersysteme dar ( 44 ). Eine Verbindung dieses Algorithmus mit genaueren Vergleichsmethoden, die z.B. auf dem Hörmodell und anderen Signalmodellen beruhen, wäre eine Möglichkeit der optimierten Codierung.

1.2.5. Spracherkennung und Sprachverständnis

Die Extraktion der Textinformation aus dem Sprachsignal ist eines der Hauptprobleme bei der Verständigung zwischen Mensch und Maschine. Es gibt viele grundsätzliche Gemeinsamkeiten zwischen der Spracherkennung und der Sprachanalyse/-synthese. Während bei der Sprachsynthese das Wissen über Spracherzeugung und -wahrnehmung sowie über die Ausdrucksform der sprachlichen Strukturen in der natürlichen Sprache letztendlich zur Erzeugung eines Sprachsignals genutzt wird, dienen diese grundsätzlichen Kenntnisse bei der Spracherkennung zur Isolierung der eigentlichen Textinformation.

Abb. 6 (Seite 16) zeigt den grundsätzlichen Aufbau eines Spracherkennungssystems. Nach der Digitalisierung der analogen Audiodaten werden die digitalen Daten über ähnliche Algorithmen wie bei der Analyse/Synthese (z.B. Lineare prediktive Analyse, Filtertechniken,...) parameterisiert ( 40 ). Die so erhaltenen Merkmale erleichtern in den nachfolgenden Schritten die Decodierung des Audiosignals. Im Zentrum der Spracherkennung steht der Vergleich der Merkmale des gesprochenen Textes mit den während einer Trainingsperiode ermittelten Referenzdaten.


16

Abb. 6: Spracherkennungssystem - Aufbau

Verschiedene Algorithmen (z.B. cepstrum distance measures, dynamic time warping (DTW), hidden Markov models (HMM)) werden zum Vergleich genutzt ( 40 ). Bei hochentwickelten Systemen werden noch Grammatik und Sprachmodelle in die Entscheidungsfindung einbezogen.

Die Spracherkennungssysteme werden nach ihren Fähigkeiten eingeteilt. Es gibt sprecherabhängige Systeme, bei denen Referenzdaten zum Vergleich herangezogen werden, die in einem Trainingsprozeß von jedem einzelnen Nutzer erstellt werden müssen. Diese Systeme sind in Ihrer Nutzeranzahl relativ begrenzt. Demgegenüber existieren sprecherunabhängige Spracherkennungssysteme, die eine unbegrenzte Nutzeranzahl ermöglichen. Einige Systeme erkennen eine große Anzahl von Wörtern oder Wortgruppen, andere nur einige Worte bzw. Zahlen. Oft ist nur die Einzelworterkennung möglich, das heißt hinter jedem gesprochenem Wort muß eine definierte Pause gemacht werden, damit einzelne Worte voneinander abgegrenzt werden können. Weitaus komplizierter ist die kontinuierliche Spracherkennung, wobei im Redefluß Pausen nicht zwingend notwendig sind. Ein System mit geringem Wortschatz, Einzelworterkennung und Benutzerabhängigkeit wäre relativ einfach entwickelbar, während ein System mit kontinuierlicher Spracherkennung und großem Vokabular (bei gleichzeitiger Nutzerunabhängigkeit) der natürlichen Sprechweise am ehesten gerecht wird.

Natürlich wird die Komplexität eines Systems der zu erfüllenden Aufgabe angepaßt werden müssen. Während zum Setzen einzelner Schalter ein einfach strukturiertes System genügt, ist für ein Freitextdiktiersystem ein weitaus größerer Aufwand notwendig.

Bei der weiteren Entwicklung von Spracherkennungssystemen wird insbesondere das Sprachmodell eine große Rolle spielen. Ähnlich wie bei der Sprachsynthese ist das Verständnis für die Darstellung der Sprachstrukturen und -bestandteile im akustischen Sprachsignal für die Verbesserung der Spracherkennung wichtig. Insbesondere die Algorithmen für


17

die Parameteranalyse und die Vergleichsoperationen würden davon profitieren. Die stetige Weiterentwicklung der Mikroprozessortechnik wiederum ermöglicht durch steigende Rechenleistung erst den Einsatz neu entwickelter komplizierter Algorithmen in einem angemessenem Zeitrahmen.

1.2.6. Stand der Entwicklung und Forschung in der digitalen Sprachverarbeitung

Als größte kommerzielle Anwendung wurde die digitale Spracherkennung im Operator- Service verschiedener Telefongesellschaften (zuerst in den USA und in Kanada) eingesetzt ( 35 ), anfangs, um die Antworten ”Yes“ und ”No“ zu unterscheiden. In der weiteren Entwicklung wurde das Vokabular erweitert. Durch die Automatisierung sparten die Telefongesellschaften jedes Jahr Hunderttausende Dollar ein ( 45 ).

Als Hilfe für Behinderte gibt es Geräte (Telefone, Betten, Rollstühle,...), die unter Nutzung einer digitalen Spracherkennung mit geringem Vokabular steuerbar sind ( 45 ). Hörhilfen, die mit einer Spracherkennung arbeiten, sind zur Zeit noch in der Experimentalphase ( 24 ).

Seit Anfang der 90-er Jahre gibt es verschiedene Applikationen zur Bedienung von Computern ( 35 ). Seit Mitte der 90-er Jahre werden von verschiedenen Herstellern digitale Spracherkennungssysteme mit unterschiedlichem Vokabelumfang angeboten ( 15 , 20 , 29 , 31 , 35 ).

Die Ergebnisse der Forschung auf dem Gebiet der Spracherkennung werden auch militärisch genutzt. Um beide Hände freizuhaben, wird die Spracherkennung hauptsächlich zur Steuerung von Geräten eingesetzt. Sie wird auch zur Datenerfassung genutzt ( 50 ).

Die nächste Weiterentwicklung auf dem Gebiet der digitalen Sprachverarbeitung wird in der Verbesserung und Erweiterung der bisherigen Anwendungen bestehen ( 35 ).

Von der digitalen Spracherkennung im Zusammenhang mit der Spracherzeugung und der Stimmcodierung werden weitreichende Entwicklungen erwartet ( 1 , 12 , 23 ). So wurde schon 1983 ein Experiment zu einem multilingualen Telefonsystem vorgestellt ( 11 ). Wilpon ( 51 ) formuliert die futuristisch anmutende Vision einer natürlichen, kontinuierlichen Kommunikation zwischen Menschen und Maschinen in irgendeiner Sprache, so daß der Zugriff auf Informationen oder Dienste bzw. der Informationsaustausch in nahezu jeder Sprache verfügbar sei. Schon auf der TELECOM’91 wurde der INTERTALKER präsentiert, ein automatisches Übersetzungssystem, daß ein integriertes sprecherunabhängiges Spracherkennungssystem für Englisch und Japanisch enthielt und den erkannten Text über einen Sprachsynthesizer in Englisch, Japanisch, Französisch und Spanisch wiedergeben konnte ( 19 ).


18

1.3. Einsatz der digitalen Spracherkennung in der Medizin

Vereinzelte Veröffentlichungen zeigen erste Versuche des Einsatzes der digitalen Spracherkennung im Bereich der Medizin. So berichtete Shilitoe ( 46 ) über einen DNA-Sequenzeditor, der außer der reinen Sequenzeingabe über die Tastatur auch die Möglichkeit bot, eingegebene Sequenzen anzuhören und Sequenzen über Spracheingabe zu editieren. Das System beschränkte sich auf einen sehr geringen Wortschatz (”adenine“, ”cytosine“, ”guanine“ und ”thymidine“) und erforderte eine nutzerspezifische Trainingsphase, in der diese Worte trainiert wurden. Während des Diktates der Sequenz bestätigte der Sequenzeditor (SE) jedes erkannte Wort mit dem zugehörigen Buchstaben (A, C, G, und T) und trug den Buchstaben in die Sequenz ein. So war die Kontrolle der Eingabe gewährleistet, gleichzeitig konnten Hände und Augen des Untersuchers der Sequenz auf dem Sequenz-Gel oder dem Papier folgen. Kolles ( 20 ) berichtete über den Einsatz des DragonDictateTM- 30K-Systems (DD) im Einsatz in der diagnostischen Pathologie. Bei diesem System handelte es sich um ein sprecherabhängiges Einzelworterkennungssystem. Bei der getesteten Version handelte es sich um ein DOS-Programm, das die gesprochenen Worte in Tastatureingaben umwandelt. Das Programm adaptierte sich während der Nutzung an die Sprachgewohnheiten des Einzelnen, so daß je nach vorhandenem Vokabular über einen längeren Zeitraum schlechte Erkennungsraten vorlagen und ein erhöhter Korrekturaufwand notwendig war. Als besondere Stärke in der täglichen Routine wurde die Möglichkeit der Nutzung von Textbausteinen hervorgehoben. Bei schwierigeren Diktaten mit selten genutztem Vokabular wurde die Nutzung des DD jedoch nicht empfohlen.

Schon 1988 berichtete Hansen ( 15 ) über erste Versuche des Einsatzes eines Spracherkennungssystems (VoiceRad) in der radiologischen Diagnostik. Er hob hervor, daß dieses System durch seine Sprecherabhängigkeit und den Aufwand der Kontrolle des erkannten Textes für den Routinebetrieb nicht einsetzbar wäre. Es stellte sich heraus, daß die Zeit, die zur Erstellung eines Befundtextes mittels des VoiceRad-Systems benötigt wurde, proportional zu der Komplexität und Abnormität der befundeten Bilder anstieg.

Der 1993 in der radiologischen Diagnostik getestete Prototyp des Spracherkennungssystems Tangora ( 31 ) stellte ebenfalls ein sprecherabhängiges Einzelworterkennungssystem dar. Als großer Vorteil wurde das sofortige Vorliegen des schriftlichen Befundes gewertet. Demgegenüber stand der erhöhte Arbeitsaufwand durch Einzelwortsprechweise mit verringerter Diktiergeschwindigkeit sowie die notwendigen Korrekturen. Die durchschnittliche Erkennungsrate bei 68 erfaßten Befunddiktaten betrug 93%. Trotz des erhöhten Arbeitsaufwandes im Vergleich zur herkömlichen Diktatpraxis wurde der Vorteil des schnellen Vorliegens des schriftlichen Befundes in den Vordergrund gestellt.


19

1994 berichtete Teplitz ( 49 ) über die Implementation des Spracherkennungssystems VoicePATH (Version 4.x) innerhalb eines Systems zur Erstellung intraoperativer pathologischer Befunde (Automatic Speech-Recognition Anatomic Pathology Reporting [ASAP] ). Das VoicePATH verfügte über einen Wortschatz von 5000 Worten. Nach Fertigstellung eines Befundes konnte dieser automatisch an den Überweiser gefaxt werden. Desweiteren beinhaltete das komplexe System einen Sprachsynthesizer, über den schriftliche Befunde in Sprache umgesetzt wurden. So konnten die Kliniker den Befund über normale Telephone bzw. über Mobiltelephone abhören.
[Titelseite] [Abkürzungsverzeichnis] [1] [2] [3] [4] [5] [6] [Bibliographie] [Selbständigkeitserklärung] [Danksagung] [Lebenslauf]

© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.

DiDi DTD Version 1.1
a subset from ETD-ML Version 1.1
Zertifizierter Dokumentenserver
der Humboldt-Universität zu Berlin
HTML - Version erstellt am:
Mon Jun 14 18:58:39 1999