Arndt, Holger: Einsetzbarkeit und Nutzen der digitalen Spracherkennung in der radiologischen Diagnostik

Kapitel 3. Material und Methoden

Abb. 7: Befundung mit digitaler Spracherkennung - Arbeitsablauf

3.1. Das Spracherkennungssystem SP 6000

Das getestete SP 6000 ist ein von Philips entwickeltes Spracherkennungssystem. Bei diesem System wird über eine Kopplung von Software und speziell entwickelter Hardware mittels kontextspezifischer kontinuierlicher Spracherkennung gesprochener Text in geschriebenen Text umgewandelt. Dabei ist es möglich, über spezielle Steuerworte während des Diktierens eine Trennung von Daten ( die bei der Übergabe an manche RIS- Systeme in spezielle Tabellenfelder eingetragen werden bzw. auch nur zur Identifizierung des Diktats während der Korrektur dienen) vom eigentlichen Befund sowie eine Formatierung des Textes zu erreichen.

Abb. 7 verdeutlicht den Arbeitsablauf bei der Erstellung eines Befundes. Das Diktat wird über


21

ein standardisiertes Philips-Diktatmikrofon aufgenommen, über eine philipseigene Digitalisierungskarte in ein digitales Sprachsignal umgewandelt und auf einer Festplatte abgespeichert (siehe 3.1.1 ; Seite 21). Das digital gespeicherte Sprachsignal kann nun der digitalen Spracherkennung zugeführt oder auch abgehört und manuell geschrieben werden. Im automatisierten Ablauf wird das gespeicherte Diktat mit Hilfe einer philipseigenen Acceleratorkarte in geschriebenen Text umgewandelt (siehe 3.1.2 ; Seite 22). Nach der Umwandlung des gesamten Diktates steht der geschriebene Text zur Korrektur bereit. Nach der Korrektur (siehe 3.1.3 ; Seite 22) wird das Diktat an das Radiologische Informationssystem übergeben und dort an die Befundschreibung übergeben (siehe 3.1.4 ; Seite 23).

3.1.1. Diktat

Abb. 8: Diktatmikrophon des SP 6000

Das Diktieren erfolgt über ein an die Digitalisierungskarte angepaßtes Mikrophon ( Abb. 8 ), das sich im Aussehen und in der Handhabung nicht von einem Standarddiktatmikrophon unterscheidet. Beim Starten des Diktiervorganges mittels der Record-Taste wird auf dem Bildschirm ein Fenster geöffnet, das die aktuelle Diktatlänge, die aktuelle Position im Diktat sowie den momentanen Status (z.B. Aufnahme, Pause, Wiedergabe, Einfügen) anzeigt. Desweiteren bietet sich in diesem Fenster die Möglichkeit, das Diktat zu beenden, zwischenzuspeichern (um später weiter zu diktieren) oder das Diktat abzubrechen. Es besteht keine Notwendigkeit, während des Diktierens Pausen zwischen den einzelnen Worten einzufügen, da das System für die kontinuierliche Spracherkennung entwickelt wurde. Bei Beendigung des Diktats öffnet sich ein neues Auswahlfenster. Hier kann eine Priorität des Diktats sowie eine genaue Bezeichnung des Diktats (wenn notwendig) vergeben werden. Nach Bestätigung der Einstel-


22

lungen bekommt der diktierte Befund den Status ”Frei Erkennung“ und steht somit dem eigentlichen Spracherkennungsmodul zur Verfügung.

Beim Befunden wurden generell die mitgeteilten klinischen Daten, der eigentliche Befund und das Untersuchungsergebnis diktiert, so daß auch klinische Begriffe außerhalb des direkt radiologischen Kontextes Verwendung fanden.

3.1.2. Spracherkennung

Sobald ein Diktat den Status ”Frei Erkennung“ erhalten hat, wird es vom Spracherkennungsserver (einem Teilmodul des Systems) nach Priorität in die Liste der zu erkennenden Diktate eingefügt und bearbeitet. Dabei wird das Diktat mittels der phonetischen Referenz des Diktierers in einzelne Worte zerlegt. Der phonetisch erkannte Begriff wird mit den vorhandenen Worten im Lexikon verglichen. Wenn einem Wort mit hoher Wahrscheinlichkeit ein Eintrag im Lexikon zugeordnet werden kann, wird anschließend der Bezug zu den vorher erkannten Worten geprüft. Ergibt sich bei dieser kontextspezifischen Überprüfung eine hohe Unwahrscheinlichkeit für das erkannte Wort, so erfolgt eine erneute Suche im Lexikon nach einem Wort mit ähnlicher Phonetik. Das Wort mit der höchsten phonetischen und kontextspezifischen Wahrscheinlichkeit wird als erkannt in den geschriebenen Text übernommen. So sind z.B. die Worte ”Haus“ und ”Maus“ phonetisch sehr ähnlich. Bei unsauberer Sprechweise kann das System nur aus dem Kontext ermitteln, welches Wort das richtige ist. Das bedeutet, der Begriff ”das Haus“ ist wahrscheinlicher als ”das Maus“, so daß auch bei phonetisch ähnlich klingenden Begriffen durch ihre Kontextspezifität eine gute Unterscheidbarkeit vorliegt.

Wenn der letzte Terminus des Diktats erkannt wurde, erhält das Diktat den Status ”Frei Korrektur“.

3.1.3. Korrektur

Da bei der Erkennung Fehler auftreten können, muß das Befunddiktat nach der kompletten Erkennung korrigiert werden. Zu diesem Zweck wird der Korrektureditor mit dem entsprechenden Diktat geöffnet. Eventuell vorhandene falsch erkannte Worte (einschließlich Zahlen und Steuerworte) müssen nun korrigiert werden. Der Editor ermöglicht das Abhören des diktierten Befundes mit gleichzeitiger Markierung des zugeordneten Textes, so daß eine direkte Kontrolle möglich ist. Korrigierte Worte werden mit einer anderen Textfarbe (grün) kenntlich gemacht.


23

Sachlich falsch diktierte Worte oder Befundteile dürfen nicht im Korrektureditor verändert werden. Würde man falsch diktierten, aber richtig erkannten Text an dieser Stelle verändern, so würde das System beim nächsten akustischen Training Sprachsignal mit dazu unpassendem Text verarbeiten, was eine deutliche Verschlechterung der phonetischen Referenz und damit der Erkennungsrate zur Folge hätte.

Nach Beendigung der Korrektur kann das Diktat direkt an das jeweilige Befundungssystem übergeben werden. Bei einer späteren (automatisierten) Verarbeitung des korrigierten Textes werden die korrigierten Worte vom Spracherkennungsserver mit den vorhandenen Einträgen im Lexikon verglichen. Ist ein Wort nicht im Lexikon vorhanden, so wird es in die Liste der neuen Worte aufgenommen.

3.1.4. Übergabe des Befundtextes

Nach Beendigung der Textkontrolle wird der Text im RTF-Format gespeichert und an das hausinterne Befundungssystem übergeben. Wir nutzten das Radiologische Informationssystem MEDORA. Die Befundschreibung wird bei diesem System über Word für Windows 6.0 realisiert. Zur Übernahme des Befundtextes aus der Spracherkennung ist es notwendig, die entsprechende Untersuchung des jeweiligen Patienten aufzurufen. Der Text wird an der aktuellen Cursorposition formatiert, d.h. mit Umsetzung der diktierten Steuerworte (z.B. Neue_Zeile, Fett_Anfang, Fett_Ende,...), eingetragen.

Erst jetzt, nach Übergabe des diktierten Befundes, ist eine inhaltliche Veränderung des erkannten Textes (Zusätze, Streichungen, etc.) zulässig.

3.1.5. Lexikon

Das Lexikon und auch das kontextspezifische Sprachmodell ist speziell an den radiologischen Kontext angepaßt. Das Wörterbuch enthält ca. 55000 Einträge. Durch die Nutzer können weitere Wörter bis zu einer Gesamtanzahl von 65000 Worten eingetragen werden. Nach Abschluß der Korrektur wird das korrigierte Diktat automatisch auf unbekannte, d.h. im Lexikon noch nicht vorhandene Worte, überprüft. Mittels des Moduls Vokabelmanager (VOM) können diese neuen Worte überprüft und gegebenenfalls in das Lexikon übernommen werden. Bei der Überprüfung der neuen Worte besteht auch die Möglichkeit der Sonderbehandlung. Sonderbehandlung bedeutet hier, daß Worte in ihrer Phonetik nicht mit denen der deutschen Sprache übereinstimmen (z.B. Anglismen) oder ein Wort bzw. eine Wortgruppe durch eine phonetisch nicht kongruente Zeichenfolge (z.B. gesprochen: “römisch_Eins“, geschrieben ”I“) korrekt in das Lexikon eingebracht werden können.


24

Werden nach Erreichen der maximalen Wortanzahl weitere Einträge gemacht, so werden die Worte mit der geringsten Nutzungshäufigkeit entfernt, um für die neuen Einträge Platz zu schaffen.

3.1.6. Initialtraining und Adaptation

Das SP 6000 ist ein benutzerspezifisches Spracherkennungsystem. Das heißt, für jeden Nutzer des Systems ist eine Anpassung des Systems notwendig. Die erste Anpassung, auch Initialtraining genannt, muß vor der ersten Nutzung der Spracherkennung erfolgen. Zu diesem Zweck existieren 25 vom Hersteller vorgegebene Befundtexte. Diese Texte enthalten einen Großteil der in der Radiologie üblichen Worte und Wortgruppen und müssen wörtlich mit Formatierung und Notation von dem neuen Nutzer dem System vorgelesen werden. Der Systembetreuer sollte während des Lesens der Diktate anwesend sein, um Lesefehler sofort korrigieren zu lassen. Nachdem alle Diktate gelesen und kontrolliert wurden, kann das Initialtraining gestartet werden. Dabei erstellt das System aus dem ihm bekannten Text der Diktate und aus dem vorliegendem Sprachsignal ein benutzerspezifisches Sprachreferenzfile. In diesem Referenzfile ist die persönliche Aussprache der einzelnen Phoneme der deutschen Sprache abgelegt. Zusätzlich wird ein persönliches Sprachmodell für den Kontext der Radiologie angelegt. Dieses persönliche Sprachmodell enthält Informationen über die Nutzung (Wahrscheinlichkeit) von Wortfolgen im Sprachgebrauch des einzelnen Nutzers.

Da die Aussprache von gelesenem Text nicht vollständig der Aussprache des freien Diktats entspricht, sind weitere Trainingszyklen notwendig. Diese Trainingszyklen, auch Adaptation genannt, können durchgeführt werden, sobald eine ausreichende Menge Sprachsignal (d.h. Befundungsdiktate) vorliegt. Eine Adaptation sollte erst durchgeführt werden, wenn mindestens ca. 2 h Sprachsignal vorhanden sind. Die Adaptation unterteilt sich in ein akustisches Training sowie eine Vokabelaktualisierung. Bei dem akustischem Training wird aus den vorhandenen Befunden (Sprachsignal und korrigierter Text) ein neues Sprachreferenzfile erstellt. Das akustische Training ist wiederholt notwendig, da sich die Phonetik des Einzelnen im Laufe der Zeit ändern kann (z.B. verändern Zahnextraktionen, -ersatz den akustischen Resonanzraum).

Die Vokabelaktualisierung (Vokabulary Update) beinhaltet eine Aktualisierung des Lexikons sowie des Sprachmodells, wodurch eine bessere Anpassung an den persönlichen Sprachgebrauch erfolgt.


25

3.1.7. Konfiguration des Systems

Abb. 9: Hardwarekonfiguration

Die Installation des SP 6000 wurde in das im Hause vorliegende Netzwerk eingefügt. Die Hardwarekonfiguration ( Abb. 9 ) besteht aus

die über eine Netzwerkverbindung mittels Novel Netware verbunden sind.

Der Fileserver dient zur zentralen Speicherung aller Daten des Spracherkennungssystems, wie Programmdaten, Diktate (digitales Sprachsignal sowie erkannte und korrigierte Texte), benutzerspezifische Daten (Sprachreferenzfile, Sprachmodell) und des Lexikons. Der Spracherkennungsserver ist mit einer speziellen Spracherkennungshardware (Accelaratorkarte) ausgestattet. Mit Hilfe dieser Karte werden die fertigen, auf dem Fileserver gespeicherten Diktate verarbeitet und die erkannten Texte auf dem Fileserver abgespeichert. Die Diktatplätze sind mit einer speziellen Digitalisierungskarte ausgerüstet, die außer der Digitalisierung des Sprachsignals auch die Wiedergabe des diktierten Befundes sowie die Verarbeitung der Steuersignale des Mikrofons und des Fußschalters ermöglicht. Während sich die Diktat-/Korrektur-PC’s direkt im Arbeitskern befinden, stehen der Fileserver und der Spracherkennungsserver in einem zentralen Computerraum. Als Betriebssystem wird auf den Diktat-PC’s und auf dem Spracherkennungsserver MS-DOS 6.22 und Windows for Workgroups 3.11 genutzt. Auf dem zentralen Fileserver läuft Novel Netware 3.12 (Lizenz für 5 Benutzer).

3.2. Testpersonen

Arzt 1

Arzt 2


26

Arzt 3

3.3. Erfaßte Werte

Zur Beurteilung der Funktionalität des Spracherkennungssystems wurde die Fehlerrate nach dem Erkennungsvorgang bei jedem Diktat ermittelt. Außerdem wurden das Datum des Diktats, die Diktatlänge sowie der Zeitaufwand der Kontrolle/Korrektur in Sekunden erfaßt. Zusätzlich wurde die Art der dem Befundungsdiktat zugrundeliegenden Untersuchung notiert. Die Diktat-PC’s standen zum Zeitpunkt der Testung im Arbeitskern. Der Arbeitskern war ein zentraler Befundungsraum, in dem sich zum Zeitpunkt der Datenerfassung 6 Befundungsplätze, 5 RIS-Arbeitsplätze, 3 Entwicklungsautomaten und ein Belichtungsautomat befanden. Zwei der Befundungsplätze konnten von 2 Befundern gleichzeitig genutzt werden. In direktem Anschluß war der Arbeitskern von 6 verschiedenen Untersuchungsräumen sowie einer Dunkelkammer umgeben, so daß während der Befundung gleichzeitig der direkte Kontakt zur Untersuchung bestand.

Das heißt, die Werte wurden nicht unter schallisolierten Laborbedingungen ermittelt, sondern im Routinebetrieb unter Einwirkung alltäglicher Störgeräusche (Telefonklingeln, Arbeitsgeräusche der umstehenden Entwicklungs- und Belichtungsautomaten, Türenschlagen, Gespräche,...).

Als Vergleichsmöglichkeit wurden durch zwei der Testpersonen (Arzt 1 und Arzt 3) zusätzlich Daten von konventionell geschriebenen Befunden erhoben. Dabei wurde die Zeitdauer des Schreibens, die Art der Untersuchung und die eventuelle Nutzung von Textbausteinen erfaßt.

3.4. Datenmenge

Tabelle 1 : Verteilung der erfaßten Befundungsdiktate

Gesamt

Thorax

Skelett

Thorax + Skelett

Magen/ Darm

Urologie

Urologie + Zweitunters.

HNO

2305

1921

53

8

3

104

2

1

(100 %)

(83 %)

(2 %)

(> 0.5 %)

(> 0.5 %)

(5 %)

(> 0.5 %)

(> 0.5 %)

Ultraschall

CT Thorax

CT Abdomen

CT Thorax + Abdomen

CT Neuro

CT Angio/ Hals/ Kopf

MRT Hals

MRT Neuro

8

5

11

9

164

4

2

10

(> 0.5 %)

(> 0.5 %)

(> 0.5 %)

(> 0.5 %)

(7 %)

(> 0.5 %)

(> 0.5 %)

(> 0.5 %)

Tabelle 1 zeigt die Aufschlüsselung der erfaßten Diktate auf die zugrundeliegenden Untersuchungen. Es wurden Daten zu 2305 Diktaten erfaßt. Die große Anzahl berücksichtigter Thoraxuntersuchungen (83 %) ist durch die willkürliche Auswahl dieses Arbeitsplatzes zur Testung des Spracherkennungssystems zu erklären. Durch die hohen Untersuchungszahlen am Thoraxarbeitsplatz war ein zur Systemtestung und Datenerfassung ausreichend großes


28

Diktataufkommen pro Tag und Arzt gesichert. Die Datenerfassung zu Befunden anderer Untersuchungen wurden durch den hausinternen Routine- und Rotationsbetrieb ermöglicht. So konnten z.B. durch Arzt 1 im Bereitschaftsdienst gelegentlich Daten zur CT- und Sonographiebefundung erhoben werden.

Diagramm 1: Verteilung der erfaßten Befundungsdiktate

Diagramm 1 stellt die Aufteilung der Untersuchungen auf die einzelnen Testpersonen dar. Individuell wurden unterschiedliche Befunde erstellt. Bei Arzt 1 und Arzt 3 fällt eine Häufung der Thoraxbefundung auf (83 % bzw 98 % aller diktierten Untersuchungen), bei Arzt 2 tritt die Neuro - CT (90 %) in den Vordergrund. Während Arzt 1 und 3 seit Beginn der geplanten Testphase an der Datenerfassung beteiligt waren, arbeitete Arzt 2, der erst später an der Testung des Spracherkennungssystems teilnahm, an einem anderen Arbeitsplatz, so daß interindividuelle Unterschiede des Untersuchungsspektrums durch den internen Arbeitsablauf zu erklären sind. Durch die Nutzung der digitalen Spracherkennung im Bereitschaftsdienst und nach ausbildungsstandabhängigem Untersuchungsplatzwechsel wurden in geringer Anzahl Daten für verschiedene Untersuchungstechniken erfaßt.

Um eine Vergleichsmöglichkeit zur vorwiegend im Hause genutzten Befundungsart zu haben (der befundende Arzt schreibt unter Nutzung von Word für Windows den Befund selbst), wurden Daten von insgesamt 625 geschriebenen Befunden erfaßt (Arzt 1 und Arzt 3). Die Verteilung der erfaßten geschriebenen Befunde ( Tabelle 2 , Seite 29) wurde durch den hausinternen Arbeitsablauf und durch den individuellen Ausbildungsstand bestimmt. Während


29

von Arzt 3 Daten zu 142 (54 %) der schriftlichen Thoraxbefundungen erfaßt wurden, konnte Arzt 1 die Befundungsdaten eines weitaus größeren Untersuchungsspektrum liefern.

Tabelle 2 : Verteilung der erfaßten geschriebenen Befunde

Gesamt

Thorax

Thorax + Zweitunters.

Skelett

Trauma

Abdomen Magen/ Darm

HNO

CT

625

263

3

9

181

5

5

2

(100 %)

(42 %)

(<1 %)

(1 %)

(29 %)

(<1 %)

(<1 %)

(<1 %)

US Thorax

US Abdomen

US Abdomen + Zweitunters.

US NTX (+Zweitunters.)

US Niere

US FKDS Bein/ Hals

US Hals

US Weichteile/ Mamma

5

106

23

2

5

8

5

3

(<1 %)

(17 %)

(4 %)

(<1 %)

(<1 %)

(1 %)

(<1 %)

(<1 %)

3.5. Statistische Auswertung

Die statistische Auswertung erfolgte unter Nutzung des Programme SPSS für Windows 6.0.1 und Excel 7.0.

3.5.1. Mittelwert

Als Mittelwert wurde das arithmetische Mittel der jeweiligen Werte bestimmt.

3.5.2. Standardabweichung

Die Standardabweichung wurde nach folgender Formel errechnet:


30

3.5.3. Ungepaarter Wilcoxon-Test (Mann-Whitney U-Test)

Da die Verteilung der Fehlerraten eindeutig nichtnormal war, wurde zur Beurteilung der statistischen Signifikanz einer beobachteten Veränderung der individuellen sowie interindividuellen Diktatfehlerrate nach jeder Adaptation der ungepaarte Wilcoxon- Rangsummen-Test gewählt. Bei dieser nichtparametrischen Prozedur werden zwei nichtverbundene Stichproben zum Test der Nullhypothese, daß die Rangsummen einer Variablen gleich sind, untersucht. Es sind keine Annahmen über die Form der Verteilung notwendig. Die absoluten Werte der Differenzen werden berechnet und vom kleinsten zum größten in eine Rangordnung gebracht. Die Teststatistik basiert auf den Rangsummen für die negativen und positiven Differenzen.

Zur Signifikanzentscheidung erhält man den Wert p, der das beobachtete Signifikanzniveau (observed significance level) ausdrückt.

Dieser gibt die Wahrscheinlichkeit an, daß die beobachtete Differenz der Mittelwerte zweier Stichproben nur zufällig zustande gekommen ist (statistischer Fehler 1. Art). Es wird üblicherweise festgelegt, daß der höchste akzeptable Wert für diese Wahrscheinlichkeit alpha = 5 % ist, so daß bei einem Ergebnis von p< 0,05 die Nullhypothese abgelehnt werden kann, da mit 95 % iger Wahrscheinlichkeit ein signifikanter Unterschied zwischen den Stichproben besteht.


[Titelseite] [Abkürzungsverzeichnis] [1] [2] [3] [4] [5] [6] [Bibliographie] [Selbständigkeitserklärung] [Danksagung] [Lebenslauf]

© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.

DiDi DTD Version 1.1
a subset from ETD-ML Version 1.1
Zertifizierter Dokumentenserver
der Humboldt-Universität zu Berlin
HTML - Version erstellt am:
Mon Jun 14 18:58:39 1999