Arndt, Holger: Einsetzbarkeit und Nutzen der digitalen Spracherkennung in der radiologischen Diagnostik

50

Kapitel 5. Diskussion

5.1. Methodik

5.1.1. Testpersonen

Die Testpersonen wurden willkürlich gewählt. Da das SP 6000 zu Beginn unserer Testung noch kein kommerzielles Produkt darstellte und wir mit einer Testversion arbeiteten, wurden die Ärzte 1 und 3 wegen ihrer Computerkenntnisse ausgewählt, um bei eventuellen Schwierigkeiten (Programmabstürzen, Fehlermeldungen,...) reagieren und trotzdem im Routinebetrieb mitarbeiten zu können. Arzt 2 wurde aus Eigeninteresse später einbezogen. Bei der Bewertung der individuell unterschiedlichen Datenmengen und Ergebnisse muß der jeweilige Ausbildungsstand, die Diktiererfahrung und die Tastaturfertigkeit des Einzelnen berücksichtigt werden.

Die Testpersonen ergeben somit keinen repräsentativen Querschnitt aller Ärzte aus dem Bereich der radiologischen Diagnostik.

5.1.2. Meßwerte

Bei der Interpretation der Ergebnisse sind folgende Randbedingungen zu berücksichtigen:

5.2. Entwicklung der Fehlerrate

Die durchschnittliche Fehlerrate zeigte schon nach dem Initialtraining Werte ( Tabelle 4 , Seite 32) zwischen 8,4 - 13,3 % (synonym Erkennungsrate 86,7 - 91,6 %), das bedeutet ein falsch erkanntes Wort auf etwa 10 Worte bzw. einen Satz. Schon innerhalb der ersten Tage nach dem Initialtraining verbesserte sich die Erkennungsrate gering ( Diagramm 2 , Seite 33). Da in diesem Zeitraum keine Veränderungen am Spracherkennungssystem vorgenommen wurden, kann es sich in diesem Fall nur um eine ”Adaptation“ der Benutzer an das Spracherkennungssystem handeln. Diese ”Adaptation“ bedeutet einen sichereren Umgang mit dem System (Mikrophon, Korrektureditor), ein Erlernen des Diktierens mit Interpunktion, Formatierung und Steuerworten, Vermeidung des ”Verschluckens“ von Endungen, etc.

Das System zwang den einzelnen Nutzer zu einer zum Teil veränderten Sprechweise. Dabei mußte keine Rücksicht auf den Wortfluß an sich genommen werden, da das SP 6000 als kontinuierliche Spracherkennung keine Pausen zwischen den Worten benötigt, eher dadurch gestört wird. Die veränderte Sprechweise bezieht sich vielmehr auf die korrekte Aussprache. Das Lexikon enthält außer den Worten an sich auch die entsprechenden Phoneme, aus denen das Wort aufgebaut ist. Bei der Texterkennung werden die Phoneme des Diktats mit den im Lexikon vorhandenen Phonemen verglichen. Bei einer unsauberen Aussprache erhält das System keine korrekten Phoneme zur Beurteilung und kann folglich nicht das korrekte Wort erkennen. Die Folge ist ein ständiges Korrigieren dieses einen Wortes. Die einzige Möglichkeit sich diese lästige Tätigkeit zu vereinfachen, ist die korrekte Ausprache.

Die erhebliche Verbesserung der durchschnittlichen Erkennungsrate ( Tabelle 5 , Seite 35) nach der ersten Adaptation auf Werte von 2,4 %, 10,7 % und 2,8 % (bei Arzt 1, Arzt 2 und Arzt 3) beweist, daß die Phonetik des freien Diktierens sich erheblich von der des Vorlesens unterscheidet. Die geringe Veränderung der durchschnittlichen Fehlerrate nach der 2. und 3. Adaptation ( Tabelle 6 , Seite 37 und Tabelle 7 , Seite 38) auf Werte zwischen 2,1 % - 3,3 % weist auf die geringe Variabilität der Phonetik des Diktierens hin. Diese Veränderungen sind


52

eher auf die Erweiterung des Lexikons und auf Anpassungen im persönlichen Sprachmodell zurückzuführen.

Der geringe Anstieg der Fehlerrate nach der 3. Adaptation hängt in hohem Maße mit dem Wechsel des Befundarbeitsplatzes zusammen. Durch das Auftreten neuer, dem Lexikon unbekannter Vokabeln vermehrte sich das Auftreten falsch erkannter Worte, die erst nach der nächsten Vokabelaktualisierung erkannt werden können.

Betrachtet man isoliert die Entwicklung der Fehlerrate bei Thoraxbefunden, so bestätigt das Fehlen signifikanter Unterschiede (siehe 4.4.4 , Seite 38) nach der dritten Adaptation diese Vermutung. Da sich das Vokabular und die Sprechweise in diesem Arbeitsbereich nicht änderten, kam es auch zu keinem signifikanten Unterschied der Erkennungsrate gegenüber der Erkennungsrate vor der 3. Adaptation.

Bei der Betrachtung der Fehlerrate unter dem Gesichtspunkt des einzelnen Befunders kommen wir zu dem Ergebnis, daß schon nach der ersten Adaptation eine interindividuelle Gleichverteilung der Fehlerrate zustande kommt ( Tabelle 8 , Seite 40). Nach der 2. Adaptation traten wieder signifikante Unterschiede der individuellen Fehlerraten auf. Diese Unterschiede zeigten jedoch in der praktischen Befundungstätigkeit keine Relevanz.

Geht man von einer durchschnittlichen Satzlänge von 10 Worten aus, so mußte bei einer Fehlerrate (bei der Thoraxbefundung) von durchschnittlich 1,7 - 2,2 % in jedem 5. bis 6. Satz jeweils ein Wort korrigiert werden. Die Wahrscheinlichkeit von p= 0,57 nach der 3. Adaptation beweist wieder die Gleichverteilung der interindividuellen Fehlerrate. Die Verlaufsbeobachtung der interindividuellen Gleichverteilungüberprüfung läßt die Vermutung zu, daß sich bei Beachtung der Grundprinzipien der Nutzung des Spracherkennungssystems SP 6000 (siehe 3.1.1 - 3.1.6 , Seite 21 - 24) schon nach wenigen Trainings- bzw. Adaptationsdurchläufen eine vom individuellen Befunder relativ unabhängige Erkennungsrate einstellt.

Vergleicht man die Entwicklung der Fehlerraten in Abhängigkeit von den zugrunde liegenden Untersuchungen ( Tabelle 9 - Tabelle 11 , Seite 41), so wird deutlich, daß sich die Erkennungsrate der Thoraxbefundungen höhergradig verbesserte als die der Untersuchungen mit geringerer Diktatanzahl. Die Erklärung für die bessere Erkennungsrate ist zum einen in der großen Anzahl der Diktate zu suchen, da hier in kurzer Zeit das individuell genutzte Spektrum der verwendeten Worte durch die Adaptationen (mit Vokabelaktualisierung) fast komplett im Lexikon vorlag. Einen weiteren Anhaltspunkt bietet die konventionelle Thoraxbefundung an sich, da in den meisten Fällen ein begrenztes Sprachspektrum zur Befundung ausreicht. Ein weiteres Kriterium der Befundung in der Thoraxdiagnostik ist der relativ hohe Prozentsatz an unauffälligen Befunden, da viele Thoraxaufnahmen z.B. zur Verlaufskon-


53

trolle, OP-Vorbereitung oder Vorsorge bei TBC-Kontakt gemacht werden, so daß relativ häufig ein bis auf die anamnestischen Angaben nahezu wortgleicher Befund erstellt wird.

Vergleicht man die hochgradige Verbesserung der Thoraxerkennungsrate nach der 1. Adaptation mit der nur geringen Verbesserung bei der Befundung von neurologischen CT-Untersuchungen ( Tabelle 4 , Seite 32), so bestätigt die geringe Verbesserung obige Ausführungen. Schon durch ausführlichere klinische Angaben zu jeder CT-Untersuchung wird das Spracherkennungssystem ständig mit Vokabeln aus dem nichtradiologischen Kontext konfrontiert, die bis zur nächsten Vokabelaktualisierung ständig korrigiert werden müssen. Durch die umfassende Befundung der komplexen Untersuchung wird ein weitaus größeres Spektrum an individuell unterschiedlichen Vokabeln genutzt, so daß das System relativ viele neue Vokabeln integrieren , gleichzeitig aber auch ein individuell komplexeres Sprachmodell erzeugt werden muß. Die Erzeugung eines komplexeren Sprachmodells setzt jedoch eine ausreichend große Datenmenge voraus. Leider konnte die (aufwendige) Datenerfassung bei der spracherkennungsgestützten Befundung von neurologischen CT-Untersuchungen nicht fortgesetzt werden, so daß hier der weitere Verlauf der Erkennungsrate nicht beurteilt werden kann.

Die akustische Adaptation sollte laut Herstellerangaben mit mindestens 2 h Sprachsignal erfolgen. Bei dem Versuch, die Erkennungsrate mit unterschiedlicher Diktatmenge für die akustische Adaptation ( Tabelle 15 , Seite 43) zu beeinflussen, konnte keine signifikante Verbesserung beobachtet werden.

5.3. Kontrolle und Korrektur

Ähnlich dem konventionellen Diktiervorgang, bei dem der Arzt den geschriebenen Befund auf der Sekretärin unbekannte Worte ”und Schreibfehler“ kontrolliert, ist auch bei der Spracherkennung die Kontrolle des Inhalts und der unbekannten Worte des erkannten Textes unbedingt notwendig. Ein Vorteil der digitalen Spracherkennung ist, daß Rechtschreib- (oder Tipp-) fehler nicht vorkommen. Die erkannten Worte werden so geschrieben, wie sie in dem Lexikon eingetragen wurden. Es könnten nur fehlerhaft eingetragene Termini einen Rechtschreibfehler verursachen. Während unseres Testes trat dieser Fehler nicht auf. Das Augenmerk bei der Kontrolle ist daher auf falsch erkannte Worte zu legen. Es gibt verschiedene Kriterien, durch die ein Wort falsch erkannt wird:

Die ersten beiden Fehlerursachen sind durch konsequente Aussprachedisziplin korrigierbar.

Die letzten beiden Fehlerquellen können erst durch die nächste Vokabelaktualisierung beseitigt werden. Durch jede Korrektur erhält das verwendete bekannte Wort eine Erhöhung seiner Nutzungswahrscheinlichkeit. Jedes neue Wort wird mittels des Vokabelmanagers kontrolliert und eventuell als neuer Lexikoneintrag definiert. Da das SP 6000 kein kontinuierlich lernendes System ist, wird es passieren, daß in der Anfangsphase oder bei der Arbeit an einem neuen Befundarbeitsplatz bestimmte Fehler immer wieder auftauchen und korrigiert werden müssen. Das ständige Korrigieren hat aber zur Folge, daß die Wahrscheinlichkeit der Nutzung der korrigierten Worte steigt. Die veränderte Wahrscheinlichkeit wird bei der Vokabelaktualisierung im Sprachmodell des Nutzers eingetragen, so daß nach der Adaptation dieser Fehler nicht mehr auftauchen sollte.

Die dritte Fehlerursache stellt bei ungenauer Kontrolle eine große Gefahr für die korrekte Befundung dar. Es gibt verschiedene Worte, die sich phonetisch sehr ähnlich sind, aber eine unterschiedliche Aussage treffen. So klingen Worte wie ”ein“ und ”kein“ sehr ähnlich, ergeben aber eine gegensätzliche Aussage (”eine“ oder ”keine Metastase“). Außerdem gibt es in der Medizin viele Abkürzungen, die als Wort gesprochen werden. So fielen uns in der Skelettdiagnostik die ”PIP-“ und ”DIP-“Gelenke (proximales bzw. distales Interphalangealgelenk) auf. Diese (Kunst-) Worte werden in etwa gleich häufig benutzt und klingen sehr ähnlich. Auch bei korrekter Aussprache ist es für das Spracherkennungssystem sehr schwierig den jeweils richtigen Terminus zu erkennen.

Der Vergleich der notwendigen Korrekturzeit mit der dazugehörigen Fehlerrate ( Diagramm 12 , Seite 43) ergab erwartungsgemäß eine direkte Abhängigkeit. Interessanterweise stellte sich ein relativ großer Unterschied der Korrekturzeiten bei gleichen Fehlerraten der Testpersonen heraus. Dabei korreliert die notwendige Korrekturzeit in etwa mit der Einschätzung der Computer- und Tastaturfertigkeiten. Die Unregelmäßigkeit des Kurvenverlaufs bei Fehlerraten von 17 % und mehr ist durch die wenigen schlecht erkannten Diktate zu erklären, da hier der mittlere Q(K/D) aus ein bis 2 Diktaten ermittelt wurde, und somit keine repräsentativen Aussagen erhalten werden konnten.


55

Bei der Netzwerkvariante des SP 6000 besteht die Möglichkeit, die erkannten Diktate an jedem Diktat-PC zu korrigieren. Der Befunder hat auch die Option, seine erkannten Diktate an einen bestimmten Nutzer zur Korrektur freizugeben. So könnte eine zentrale Korrektur- (Schreib-)kraft die Korrektur der erkannten Texte vornehmen.

Nach unseren Erfahrungen mit dem Spracherkennungssystem SP 6000 ist es jedoch anzuraten, daß wenigstens in der Anfangszeit jeder Nutzer die Korrekturen selber vornimmt, damit er die Möglichkeit hat, die eigene Sprache (Aussprache, Interpunktion, Steuerwortnutzung) zu kontrollieren und zu verbessern.

5.4. Befundungszeit

Der hier betrachtete Zeitraum schließt nur die unmittelbare Erstellung des schriftlichen Befundes ein. Die eigentliche Beurteilung der Untersuchung, deren Dauer in erster Linie vom Ausbildungsstand und der Erfahrung des Befunders abhängt, wurde dabei nicht berücksichtigt, wobei der Ausbildungsstand und die Erfahrung sich natürlich auch auf die Erstellung des Befundes auswirken. Nach dem Erkennen eines Befundes muß dieser noch formuliert werden. Auch dieses Formulieren muß erlernt werden und kann eine verlängernde Wirkung auf die schriftliche Befundung haben. Die von uns untersuchte Befundungsdauer schließt bei der digitalen Spracherkennung Diktat- und Korrekturzeit ein (Kapitel 4.6.1 , Seite 44). Nicht in die Datenerfassung eingeflossen ist die Zeitdauer der eigentlichen Spracherkennung. Das SP 6000 benötigte zur Umwandlung des Sprachsignals in geschriebenen Text je nach Adaptationsgrad des Befunders ca. 1- 2 Minuten pro Diktatminute. Um nach Fertigstellung eines Diktates nicht auf die Beendigung der Spracherkennung dieses Diktates warten zu müssen, diktierten wir in der Regel 3- 5 Untersuchungen, um dann mit der Korrektur zu beginnen. Während des zweiten Diktates konnte die Erkennung des vorhergehenden im Hintergrund ablaufen. Wenn mit der Korrektur des ersten Diktates begonnen wurde, konnte im Hintergrund die Erkennung der letzten Diktate fertiggestellt werden. Auf diese Art und Weise konnten Leerlaufzeiten vermieden werden und wurden daher auch nicht erfaßt.

Außer der oben erwähnten interindividuellen Unterschiede der Korrekturzeit fällt die untersuchungsartbezogene unterschiedlich lange Befundungszeit ( Diagramm 13 , Seite 45 ) auf. Der relativ hohe Werte der Standardabweichung, der bei allen Untersuchungen zu finden ist ( Tabelle 16 , Seite 46), beweist eine große Variabilität der Befundzeit innerhalb der einzelnen Untersuchungstechniken. Die Variabilität der notwendigen Befundungszeit im Rahmen einer Untersuchungsart kommt durch die große Bandbreite der Untersuchungsergebnisse zwischen normal bis hoch pathologisch und auch durch unterschiedlich komplexe Teilunter-


56

suchungen zustande (z.B. bei der konventionellen Skelettdiagnostik: Verlaufsbeurteilung einer Endoprothese - Untersuchung beider Hände und Füße in der Rheumadiagnostik).

Der auffällige Zeitunterschied zwischen den einzelnen Untersuchungsarten kommt am deutlichsten bei dem Vergleich der Schnittbildverfahren mit der konventionellen Röntgendiagnostik zum Ausdruck. Durch die Notwendigkeit der genauen Erfassung der Untersuchungsdurchführung, der detaillierten Befundbeschreibung und der letztendlichen Beurteilung ergeben sich komplexere Befunde der Schnittbildverfahren im Vergleich zur konventionellen Thoraxdiagnostik.

Um einen Vergleich der digitalen Spracherkennung mit der in unserem Institut in großem Umfang genutzten Art und Weise der Befunderstellung durchführen zu können, wurden Daten vom Schreiben der Befunde erhoben. Auch hier stellten sich große Unterschiede der Befundungszeit zwischen den einzelnen Untersuchungen heraus ( Tabelle 17 , Seite 47). Die ebenfalls beim Schreiben ermittelten hohen Standardabweichungen der Befundungszeit belegen eine große Bandbreite der Befundlängen innerhalb einer Untersuchungstechnik. Erwartungsgemäß kommt es bei dem Vergleich der individuell notwendigen Zeit bei der schriftlichen Befundung zu erheblichen Unterschieden.

Die Möglichkeit des durch Textbausteine unterstützten Schreibens wird auch in der Befundung eingesetzt. Die Daten der Befunde, die auf diese Art und Weise erstellt wurden, wurden gesondert gekennzeichnet. Im Vergleich mit dem Schreiben des kompletten Befundes kommt es zu einer zum Teil erheblichen Verkürzung der Schreibdauer. Die Verkürzung der Schreibdauer hängt von der individuellen Nutzung der Textbausteine ab. Werden nur komplette Befunde (z.B. ein unauffälliger Thorax) als Textbaustein genutzt, ergeben sich im Einzelfall sehr kurze Schreibzeiten. Wendet man jedoch Textbausteine für Worte und Wortgruppen an, verkürzt sich die Schreibzeit im Einzelfall weniger, dafür können diese Textbausteine aber auch bei Nichtstandard-Befunden, und damit häufiger eingesetzt werden.

In der uns vorliegenden Testversion des SP 6000 war die Nutzung von Textbausteinen nicht gegeben. In der Endversion soll eine Möglichkeit zum Einsatz von Textbausteinen implementiert werden. Allerdings ist hier die Editiermöglichkeit des Textes eines Textbausteines nicht während des Diktates gegeben. Erst nach Übergabe des korrigierten Textes an das Befundungssystem können eventuelle Anpassungen des Textbausteins an den jeweiligen Befund vorgenommen werden.

Im Vergleich der Befundungszeiten Diktieren/Schreiben ( Diagramm 16 und Diagramm 17 , Seite 48) fällt bei Arzt 1 ein Zeitvorteil des Schreibens auf. Bei Arzt 3 jedoch tritt ein deutlicher Zeitvorteil des Diktierens und Korrigierens gegenüber der normalen schriftlichen Befundung auf. Bei der Beurteilung eines Zeitvorteils in dieser oder jener Richtung müssen in


57

jedem Fall die persönlichen Fähigkeiten einbezogen werden. So schreibt Arzt 1 mit einer sehr hohen Schreibgeschwindigkeit, während Arzt 3 mit einer sehr guten, aber nicht professionellen Tastaturfertigkeit arbeitet. Bei ungeübten Tastaturnutzern dürfte der Zeitvorteil eindeutig auf Seiten der Spracherkennung liegen.

Bei der Interpretation der Ergebnisse des Vergleichs zwischen geschriebenen und diktierten Befunden muß auch berücksichtigt werden, daß sich nach unseren Erfahrungen die diktierten von den geschriebenen Befunden auch in ihrem Umfang unterscheiden. Die diktierten Befundungen enthalten z. B. die auf der Untersuchungsanforderung mitgeteilten klinischen und anamnestischen Daten. Geschriebene Befunde enthalten oft wenig oder keine zusätzlichen Informationen und sind auch in der Befundbeschreibung oft knapp gehalten. Sicher würde sich die Schreibzeit für einen geschriebenen Befund mit dem selben Informationsgehalt wie ein diktierter Befund noch verlängern.


[Titelseite] [Abkürzungsverzeichnis] [1] [2] [3] [4] [5] [6] [Bibliographie] [Selbständigkeitserklärung] [Danksagung] [Lebenslauf]

© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.

DiDi DTD Version 1.1
a subset from ETD-ML Version 1.1
Zertifizierter Dokumentenserver
der Humboldt-Universität zu Berlin
HTML - Version erstellt am:
Mon Jun 14 18:58:39 1999