[Seite 20↓]

2.  Methodik

2.1 Studiendesign

Um die diagnostische Leistung des konventionellen Röntgenbildes der Lunge und der klinischen Information für die Diagnose der invasiven pulmonalen Aspergillose bei HIV-infizierten Patienten zu ermitteln, wurde eine Studie im ROC-Design durchgeführt. Hierzu wurden die Fälle von 50 Patienten mit HIV-Infektion zu einer html-basierenden Präsentations-CD-ROM zusammengestellt. Diese CD-ROM bestand aus zwei Teilen mit jeweils den selben 50 Patienten.

Die für die Fälle der CD-ROM verwendeten Patienten befanden sich entsprechend der CD-Klassifikation im Stadium AIDS und zeigten die klinischen Symptome einer Pneumonie. Die eine Hälfte der Patienten (n=25) litt an einer IPA, die andere Hälfte (n=25) unter einer konkurrierenden, AIDS-charakterisierenden Lungenerkrankung.

Die Fälle der CD-ROM waren dazu bestimmt, von Radiologen und Internisten gelesen und bearbeitet zu werden. Dabei umfasste die CD-ROM für die Radiologen im ersten Teil lediglich die Röntgenthoraces der Patienten und im zweiten Teil die Röntgenbilder mit ihrer dazugehörigen klinischen Information. Die CD-ROM für die Internisten bestand im ersten Abschnitt aus der klinischen Information über die 50 Patienten und im zweiten Teil aus den gleichen klinischen Angaben mit den entsprechenden Röntgenthoraces. Die klinischen Texte zu den Patienten waren für Radiologen und Internisten identisch.

Das bedeutet, die Radiologen, die an der Studie teilnahmen, trafen im ersten Teil der Studie ihre diagnostischen Entscheidungen zu den Patienten auf der Basis lediglich der Röntgenthoraces und im zweiten Teil mit Hilfe zusätzlicher klinischer Informationen. Die die CD-ROM bearbeitenden Kliniker stellten ihre Diagnosen im ersten Teil der Studie unter Beschränkung auf die klinischen Angaben und im zweiten Teil unter zusätzlicher Verwendung der konventionellen Röntgenthoraces.

Für die Bearbeitung der CD-ROM sollte für jeden Patienten die Frage nach der Sicherheit für das Vorliegen einer IPA beantwortet werden und diese Sicherheit mit Hilfe einer fünf-stufigen Konfidenzskala kodiert werden. Diese Skala reichte von „(fast) sicher IPA“ (5) bis „(fast) sicher keine IPA“ (1). Außerdem sollten die radiologischen Pathomorphologien, die relevant für die radiologische Diagnose waren, inklusive ihres prozentualen Anteils an der Entscheidung genannt werden. Zur Vorlage wurde eine Liste von radiologischen Deskriptoren [Seite 21↓]verfasst, welche die Begriffe für die radiologischen Pathologien vereinheitlichen und definieren sollte.

Zur Dokumentation der diagnostischen Entscheidungen lagen den Studienteilnehmern Evaluationsbögen vor, in welche die Diagnosen eingetragen wurden. Diese Lösungen bildeten die Grundlage der ROC-Analyse.

Die Reihenfolge der Patienten der CD-ROM wurde mittels einer Zufallstabelle für die verschiedenen Studienteile randomisiert. Um Lerneffekte beim Bearbeiten des zweiten Studienteils zu umgehen, wurde eine etwa dreiwöchige Pause zwischen der Bearbeitung des ersten und zweiten Teils empfohlen.

Die Betrachtungszeit der Bilder wurde nicht limitiert. Zum Erzielen möglichst gleicher Auswertebedingungen für alle Beobachter wurden bestimmte Bildschirmeinstellungen vorgegeben. Bedingungen wie die Raumhelligkeit oder die Tageszeit zur Bearbeitung der CD-ROM wurden vom Teilnehmer individuell bestimmt. Das Design der Fall-CD-ROM war darauf ausgerichtet, daß die Beobachter sie eigenständig bearbeiten konnten. Bei sieben der acht Radiologen und bei vier der acht Internisten wurde die Protokollierung der Ergebnisse von einer zweiten Person vorgenommen, die übrigen Teilnehmer bearbeiteten die CD-ROM ohne Protokollierer.

2.1.1 Teilnehmer der ROC-Studie

Die Fall-CD-ROM wurde von acht mit HIV und Aspergillose erfahrenen Radiologen und acht ebenso erfahrenen Infektiologen und Onkologen bearbeitet. Diese Teilnehmer stammten aus Deutschland (Berlin), Frankreich, den Niederlanden, Großbrittannien und den Vereinigten Staaten von Amerika.

Eine der Schwierigkeiten der Studie bestand darin, mit der Aspergillose erfahrene Teilnehmer für die Bearbeitung der Fälle zu gewinnen, denn es setzte in der Regel die Arbeit in einem Behandlungszentrum für HIV-Infektionen oder onkologische Erkrankungen voraus, um mit dieser seltenen Diagnose häufiger konfrontiert worden zu sein. Deshalb rekrutierten sich die Studienteilnehmer aus verschiedenen Ländern. Hierzu musste allerdings der Transport des Studienmaterials insbesondere der Bilder über die großen Distanzen gewährleistet werden, wodurch die Entscheidung für die Erstellung einer auf HTML-Dateien basierenden CD-ROM fiel. Um zusätzlich das selbstständige Bearbeiten der Studien-CD-ROM zu ermöglichen, wurden die Fälle verknüpft und eine Anleitung zum Lösen der Fälle beigefügt.


[Seite 22↓]

2.1.2  Patienten der ROC-Studie

Für die ROC-Studie wurden 125 Patienten mit HIV-Infektion aus der Charité / Campus Virchow Klinikum (Berlin), dem Auguste-Viktoria-Krankenhaus (Berlin) und dem North Manchester General Hospital (Manchester, Großbrittannien) retrospektiv ausgewertet. Von den hierbei ermittelten Patienten wurden 50 Fälle in die Studie eingeschlossen. Sie alle litten bereits an AIDS-definierenden Erkrankungen und konnten deshalb dem HIV-Stadium AIDS und der klinisch orientierten Kategorie C zugeteilt werden. Jeder dieser Patienten stellte sich mit akuten pulmonalen und allgemeinen Beschwerden im Krankenhaus vor und es bestand zumindest zeitweise der Verdacht auf eine IPA.

Bei einer Hälfte der 50 Patienten konnte tatsächlich eine IPA sicher oder wahrscheinlich dia­gnostiziert werden. Zur Sicherung der Diagnosen wurde der Goldstandard berücksichtigt, der den histopathologischen oder kulturellen Nachweis der IPA-Erreger aus primär sterilen Körpersekreten vorsieht. [40]. Da bei HIV-infizierten Patienten vergleichsweise wenig invasive Diagnostik durchgeführt wurde, mussten drei Fälle, in denen die Erregerdiagnostik aus Sputum bzw. provoziertem Sputum durchgeführt wurde, toleriert werden. Die Diagnosen der IPA-Patienten der Fall-CD-ROM wurden gesichert durch: Autopsie (n=2), Mikroskopie und Kultur einer transbronchial oder transthorakal gewonnenen Biopsie (n=9), Mikroskopie und Kultur einer bronchoalveolären Lavage (n=10), wiederholten kulturellen Nachweis aus durch bronchoalveoläre Lavage gewonnenen Proben ohne Nachweis anderer Keime (n=1), wiederholte Mikroskopie von provoziertem Sputum oder Sputum ohne Nachweis anderer Erreger (n=3). In Fällen, in denen Aspergillus lediglich im Sputum mikroskopiert werden konnte, wurde die erfolgreiche Therapie mit klinischer oder radiologischer Besserung innerhalb von drei Monaten zusätzlich zur Diagnosesicherung verwendet [1].

Das Vergleichskollektiv, die andere Hälfte der 50 Patienten litt an anderen pulmonalen opportunistischen Erkrankungen. Der prozentuale Anteil dieser Differenzialdiagnosen entsprach etwa der Verteilung pulmonaler Komplikationen bei AIDS-Patienten in Deutschland. Dazu zählten die Pneumocystis carinii Pneumonie (n=12), die bakterielle Pneumonie (n=10), die pulmonale Tuberkulose (n=1), die Pneumonie durch Mycobacterium avium intracellulare (n=1) und das pulmonale Kaposi-Sarkom (n=1). Auch diese Diagnosen wurden durch Erregernachweis aus der Bronchiallavage (n=21), aus der transbronchialen Biopsie (n=1) bzw. im Rahmen einer Obduktion (n=1) verifiziert bzw. die Diagnose wurde durch erfolgreiche Therapie ex juvantibus (n=1) bestätigt.


[Seite 23↓]

2.2  Erstellung der Fall-CD-ROM

2.2.1 Bildgewinnung und Bearbeitung der Klinik

Durch die retrospektive Auswertung der Patientenakten im Archiv der Infektiologie der Charité / Campus Virchow Klinikum (Berlin) und der internistischen Abteilung des Auguste-Viktoria-Krankenhauses (Berlin) wurden alle Patienten gesichtet, bei denen jemals ein Verdacht auf IPA bestand. Daraus konnten 19 gesicherte IPA-Fälle rekrutiert werden. Die anderen Patienten hatten meist lediglich Aspergillus-Antikörper oder mit Aspergillus kontaminierte Laborkulturen und litten stattdessen an einer anderen respiratorischen Komplikation bei HIV-Infektion. Die Fälle dieser Patienten wurden, wenn sie radiologisch, mikrobiologisch und klinisch geeignet waren, für die Differenzialdiagnosen verwendet. Die Daten von weiteren sechs IPA-Patienten wurden vom North Manchester General Hospital (UK) mit Röntgenthorax und klinischen Angaben zur Verfügung gestellt.

Die ausgewählten Röntgenthoraces wurden anonymisiert und mit einer Auflösung von 180 dpi digitalisiert, was zu Bildgrößen von 1200 x 1450 bis 1500 x 1750 Pixeln führte. Die Auswahl der Fälle und Röntgenbilder erfolgte mit dem Ziel, eine Normalverteilung hinsichtlich ihrer radiologischen und klinischen Ausprägung für die IPA und die Differenzialdiagnosen zu erreichen. Eine weitere Einschlußvorraussetzung war, daß Bild und Klinik zeitlich korrelierten. Da bei der Sichtung des Rohmaterials nur in einigen Fällen seitliche Aufnahmen und Thorax-Computertomogramme gefunden wurden, wurde auf ihre Verwendung für die ROC-Studie verzichtet.

Im weiteren Verlauf wurden die klinischen Angaben der Krankenakten zu kurzen, stichpunkt­artigen Texten verarbeitet, welche sich immer in Vorgeschichte, aktuelle Situation und die zeitliche Einordnung des verwendeten Thoraxbildes gliederten. Im Anamneseteil dieser Texte fanden relevante Informationen wie beispielsweise die Vorerkrankungen, die antiretrovirale Therapie, die medikamentösen Prophylaxen, die vorausgehenden Medikationen mit einer Bewertung des Therapieerfolges, sowie die Lebensumstände der Patienten ihren Platz. In der Regel wurden alle Angaben zeitlich eingeordnet. In den Absatz der aktuellen Klinik wurden Informationen über die CD4-Zellzahl, die körperlichen Untersuchungsbefunde, die bereits begonnenen Therapien und den Erfolg dieser Therapien aufgenommen. Zusätzlich wurde angegeben, ob das Thoraxbild des Patienten bei Aufnahme oder als Verlaufskontrolle erstellt wurde. Auf die genaue Benennung der Art der Antibiotika und ihrer Dosen wurde zugunsten der Übersichtlichkeit verzichtet. Um die Studienergebnisse von Radiologen und Internisten in der Auswertung vergleichen zu können, standen beiden Untersuchergruppen dieselben [Seite 24↓]klinischen Angaben zum Bearbeiten der Fälle zur Verfügung. Infolge der internationalen Auswahl der Studienteilnehmer wurde die Fall-CD-ROM in englischer Sprache verfasst.

Da es in der ROC-Studie um die Existenz, den Charakter und die Interpretation einer radiologischen Läsion, nicht aber um ihre Lokalisation geht, wurde der Ort der Pathologie zu jedem einzelnen Fall vorgegeben. So sollte sichergestellt werden, daß der Untersucher keine andere Struktur, als die gefragte Läsion zur Diagnosestellung heranzog. Das war insbesondere in den Fällen nötig, in welchen vorhergehende Lungenerkrankungen zu parenchymalen Residuen wie Fibrosierungen oder zu Lymphadenopathien geführt hatten. In sehr ausgeprägten Fällen wurde ein kurzer Kommentar beispielsweise „additional finding: lymphadenopathy from non-Hodgkin’s lymphoma“ oder „additional finding: right upper field old cavitation“ beigefügt.

2.2.2 Aufbau der Fall-CD-ROM

Die Fall-CD-ROM wurde im HTML-Format verfasst, da dieses Format sowohl mit einem Windows-PC als auch mit einem Macintosh-PC gelesen werden kann, da die dazu notwendigen Web-Browser wie Netscape Communicator und Internet Explorer sehr verbreitet und auf nahezu jedem Internet-fähigem Computer verfügbar sind. Die Röntgenbilder wurden als GIF-Dateien in die HTML-Dateien integriert.

Außerdem wurden die einzelnen Fälle durch Links verknüpft, wodurch das Navigieren durch die Fälle der CD-ROM erleichtertet wurde. Durch Klicken beispielsweise des Buttons „Case 01“ gelangten die Teilnehmer zum 1. Fall und konnten sich über den Button „next patient“ nacheinander zu allen 50 Fällen navigieren. Auch das Zurückbewegen zum vorhergehenden Patienten über den Button „previous patient“ oder zur Startseite war möglich. Die Abb. 2-1 zeigt exemplarisch einen aus Röntgenthorax und klinischem Text bestehenden Fall der CD-ROM inklusive der Navigationsbuttons.


[Seite 25↓]

Abb. 2-1:Exemplarischer Fall der CD-ROM mit klinischer Information, Röntgenthorax und Buttons zur Navigation


[Seite 26↓]

Abb. 2-2:Startseite der Fall-CD-ROM mit Navigationsbuttons und einführenden Erläuterungen zur Studie

Den Fällen der CD-ROM war eine Startseite vorangestellt, die wesentliche Informationen für die Studienteilnehmer vor der Bearbeitung der CD-ROM lieferte und über die alle Fälle aufgerufen werden konnten (Abb. 2-2). Diese Einführung enthielt wichtige Details zur Zusammensetzung des Patientenguts, beispielsweise daß die Hälfte der Patienten unter einer IPA und die andere Hälfte unter anderen respiratorischen, Nicht-IPA-Komplikationen der HIV-Infektion litten und daß die Häufigkeitsverteilung der Differenzialdiagnosen in etwa den typischen Verhältnissen bei HIV in Deutschland entsprach.

Dem folgten Hinweise zum Bearbeiten der CD-ROM, wobei die Hauptaufgabe der Studienteilnehmer darin bestand, für jeden Fall der CD-ROM die Entscheidung zu treffen, wie sicher es sich dabei um eine IPA handelte. Schließlich wurden Bildschirmeinstellungen von 800 x 600 bzw. 1024 x 768 Pixeln emfohlen, da jene die Röntgenbilder optimal abbildeten.

2.3 Studienablauf

2.3.1 Studienablauf „Kliniker“

Die Fall-CD-ROM wurde durch acht Kliniker bearbeitet, die ihre Diagnose im Teil 1 lediglich mit Hilfe der klinischen Textinformation zu stellen hatten. Die Fälle waren mittels einer [Seite 27↓]Zufallstabelle gemischt worden. Nach etwa dreiwöchiger Pause sollte der 2. Teil der Fall-CD-ROM bearbeitet werden, wobei die Fälle erneut zufällig angeordnet wurden, um die Erinnerung zu erschweren. Für die Entscheidung standen im Teil 2 sowohl klinische Informationen als auch der dazugehörige Röntgenthorax zu Verfügung.

Zusätzliches Interesse galt im Teil 2 den radiologischen Pathologien, die für den radiologischen Teil der Diagnose verantwortlich waren. Hierzu wurde eine Liste mit Vorschlägen für die Deskriptoren und dazugehörige Definitionen und Abkürzungen verfasst, welche zur Benennung verwendet werden sollten. Zu diesem Zweck verfügten die Evaluationsbögen über Spalten, in welche die betreffenden Pathologien inklusive ihrer prozentualen Wichtung an der radiologischen Diagnose eingetragen werden konnten.

2.3.2 Studienablauf „Radiologen“

Die acht Radiologen, die an der Studie teilnahmen, trafen ihre diagnostische Entscheidung in Phase 1 der Studie lediglich auf der Basis des Röntgenthoraxbildes und trugen die entsprechenden Ziffern der diagnostischen Entscheidungsskala in die „Evaluation form“ ein. Außerdem waren die jeweiligen radiologische Deskriptoren und ihr prozentualer Anteil an der Dia­gnose in die dafür vorgesehenen Spalten einzutragen. Auch die Bilder im Teil 1 wurden randomisiert präsentiert.

In Teil 2 erhielten die Radiologen sowohl das radiologische Bild als auch die entsprechende klinische Geschichte des Patienten. Die Fälle hatten die gleiche Anordnung, wie die Fälle im zweiten Teil der Fall-CD-ROM der Kliniker. Die Diagnose auf der Grundlage von Bild und Klinik war wieder verschlüsselt als Ziffer in den Evaluationsbogen von Teil 2 einzutragen. Auch die diagnostisch relevanten Deskriptoren wurden wieder dokumentiert. Analog zu den Klinikern wurde eine Pause von mindestens drei Wochen zwischen der Bearbeitung von Teil 1 und Teil 2 empfohlen.

2.3.3 Lösungsbögen

Für die drei Bearbeitungsabschnitte: Klinik, Bild, Klinik und Bild existierten 3 verschiedene Lösungsbögen, „evaluation forms“ (Abb.2-3). Diese Lösungsbögen bestanden aus einer Tabelle, in der die 50 Fälle aufgelistet waren. In der Tabelle des Lösungsbogens „text information only“ wurde die der Diagnose entsprechende Ziffer 1 bis 5 markiert.

Auf den für die Bearbeitung der Röntgenthoraces vorgesehenen Lösungsbögen „only images“ und „images plus information“ wurde für jeden Fall der CD-ROM der Ort der Pathomorphologie angegeben. Die rechte und linke Lunge waren dazu in Ober-, Mittel- und [Seite 28↓]Unterfelder aufgeteilt worden. Diese Angaben sollten gewährleisten, daß die Diagnosen an Hand der richtigen Lungenpathologien gestellt wurden. Neben einer Spalte für die Diagnose standen weitere Spalten zur Verfügung, um die radiologischen Deskriptoren mit ihren Prozentanteilen aufzuführen. Die Summe der Prozentanteile der einzelnen Deskriptoren sollte bei jedem Fall 100% betragen. Auf allen Bögen war außerdem Raum für Kommentare gelassen worden.


[Seite 29↓]

2.3.4  Deskriptoren für die radiologischen Befunde

Zur Beschreibung der radiologischen Läsionen wurde eine Liste mit Deskriptoren, ihren Definitionen und Abkürzungen verfasst (Abb. 2-4). Sie war in Hauptläsion („lesion type“) und weiter charakterisierende Läsionen („modifiers“) untergliedert. Sie umfasste die relevanten röntgenmorphologischen Deskriptoren der IPA, doch wurden auch die Bildbefunde der Differenzialdiagnosen berücksichtigt. Mit Hilfe von „other“ bestand die Möglichkeit, daß der bearbeitende Teilnehmer der Studie eigene Begriffe zur Beschreibung der Röntgenmorphologie einbringen konnte.

Abb. 2-3: Ausschnitt eines Lösungsbogens für Teil 2 der Fall-CD-ROM

Abb. 2-4: Liste der Deskriptoren zur Beschreibung der radiologischen Pathomorphologien


[Seite 31↓]

2.3.5 Konfidenz-Skala

Die Konfidenz-Skala ist ein Charakteristikum von ROC-Studien, mit deren Hilfe die individuellen Entscheidungsschwellen der Beobachter berücksichtigt werden können. Mittels der Konfidenzskala wurde die Sicherheit in eine Diagnose, d.h. konkret die Sicherheit für das Vorliegen einer IPA, kodiert und die entsprechende Zahl konnte in den Lösungsbogen eingetragen werden. Anwendung fand eine 5 Stufen umfassende Skala:

  1. (fast) sicher keine IPA
  2. wahrscheinlich keine IPA
  3. keine Aussage möglich, möglicherweise IPA
  4. wahrscheinlich IPA
  5. (fast) sicher IPA

2.4 ROC-Auswertung

Für die statistische Auswertung der Ergebnisse der ROC-Studie wurden die Summen der Lösungen in den einzelnen Konfidenzstufen sowohl für die Fälle mit IPA als auch für die Gruppe der Differenzialdiagnosen ermittelt. Mit Hilfe dieser Ergebnisse konnten die ROC-Kurven mittels eines „Maximum-Likelihood-Verfahrens“ für jeden der Studienteilnehmer errechnet werden. Die Fläche unter der ROC-Kurve (AUC) ist als diagnostische Leistung des Verfahrens definiert und wurde als Maß für die Erkennbarkeit der IPA mit Hilfe der verschiedenen diagnostischen Verfahren angesehen [48].


[Seite 30↓]

Die diagnostische Leistung der Radiologen und Kliniker in der Diskriminierung der IPA von seinen Differenzialdiagnosen konnte so für die angewandten Verfahren: Röntgenthorax, klinische Information, bzw. Röntgenthorax plus klinische Information verglichen werden. Die Ergebnisse wurden hinsichtlich ihrer Verteilung untersucht und mit Hilfe des verbundenen t-Tests nach Student-Newmann-Keuls und des Wilcoxon-Tests nach Mann-Whitney bei einem Signifikanzniveau von p < 0,05 auf signifikante Unterschiede geprüft [48,49,50,51].

2.4.1 ROC-Theorie

Jede diagnostische Entscheidung lässt sich in eine von vier Kategorien einordnen: richtig positiv, richtig negativ, falsch positiv oder falsch negativ. Mit Hilfe der Trefferrate („accuracy“) kann die Zahl der richtig positiven und richtig negativen Befunde zur Beurteilung der Leistungsfähigkeit eines diagnostischen Verfahrens herangezogen werden. Die falsch negativen und falsch positiven Befunde bleiben dabei unberücksichtigt. Außerdem ist die Trefferrate stark von der Prävalenz einer Krankheit in der Bevölkerung abhängig. Hat eine Erkrankung beispielsweise eine Prävalenz von 10%, so kann durch das blinde Befunden aller Bilder als nicht pathologisch (falsch negativ) trotzdem eine Trefferrate von 90% resultieren.

Betrachtet man stattdessen die Sensitivität (TPF) und die Spezifität (TNF):

so erhält man von der Prävalenz unabhängige Werte, da sich diese Größen auf die Grundgesamtheit der positiven bzw. negativen Fälle beziehen. Zusätzlich können auch der falsch positive Anteil (FPF) und der falsch negative Anteil (FNF):

betrachtet werden.

In diesem Fall kann jedoch trotzdem nicht entschieden werden, welches der Verfahren das Überlegene ist, da neben den diagnostischen Eigenschaften der Verfahren auch die individuelle Entscheidungsschwelle von Internisten und Radiologen Einfluß auf den richtig positiven und den richtig negativen Anteil der Ergebnisse hat.

Dieses Problem macht sich die ROC-Methode zu Nutzen. Vorraussetzung ist, daß die Merkmale, die getestet werden sollen (im vorliegenden Fall die Merkmale der IPA und der Differenzialdiagnosen) normal verteilt sind, wenn die Häufigkeit ihres Auftretens gegen ihre [Seite 32↓]Ausprägung aufgetragen werden würde. In einem gemeinsamen Diagramm würden sich diese beiden Kurven gewöhnlich schneiden, das heißt ihre Merkmale würden sich überlappen. Der Grad der Überschneidung nimmt jedoch in dem Maße ab, in dem das Verfahren zur Darstellung dieser Merkmale an diagnostischer Leistung gewinnt. In Abb. 2-5 sind die sich überscheidenden Normalverteilungen der Merkmale der negativen und positiven Fälle aufgetragen. Sie werden wiederum durch die individuelle Entscheidungsschwelle des Untersuchers in die Bereiche TNF, FNF, FPF und TPF unterteilt.

Abb. 2-5:Merkmale der negativen und positiven Fälle durch die Entscheidungsschwelle in die Bereiche TNF, FNF, FPF und TPF unterteilt

Jeder Auswerter eines diagnostischen Systems definiert für die diagnostische Entscheidung „pathologisch / nicht pathologisch“ eine individuelle Schwelle („treshold“). Überschreitet die Ausprägung eines Befundes diesen Schwellenwert, wird er als pathologisch, das heißt positiv, bewertet. Diese Entscheidungsschwelle zeigt gerade bei qualitativen Merkmalen erhebliche inter- und intraindividuelle Schwankungen [49]. Wenn die Entscheidungsschwelle des Untersuchers als senkrechte Linie die Normalverteilungen der diagnostischen Verfahren durchläuft, wird klar, daß bei gleichem Verfahren und gleicher Qualifikation der Untersucher durch individuell verschiedene Entscheidungsschwellen verschiedene Sensitivitäts (TPF) – Spezifitätspaare (TNF) entstehen. Beispielsweise würde ein Untersucher mit niedriger Schwelle für die IPA, der keine übersehen möchte, sehr viele Patienten als IPA diagnostizieren.


[Seite 33↓]

Entsprechend zeigten die Ergebnisse in diesem Fall eine hohe Sensitivität mit konsekutiv geringer Spezifität. Es handelt sich also um ein gegensinniges Verhältnis von Sensitivität und Spezifität, bzw. von FPF und FNF.

Die ROC-Analyse löst das Problem der individuellen Entscheidungsschwellen, indem sie diese methodisch integriert. Dazu trifft der Teilnehmer keine „Ja/Nein-Entscheidung“, sondern ordnet seine Sicherheit für das Vorhandensein beispielsweise der IPA entlang einer mindestens dreistufigen, in der vorliegenden Studie fünfstufigen Konfidenzskala an. Die Auswerter hatten somit die Möglichkeit, ihre diagnostische Sicherheit bezüglich der IPA zu bewerten und die fünf diagnostischen Sicherheitsbereiche abhängig von ihrer individuellen Entscheidungsschwelle zu positionieren, wodurch fünf Sensitivitäts-Spezifitäts-Paare enstanden (Abb. 2-6).


[Seite 34↓]

Abb. 2-6:Anordnung einer 5-stufigen Entscheidungsskala entlang der Merkmale der Fälle mit Bildung entsprechender Bereiche von TNF, FNF, FPF und TPF

Auf der Basis der Entscheidung über die Sicherheit in das Vorhandensein einer IPA konnte mittels der ROC-Analyse die ROC-Kurve ermittelt werden. Diese stellte den falsch positiven Anteil der Diagnosen gegen den richtig positiven Anteil der Diagnosen für den jeweiligen Beobachter und für ein bestimmtes diagnostisches Verfahren dar. Dazu wurde zunächst das erste Zahlenpaar (FPF, TPF) für die höchste Entscheidungsschwelle, d.h. „sicher IPA“ kalkuliert. Anschließend, entsprechend der zweithöchsten Entscheidungsschwelle gingen alle Befunde, die als sicher positiv und wahrscheinlich positiv bewertet wurden, in die Bestimmung des zweiten Datenpunktes ein. Die weiteren Punkte wurden analog bestimmt. Die resultierende ROC-Kurve wurde durch ein Näherungsverfahren („curve-fitting“) aus den berechneten Datenpunkten und den fixen Koordinaten (0/0), (1/1) bestimmt. Entlang des entstandenen Graphen konnten alle vorstellbaren TPF- und FPF-Paare für die individuelle Entscheidungsschwelle des Untersuchers abgelesen werden (Abb. 2-7).


[Seite 35↓]

Abb. 2-7:Entstehung der ROC-Kurve mit seiner Fläche (AUC) als Maß für die diagnostische Leistung

Der Kurvenverlauf und die Fläche unter der Kurve dienen der Beurteilung und dem Vergleich der Leistungsfähigkeit der diagnostischen Verfahren. Ein System mit hoher Leistungsfähigkeit zeigt einen starken Anstieg der ROC-Kurve (schnelles Anwachsen der TPF bei geringer Zunahme der FPF) bis zu einem Wendepunkt und danach einen nahezu horizontalen Verlauf. Würden alle Fälle per Zufall beurteilt werden, resultierte ein diagonaler Kurvenverlauf („Random-ROC-Curve“). Zum Vergleich verschiedener diagnostischer Systeme kann die Fläche unter der ROC-Kurve (AUC) als diagnostische Leistung quantifiziert werden. Die „Random-ROC-Curve“ weist eine AUC von 0,5 auf. Ein perfektes System lieferte eine AUC von 1,0.

Im Rahmen dieser Studie wurden beide Fallkollektive durch die Merkmale der Röntgenthorax-Aufnahmen und klinischen Angaben charakterisiert. Um gleiche Chancen für richtig positive und falsch positive Entscheidungen zu gewährleisten, wurde die ROC-Studie zu 50% aus Fällen mit IPA und zu 50% aus Fällen mit Differenzialdiagnosen bei HIV zusammengestellt.


[Seite 36↓]

Vorraussetzung war, daß der Nachweis der IPA und der Differenzialdiagnosen gemäß dem diagnostischen Goldstandard durch Tests durchgeführt wurde, deren diagnostische Sicherheit unbestritten war bzw. weit über den zu vergleichenden Verfahren stand. So wurde der histopathologische und kulturelle Erregernachweis aus Lungenparenchym und bronchoalveolärer Lavage im vorliegenden Teil als zweifelsfrei erachtet. Aber auch ein wiederholt positiver Befund aus provoziertem Sputum in Verbindung mit erfolgreicher Therapie galt als sicher, da die diagnostische Sicherheit trotzdem über jener der untersuchten Verfahren stand.

Um die Vielfalt der realen Pathologie zu repräsentieren (Normalverteilung der Merkmale), wurden verschieden auffällige Läsionen gewählt. Zusätzlich lag ein großer Teil der Läsionen in der Nähe der Detektionsschwelle für das getestete Verfahren, damit die Emfindlichkeit der Methode geprüft werden konnte. Wie in einer ROC-Studie üblich, wurde in der vorliegenden Studie lediglich nach der Existenz und der Art der Läsion gefragt, nicht jedoch nach ihrer Lokalisation. Um zu verhindern, daß der Studienteilnehmer die falsche Läsion als pathologisch beschreibt und diagnostiziert, wurden deshalb die zu analysierenden Lungenfelder für jeden Fall vorgegeben.

2.4.2 ROC-Kurve

Der Verlauf von ROC-Kurven wird durch das diagnostische Verfahren und den Untersucher bestimmt. Für die Erstellung wird die TPF gegen die FPF in einem Liniendiagramm aufgetragen, wobei die Fläche unter der Kurve als Repräsentant der Diskriminierungsfähigkeit des diagnostischen Verfahrens gilt und der Verlauf des Graphen genauere Aussagen über die Verhältnisse der Fraktionen bei den verschiedenen Entscheidungsschwellen liefert. Insbesondere der Vergleich der Verläufe und Flächen von ROC-Kurven ermöglicht die Charakterisierung verschiedener diagnostischer Verfahren und Auswerter.

Liegt beispielsweise die ROC-Kurve eines Tests immer links einer ROC-Kurve eines anderen Tests, so ist der erste Test ein besserer Diskriminator als der zweite. Denn er besitzt bezüglich jeder beliebigen TPF (Sensitivität) die bessere Spezifität (TNF = 1 - FPF) und umgekehrt bezüglich jeder beliebig gewählten Spezifität die bessere Sensitivität. In diesem Fall wäre die Area Under Curve des ersten Tests größer als die AUC des anderen Tests.

Schneiden sich die ROC-Kurven, so besitzt jeder der beiden Tests einen Bereich, in dem er der bessere Diskriminator ist. In dieser Konstellation können die Flächen unter den Kurven der beiden Tests trotz verschiedenen Verlaufs gleiche Zahlenwerte annehmen.


[Seite 37↓]

Die ROC-Kurve eines guten diagnostischen Verfahrens erreicht möglichst früh eine TPF von fast 1, denn das bedeutet, daß fast 100% der Fälle mit Aspergillose erkannt wurden und der Test somit eine hohe Sensitivität aufweist. Gleichzeitig sollte die ROC-Kurve einen steilen Anstieg aufweisen, also die FPF möglichst niedrige Werte annehmen, da der Test dann eine hohe Spezifität besitzt. Das heißt, daß ein als Aspergillose erkannter Fall mit hoher Wahrscheinlichkeit tatsächlich eine Aspergillose ist. Außerdem bedeutet es, daß die hohe Sensitivität mit einem hohen Anteil richtig erkannter Aspergillosen nicht durch einen gleichzeitig hohen Anteil falsch positiv erkannter Fälle erreicht wird. In dieser Konstellation bei hoher Sensitivtät und gleichzeitig hoher Spezifität wird die größte Fläche unter der Kurve erreicht.

2.4.3 ROC-Software

Zur Berechnung der ROC-Kurven wurde das Programm „ROCFIT“ eingesetzt, welches eine 1989 durch Metz, Wang und Kronman bearbeitete Version von „RSCORE II“ darstellt. Dieses Programm ist für die Bearbeitung von diskontinuierlichen, entlang einer Stufenskala angeordneten Daten aus einer Binominalverteilung bestimmt. Dazu wurde die Zahl der Antworten pro Kategorie für die negativen (Differenzialdiagnosen) und für die positiven (IPA) Fälle in das Programm eingegeben (siehe Abb.2-6). Dieses errechnete mittels der „Maximum-Likelihood-Methode“ Kurven-Koordinaten (7 inklusive 0;0, 1;1), die zu kontinuierlich verlaufenden ROC-Kurven gefittet wurden. Zu diesen Kurven berechnete das Programm jeweils eine obere und untere Grenzkurve, die den 95% umfassenden asymmetrischen Konfidenzbereich der ROC-Kurve umschloss (asymmetrisch, da er zu den Koordinaten (0;0) und (1;1) hin schmaler wurde). Außerdem wurde eine Standardabweichung zur jeweiligen AUC ermittelt, die in den Standardfehler umgerechnet wurde, um dann die größte und kleinste ROC-Fläche des 95%-Konfidenzintervalls berechnen zu können.

Die Ergebnisse wurden in Excel-Tabellen übertragen und dort bzw. in SAS und SPSS statistisch ausgewertet. Hierbei wurden die Ergebnisse durch eine SAS-Prozedur auf ihre Normalverteilung geprüft und die Streuung innerhalb der Untersuchergruppen errechnet. Aus der so gewonnenen Standardabweichung für eine Untersuchergruppe konnte dann über den Standardfehler das Konfidenzintervall für die mittlere AUC der Untersuchergruppe berechnet werden.

Außerdem wurde der t-Test nach Student-Newman-Keuls für verbundene Stichproben zum Vergleich der Ergebnisse angewandt, der streng genommen nur für normalverteilte Stichproben mit gleicher Varianz zulässig ist. Deshalb wurden die Werte zusätzlich mittels [Seite 38↓] des mathematisch sinnvolleren verteilungsunabhängigen Wilcoxon-Tests (U-Test nach Mann-Whitney) für nichtparametrische, nichtnormalverteilte, kleine Stichproben auf ihre Signifikanz geprüft. Die Nullhypothese wurde abgelehnt, wenn die Irrtumswahrscheinlichkeit kleiner als 0,05 war.


© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.
DiML DTD Version 3.0Zertifizierter Dokumentenserver
der Humboldt-Universität zu Berlin
HTML-Version erstellt am:
01.09.2004