[Seite 116↓]

5  Schlussbetrachtung

In der vorliegenden Monographie wurden zwei umfangreiche eigene systematische Übersichtsarbeiten klinischer Studien (Kapitel 2), drei Untersuchungen zur methodischen Qualität und deren Auswirkungen auf die Studienergebnisse (Kapitel 3) sowie eine Analyse der vorliegenden systematischen Übersichten zu Akupunktur, Phytotherapie und Homöopathie (Kapitel 4) präsentiert.

An den beiden eigenen Übersichtsarbeiten werden die Stärken von systematischen Übersichtsarbeiten deutlich (100). Durch die umfangreiche Literatursuche wird gewährleistet, dass die potentiell relevanten Studien – zumindest wenn sie publiziert sind - weitgehend vollständig identifiziert werden. Die expliziten Ein- und Ausschlusskriterien und deren systematische Prüfung machen den Selektionsprozess transparent und gewährleisten eine unverzerrte Auswahl. Durch die standardisierte Extraktion und Beurteilung werden die eingeschlossenen Primärstudien unabhängig von ihren Ergebnissen ausgewertet und beurteilt. In tabellarischer Form sind Details jeder einzelnen Studie für den Leser zu überprüfen, ohne dass im Text endlose Beschreibungen der Einzelstudien erfolgen müssen. Die Berechnung und graphische Darstellung von Effektmaßen ermöglicht schließlich eine schnelle und intuitive Erfassung der vorliegenden Studienergebnisse. In der Gesamtschau liegt eine transparente und nachprüfbare Zusammenfassung der vorliegenden Untersuchungen zu den bearbeiteten Fragestellungen vor.

Jedoch treten auch die Probleme von systematischen Übersichtsarbeiten klar hervor (99;132). Ein Hauptproblem ist die Heterogenität der Primärstudien bzgl. Patienten (genaue Diagnosen, aus Praxen oder spezialisierten Zentren, Chronizität, Vorerfahrungen mit Therapien etc.), Interventionen (Dauer, Dosis etc.), Zielkriterien (Art, Zeitpunkt) und methodischer Qualität. Durch äußerst strikte Einschlusskriterien ist es möglich, diese Heterogenität zu minimieren. Dies ist sinnvoll, wenn die Fragestellung bis in Details sehr genau spezifizierbar ist. In diesen Fällen ist auch eine quantitative Meta-Analyse mit hoher Wahrscheinlichkeit sinnvoll und zielführend. Eine Beispiel für eine solche Fragestellung wäre „Gibt es Evidenz aus randomisierten, doppelblinden Studien, dass eine prophylaktische Behandlung mit Metoprolol mit Dosierungen zwischen 100 und 200 mg pro Tag bei Patienten mit Migräne ohne Aura die Attackenfrequenz stärker vermindert als Placebo?“ Für Ärzte und Patienten sind derartige Fragestellungen sinnvoll, wenn Sie konkrete Handlungsanweisungen für eine definierte Situation suchen. Die entsprechenden Übersichtsarbeiten enthalten meist nur sehr wenige Primärstudien. Systematische Übersichtsarbeiten mit weiteren Fragestellungen (z.B. „Gibt es Evidenz aus randomisierten Studien für die Wirksamkeit einer Kopfschmerzprophylaxe mit Metoprolol?“) – wie z.B. den Anwendungsbeispielen in Kapitel 2 – informieren den Leser in einem weiteren und allgemeineren Sinne. Unweigerlich werden dann jedoch heterogene Studien eingeschlossen. Der Charakter des [Seite 117↓]Reviews wird dementsprechend mehr deskriptiv im Sinne einer Zusammenfassung des state-of-the-art als hypothesenprüfend. Dennoch werden bei engen und weiten Fragestellungen weitgehend die gleichen Methoden verwendet. Aus der Sicht des Autors dieser Monographie ist es beispielsweise absolut sinnvoll, auch zu den äußerst heterogenen Studien zu Hypericumextrakten bei Depression eine quantitative Meta-Analyse durchzuführen. Der entscheidende Punkt ist hier die Interpretation des berechneten globalen Effektmaßes. Auf der Suche nach einfachen und griffigen Aussagen wird typischerweise dieses Maß als „das“ Ergebnis einer Übersicht angesehen. In einer Sekundärpublikation zu der früheren Version des in Kapitel 2 aktualisierten Hypericumreviews in der Zeitschrift Evidence-Based Mental Health (192) wurde z.B. sogar eine „number needed to treat“ berechnet, d.h. aus der gepoolten Responderratio wurde abgeleitet, wieviele Patienten mit Hypericum behandelt werden müssen, damit (im Vergleich zu Placebo) ein Patient profitiert. Dieses für Ärzte und Patienten intuitiv zu verstehende Maß wird von Vertretern der evidenzbasierten Medizin bevorzugt zur Ergebnisdarstellung bei prophylaktischen oder therapeutischen Interventionen verwendet (255). Angesichts der Heterogenität der Hypericum-Studien in Bezug auf Patienten, Extrakte und Studienqualität ist eine solche vereinfachende Darstellung potentiell irreführend. Gepoolte Effektmaße können in Reviews mit weiteren Fragestellungen nicht mehr sein als grobe Indikatoren dafür, ob die Evidenz insgesamt positiv ist oder nicht, bzw. ob es sich eher um einen großen Effekt oder einen kleinen Effekt handelt. Auch wenn keine gepoolten Effektmaße berechnet werden, bleibt die Heterogenität ein Problem, wenn aus dem Gesamteindruck der Evidenz abgeleitet wird, dass die Ergebnisse für Einzelsituationen quasi universell gültig seien.

Ein zweites Hauptproblem in vielen systematischen Reviews ist die häufig unzureichende Berichterstattung in den Publikationen der Primärstudien. Bei den Anwendungsbeispielen trat dieses Problem insbesondere im Fall der Migräneprophylaxe mit Propranolol, Metoprolol und Flunarizin auf. Hier war die Berichterstattung der Ergebnisse so inkonsistent, dass allenfalls durch vote counts (Klassifikation der Ergebnisse in Kategorien) und die deskriptive Ergebnis­zusammenfassung in den Tabellen im Anhang ein Gesamtbild der Ergebnisse entsteht. Vote counts sind jedoch nicht nur äußerst grobe Simplifizierungen, sondern – wie auch das Beispiel der Übersichten zur Akupunktur bei LWS-Schmerzen in Kapitel 4 zeigt - von fraglicher Zuverlässigkeit ((176) S. 48-52). Die deskriptiven Zusammenfassungen der einzelnen Studienergebnisse im Tabellenanhang sind für den „normalen“ Leser aufgrund ihres Umfanges äußerst ermüdend und primär für den besonders Interessierten „zum Nachsehen“ gedacht. Die graphische Darstellung der Studienergebnisse mit den einzelnen Effektgrößen wäre eindeutig die Methode der Wahl für eine informative Darstellung. Wenn jedoch nur für weniger als die Hälfte der Studien, die den jeweiligen Parameter gemessen haben sollten, Daten vorliegen, muss angezweifelt werden, dass diese Darstellung einen repräsentativen Eindruck vermittelt. Der Gedanke liegt nahe, dass Autoren die besten und eindeutigsten Daten besonders ausführlich präsentieren (outcome reporting bias (99)).


[Seite 118↓]

Bei beiden Beispielübersichtsarbeiten stellt sich auch die Frage, ob möglicherweise ein publication bias, also eine Überschätzung der Wirksamkeit aufgrund nichtpublizierter negativer Ergebnisse erfolgte (242). Eindeutige Hinweise lagen zwar nicht vor, angesichts des finanziellen Interesses an den jeweiligen Behandlungen kann ein publication bias aber auch nicht mit Sicherheit ausgeschlossen werden.

Die empirisch-methodischen Untersuchungen zu Studienqualität und evtl. Zusammenhängen mit den Studienergebnissen in Kapitel 3 verdeutlichen einerseits, wie grob und eindimensional die verfügbaren Instrumente zur Beurteilung der Studienqualität sind, andererseits kann aber sogar mit diesen Instrumenten klar gezeigt werden, dass methodisch bessere Studien offensichtlich im Schnitt weniger optimistische Ergebnisse erbringen als methodisch schlechtere Studien. Dies gilt sowohl für die hier untersuchten komplementärmedizinischen Beispiele wie auch in der konventionellen Medizin (331;406). Eine Beurteilung der methodischen Qualität muß daher trotz aller Probleme für systematische Übersichtsarbeiten als obligat angesehen werden. Methodische Weiterentwicklungen sind wünschenswert, eine schnelle Entwicklung einer optimalen Qualitätsbeurteilungsmethode erscheint jedoch wenig realistisch.

Die Ergebnisse in Kapitel 4 zeigen, dass viele systematische Übersichtsarbeiten zu Akupunktur, Phytotherapie und Homöopathie – ähnlich wie in untersuchten Bereichen der konventionellen Medizin (69;201;203) - erhebliche methodische Schwächen haben. Es ist zu hoffen, dass die Weiterentwicklungen der vergangenen Jahre, die Empfehlungen zur Durchführung von systematischen Reviews (2) und die Publikation von Leitlinien zur Publikation von systematischen Reviews und Meta-Analysen im QUORUM-Statement (327) in der Zukunft zu einer Verbesserung führen.

Eine zentrale Rolle wird hier der bereits in Kapitel 4 kurz erwähnten Cochrane Collaboration (www.cochrane.de) zufallen. Dieses zu Beginn der neunziger Jahre gegründete und nach dem britischen Arzt und Epidemiologen Archie Cochrane (1900-1988) benannte weltweite Netzwerk von Ärzten, Forschern, Patienten und Entscheidungsträgern hat es sich zur Aufgabe gemacht, systematische Übersichtsarbeiten der vorhandenen klinischen Studien in allen Bereichen der Medizin zu erstellen, kontinuierlich zu aktualisieren und zugänglich zu machen. In der von der Cochrane Collaboration auf CD-ROM herausgegebenen, vierteljährlich aktualisierten Cochrane Library (Oxford, Update Sofware) sind derzeit (Ausgabe 4, 2001) 1235 nach definierten Vorgaben erstellte und begutachtete „Cochrane Reviews“ verfügbar, darüberhinaus die Protokolle von 956 in Bearbeitung befindlichen Reviews sowie Referenzen und Abstracts von über 3000 anderen systematischen Reviews und 370.000 klinischen Studien. Im Rahmen dieses Netzwerkes wird in zunehmendem Maße auch empirisch-methodische Forschung zu systematischen Übersichtsarbeiten betrieben. Ein spezielles Register zu methodischen Untersuchungen wurde [Seite 119↓]angelegt (derzeit 3551 Zitate) und 12 Arbeitsgruppen geformt, die sich mit spezifischen Problemen beschäftigen.

Durch die Aktivitäten der Cochrane Collaboration, die große Zahl von in Zeitschriften publizierten Arbeiten in den letzten Jahren und den Trend zu „Evidenz-basierter Medizin“ haben systematische Übersichtsarbeiten auch für gesundheitspolitische Entscheidungen große Bedeutung erlangt. In der Hierarchie der Evidenz zu prophylaktischen und therapeutischen Interventionen wird Meta-Analysen randomisierter Studien häufig das größte Gewicht eingeräumt. Als noch zuverlässiger werden jedoch extrem große randomisierte Studien – sogenannten megatrials – angesehen (23). Eine methodisch-empirische Untersuchung fand, dass zwischen den Ergebnissen von Meta-Analysen und später zur selben Fragestellung durchgeführten megatrials nur eine mäßige Übereinstimmung bestand (274). Jedoch fand eine neuere Untersuchung, dass auch zwischen megatrials zur gleichen Fragestellung nur eine mäßige Übereinstimmung bestand (141).

Aus der Sicht des Autors dieser Monographie sollte in Zukunft stärker zwischen hypothesenprüfenden Meta-Analysen und systematischen state-of-the-art Reviews unterschieden werden. Hypothesenprüfende Meta-Analysen sind durchaus als eigene Evidenzklasse anzusehen und können – wenn die Primärstudien es zulassen – klare Antworten auf genau spezifizierte Fragen erbringen. State-of-the-art Reviews können und sollten ebenfalls systematische Methoden nutzen; ihr Ziel muss aber primär eine transparente Zusammenfassung der vorliegenden Evidenz sein. Es stellt sich die Frage, ob es angemessen ist, aus derartigen Übersichten klare Schlussfolgerungen zu ziehen. Die Ergebnisse sind nämlich häufig – entsprechend den weiten Fragestellungen - vielschichtig und wenig klar. Der Ermessensspielraum der Reviewautoren ist bereits bei der Zusammenfassung der Daten erheblich. Bei Schlussfolgerungen ist die Nachvollziehbarkeit aber letztlich nur noch in eingeschränktem Maße wirklich gegeben.

Obwohl bisher noch keine systematischen Untersuchungen darüber vorliegen, wie häufig in systematischen Übersichtsarbeiten die Fragestellungen „eng“ oder „weit“ sind (eine solche Untersuchung zu Cochrane Reviews ist derzeit im Gange (22)), ist der Anteil weitgefasster systematischer Übersichtsarbeiten sicher groß. Hier erschiene eine größere Bescheidenheit in der Darstellung und Interpretation angemessen. Für die jeweiligen Reviewautoren ist dies jedoch nicht einfach, da sich eine „klare“ und „griffige“ Schlussfolgerung besser publizieren lässt als eine deskriptive Zusammenstellung der Evidenz, die auf solche Schlussfolgerungen bewusst verzichtet.

In den kommenden 10 Jahren wird die methodische Entwicklung systematischer Übersichtsarbeiten mit Sicherheit weiter voranschreiten. Bei der Planung und Publikation neuer Primärstudien wird vermehrt daran gedacht werden, dass Ergebnisse später in Meta-Analysen zusammengeführt werden können. Im Optimalfall wird dadurch möglich, in Meta-Analysen auf die Originaldaten zugreifen (70), in anderen Fällen ist zumindest davon auszugehen, dass die [Seite 120↓]Ergebnisse häufiger in verwertbarer Weise präsentiert werden. Die Einrichtung von Registern, in denen Studien bereits bei der Durchführung erfasst werden (410), könnten das Problem eines publication bias vermindern. Die Erfahrung im Umgang mit den einzelnen Methoden und die empirisch-methodischen Untersuchungen werden dazu führen, dass unangemessene und ineffiziente Vorgehensweise eliminiert werden. Daher ist davon auszugehen, dass die Qualität zukünftiger Übersichtsarbeiten im Mittel deutlich besser sein wird als die der heute verfügbaren Reviews. Dennoch werden systematische Übersichtsarbeiten auch in Zukunft schwierige Vorhaben bleiben, deren Zuverlässigkeit von den Fähigkeiten, der Sorgfalt und den Erfahrungen der Reviewer abhängig sein wird.


© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.
DiML DTD Version 3.0Zertifizierter Dokumentenserver
der Humboldt-Universität zu Berlin
HTML-Version erstellt am:
04.08.2004