[Seite 43↓]

3  Empirisch-methodische Untersuchungen zur Studienqualität
und deren Einfluss auf das Studienergebnis

3.1 Hintergrund

Die Beurteilung der Qualität der Primärstudien wird allgemein als ein entscheidender Bestandteil einer hochwertigen systematischen Übersichtsarbeit angesehen (468). Bereits bzgl. der Definition von Qualität gibt es jedoch erhebliche Schwierigkeiten. In Reviews von Therapiestudien wird Qualität häufig als methodische Qualität oder interne Validität interpretiert. Eine entsprechende Definition ist dann z.B. „Qualität ist die Wahrscheinlichkeit, mit der eine Studie unverzerrte Ergebnisse erbringt“ (206). Es herrscht weitgehend Konsens, dass die diesbezüglich relevantesten Kriterien Randomisation, Verblindung und Vermeidung von Verzerrungen bei der Auswertung sind (225).

Eine methodisch saubere Studie muss jedoch nicht in jedem Fall eine gute Studie sein. Sie kann z.B. klinisch irrelevant (d.h. für die Entscheidungsfindung unwichtig) oder nicht extern valide sein (d.h. die Ergebnisse sind nicht auf die Mehrheit der Patienten außerhalb der Stichprobe übertragbar). Auch hier gibt es zwar grundsätzlich relevante Kriterien (z.B. erhöht eine zufällige Stichprobenziehung die Generalisierbarkeit), jedoch ist deren Operationalisierung in hohem Maße von den spezifischen Umständen abhängig. D.h. es ist kaum möglich, unabhängig von Interventionen und Indikationen valide Kriterien zur Bewertung der externen Validität und klinischen Relevanz zu definieren.

Zur Bewertung der internen Validität oder methodischen Qualität liegt eine ganze Reihe von Skalen und Checklisten vor (siehe (329) für eine nicht mehr ganz aktuelle Übersicht). Die meisten dieser Skalen definieren jedoch nicht explizit, was sie messen wollen, ihre Entwicklung war in der Regel nicht systematisch und nur eine ist umfangreich validiert worden (206). Diese Skala von Jadad et al. wurde auch vom Autor in allen in dieser Schrift enthaltenen Arbeiten – zum Teil neben anderen Skalen - verwendet. Die Tatsache der Validierung darf aber nicht darüber hinwegtäuschen, dass es sich bei dieser Skala, ebenso wie bei den meisten anderen Skalen, nur um ein äußerst grobes Werkzeug handelt (siehe 3.4.). Bei vielen der Skalen wird ein Summenscore als primärer Qualitätsindikator berechnet. Die Sinnhaftigkeit solcher Qualitätsscores ist jedoch in hohem Maße umstritten (152;225;352).

Die erste empirisch-methodische Untersuchung in diesem Kapitel widmet sich der Bewertung der methodischen Qualität randomisierter klinischer Studien in den Bereichen Akupunktur, Phytotherapie und Homöopathie. Die Bewertung stützt sich sowohl auf Scores wie auch auf Einzelkriterien. Ziel war zu untersuchen, 1) wie die methodische Qualität dieser Studien [Seite 44↓]einzuschätzten ist und wo besondere Schwachstellen liegen, 2) ob es zwischen den drei Therapieformen relevante Unterschiede gibt und 3) ob die methodische Qualität mit Ort, Sprache und Zeitpunkt der Publikation sowie mit der Fallzahl zusammenhängt.

Ein logischer nächster Schritt ist zu prüfen, ob methodisch schlechtere Studien zu anderen Ergebnissen kommen als methodisch bessere Studien. Diesem Thema widmet sich die zweite Untersuchung in diesem Kapitel am Beispiel der placebokontrollierten Studien zur Homöopathie. In der Literatur finden sich mehrere Untersuchungen, die bei randomisierten Studien zu „schulmedizinischen“ Interventionen deutliche Hinweise dafür gefunden haben, dass qualitativ hochwertigere Studien zu weniger positiven Ergebnissen kommen (wichtige Beispiele (331;406)). Hierbei stehen unterschiedliche Methoden zur Verfügung. Ein Ansatz ist, Studien zu vergleichen, die bei der Qualitätsbewertung mit einer Skala über oder unter einer bestimmten Mindestpunktzahl („cut-off-point“) liegen (verwendet z.B. in (331)). Bei einer größeren Anzahl von Primärstudien ist es grundsätzlich möglich, die Studien nach und nach entsprechend ihrem Qualitätsscore in die Metaanalyse einzuschliessen (d.h. zuerst nur die Studien mit den höchsten Scores und dann nach und nach Studien mit immer niedrigeren Scores). Dieses Vorgehen wird als kumulative Metaanalyse bezeichnet. Schließlich besteht die Möglichkeit den Einfluss einzelner Qualitätsindikatoren auf das Ergebnis – nach Möglichkeit unter Berücksichtigung des Einflusses der anderen Qualitätsindikatoren – zu untersuchen (414). Alle drei Vorgehensweisen wurden bei den placebokontrollierten Studien zur Homöopathie angewendet und verglichen.

Die dritte Untersuchung in diesem Kapitel erweitert die Problematik von Qualitätsbewertung und Einfluss der Qualität auf das Studienergebnis auf nichtrandomisierte Studien und Aspekte der externen Validität und Interpretierbarkeit. Die überwiegende Mehrheit der systematischen Übersichtsarbeiten zu präventiven und therapeutischen Interventionen ist auf randomisierte Studien beschränkt (102). Eine kleine Minderheit bezieht auch nichtrandomisierte, kontrollierte Studien mit ein (199). Unkontrollierte Studien werden fast nie einbezogen. Zuverlässige Aussagen zur Wirksamkeit sind aus nichtrandomisierten kontrollierten Studien nur mit Vorsicht, aus unkontrollierten Studien nur in Ausnahmefällen abzuleiten. Randomisierte Studien haben auf der anderen Seite aber auch klare Nachteile. In randomisierten Studien kann z.B. oft nur ein Bruchteil der geeigneten Patienten einbezogen werden, da die Mehrheit die Zustimmung verweigert (317). Dadurch sind zum einen große Fallzahlen schwer zu verwirklichen, zum anderen ist die Repräsentativität und damit die externe Validität fragwürdig. Vor allem wenn ein Teil der Patienten zu Nichtbehandlung oder Placebo randomisiert wird, sind Langzeitstudien schwierig, da viele Patienten die Studie abbrechen und eine Behandlung ihrer Wahl beginnen. Sorgfältig geplante und durchgeführte nichtrandomisierte Studien mit großen und repräsentativen Stichproben oder langer Nachbeobachtungsphase (Follow-up) können daher äußerst wichtige, ergänzende Informationen erbringen, z.B. bzgl. prognostisch relevanter Faktoren, seltenen Nebenwirkungen oder [Seite 45↓]Komplikationen, der Übertragbarkeit von Ergebnissen randomisierter Studien auf die Routinepraxis und zu Langzeitverläufen. Der Einbezug von nichtrandomisierten – und dabei vor allem nichtkontrollierten – Studien stellt den Reviewer aber vor große Herausforderungen bzgl. Literatursuche (keine gleichzeitig sensitiven und spezifischen Suchstrategien für die großen Datenbanken verfügbar), Bewertung (keine Instrumente zur Qualitätsbewertung über ein Spektrum von Studiendesigns) und Auswertung (einerseits Zwischengruppenunterschiede aus kontrollierten Studien, andererseits Innergruppenunterschiede aus allen Studien). Erfahrungen und empirisch-methodische Untersuchungen zu diesem Problemkreis liegen im Bereich der Medizin - anders als z.B. in der Psychologie oder den Sozialwissenschaften - kaum vor. Am Beispiel von klinischen Studien unterschiedlicher Designs zur Akupunktur bei chronischen Kopfschmerzen wurden folgende in diesem Zusammenhang relevante Fragen bearbeitet: 1. Unterscheiden sich randomisierte und nichtrandomisierte Studien zur Akupunktur bei chronischen Kopfschmerzen bzgl. Patienten, Interventionen, designübergreifenden Qualitätsaspekten und Therapieerfolg? 2. Erbringen nichtrandomisierte Studien relevante Zusatzinformationen bzgl. Langzeitverlauf, prognostischen Faktoren, Nebenwirkungen und Komplikationen sowie bzgl. Generalisierbarkeit? 3. Falls Unterschiede zwischen Therapieerfolgen in randomisierten und nichtrandomisierten Studien bestehen sollten, was sind die Gründe?

3.2 Methodik

3.2.1 Methodische Qualität randomisierter Studien in den Bereichen Akupunktur, Phytotherapie und Homöopathie

3.2.1.1 Studienselektion

Die in der präsentierten Analyse verwendeten Daten wurden ursprünglich im Rahmen von systematischen Übersichtsarbeiten zur Homöopathie (278), zu Johanniskrautpräparaten bei Depression (285;286), Echinaceapräparaten bei Erkältungskrankheiten (320), Akupunktur bei Asthma (280;290) und Akupunktur bei chronischen Kopfschmerzen erhoben (319;321). Die Literatursuche für diese Übersichtsarbeiten erfolgte durch Abfragen in Datenbanken (Medline, Embase, CISCOM, Phytodok, Datenbank des Zentrums für naturheilkundliche Forschung München), durch Prüfen von Bibliographien und Literaturverzeichnissen gefundener Arbeiten sowie durch Kontakte mit Experten und z.T. Herstellern. Für die vorliegende Analyse wurden nur kontrollierte Studien berücksichtigt, die folgende Kriterien erfüllten: 1) Die Behandlung der Studienteilnehmer diente präventiven oder therapeutischen Zwecken (also z.B. keine Studien an Gesunden mit ausschliesslicher Testung physiologischer Größen oder z.B. der Pharmakokinetik). 2) Die Zuteilung zu Prüf- und Kontrollgruppen erfolgte randomisiert oder quasirandomisiert (z.B. [Seite 46↓]durch Alternierung). Ausdrücklich als doppelblind bezeichnete Studien, bei denen die Art der Zuteilung nicht explizit beschrieben war, wurden eingeschlossen, wenn davon auszugehen war, dass die einschließende Person aufgrund der Blindbedingungen nicht wußte, welcher Gruppe der jeweilige Patient zugeteilt werden würde. 3) Die Prüfbehandlung wurde mit Placebo, keiner Behandlung oder einer anderen Behandlung verglichen (d.h. Studien, in denen z.B. ausschließlich zwei Dosen eines Präparates verglichen wurden, wurden nicht berücksichtigt). Nicht berücksichtigt wurden außerdem Studien, die in einem Abstract oder einer Publikation zwar erwähnt wurden, zu denen jedoch keinerlei Details verfügbar waren. Details zu den einzelnen Übersichtsarbeiten können den jeweiligen Publikationen entnommen werden.

Insgesamt 207 Studien (129 zur Homöopathie, 27 zu Johanniskrautpräparaten bei Depression, 15 zu Echinaceapräparaten bei Erkältungskrankheiten, 15 zu Akupunktur bei Asthma und 21 zu Akupunktur bei Kopfschmerzen) erfüllten die Einschlußkriterien. Für die vorliegende Analyse wurden folgende Angaben aus den für die einzelnen Übersichtsarbeiten erstellten Datenbanken in einer SPSS-Datei (SPSS Corp., Chicago, Illinois, USA) zusammengeführt: Art der Quelle (Artikel in Medline-gelisteter Zeitschrift, sonstiger Zeitschrift, andere Veröffentlichungen, unveröffentlichter Bericht), Publikationsjahr, Herkunftsland (Land der Institution, an der der Erstautor tätig war), Publikationssprache (englisch oder andere Sprache), Fallzahl, Art der Kontrollintervention sowie Daten zu Studienqualität.

3.2.1.2 Beurteilung der Studienqualität

Primäres Instrument zur Beurteilung der methodischen Qualität war die von Jadad et al. entwickelte und validierte Skala ((206) Jadadscore). Die Skala umfasst 3 Items zur Beschreibung von methodischen Schlüsselaspekten, die mit insgesamt 5 Punkten bewertet werden können (weitere Details siehe 2.2.1.4). Zusätzlich wurde eine vom Autor entwickelte Checkliste eingesetzt (Internal Validity Scale). Dieses Instrument, das unabhängig von und gleichzeitig mit dem Score von Jadad et al. erarbeitet worden war, wurde mitgeführt, da es aus der Sicht des Autors zwar weniger systematisch validiert, aber konzeptionell schlüssiger war und da es zusätzliche Komponenten enthielt. Die Internal Validity Scale dient der Abschätzung, ob ggf. beobachtete Unterschiede in einer kontrollierten klinischen Studie tatsächlich auf die unabhängige Variable zurückzuführen sind. Die erste Entwicklung der Skala erfolgte auf der Basis publizierter Skalen und Checklisten. Vorläufige Versionen der Skala wurden in Sets von 10 bis 30 Studien auf Praktikabilität, Reliabilität und „face validity“ geprüft und dann modifiziert. Die endgültige Version umfasst 6 Items, deren Einfluß auf das Studienergebnis sowohl einzeln bzw. in Untergruppen wie auch als Gesamtscore geprüft werden kann. Beurteilt werden die Methode der Zuteilung („treatment allocation“), die Verblindung der Zuteilung („allocation concealment“), die Vergleichbarkeit der Gruppen bei Studienbeginn („baseline comparability“), die Verblindung der Patienten („blinding of patients“), die Verblindung der Beurteiler („blinding of evaluators“) und der [Seite 47↓]Umgang mit Studienabbrüchen und –ausschlüssen („handling of drop-outs and withdrawals“). Für jedes Item kann maximal ein Punkt vergeben werden, also insgesamt sechs. Die Antwortmöglichkeiten sind vorgegeben und durch eine Bewertungsanleitung näher spezifiziert. Diese unterscheidet sich geringfügig bei medikamentösen und nichtmedikamentösen Studien. Bei den ersteren wird Item 5 („blinding of evaluators“) nur als erfüllt gewertet, wenn auch der Therapeut (der meist auch Beurteiler ist) verblindet ist. In der vorliegenden Präsentation wird jedoch primär nur das Item für „allocation concealment“ miteinbezogen.

Jede klinische Studie wurde von mindestens 2 Reviewern unabhängig mit Hilfe von vorgegebenen Formularen bearbeitet. Diese wurden vom Autor auf Nichtübereinstimmungen geprüft; relevante Diskrepanzen wurden diskutiert und im Konsens gelöst. Insgesamt wirkten 9 Beurteiler mit; der Autor beurteilte alle Studien. Die Übereinstimmung vor Diskussion (berechnet für die vier Reviewer, die mehr als 10 Studien beurteilten) war für beide Qualitätsskalen gut bis sehr gut (Intraclass-Korrelations-Koeffizienten zwischen 0,65 und 0,96).

3.2.1.3 Auswertung

Die Daten aus den 5 Übersichtarbeiten wurden in einer SPSS-Matrix zusammengeführt. Zur Prüfung auf Unterschiede in Merkmalen und Qualität der Studien zu Homöopathie, Phytotherapie und Akupunktur wurde der Kruskal-Wallis- bzw. der Chi-Quadrat-Test verwendet, für Differenzen zwischen Studien zu Echinacea und Johanniskraut bzw. Akupunktur bei Asthma und Kopfschmerzen der Wilcoxon-Mann-Whitney-Test und der Chi-Quadrat-Test. Um zu überprüfen, ob die Werte für den Jadadscore mit der Publikationssprache (publiziert in Englisch oder nicht), Publikationsort (in einer Medline-gelisteten Zeitschrift oder nicht), Publikationszeitpunkt (vor oder ab 1990), oder mit der Studiengröße (Fallzahl von unter oder mindestens 100 Patienten) assoziiert sind, wurden unadjustierte und adjustierte (allgemeines lineares Regressionsmodell mithilfe der GLM-Prozedur in SPSS) Scores berechnet. Korrelationen zwischen einzelnen methodischen Qualitätskriterien und den obengenannten Einflussfaktoren wurden durch logistische Regression geprüft. Bei Tests über alle drei Therapien (Akupunktur, Phytotherapie und Homöopathie) wurde nur eine zufällige Stichprobe (gezogen mithilfe der entsprechenden Funktion in SPSS) der Homöopathiestudien miteinbezogen, um zu vermeiden, dass der überproportionale Anteil dieser Studien an der Gesamtstudiensammlung die Ergebnisse beeinflusst. P-Werte < 0,05 wurden als statistisch signifikant angesehen; Adjustierungen für multiples Testen erfolgten nicht.


[Seite 48↓]

3.2.2  Einfluss von Aspekten der methodischen Qualität auf das Studienergebnis am Beispiel der
placebokontrollierten Studien zur Homöopathie

3.2.2.1 Studienselektion

Die Methoden der von uns durchgeführten Meta-Analyse der placebokontrollierten Studien zur Homöopathie sind an anderer Stelle ausführlich beschrieben (278). An dieser Stelle wird daher lediglich auf die Aspekte detailliert eingegangen, die den Zusammenhang zwischen Studienqualität und –ergebnis untersuchen.

Placebokontrollierte Studien zur Homöopathie (im Gegensatz zu 3.2.1. wo auch nicht-placebokontrollierte miteinbezogen wurden) wurden durch Suchen in Medline, Embase, komplementärmedizinischen Datenbanken, Kontakt mit Experten und Prüfung der Literaturverzeichnisse von klinischen Studien und Übersichtsartikeln identifiziert. Eingeschlossen wurden randomisierte und/oder doppelblinde Studien (d.h. wenn bei einer Studie eine klare Beschreibung der Zuteilungsmethode fehlte, wurde diese nur eingeschlossen, wenn die Studie explizit als doppelblind bezeichnet war und damit davon auszugehen war, dass der aufnehmende Arzt nicht wissen konnte, welche Behandlung der jeweils nächste Patient erhalten würde), in denen die Wirksamkeit einer homöopathischen Intervention (Verwendung potenzierter homöopathischer Arzneimittel, also keine Urtinkturen) im Vgl. zu Placebo bei prophylaktischer oder therapeutischer Behandlung beim Menschen untersucht wurde.

Insgesamt 119 Studien entsprachen diesen Kriterien, 30 präsentierten jedoch keine für eine Meta-Analyse verwertbaren Daten (d.h. ausreichende Angaben zu einem der folgenden Zielkriterien: vordefiniertes Hauptzielkriterium; wenn kein Hauptzielkriterium definiert war, Globalbeurteilung durch Patienten oder Ärzte; wenn zu keinem der genannten Parameter verwertbare Daten vorhanden waren, dann nach Möglichkeit eindeutig identifizierbares wichtigstes klinisches Kriterium). Alle Erhebungen erfolgten unabhängig durch zwei Reviewer mit Hilfe eines vorbereiteten Formulars.

3.2.2.2 Beurteilung der methodischen Qualität

Die methodische Qualität bzw. die interne Validität wurden durch die in 2.2.1.4. bzw. 3.2.1.2. beschriebenen Instrumente Jadadscore und Internal Validity Scale beurteilt. Bei der Internal Validity Scale wurde ein zusätzliches Item zur Angemessenheit der statistischen Analyse in den Studien mitgeführt, da für eine mit der Untersuchung gekoppelte Dissertation (71) auch alle vorhandenen kontrollierten Studien bewertet wurden, ohne dass deren Ergebnisse in einer Meta-Analyse zusammengefaßt wurde. Die Internal Validity Scale umfaßt in der folgenden Analyse [Seite 49↓]daher 7 Items. Wiederum beurteilten mindestens zwei Reviewer jede Studie mit beiden Instrumenten.

3.2.2.3 Auswertung

Für jede Studie wurde eine Odds Ratio (OR) mit den zugehörigen 95%-Konfidenzintervallen berechnet; ORs > 1 bedeuten ein Ergebnis zugunsten der homöopathischen Intervention, ORs < 1 ein Ergebnis zugunsten von Placebo. Für die vorliegende Auswertung wurden die Daten der Originalübersicht (278) mit Hilfe von Meta-Regressions-Methoden reanalysiert, die die Zwischen-Studien-Heterogenität berücksichtigen. In einem ersten Schritt wurde der natürliche Logarithmus der ORs gebildet. Dementsprechend ergibt sich ein Behandlungseffekt yi = ln (OR) für jede Studie i
mit i = 1, ..., n. Folgendes Meta-Regressionsmodell wurde zugrundegelegt:

Yi = xiβ + bi + εi,

wobei xi für einen Vektor bekannter Kovariablen für die Studie i steht, bi ~ N(0,τ²) für einen studienspezifischen Zufallseffekt auf der Basis der residualen Zwischen-Studien-Heterogenität und εi ~ N (0,σi ²) mit der jeweiligen Varianz der einzelnen Studie σi ². Diese wurde anhand der berechneten Varianz s i ² der i-ten Studie berechnet. Wenn bi und εi unabhängig sind, ist var(yi) gleich τ² + s i ². Unter dieser Modellannahme ist der geschätzte lineare Vorhersagewert xiβ der mittlere Effekt aller Studien mit dem Kovariatenvektor xi und bi die Abweichung der i-ten Studie von diesem Mittelwert. Die Parameter-Schätzer wurden mit Hilfe der restricted maximum likelihood (REML) Methode in der PROC MIXED Funktion in SAS 6.12 (SAS Inst., Cary, North Carolina, USA) bestimmt.

Zur Überprüfung der Hypothese, dass keine residuale Heterogenität zwischen den Studien mehr besteht, wurde ein likelihood ratio Test durchgeführt, in dem die Wahrscheinlichkeit dieses Modells mit einem Modell, in dem τ² geschätzt wird, verglichen wird. Die entsprechenden Ergebnisse sind entweder in Form von Odds Ratios (OR) oder Verhältnissen von Odds Ratios (ROR = ratio of odds ratios) dargestellt. Eine ROR = 1 bedeutet bei einem dichotomen Qualitätskriterium, dass die beiden OR gleich sind, Werte < 1 bedeuten dass die Studien, die das Kriterium erfüllt haben, weniger positive Ergebnisse (und dementsprechend die „schlechteren“ Studien optimistischere Ergebnisse) haben, und Werte > 1, dass Studien, die das Kriterium erfüllten, positivere Ergebnisse haben.

Ein möglicher Zusammenhang zwischen Studienqualität und –ergebnis wurde auf drei Weisen untersucht:

  1. Prüfung einzelner Qualitätsaspekte (Komponentenanalyse): Für Studien, die ein definiertes Qualitätskriterium (Zuteilung explizit randomisiert, Zuteilung adäquat verblindet, [Seite 50↓]Doppelblindbedingungen, vollständiger Follow-up oder Intent-to-treat-Analyse) erfüllten oder nicht, wurden jeweils gepoolte Effektmaße (univariat und multivariat) berechnet.
  2. Mindestscoreanalyse: Für Studien, die mindestens 3 Punkte beim Jadadscore, 5 Punkte auf der Internal Validity Scale oder beides („bessere Studien“) erreichten bzw. nicht erreichten, wurden gepoolte Effektmaße berechnet.
  3. Kumulative Meta-Analyse: Die Primärstudien wurden konsekutiv entsprechend der erreichten Scorepunktzahl (für beide benutzte Skalen) in die Meta-Analyse einbezogen (d.h. zuerst nur die Studien mit der höchsten Punktzahl, dann nach und nach Studien mit niedrigeren Scorewerten).

3.2.3 Einfluss von Qualitätsmerkmalen auf Therapieerfolgsraten in Studien unterschiedlicher Designs am Beispiel Akupunktur bei chronischen Kopfschmerzen

3.2.3.1 Studienselektion

Eingeschlossen wurden Originalarbeiten, die folgendes Kriterium erfüllten: Behandlung von mindestens 5 Patienten mit idiopathischen oder chronischen Kopfschmerzen (Migräne, episodischer und chronischer Spannungskopfschmerz, Clusterkopfschmerzen, nicht genauer definierte chronische Kopfschmerzen) mit Akupunktur (Nadelinsertion an Akupunktur-, Schmerz- oder Triggerpunkten sowie andere Arten der Stimulation an definierten Akupunkturpunkten) zur Vorbeugung von Kopfschmerzattacken und Messung klinischer Zielparameter (z.B. Häufigkeit oder Intensität der Kopfschmerzen, Besserungsraten etc.). Nicht eingeschlossen wurden Studien zur Behandlung akuter Kopfschmerzattacken sowie Studien, die ausschließlich physiologische Parameter maßen. Studien in chinesischer Sprache konnten aufgrund mangelnder Ressourcen für eine Übersetzung nicht eingeschlossen werden.

3.2.3.2 Literatursuche

Um publizierte und unpublizierte Studien zu identifizieren, wurden Suchen in Medline (1966 bis Dezember 1998, Suchbegriffe: (acupuncture or acupressure or electroacupuncture) and (headache or migraine)), Embase (1989 bis Dezember 1998), dem Cochrane Controlled Trials Register (Ausgabe 1999/1), in individuellen Studiensammlungen und in Literaturverzeichnissen durchgeführt. Alle Referenzen und, soweit verfügbar, die entsprechenden Abstracts, wurden von 2 Reviewern durchgesehen. Kopien aller als potentiell relevant eingestuften Arbeiten wurden besorgt und formal auf die Erfüllung der Einschlusskriterien geprüft.


[Seite 51↓]

3.2.3.3  Extraktion und Beurteilung

Extraktion und Beurteilung erfolgten durch zwei Reviewer für die randomisierten Studien und durch einen für die nichtrandomisierten Studien. Mithilfe eines vorgetesteten Formulars wurden Informationen zur Quelle (bibliographische Angaben, Sprache, Herkunftsland, ob Medline-gelistet oder nicht), zu Patienten (Anzahl, Diagnosen, basale Einschlusskriterien, Kopfschmerzklassifi­kation, Art und Zahl der Prüfzentren, Alter, Geschlecht, Dauer der Erkrankung, Ansprechen auf Vortherapien), zur Akupunktur (Strategie für Punktwahl, Zahl und Häufigkeit der Sitzungen) und zu Zielparametern extrahiert (Dauer des Follow-up, Definition von Therapieerfolg, Anteil Therapieerfolge nach Behandlung und im Follow-up bis und länger als 6 Monate, Zeitpunkt der frühesten Therapieerfolgsbeurteilung). Therapieerfolgsraten für die Meta-Analyse wurden wie folgt berechnet: Anzahl der Patienten mit Therapieerfolg zum frühesten verfügbaren Messzeitpunkt / Anzahl der mit Akupunktur behandelten Patienten einschließlich Abbrechern. Um zu untersuchen, ob nichtrandomisierte Studien relevante Zusatzinformationen erbringen, prüften wir, wieviele Studien a) einen Follow-up von mindestens 6 Monaten nach Therapie hatten, b) Daten zu mindestens 80% der ursprünglich behandelten Patienten berichten konnten, c) systematisch prognostische Faktoren untersuchten, d) Daten zu Nebenwirkungen und Komplikationen berichteten und e) in mehr als zwei Zentren durchgeführt worden waren und die Rekrutierungsstrategie (zur Beurteilung der Representativität der Stichprobe) ausreichend detailliert beschrieben. Zusätzlich wurden anhand einer von White und Ernst (501) vorgeschlagenen Liste geprüft, ob die Akupunkturintervention ausreichend detailliert beschrieben worden war (Ergebnisse publiziert in (284)).

Die Studien wurden entsprechend ihres Designs dann klassifiziert in (explizit) randomisierte Studien und nichtrandomisierte Studien. Die nichtrandomisierten Studien wurden weiter unterteilt in a) nichtrandomisierte kontrollierte Studien, b) prospektive unkontrollierte Studien (d.h. Studien ohne Kontrollgruppe, die offensichtlich nach einem vorher festgelegten Protokoll durchgeführt wurden), c) Fallserien (unkontrollierte Studien ohne Evidenz für das Vorhandensein eines Studienprotokolls) und d) Befragungen bzw. Querschnittsstudien. Die Klassifikation erfolgte zweimal im Abstand von 5 Monaten durch den Autor.

Ziel der Qualitätsbeurteilung war, die Angemessenheit von Beobachtung und Berichterstattung – weitgehend unabhängig vom Studiendesign - zu überprüfen. Ob randomisiert oder nicht sollte eine in diesem Sinne „gute“ Studie dem Arzt, der Kopfschmerzpatienten therapiert, erlauben, sich ein ausreichend detailliertes Bild über die eingeschlossenen Patienten und deren Symptomatik über einen Zeitraum von mindestens 6 Monaten nach Therapie zu machen (unabhängig von der Frage, ob die Intervention die Veränderungen verursacht hat). Hierfür wurde eine ähnliche Kriterienliste wie bei den Übersichtsarbeiten zur Migräneprophylaxe mit Propranolol, Metoprolol und Flunarizin [Seite 52↓]verwendet (siehe 2.2.1.4.). 10 Items wurden abgefragt, die Antwortmöglichkeiten waren jeweils ja, nein und unklar:

  1. Rekrutierung beschrieben? Hier mussten basale Angaben vorliegen, wo die Studie durchgeführt worden war (Zahl und Art der Zentren) und wie die Patienten rekrutiert wurden (Routinepatienten, überwiesene Patienten, durch Zeitungsanzeigen etc.).
  2. Klare Kopfschmerzdiagnose? Es mußte angegeben sein, nach welcher Klassifikation bzw. nach welchen Kriterien die Kopfschmerzdiagnose gestellt worden war.
  3. Patienten ausreichend charakterisiert? Angaben mindestens zu Alter, Geschlecht Erkrankungsdauer und ein Maß zum Schweregrad der Symptomatik.
  4. Mindestens 4 Wochen Baselineperiode?
  5. Mindestens 2 klinisch relevante Zielkriterien?
  6. Verwendung eines Kopfschmerztagebuchs?
  7. Kointerventionen beschrieben? Hier mußte angegeben sein, mit welchen Maßnahmen akute Kopfschmerzattacken behandelt wurden und wie sich dies im Verlauf veränderte.
  8. Mindestens 90% der Patienten mit Daten bei Behandlungsende? Das Kriterium wurde als erfüllt gewertet, wenn bei Behandlungsende von mindestens 90% der Patienten Angaben zu den klinisch relevanten Zielkriterien vorlagen. Eine intent-to-treat-Analyse bei einer Abbruchrate von mehr als 10% wurde hier nicht anerkannt, da hier eine Beurteilung des tatsächlichen Verlaufs bei den Patienten nicht wirklich möglich ist, sondern nur geschätzt wird.
  9. Mindestens 80% der Patienten mit Daten im Kurz-Follow-up (weniger als 6 Monate)?
  10. Mindestens 80% der Patienten mit Daten im Langzeit-Follow-up (mehr als 6 Monate)?

3.2.3.4 Auswertung

Unterschiede zwischen randomisierten und nichtrandomisierten Studien bzgl. Studienmerkmalen und Erfüllung der Qualitätskriterien wurden mithilfe des Chi-quadrat- und des Mann Whitney Tests untersucht (keine Adjustierung für multiples Testen). Therapieerfolgsraten für die Metaanalyse wurden mit einem allgemeinen linearen Regressionsmodell (random effects) berechnet (Funktion GLIMMIX in SAS). Es erfolgten sowohl univariate als auch multivariate Analysen.


[Seite 53↓]

3.3  Ergebnisse

3.3.1 Methodische Qualität randomisierter Studien in den Bereichen Akupunktur, Phytotherapie und Homöopathie

Die eingeschlossenen Studien zu Akupunktur, Phytotherapie und Homöopathie unterschieden sich in verschiedenen Aspekten (siehe Tabelle 5). Akupunkturstudien hatten im allgemeinen besonders geringe Fallzahlen (mediane Fallzahl in Asthmastudien 15 und in Kopfschmerzstudien 33), die Studien zu Echinacea und Hypericum waren fast ausnahmlos in Deutschland durchgeführt und publiziert worden. Abgesehen vom Bereich Akupunktur war weniger als die Hälfte der Studien in englischer Sprache verfügbar und über die Datenbank Medline identifizierbar. In allen drei Therapierichtungen war die große Mehrheit der Studien placebokontrolliert (bzw. Vergleich mit Scheinakupunktur).

Obwohl die Studienqualität stark variierte, ist festzuhalten, dass die Mehrheit der Studien deutliche Qualitätsmängel bzw. Mängel in der Berichterstattung offenbarte (siehe Tabelle 6). Nur ein geringer Teil der Studien beschrieb die Generierung der Randomisierungssequenz, die Verblin­dung der Zuteilung (allocation concealment) sowie die Zahl und die Gründe für Studienabbrüche und Ausschlüsse. Zwischen den drei Therapien gab es zum Teil erhebliche Unterschiede bzgl. der einzelnen Kriterien. So beschrieben Homöopathiestudien seltener die Gruppen­zuteilung als randomisiert, während Probleme mit der Verblindung hier (verständlicherweise angesichts des oft typischen Geschmacks und Geruchs von Pflanzenextrakten sowie der generellen Probleme bzgl. eines Akupunkturplacebos) geringer waren. Phytotherapiestudien (dabei insbesondere die Hypericumstudien) beschrieben öfter Zahl und Gründe für Studienabbrüche und –ausschlüsse in ausreichender Weise. Insgesamt erreichten die Hypericumstudien deutlich höhere Scorewerte bei der Bewertung mit der Jadadskala (Mittelwert 3,56), sodass die Phytotherapiestudien hier insgesamt besser abschnitten als die Studien zu Akupunktur und Homöopathie.


[Seite 54↓]

Tabelle 5: Merkmale der eingeschlossenen Studien

 

Akupunktur

Phytotherapie

Homöopathie

Anzahl

36

42

129

Interventionen

Alle Akupunktur-interventionen

Echinacea

Hypericum

Alle homöopath. Interventionen

Erkrankungen

Asthma

Chron. Kopfschmerzen

Erkältung

Depression

Keine Einschränkung

Fallzahlen (Median, Bereich)

28 (10-150)

100 (28-646)

60 (5-1306)

Art der Kontrollgruppe*

   

- Placebo

29 (81%)

29 (69%)

114 (88%)

- Andere Therapie

9 (25%)

10 (24%)

19 (15%)

- Keine Therapie

2 (11%)

3 ( 7%)

5 ( 4%)

Herkunftsland

   

- USA/Kanada

2 ( 6%)

-

4 ( 3%)

- Großbritannien

8 (22%)

1 ( 2)%

26 (20%)

- Deutschland

8 (22%)

39 (93%)

43 (33%)

- Frankreich

2 ( 6%)

-

33 (26%)

- sonstiges Europa

9 (25%)

2 ( 5%)

17 (13%)

- andere Länder

7 (19%)

-

6 ( 5%)

Verfügbar in englischer Sprache

25 (69%)

12 (29%)

49 (38%)

Gelistet in Medline

25 (69%)

7 (17%)

30 (23%)

*Einige Studien mit mehr als einer Kontrollgruppe


[Seite 55↓]

Tabelle 6: Ergebnisse zur Bewertung der methodischen Qualität. Angegeben sind – wenn nicht anders beschrieben – die jeweilige Anzahl von Studien und in Klammern Prozentwerte

Kriterium (Scorepunkte)

Akupunktur

Phytotherapie

Homöopathie

P-Wert

Jadadscore

    

Randomisation

    

- nicht randomisiert/unklar (0)

4 (11%)

5 (12%)

45 (35%)

 

- als randomisiert beschrieben (1)

29 (81%)

24 (57%)

63 (49%)

 

- zusätzlich Beschreibung der Sequenzgenerierung (2)

3 ( 8%)

13 (31%)

21 (16%)

<0,001

Doppelblindbedingungen

    

- nicht doppelblind/unklar (0)

17 (47%)

7 (17%)

24 (19%)

 

- als doppelblind bezeichnet (1)

8 (22%)

18 (43%)

51 (39%)

 

- zusätzlich glaubwürdig beschrieben (2)

11 (31%)

17 (40%)

54 (42%)

0,006

Studienabbrüche und Ausschlüsse

    

- nicht oder unzureichend beschrieben (0)

22 (61%)

17 (41%)

96 (74%)

 

- adäquat beschrieben (1)

14 (39%)

25 (59%)

33 (26%)

<0,001

Mittelwert (Standardabweichung) Jadadsummenscore

2,19 (1,17)

3,12 (1,33)

2,33 (1,36)

0,002

- Studienmit 0-2 Punkten

22 (61%)

12 (29%)

78 (60%)

 

- Studien mit 3 und mehr Punkten

14 (39%)

30 (71%)

51 (40%)

0,001

- Verblindung der Gruppenzuteilung

    

- inadäquat (z.B. Alternierung)/unklar

31 (88%)

31 (74%)

88 (68%)

 

- möglicherweise inadäquat (z.B. versiegelter Umschlag)

2 ( 6%)

-

-

 

- adäquat (z.B. numerierte, neutrale Med.packungen)

2 ( 6%)

11 (26%)

41 (32%)

0,001

P-Werte aus Χ2-Test


[Seite 56↓]

Eine Publikation in englischer Sprache, in einer Medline-gelisteten Zeitschrift, nach 1990 und eine größere Fallzahl waren – bei der Auswertung über alle drei Therapien - mit signifikant besseren Jadadscores assoziiert (siehe Tabelle 7). Bei der Prüfung in Bezug auf die einzelnen Therapien waren die Unterschiede aufgrund der zum Teil kleinen Studienzahlen in einer bestimmten Kategorie nicht immer signifikant.

Tabelle 7: Adustierte und unadjustierte Jadadscores stratifiziert nach Publikationsart, -zeit, -sprache und Fallzahl (Adjustierung für die jeweils anderen Faktoren mithilfe von linearer Regression).

 

Akupunktur

Phytotherapie

Homöopathie

Allea

 

Mittlerer Jadadscore

Mittlerer Jadadscore

Mittlerer Jadadscore

Mittlerer Jadadscore

 

n

Adjust

Unadj

n

Adjust

Unadj

n

Adjust

Unadj

n

Adjust

Unadj

Publikation in

            

- Medline-gelisteter Zeitschrift

25

2,42

2,40

9

3,98

4,56

30

3,10

3,27

46

2,95

3,04

- andere Quellen

11

1,68

1,73

32

2,88

2,72

99

2,10

2,05

74

2,42

2,36

P-Wert

 

0,115

  

0,030

  

0,000

  

0,031

 

Publikation

            

- vor 1990

24

2,00

2,08

14

2,66

2,21

85b

2,14

2,07

68

2,22

2,21

- 1990 und später

12

2,58

2,42

27

3,63

3,59

42

2,74

2,88

52

3,15

3,17

P-Wert

 

0,176

  

0,084

  

0,009

  

0,000

 

Verfügbar

            

- in Englisch

25

2,33

2,40

12

3,61

4,25

49

2,70

2,84

61

2,88

2,97

- nur in anderer Sprache

11

1,89

1,73

29

2,92

2,66

80

2,11

2,03

59

2,36

2,27

P-Wert

 

0,353

  

0,148

  

0,009

  

0,027

 

Fallzahl

            

< 100

35

Keine

Keine

19

3,13

3,16

91

2,19

2,14

87

2,47

2,48

≥ 100

1

Ana-

Ana-

22

3,11

3,09

38

2,67

2,79

33

3,03

3,00

P-Wert

 

lyse

lyse

 

0,947

  

0,041

  

0,023

 

aUm zu verhindern, dass die überproportional große Zahl Homöopathiestudien das Ergebnis beeinflusst, wurden nur 42 zufällig ausgewählte Homöopathiestudien in die Analysen einbezogen
bZwei unpublizierte Studien ohne Datum
n = Anzahl Studien; Adjust = adjustierte Scores; Unadj = unadjustierte Scores


[Seite 57↓]

Doppelblindbedingungen, adäquate Verblindung der Gruppenzuteilung (allocation concealment) und eine vollständige Beschreibung von Studienabbrüchen und –ausschlüssen waren in neueren Studien signifikant häufiger. Bei den anderen Merkmalen war die Assoziation zwischen einzelnen Merkmalen und einzelnen Qualitätskriterien weniger konsistent (siehe Tabelle 8).

Tabelle 8: Einfluss von Publikationssprache, -quelle und –jahr sowie der Fallzahl auf die Beschreibung von zentralen methodischen Qualitätskriterien. Angegeben sind die Odds Ratios (OR) mit 95%-Konfidenzintervallen (95%KI) für die Studien, bei denen ein Kriterium erfüllt war im Vergleich zu denen, die ein Kriterium nicht erfüllten (eine OR von 1,69 für in englischer Sprache publizierte Studien bzgl. Doppelblindbedingungen bedeutet z.B., dass diese Studien häufiger doppelblind waren als in anderen Sprachen publizierte Studien)

 

Doppelblindbedingungen

Angemessenes Concealment

Beschreibung Abbrecher

Merkmal

OR (95%KI)

p

OR (95%KI)

p

OR (95%KI)

p

Publiziert in Englisch

1,69 (0,64-4,47)

0,290

4,54 (1,47-14,02)

0,009

0,92 (0,40-2,31)

0,921

Medline-gelistete Publikation

0,77 (0,28-2,06)

0,600

0,70 (0,24-2,03)

0,511

3,50 (1,41-8,68)

0,007

Seit 1990 publiziert

3,72 (1,37-10,10)

0,010

2,57 (1,02-6,46)

0,046

3,39 (1,51-7,59)

0,003

Fallzahl ≥ 100

2,09 (0,67-6,26)

0,208

4,64 (1,70-12,65)

0,003

1,32 (0,54-3,31)

0,523

3.3.2 Einfluss von Aspekten der methodischen Qualität auf das Studienergebnis am Beispiel der
placebokontrollierten Studien zur Homöopathie

Im Durchschnitt erhielten die 89 einbezogenen Studien 2,58 (Standardabweichung 1,29) von maximal 5 möglichen Punkten im Jadadscore und 4,20 (1,46) von 7 möglichen bei der Internal Validity Scale. Vierzig Studien (45%) erreichten die als Mindestscore für „bessere“ Studien vorher festgelegten 3 oder mehr Punkte im Jadadscore, 34 Studien (38%) den Mindestscore (5 von 7 Punkten) auf der Internal Validity Scale und 26 (29%) in beiden Skalen. 64 Studien (72%) waren explizit randomisiert, bei 21 (24%) war die genaue Zuteilungsmethode nicht beschrieben und 4 Studien (4%) waren quasi-randomisiert (Alternierung, Zuteilung nach Geburts- oder Aufnahmedatum). 34 Studien (38%) beschrieben eine angemessene Methode zur Verblindung der Gruppenzuteilung (in der Regel Verwendung konsekutiv numerierter, identisch verpackter Prüfpräparate), 50 (56%) machten hierzu keine Angaben und in 5 Studien (6%) war die Gruppenzuteilung nicht angemessen verblindet. 81 Untersuchungen (91%) wurden unter Doppelblindbedingungen durchgeführt, 3 (5%) einfachblind und bei 5 (6%) wurden keine Angaben gemacht. 28 Studien (37%) bezogen alle Patienten in die Analyse ein, in 20 (22%) erschienen relevante Verzerrungen unwahrscheinlich, in 19 (21%) dagegen möglich oder wahrscheinlich und 22 (25%) machten ungenügende Angaben.

Die gepoolte Odds Ratio (OR) über alle 89 Studien war 2,45 (95%-Konfidenzintervall 2,05-2,93). Da die Effektgrößen der Studien ausserordentlich heterogen waren (τ² = 0,43, 95%-KI 0,25-0,90; p [Seite 58↓]= 2,4 x 10-13) werden im folgenden ausschließlich „random effects“ Analysen berichtet. Wenn nur die Studien gepoolt wurden, die explizit randomisiert, mit angemessen verblindeter Zuteilung oder doppelblind waren, ergaben sich ORs von 2,23 (9% Verminderung des Effekts im Vergleich zu dem gepoolten Maß über alle 89 Studien), 2,00 (18% Verminderung) bzw. 2,18 (11% Verminderung; siehe auch Tabelle 9). Dass der Ausschluss von nur 8 nicht doppelblinden Studien zu einer Verminderung der OR um 11% führte, zeigt, dass diese Studien wesentlich größere Effekte berichteten als doppelblinde. Der Ausschluß verminderte ausserdem die Heterogenität deutlich (siehe Tabelle 9, letzte Spalte). Studien mit vollständigem Follow-up bzw. intent-to-treat Analyse berichteten etwas größere Effekte als Studien, bei denen dieses Kriterium nicht erfüllt war. Das Kriterium Doppelblindbedingungen hatte sowohl in der uni- als auch in der multivariaten Analyse den größten Einfluss. Das Verhältnis der ORs (ROR) nicht-doppelblinder vs. doppelblinder Studien war 0,24 (95%-KI 0,12-0,46; p < 0,0001) bzw. 0,26 (95%-KI 0,14-0,51; p = 0,0002). In der multivariaten Analyse erwies sich auch der Einfluß einer explizit randomisierten Zuteilung als signifikant (ROR = 0,64; 95%-KI 0,43-0,94; p = 0,03). Verblindung der Zuteilung und vollständiger Follow-up bzw. intent-to-treat Analyse hatten keinen signifikanten Einfluss. Die multivariate Analyse einzelner Qualitätskomponenten führte im Vergleich zu den anderen Analysen auch zur stärksten Reduzierung der Heterogenität.

Tabelle 9: Auswirkungen von Qualitätsindikatoren auf das Studienergebnis: Analysen einzelner Kriterien (uni- und multivariat) und Mindestscoreanalyse

 

Kriterium erfüllt

Kriterum nicht erfüllt

  
 

n

OR (95%KI)

n

OR (95%KI)

ROR (95%KI)

Heterogenität

Analyse einzelne Kriterien (univariat)

      

Explizit randomisiert

64

2,23 (1,81-2,75)

25

3,40 (2,32-4,97)

0,66 (0,43-1,01)

0,41 (0,23-0,87)

Angemessene Zuteilungsverblindung

34

2,00 (1,50-2,65)

55

2,83 (2,23-3,58)

0,71 (0,49-1,02)

0,39 (0,22-0,87)

Doppelblindbedingungen

81

2,18 (1,83-2,60)

8

9,14 (4,81-17,4)

0,24 (0,12-0,46)

0,31 (0,18-0,71)

Vollständige Analyse

28

3,03 (2,12-4,33)

61

2,29 (1,84-2,86)

1,31 (0,88-2,00)

0,44 (0,26-0,91)

Analyse einzelne Kriterien (multivariat)

     

Explizit randomisiert

 

2,15 (1,78-2,59)

 

3,36 (2,37-4,78)

0,64 (0,43-0,94)

0,28 (0,15-0,69)

Angemessene Zuteilungsverblindung

 

2,11 (1,62-2,74)

 

2,50 (2,00-3,11)

0,84 (0,60-1,18)

 

Doppelblindbedingungen

 

2,08 (1,75-2,47)

 

7,85 (4,10-15,0)

0,26 (0,14-0,51)

 

Vollständige Analyse

 

2,70 (1,97-3,72)

 

2,21 (1,81-2,69)

1,23 (0,85-1,77)

 

Mindestscoreanalyse

      

Jadadscore > 2

40

1,81 (1,41-2,32)

49

3,23 (2,53-4,13)

0,56 (0,40-0,79)

0,34 (0,19-0,78)

Internal Validity Score > 4,5

34

1,97 (1,50-2,59)

55

2,92 (2,29-3,73)

0,67 (0,47-0,97)

0,40 (0,23-0,86)

Beide Kriterien erfüllt

26

1,72 (1,28-2,31)

63

2,95 (2,37-3,67)

0,58 (0,40-0,79)

0,36 (0,20-0,82)

n = Anzahl Studien, OR = Odds ratio, ROR = Ratio der Odds Ratios, 95%KI = 95%-Konfidenzintervall


[Seite 59↓]

Wenn ausschließlich Studien mit 3 oder mehr Punkten im Jadadscore, 5 oder mehr Punkten auf der Internal Validity Scale bzw. mit Erfüllung beider Voraussetzungen in die Meta-Analyse eingingen (Mindestscoreanalyse), ergaben sich ORs von 1,81 (95%-KI 1,41-2,32, 28% Verminderung), 1,95 (95%-KI 1,50-2,59, 22% Verminderung) bzw. 1,72 (1,28-2,31, 30% Verminderung).

Wenn die Studien konsekutiv entsprechend der erreichten Punktzahl auf der Internal Validity Scale in die Meta-Analyse eingingen (kumulative Meta-Analyse), zeigte sich ein Trend zu größeren Effekten, wenn qualitativ „schlechtere“ Studien einbezogen wurden (siehe Tabelle 10, oberer Teil). Bei der entsprechenden Analyse auf Basis des Jadadscores zeigten die besten Studien (5 Scorepunkte) dagegen größere Effekte als Studien mit 3 oder 4 Scorepunkten (Tabelle 10, unterer Teil).

Tabelle 10: Auswirkungen von Qualitätsindikatoren auf das Studienergebnis: Kumulative Meta-Analyse

Scorepunktzahl (Studienzahl)

OR (95%KI) der Studien mit der entsprechenden Scorepunktzahl

Scorepunktzahl

(kumulative Studienzahl)

Kumulative OR (95%KI)

Internal Validity Scale

   

7,0 ( 5)

1,55 (0,77-3,10)

= 7,0 ( 5)

1,55 (0,77-3,10)

6,5 ( 2)

4,61 (0,91-23,4)

≥ 6,5 ( 7)

2,02 (1,06-3,85)

6,0 ( 4)

1,35 (0,74-2,45)

≥ 6,0 (11)

1,67 (1,10-2,54)

5,5 (13)

1,74 (1,38-2,19)

≥ 5,5 (24)

1,71 (1,36-2,15)

5,0 (10)

2,95 (2,00-4,34)

≥ 5,0 (34)

1,89 (1,53-2,35)

4,5 ( 9)

4,33 (1,86-10,1)

≥ 4,5 (43)

2,09 (1,69-2,59)

4,0 (13)

3,16 (2,00-4,98)

≥ 4,0 (56)

2,29 (1,88-2,80)

3,5 ( 9)

2,82 (1,57-5,05)

≥ 3,5 (65)

2,35 (1.94-2,83)

3,0 ( 8)

1,97 (1,14-3,40)

≥ 3,0 (73)

2,29 (1,92-2,74)

2,5 ( 5)

3,91 (0,97-15,8)

≥ 2,5 (78)

2,42 (2,00-2,91)

2,0 ( 9)

2,47 (1,11-5,52)

≥ 2,0 (87)

2,44 (2,02-2,93)

1,0 ( 2)

6,92 (1,53-31,4)

alle (89)

2,47 (2,06-2,97)

Jadadscore

   

5 (10)

2,00 (1,37-2,91)

= 5 (10)

2,00 (1,37-2,91)

4 (11)

1,42 (1,02-1,99)

≥ 4 (21)

1,68 (1,29-2,18)

3 (19)

1,83 (1,44-2,34)

≥ 3 (40)

1,73 (1,44-2,08)

2 (32)

3,24 (2,27-4,63)

≥ 2 (72)

2,26 (1,87-2,73)

1 (15)

3,58 (2,11-6,08)

≥ 1 (87)

2,44 (2,02-2,93)

0 ( 2)

6,92 (1,53-31,4)

alle (89)

2,47 (2,06-2,97)

OR = Odds ratio, 95%KI = 95%-Konfidenzintervall


[Seite 60↓]

Wenn die Odds Ratios und Qualitätsscores der einzelnen Studien in einem Scatterplotdiagramm aufgetragen werden (ohne Abbildung), wird jedoch deutlich, dass kein klarer linearer Zusammenhang zwischen diesen beiden Variablen besteht. D.h. zwischen den Studien mit einer bestimmten Scorepunktzahl streuen die berechneten Effektgrößen in hohem Maße.

3.3.3 Einfluss von Qualitätsmerkmalen auf Therapieerfolgsraten in Studien unterschiedlicher
Designs am Beispiel Akupunktur bei chronischen Kopfschmerzen

Von 97 identifizierten Studien zur Akupunktur bei Kopfschmerzpatienten erfüllten 59 die Einschlusskriterien. Der häufigste Ausschlussgrund war die Vermischung der Daten von Kopfschmerz- und anderen Schmerzpatienten. 24 der eingeschlossenen Studien waren randomisiert und 35 nichtrandomisiert (5 nichtrandomisierte kontrollierte Studien, 10 prospektive unkontrollierte Studien, 10 Fallserien und 10 Befragungen). Die Studien waren sehr heterogen bzgl. Patienten, Akupunktur, Art und Zeitpunkten für die Ergebnismessung. Die Tabellen 11 und 12 fassen wesentliche Informationen zu allen 59 Studien zusammen.

Tabelle 11: Allgemeiner Überblick der eingeschlossenen Studien zur Akupunktur bei chronischen Kopfschmerzen: 1. Randomisierte Studien

 

Art

Kopf-

Qual.-kriterien

Definition

Behandelte

Therapieerfolg (%)

Nach Follow-up

Erstautor

Schmerz

erfüllt

Therapieerfolg

Patienten

Behandl.

< 6 Mon.

≥ 6 Mon.

Randomisierte Studien

      

Ahonen (5)

Spannung

4

> 2 Monate Besserung*

12

k.A.

58

k.A.

Baust (32)

Migräne

4

>50% Index-Reduktion

23

61

k.A.

k.A.

Carlsson (57)

Spannung

5

-

30

k.A.

k.A.

k.A.

Ceccherelli (59)

Migräne

5

>50% Index-Reduktion

15

87

k.A.

k.A.

Doerr-Proske (94)

Migräne

7

-

10

k.A.

k.A.

k.A.

Dowson (95)

Migräne

8

> 50% Häufigkeits-Reduktion

25

32

k.A.

k.A.

Hansen (162)

Spannung

2

> 33% Index-Reduktion

25

28

k.A.

k.A.

Henry (179)

Migräne

5

Globalurteil (Patient)

20

65

k.A.

k.A.

Hesse (181)

Migräne

8

-

42

k.A.

k.A.

k.A.

Heydenreich (184)

Migräne

3

Unklar

20

k.A.

k.A.

80

Heydenreich (183)

Migräne

3

Unklar

50

k.A.

k.A.

80

Johansson (215)

Spannung

0

-

17

k.A.

k.A.

k.A.

Kubiena (252)

Migräne

4

> 33% Index-Reduktion

15

75

k.A.

k.A.

Lehmann (272)

Migräne

3

-

21

k.A.

k.A.

k.A.

Lenhard (275)

Migräne

7

> 33% Häufigkeits-Reduktion

16

k.A.

56

k.A.

Loh (292)

verschied.

3

Globalurteil (Patient)

23

35

k.A.

k.A.

Okazaki (348)

Migräne

1

Unklar

20

75

k.A.

k.A.

Pintov (368)

Migräne

7

-

11

k.A.

k.A.

k.A.

Tavola (447)

Spannung

10

> 50% Index-Reduktion

15

53

k.A.

40

Vincent (478)

Migräne

9

> 33% Häufigkeits-Reduktion

16

47

k.A.

k.A.

Vincent (479)

Spannung

9

> 50% Index-Reduktion

14

64

43

k.A.

Weinschütz (494)

Migräne

5

stat. Einzelfallanalyse

20

50

65

k.A.

Weinschütz (495)

Migräne

5

stat. Einzelfallanalyse

20

45

75

k.A.

White (500)

Spannung

5

-

5

k.A.

k.A.

k.A.

k.A. = keine Angabe; *Operationalisierung unklar


[Seite 61↓]

Tabelle 12: Allgemeiner Überblick der eingeschlossenen Studien zur Akupunktur bei chronischen Kopfschmerzen: Nichtrandomisierte Studien

 

Art

Kopf-

Qual.-kriterien

Definition

Behandelte

Therapieerfolg (%)

Nach Follow-up

Erstautor

Schmerz

Erfüllt

Therapieerfolg

Patienten

Behandl.

< 6 Mon.

≥ 6 Mon.

Nichtrandomisierte kontrollierte Studien

    

Jensen (209)

unklar

8

unklar

32

79

k.A.

k.A.

Guccione (158)

Migräne

1

-

24

k.A.

k.A.

k.A.

Sold-Darseff (416)

Migräne

1

unklar

30

93

k.A.

k.A.

Turk (463)

Migräne

1

unklar

100

86

k.A.

k.A.

Zibin (529)

Migräne

0

unklar

340

99

k.A.

k.A.

Unkontrollierte prospektive Studien

    

Baischer (24)

Migräne

10

> 33% Index-Reduktion

31

70

k.A.

58

Boivie (42)

Migräne

10

Unklar

30

k.A.

56

56

Jensen (208)

Spannung

6

Unklar

21

67

57

k.A.

Jensen (210)

Spannung

5

Unklar

16

63

k.A.

k.A.

Ceccherelli (61)

verschied.

4

> 50% Index-Reduktion

12

100

k.A.

k.A.

Ceccherelli (60)

verschied.

6

> 40% Index-Reduktion

92

76

k.A.

k.A.

Kim (236)

Migräne

3

Besserung*

25

k.A.

80

k.A.

Major (305)

Migräne

8

> 50% Häufigkeits-Reduktion

33

57

k.A.

k.A.

Tolksdorf (462)

verschied.

5

> 50% Index-Reduktion

70

59

k.A.

38

Zwölfer (532)

Spannung

3

Globalurteil (Patient)

20

80

k.A.

k.A.

Fallserien

       

Batra (31)

Migräne

3

> 50% Besserung*

20

k.A.

65

k.A.

Cheng (68)

verschied.

2

Keinerlei Kopfschmerz

33

91

k.A.

k.A.

Fischer (133)

unklar

2

> 50% Symptom-Reduktion*

189

75

k.A.

k.A.

Heydenreich (183)

Migräne

0

> 50% Besserung *

320

k.A.

k.A.

88

Heydenreich (182)

Migräne

3

> 50% Besserung *

296

k.A.

k.A.

76

Laitinen (260)

Migräne

5

Besserung*

39

92

k.A.

46

Lawrence (267)

verschied.

1

Besserung*

96

92

k.A.

k.A.

Spoerel (429)

verschied.

2

Häufigkeits- und Intens.red.*

38

k.A.

84

k.A.

Stux (444)

Migräne

0

Unklar

50

88

k.A.

k.A.

Yamauchi (525)

verschied.

2

Unklar

7

71

k.A.

k.A.

Befragungen

       

Carlsson (56)

verschied.

4

Globalurteil (Patient)

79

57

k.A.

23

Chen (67)

unklar

1

Globalurteil (Patient)

44

k.A.

k.A.

68

Haug (171)

unklar

1

Globalurteil (Patient)

49

k.A.

k.A.

84

Junilla (223)

unklar

2

> 30% Symptom-Reduktion*

115

k.A.

k.A.

77

Junilla (224)

verschied.

2

Globalurteil (Patient)

69

81

k.A.

k.A.

Kubiena (251)

Migräne

1

Globalurteil (Patient)

118

k.A.

62

k.A.

Maxion (311)

Migräne

1

Globalurteil (Patient)

13

15

k.A.

k.A.

McKibbin (315)

verschied.

4

-

107

k.A.

k.A.

k.A.

Pöntinen (377)

Migräne

2

Globalurteil (Patient)

107

k.A.

k.A.

57

Shifman (408)

verschied.

0

Globalurteil (Patient)

33

58

k.A.

k.A.

k.A. = keine Angabe; *Operationalisierung unklar


[Seite 62↓]

Randomisierte Studien hatten signifikant kleinere Fallzahlen als nichtrandomisierte (siehe Tabelle 13). Insgesamt wurden in den randomisierten Studien 535 Patienten mit Akupunktur behandelt, in den nichtrandomisierten 2695. In den randomisierten Studien war die Diagnose häufiger explizit Migräne; außerdem wurden die Untersuchungen etwas häufiger in spezialisierten Zentren durchgeführt. Alter, Geschlecht und Erkrankungsdauer waren dagegen sehr ähnlich. Nur 14 Studien (7 randomisierte und 7 nichtrandomisierte) machten Aussagen darüber, wie die Patienten auf frühere Versuche zur Kopfschmerzprophylaxe angesprochen hatten: in jeweils 4 Studien hatten sich die Vortherapien als unwirksam erwiesen. Die Akupunktursitzungen dauerten in den nichtrandomisierten Studien signifikant länger, während die Sitzungszahl ähnlich war. In den randomisierten Studien war die Wahl der Akupunktur ähnlich oft individualisiert oder weitgehend individualisiert wie in den nichtrandomisierten Studien.

Tabelle 13: Vergleich von randomisierten und nichtrandomisierten Studien zur Akupunktur bei chronischen Kopfschmerzen: Merkmale von Patienten und Interventionen

 

Randomisiert

(n = 24)

Nichtrandomisiert

(n = 35)

p-Wert

Patientenmerkmale

   

Patienten behandelt mit Akupunktur (Median, Bereich)

20 (5-100)

39 (7-340)

<0,001

Diagnose

   

- Migräne

16 (67%)

16 (46%)

 

- Spannungskopfschmerz

7 (29%)

3 ( 8%)

 

- verschiedene/unklar

1 ( 4%)

16 (46%)

0,002

Durchschnittsalter (Median, Bereich)

40 (32-46; mi: 7)

40 (22-53, mi: 19)

0,515

%-Anteil Frauen (Median, Bereich)

80 (57-100, mi: 3)

78 (33-100, mi: 10)

0,667

Erkrankungsdauer > 5 Jahre

18 (94%, mi: 6)

18 (100%, mi: 17)

0,866

Setting

mi: 5

mi: 6

 

- Schmerzambulanzen u.ä.

17 (89%)

20 (69%)

 

- Praxen

2 (11%)

9 (31%)

0,161

Interventionsmerkmale

   

Anzahl Akupunktursitzungen (Median; Bereich)

8 (4-14; mi: 3)

10 (1-30; mi: 11)

0,731

Sitzungsdauer in Minuten (Median; Bereich)

15 (1-30; mi: 7)

22.5 (10-45; mi: 10)

0,001

Individualisierte Intervention

9 (43%, mi: 3)

14 (48%, mi: 6)

0,631

mi = missing (Anzahl der Studien ohne Angaben)

In den randomisierten Studien waren die Kriterien für die Angemessenheit von Beobachtung und Berichterstattung im Durchschnitt deutlich häufiger erfüllt wie in den nichtrandomisierten Studien (siehe Tabelle 14). Die Anzahl der erfüllten Kriterien lag jedoch für beide Studiengruppen zwischen 0 und 10, was deutlich macht, dass jeweils indiskutabel berichtete sowie hochwertige [Seite 63↓]Untersuchungen vorlagen. 10 der 24 randomisierten und 26 der 35 nichtrandomisierten Studien erfüllten weniger als 5 Kriterien. Randomisierte Studien machten signifikant häufiger klare Angaben zur Kopfschmerzdiagnose, hatten häufiger eine vierwöchige Baselinephase, mindestens zwei klinisch relevante Zielkriterien und benutzten signifikant häufiger Kopfschmerztagebücher zur Beurteilung. Rekrutierung und Kointerventionen (Behandlung der akuten Kopfschmerzen) wurden unabhängig vom Studientyp fast nie befriedigend beschrieben. Die Follow-up-Perioden waren häufig kurz oder die Zahl der Patienten mit fehlenden Informationen hoch.

Insgesamt 50 Studien präsentierten Angaben zum Therapieerfolg zumindest zu einem der drei vordefinierten Zeitperioden (nach Behandlung, Follow-up bis und über 6 Monate). Randomisierte Studien machten häufiger Angaben darüber, wie der Therapieerfolg definiert war. Die Definitionen waren in vielen Fällen jedoch unterschiedlich. Die gepoolte Therapieerfolgsrate war 59% (95%-Konfidenzintervall 48-69%) in den randomisierten und 78% (72-83%, p < 0,001) in den nichtrandomisierten Studien.

Tabelle 14: Vergleich von randomisierten und nichtrandomisierten Studien zur Akupunktur bei chronischen Kopfschmerzen: Angemessenheit von Beobachtung und Berichterstattung, Zielkriterien und Therapieerfolgsraten

Studiendesign

(n)

Randomisiert

(24)

Nichtrandomisiert

(35)

p-Wert

Angemessenheit von Beobachtung und Berichterstattung

  

Rekrutierung beschrieben

8 (33%)

9 (26%)

0,559

Klare Kopfschmerzdiagnose

16 (67%)

8 (23%)

0,001

Patienten ausreichend charakterisiert

17 (71%)

17 (49%)

0,112

Mindestens 4 Wochen Baseline

15 (63%)

5 (14%)

<0,001

Kointerventionen beschrieben

7 (29%)

10 (29%)

1,000

Mindestens 2 klinisch relevante Zielkriterien

20 (83%)

18 (51%)

0,014

Verwendung von Kopfschmerztagebüchern

18 (75%)

8 (23%)

<0,001

≥ 90% der Patienten mit Daten nach Behandlung

11 (46%)

19 (54%)

0,601

≥ 80% der Patienten mit Daten im Follow-up < 6 Mon.

6 (25%)

10 (29%)

1,000

≥ 80% der Patienten mit Daten im Follow-up ≥ 6 Mon.

2 ( 8%)

6 (17%)

0,453

Mediane Zahl (Bereich) erfüllter Kriterien

5 (0-10)

2 (0-10)

0,008

Mindestens 5 Kriterien erfüllt

14 (58%)

9 (26%)

0,016

Subjektive Qualitätsbeurteilung “schlecht”

6 (25%)

29 (83%)

<0,001

Zielkriterien

   

Angaben zum Therapieerfolg verfügbar

16 (67%)

33 (94%)

0,024

Angaben zum Therapieerfolg bis 3 Mon. nach Beh.

16 (89%)

21 (64%)

0,634

≥ 80% der Patienten mit Daten bei Erfolgsbestimmung

10 (56%)

21 (64%)

0,765

Therapieerfolgsrate (95%-Konfidenzintervall)

0,59 (0,48-0,69)

0,78 (0,72-0,83)

<0,001


[Seite 64↓]

10 (42%) randomisierte und 14 (40%) nichtrandomisierte Studien präsentierten Daten zu Follow-up-Perioden von mindestens 6 Monaten (siehe Tabelle 15). Jedoch in nur 2 (8%) der randomisierten und 6 (17%) der nichtrandomisierten Studien lagen zu diesen Zeitpunkten auch von mehr als 80% der behandelten Patienten Daten vor. In all diesen Studien war bei einem relevanten Anteil der Patienten die nach der Akupunktur beobachtete Verbesserung stabil geblieben. Nur 2 randomisierte (8%) bzw. 3 nichtrandomisierte (9%) Studien enthielten Analysen des Einflusses prognostischer Faktoren auf den Therapieerfolg, jedoch können die Ergebnisse aufgrund der kleinen Fallzahlen und der explorativen Analyseansätze bestenfalls hypothesengenerierenden Charakter haben. Alle 59 Studien waren unizentrisch; die Generalisierbarkeit ist aufgrund der schlechten Beschreibung der Rekrutierungsstrategien unklar, erscheint jedoch gering. Ergebnisse zu Nebenwirkungen und Komplikationen schließlich wurden nur in 4 randomisierten (17%) bzw. einer nichtrandomisierten (3%) Studie präsentiert.

Tabelle 15: Vergleich von randomisierten und nichtrandomisierten Studien zur Akupunktur bei chronischen Kopfschmerzen: Information zu Langzeitergebnissen, prognostischen Faktoren, Generalisierbarkeit und Nebenwirkungen bzw. Komplikationen

Studiendesign

(n)

Randomisierte

(24)

Nichtrandomisierte

(35)

p-Wert

    

Follow-up nach Behandlung mindestens 6 Monate

10 (42%)

14 (40%)

1,000

Ergebnisdaten zu mind. 80% der Patienten

6 Monate nach Behandlung

2 ( 8%)

6 (17%)

0,453

Analyse prognostischer Faktoren

2 ( 8%)

3 ( 9%)

1,000

Mind. 3 Studienzentren + transparente Rekrutierung

-

-

 

Daten zu Nebenwirkungen und Komplikationen

4 (17%)

1 ( 3%)

0,148

In den univariaten Analysen hatten Diagnose, Geschlecht, Alter, Zahl und Dauer der Behandlungssitzungen, Art der Therapieerfolgsdefinition, Zeitpunkt der Erfolgsbestimmung und die Vollständigkeit der Daten bei der Analyse keinen signifikanten Einfluß auf die beobachteten Therapieerfolgsraten (Tabelle 16). Dagegen hatten Studien, die ihre Rekrutierungsstrategie beschrieben, klare Kopfschmerzdiagnosen referierten, mindestens 4 Wochen Baseline schrieben und Kopfschmerztagebücher benutzten, signifikant niedrigere Erfolgsraten. Abbildung 12 zeigt, dass sowohl ein Randomisationsdesign als auch eine höhere Anzahl erfüllter Kriterien bzgl. Angemessenheit von Beobachtung und Berichterstattung mit niedrigeren Erfolgsraten assoziiert waren. Wir waren nicht in der Lage, ein, adäquates Modell für die multiple Regressionsanalyse zu definieren. Außer dem Faktor Design (randomisiert oder nicht) hatten einzelne andere Faktoren kaum konsistente Effekte.


[Seite 65↓]

Tabelle 16: Gepoolte Therapieerfolgsraten (random effects model) in allen Studien (randomisiert und nichtrandomisiert), die ein bestimmtes Kriterium nicht erfüllen bzw. erfüllen (univariate logistische Regression)

Kriterium

Therapieerfolgsrate (95%-Konfidenzintervall)

Kriterium nicht erfüllt vs. Kriterium erfüllt

p-Wert

Patientenmerkmale

 

 

Nur Migränepatienten

0,72 (0,63-0,79) vs. 0,73 (0,65-0,81)

0,7543

Interventionsmerkmale

  

10 Behandlungssitzungen à mindestens 15 Minuten

0,76 (0,63-0,86) vs. 0,69 (0,60-0,78)

0,3414

Angemessenheit von Beobachtung und Berichterstattung

 

Rekrutierung beschrieben

0,76 (0,71-0,82) vs. 0,62 (0,50-0,72)

0,0138

Klare Kopfschmerzdiagnose

0,78 (0,72-0,83) vs. 0,62 (0,52-0,72)

0,0037

Patienten charakterisiert

0,78 (0,70-0,84) vs. 0,68 (0,60-0,75)

0,0581

Mindestens 4 Wochen Baseline

0,77 (0,72-0,82) vs. 0,61 (0,49-0,72)

0,0099

Kointerventionen beschrieben

0,74 (0,67-0,80) vs. 0,69 (0,57-0,79)

0,4695

Mindestens 2 klinisch relevante Zielkriterien

0,77 (0,68-0,83) vs. 0,70 (0,62-0,77)

0,2256

Verwendung eines Kopfschmerztagebuchs

0,78 (0,73-0,83) vs. 0,61 (0,51-0,70)

0,0015

≥ 90% der Patienten mit Daten nach Behandlung

0,75 (0,68-0,82) vs. 0,69 (0,60-0,77)

0,2208

≥ 80% der Patienten mit Daten im Follow-up < 6 Mon.

0,75 (0,68-0,80) vs. 0,66 (0,54-0,77)

0,1735

≥ 80% der Patienten mit Daten im Follow-up ≥ 6 Mon.

0,73 (0,66-0,79) vs. 0,72 (0,58-0,82)

0,8816

Mindestens 5 Kriterien erfüllt

0,77 (0,71-0,82) vs. 0,63 (0,53-0,73)

0,0186

Merkmale der Zielkriterien

 

 

Erfolgsdefinition ≥ 50% Reduktion

0,74 (0,68-0,80) vs. 0,70 (0,57-0,80)

0,4966

Erfolgsbestimmung < 3 Monate nach Therapieende

0,71 (0,64-0,77) vs. 0,79 (0,66-0,88)

0,2383

≥ 80% der Patienten mit Daten bei Erfolgsbestimmung

0,75 (0,66-0,82) vs. 0,71 (0,63-0,78)

0,4425


[Seite 66↓]

Abbildung 3.1: Therapieerfolgsraten (in % mit 95%-Konfidenzintervallen) in randomisierten und nichtrandomisierten Studien zur Akupunktur bei chronischen Kopfschmerzen in Abhängigkeit von der Zahl erfüllter Kriterien in Bezug auf Angemessenheit der Beobachtung und Berichterstattung

3.4 Diskussion

3.4.1 Methodische Qualität randomisierter Studien in den Bereichen Akupunktur, Phytotherapie und Homöopathie

Die Ergebnisse in Abschnitt 3.3.1. zeigen, dass (1) viele randomisierte Studien in den Bereichen Phytotherapie, Homöopathie und Akupunktur relevante methodische Schwächen haben, dass (2) Studiencharakteristika wie Fallzahl und die spezifischen methodischen Probleme sich zwischen den Bereichen zum Teil deutlich unterscheiden und dass (3) Zeit, Ort und Sprache der Publikation sowie in geringerem Maße auch die Fallzahl in den vorliegenden Studien mit der methodischen Qualität assoziiert sind.

Bei der Interpretation der Daten muß berücksichtigt werden, dass in den Bereichen Akupunktur und Phytotherapie keine zufällige Stichprobe von Studien gezogen wurde, sondern alle Studien zu zwei Fragestellungen herangezogen wurden. Vor allem bei der Phytotherapie ist davon auszugehen, dass die Ergebnisse zu Hypericum und Echinacea nicht ohne weiteres auf andere Bereiche zu übertragen sind, da unterschiedliche Hersteller unterschiedlich forschungsaktiv bzw. erfahren sind und die Probleme (z.B. bzgl. der Verblindung) bei einzelnen Pflanzenextrakten erheblich variieren. Bei der Akupunktur erscheint nach der Erfahrung des Autors wahrscheinlicher, dass die beobachteten Probleme auch für die meisten anderen Indikationen zutreffen. Bzgl. der Homöopathie ist die Situation anders, da hier alle Studien bis 1996 berücksichtigt wurden.


[Seite 67↓]

Die Verwendung von Scores zur „Quantifizierung“ der methodischen Qualität ist in der Fachliteratur umstritten. Während sie von manchen Autoren für die pragmatische Gesamtbeurteilung als sinnvoll angesehen werden (329;352;469), halten andere sie für „sinnlos“ und „potentiell irreführend“ und empfehlen ausschließlich einzelne Qualitätsaspekte separat zu beurteilen (152;225). Die in 3.3.1. präsentierten Analysen nutzen daher beide Vorgehensweisen. Unabhängig davon, ob nun Scores oder Einzelkriterien beurteilt werden, bleibt als Hauptproblem, dass alle formalisierten Qualitätsbeurteilungsmethoden ungenau sind und primär Beurteilungen der Publikationsqualität anstelle der Studienqualität sind. Einzelne Worte (z.B. die Erwähnung, dass die Verblindung der Gruppenzuteilung mithilfe von konsekutiv numerierten Medikationsbehältern erfolgte) entscheiden darüber, ob eine Studie „gut“ oder „schlecht“ ist. Eine bessere Berichterstattung erfolgt häufiger bei besseren Studien, im Einzelfall kann aber eine formalisierte Qualitätsbeurteilung völlig irreführend sein.

Die häufig unbefriedigende Qualität der randomisierten Studien zu Homöopathie, Akupunktur und Phytotherapie wurde bereits in zahlreichen systematischen Übersichtsarbeiten bemängelt (siehe Kapitel 4). Die Unterschiede zwischen den Therapien bzgl. einzelner Qualitätskriterien verdeutlichen, dass klinische Studien zu verschiedenen komplementärmedizinischen Verfahren durchaus mit unterschiedlichen Schwierigkeiten konfrontiert sind. Verblindungsprobleme liegen v.a. bei der Akupunktur auf der Hand. In Arzneimittelstudien ist es auch einfacher, ein angemessenes Concealment zu gewährleisten. Die einfachste Methode in Studien zu nichtmedikamentösen Interventionen – ein Zettel mit der Zuteilung in einem verschlossenen Umschlag, der nach Aufnahme des Patienten in die Studie geöffnet wird – gilt als nicht absolut sicher. Andere beobachtete Unterschiede sind weniger leicht zu erklären, z.B. warum Homöopathiestudien weniger oft explizit randomisiert sind und Abbrüche und Ausschlüsse weniger gut beschreiben. Das fast vollkommene Fehlen von intent-to-treat Analysen bei praktisch allen älteren, aber auch bei vielen neueren Studien scheint – ähnlich wie bei den Studien zur Migräneprophylaxe mit Propranolol, Metoprolol und Flunarizin (siehe Kapitel 2) – ein bereichsübergreifendes Problem zu sein.

Ursprünglich war geplant gewesen, die Qualitätsbewertungen der eingeschlossenen Studien mit denen zweier ähnlicher Analysen von Moher et al. aus den Jahren 1996 und 1998 zu „schulmedizinischen“ Interventionen zu vergleichen (328;331). Für die Studie von 1996 wurden 229 zwischen 1989 und 1994 publizierte randomisierte Studien aus 7 führenden englischsprachigen Zeitschriften und 6 anderssprachigen Zeitschriften mit dem Ziel ausgewertet, Zusammenhänge zwischen Qualität und Sprache zu untersuchen. Für die Studie von 1998 benutzten Moher et al. 127 randomisierte Studien aus 11 Meta-Analysen zu verschiedenen Fragestellungen, um den Einfluss der Studienqualität auf die Ergebnisse zu untersuchen. Alle Studien wurden mithilfe des Jadadscores bewertet; zusätzlich wurde die Angemessenheit der [Seite 68↓]Verblindung der Gruppenzuteilung (allocation concealment) beurteilt. Der Autor dieser Schrift bewertete in der 1996er-Analyse die Studien aus der Deutschen medizinischen Wochenschrift. Die Verwendung des Jadadscores erfolgte nach identischen Instruktionen. Leider war es nicht möglich, Daten zu den Charakteristika aller von Moher et al. einbezogenen Studien zu bekommen. Dementsprechend kann ein Vergleich nur aufgrund der publizierten Ergebnisse erfolgen. Die mittleren Jadadscores der komplementärmedizinischen und „schulmedizinischen“ Studien waren sehr ähnlich (2,55 und 2,74 bei Moher et al. im Vergleich zu 2,61 bei den komplementärmedizinischen Studien). Die komplementärmedizinischen Studien waren öfter doppelblind, berichteten öfter eine angemessene Methode zur Verblindung der Gruppenzuteilung, beschrieben aber Abbrüche und Ausschlüsse weniger ausführlich. Ohne genauere Kenntnis der „schulmedizinischen“ Interventionen sind diese Daten schwer zu interpretieren. Sie suggerieren jedoch, dass - zumindest in Bezug auf die erfaßten Kriterien - komplementärmedizinische Studien nicht schlechter sind als viele „schulmedizinische.“

Zusammenfassend ist festzustellen, dass es in den Studien zu Akupunktur, Phytotherapie und Homöopathie erheblichen Verbesserungsbedarf gibt. Die vorliegenden Ergebnisse sprechen dafür, dass insbesondere die Beschreibung von Studienabbrüchen und –ausschlüssen sowie deren Berücksichtigung in der statistischen Auswertung unbefriedigend ist. Bei der Publikation von Studien sollten die Autoren – wie auch im Fall der Migräneprophylaxe mit Medikamenten – unbedingt die CONSORT-Leilinien befolgen (34;333).

3.4.2 Einfluss von Aspekten der methodischen Qualität auf das Studienergebnis am Beispiel der placebokontrollierten Studien zur Homöopathie

Die Untersuchungen zum Einfluss der methodischen Qualität auf das Ergebnis machen deutlich, dass placebokontrollierte Studien zur Homöopathie, die definierte Qualitätskriterien erfüllen, im Mittel geringere Effekte zeigen als Studien, die diese Kriterien nicht erfüllen. Die plausibelste Erklärung hierfür ist, dass in qualitativ weniger hochwertigen Studien mehr Verzerrung (Bias) vorhanden ist und die Wirksamkeit häufig überschätzt wird.

Unsere Ergebnisse sind grundsätzlich ähnlich wie die entsprechender Untersuchungen an „schulmedizinischen“ Studien. Der Einfluß der einzelnen Qualitätsaspekte variiert jedoch zum Teil erheblich. In den 250 von Schulz et al. (406) analysierten Studien aus 33 systematischen Übersichtsarbeiten aus der Cochrane Pregnancy and Childbirth Datenbank erwies sich die Verblindung der Randomisation als stärkster Einflussfaktor (d.h. Studien, die dieses Kriterium erfüllten, hatten deutlich pessimistischere Ergebnisse). Auch der Einfluß von Doppelblindbedingungen war signifikant, eine explizit randomisierte Zuteilung hatte jedoch keinen Einfluss. Wie in unserer Analyse hatten Studien mit vollständigem Follow-up tendenziell [Seite 69↓]optimistischere Ergebnisse als Studien, bei denen dies nicht der Fall war. Moher et al. (331) analysierten, wie im vorgehenden Abschnitt beschrieben, 127 Studien aus 11 Meta-Analysen zu verschiedenen Interventionen. Die Ergebnisse waren ähnlich wie die von Schulz et al. bezüglich Verblindung der Zuteilung, doppelblinde Studien zeigten jedoch nicht signifikant pessimistischere Resultate. Bei den vorliegenden Studien zur Homöopathie erwiesen sich Doppelblindbedingungen als wichtigster Faktor. Eine mögliche Erklärung hierfür wäre, dass Studien zur Homöopathie häufig bei Studien mit leichteren oder chronischen Erkrankungen durchgeführt werden, bei denen die Beurteilung meist anhand „weicher“ subjektiver Parameter erfolgt, die unter „offenen“ Prüfbedingungen leicht verfälscht werden können.

Die klaren Hinweise auf das Vorliegen von Verzerrungen schwächen die Aussagekraft der Ergebnisse der von uns durchgeführten Meta-Analyse zur Homöopathie (278). Wir stellten unsere Daten außerdem für eine unabhängige Re-Analyse zur Verfügung, bei der der Regressions-Test auf Small Study Bias von Egger et al. zum Einsatz kam (440). Auch diese Untersuchungen deuten darauf hin, dass bessere Studien weniger optimistische Ergebnisse zeigen. Die Ergebnisse von Egger et al. geben auch eine mögliche Erklärung, wie ein so deutlicher Effekt in einer Meta-Analyse auftreten kann, obwohl in Wirklichkeit kein Effekt über Placebo hinaus vorhanden ist. Allerdings weisen die Autoren darauf hin, dass dies kein Beweis dafür ist, dass die positiven Ergebnisse tatsächlich alle durch Bias zustandekamen. Man kann jedoch mit an Sicherheit grenzender Wahrscheinlichkeit davon ausgehen, dass die in unserer Meta-Analyse berechnete Effektgröße zu optimistisch ist und den wahren Effekt über Placebo überschätzt.

In unseren Analysen führte die Anwendung der vordefinierten Schwellenscores, um „bessere“ und „schlechtere“ Studien durch die beiden Qualitätsskalen zu trennen, zu konservativeren Effektschätzern als die Anwendung einzelner Qualitätskriterien. Auch die kumulativen Meta-Analysen deuten darauf hin, dass in unserem speziellen Fall die Qualitätsscores sensible Instrumente waren. Ein eindeutiger linearer Zusammenhang zwischen den Scorewerten und den Ergebnissen existiert jedoch nicht. Hierfür gibt es verschiedene Erklärungen: 1) Sollte die Ausgangshypothese der Meta-Analyse, „alle homöopathischen Interventionen sind Placebos,“ falsch sein, muss unsere Studiensammlung als extrem heterogen angesehen werden, da nicht zu erwarten ist, dass alle homöopathischen Interventionen bei verschiedensten Indikationen immer gleich wirksam sind. Bei einer solchen Heterogenität wäre zu erwarten, dass eine leichte bis mittlere Korrelation im „Rauschen“ nicht mehr zu identifizieren ist. 2) Eine zweite Erklärung wäre, dass die Zusammenhänge zwischen Qualität und Ergebnis eher gering sind. 3) Schließlich ist es möglich, dass die verwendeten Qualitätsscores nicht dazu geeignet sind, einen tatsächlich bestehenden Zusammenhang zu erfassen. In einer Gruppe von 7 Meta-Analysen konnten Emerson et al. ebenfalls keinen klaren Zusammenhang zwischen Qualitätsscores und Ergebnissen feststellen (103). Dies spräche für die Erklärungen 2) oder 3).


[Seite 70↓]

Wie bereits erwähnt, ist die Verwendung von Scores zur Beurteilung der Studienqualität unter Methodikern umstritten. Stattdessen wird empfohlen, den Einfluß einzelner Qualitätsaspekte auf das Ergebnis zu prüfen (152). Diese Empfehlung ist grundsätzlich einleuchtend. Unsere Ergebnisse deuten darauf hin, dass Analysen mit Qualitätsscores zu ähnlichen Ergebnissen wie Analysen mit einzelnen Qualitätssaspekten kommen können. Aufgrund ihrer größeren Transparenz und dem konzeptionell logischeren Ansatz erscheinen uns jedoch multivariate Meta-Regressions-Analysen einzelner Qualitätsaspekte als Methode der ersten Wahl.

Einschränkend ist anzumerken, dass in Meta-Analysen im Schnitt nur etwa 10 (439) und dann häufig auch noch heterogene Primärstudien eingehen. In diesen häufigen Fällen ist jedwede empirische Analyse zum Einfluß der Qualität auf die Studienergebnisse schwierig und von begrenzter Aussagekraft. Außerdem wurde bereits darauf hingewiesen, dass formale Qualitätsbeurteilungen – ob sie nun mit Scores oder über Einzelaspekte erfolgen – in aller Regel äusserst grob sind.

Angesichts der eindeutigen Indizien für einen Zusammenhang zwischen Studienqualität und Ergebnissen einerseits und den noch nicht ausgereiften Methoden v.a. zur Qualitätsbeurteilung andererseits besteht ein dringender Bedarf an weiterer empirisch-methodischer Forschung. In der momentanen Situtation erscheint es sinnvoll, sowohl Scores wie auch Einzelkriterien bei der Untersuchung auf Zusammenhänge von Qualität und Ergebnis zu verwenden. Alle Interpretationen müssen aber mit der notwendigen Zurückhaltung erfolgen.

3.4.3 Einfluss von Qualitätsmerkmalen auf Therapieerfolgsraten in Studien unterschiedlicher
Designs am Beispiel Akupunktur bei chronischen Kopfschmerzen

Die in 3.3.3. präsentierten Ergebnisse zeigen, dass im untersuchten Beispiel Akupunktur bei chronischen Kopfschmerzen 1) deutliche Unterschiede zwischen randomisierten und nichtrandomisierten Studien in Bezug auf Patientenmerkmale, Akupunkturbehandlungen und Therapieerfolgsraten bestehen; 2) randomisierte Studien im Schnitt mehr Kriterien zur Angemessenheit der Beobachtung und Berichterstattung erfüllen als nichtrandomisierte Studien, dass aber ein relevanter Teil der randomisierten Studien sehr wenige Kriterien erfüllt und einige prospektiv-unkontrollierte Studien gute Qualität haben; 3) die verfügbaren nichtrandomisierten Studien nur sehr wenig Zusatzinformationen bzgl. prognostischer Faktoren, Langzeiterfolg, Nebenwirkungen und Generalisierbarkeit erbringen; und 4) ein besseres Studiendesign (randomisiert vs. nichtrandomisiert) und bessere Beobachtung und Berichterstattung (unabhängig vom Design) mit geringeren Therapieerfolgsraten assoziiert sind.

Bei der Interpretation der Daten sind wiederum einige Probleme zu beachten. Während die randomisierten Studien von mindestens zwei Reviewern bewertet wurden, erfolgte dies für die [Seite 71↓]nichtrandomisierten Studien nur durch den Autor, allerdings zweimal im Abstand von mehreren Monaten. Daher kann nicht sicher ausgeschlossen werden, dass bei einzelnen Studien Extraktionsfehler gemacht wurden. Die Kriterienliste zur Beurteilung der Angemessenheit von Beobachtung und Berichterstattung ist nicht formal validiert. Sie kann daher lediglich als Versuch angesehen werden, die Bewertung von Qualitätsaspekten jenseits gängiger methodischer Kriterien zu standardisieren. Außerdem erfolgten multiple statistische Testungen ohne Anpassung der p-Werte. Signifikante Ergebnisse müssen daher zurückhaltend interpretiert werden.

In der empirisch-methodischen Literatur gibt es mehrere Untersuchungen zu Unterschieden in den Ergebnissen randomisierter und nichtrandomisierter, kontrollierter Studien (37;72;199;256;291). Die Ergebnisse dieser Studien sind uneinheitlich, deuten aber darauf hin, dass gute nichtrandomisierte, kontrollierte Studien ähnliche Effekte zeigen wie randomisierte, dass jedoch bei Diskrepanzen nichtrandomisierte Studien etwas häufiger größere Effekte zeigen. Wie bereits erwähnt, gibt es gute Evidenz, dass bei randomisierten Studien qualitativ hochwertigere Methoden mit negativeren Ergebnissen assoziiert sind. Nach Kenntnis des Autors gibt es bisher jedoch keine Analysen, die Qualität und Ergebnisse (vorher-nachher Unterschiede) von randomisierten und nichtrandomisierten Studien einschließlich unkontrollierter Untersuchungen vergleichen.

Die geringeren Therapieerfolgsraten in randomisierten Studien einerseits und grundsätzlich in besseren Studien unabhängig vom Design andererseits suggerieren, dass in schlechten Studien der Therapieerfolg häufig überschätzt wird. Möglicherweise nehmen an randomisierten Studien Patienten mit schlechterer Prognose teil. Man könnte auch spekulieren, dass Akupunktur unter experimentellen Bedingungen bzw. bei den Unsicherheiten in einer randomisierten Studie weniger gut wirkt.

us Sicht des Autors werden bei der formalen Bewertung der Qualität klinischer Studien methodische Kriterien überbetont, während klinische Qualitätsaspekte gar nicht oder ausschließlich unsystematisch bewertet werden. Dies ist bis zu einem gewissen Grad verständlich, da methodische Kriterien weitgehend universell gelten, während klinische Qualitätsaspekte stark kontextabhängig sind. Dennoch macht es aber wenig Sinn, Qualität bei Erkrankungen wie Migräne ausschliesslich über die Nennung von Randomisation, Doppelblindbedingungen und die Beschreibung von Studienabbrechern zu bestimmen. 10 der 24 randomisierten Akupunkturstudien erfüllten weniger als 5 der – äußerst basalen – Kriterien zur Angemessenheit der Beobachtung und Berichterstattung. Das macht deutlich, dass ein relevanter Teil der beurteilten randomisierten Studien kaum klinisch sinnvoll interpretierbar ist.

Die Schlussfolgerung des von unserer Autorengruppe durchgeführten systematischen Reviews der randomisierten Studien zur Akupunktur bei chronischen Kopfschmerzen (321) war, dass die vorhandene Evidenz für eine Effektivität dieser Therapie bei der Prophylaxe von Migräneattacken [Seite 72↓]und Spannungskopschmerzen spricht, dass jedoch zusätzliche, bessere und größere Studien notwendig sind, um diese positiven Befunde zu sichern und die Größe des Effektes und die Generalisierbarkeit zu beurteilen. Die nichtrandomisierten Studien verstärken den Eindruck der Effektivität. Die Menge der durch den Einbezug dieser Studien gewonnenen Zusatzinformation ist aber im Verhältnis zum Aufwand enttäuschend. Die Unterschiede zwischen randomisierten und nichtrandomisierten Studien legen die Vermutung nahe, dass an randomisierten Studien nicht die „typischen“ Akupunkturpatienten teilnehmen. Da die nichtrandomisierten Studien aber ebenfalls – soweit nachvollzieber - ausnahmslos unizentrisch durchgeführt waren und die Patientenrekru­tierung kaum angemessen beschrieben war, ist deren Generalisierbarkeit ähnlich unklar wie im Fall der randomisierten Studien. Auch bezüglich der sonstigen, aus nichtrandomisierten Studien gut zu gewinnenden Informationen war der Erkenntniszugewinn gering. Die Schlussfolgerungen unseres systematischen Reviews zu Akupunktur bei chronischen Kopfschmerzen hätten sich daher nur in einem Punkt deutlich geändert: Neben besseren randomisierten Studien sind auch bessere nichtrandomisierte Studien notwendig.


© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.
DiML DTD Version 3.0Zertifizierter Dokumentenserver
der Humboldt-Universität zu Berlin
HTML-Version erstellt am:
04.08.2004