|
| [Seite 5↓] |
Die für dieses Kapitel gewählten Anwendungsbeispiele zu randomisierten Studien zur Migräneprophylaxe mit Propranolol, Metoprolol und Flunarizin sowie zur Behandlung von Depressionen bzw. von depressiven Verstimmungen mit Hypericumextrakten sind aufgrund der Anzahl der einbezogenen Primärstudien und deren Heterogenität im Vergleich zu vielen publizierten Übersichtsarbeiten sehr umfangreich und komplex.
Die große Zahl von Primärstudien ist aus methodischer Sicht von Vorteil, da sie aussagekräftige Untersuchungen zur Qualität und Sensitivitätsanalysen im Rahmen der quantitativen Auswertungen überhaupt erst ermöglicht.
Die Komplexität ergibt sich einerseits aus den bearbeiteten Krankheitsbildern: Weder Migräne noch Depression sind klinisch in ihrer Ausprägung und im Verlauf leicht zu beurteilen. In Studien erfolgt dies bei der Migräne am besten über Tagebücher, in denen eine ganze Reihe von Parametern (z.B. Attackenhäufigkeit, -schwere, Medikationsverbrauch, Begleitsymptome) erfaßt wird (198). Die Präsentation der Ergebnisse wird von verschiedenen Autoren unterschiedlich gehandhabt (z.B. Mittelwert oder Median, Standardabweichung, Standardfehler oder 95%-Konfidenzintervall, Attackenrückgang im Vergleich zur Baselinephase in Prozent oder absolut oder Attackenhäufigkeit in den einzelnen Phasen etc.) und ist außerdem sehr häufig unvollständig. Bei der Depression werden typischerweise Fremd- und Selbstbeurteilungsinstrumente eingesetzt, in denen eine Reihe von Symptomen bewertet und quantifiziert werden. Zwar werden bei vielen Instrumenten auch „Responder“ und „Nonresponder“ kategorisiert, d.h. Patienten die unter Therapie eine bestimmte Verbesserung erfahren oder nicht, jedoch sind solche Kategorisierungen mit einem Informationsverlust verbunden.
Ein weiterer Grund für die Komplexität der folgenden systematischen Übersichtsarbeiten sind die Interventionen selbst. Propranolol, Metoprolol und Flunarizin sind „alte“ Substanzen; dementsprechend stammen auch die meisten Studien aus einer Zeit, in denen wesentlich geringere Anforderung an die Qualität gestellt wurden und heute übliche allgemeine (Good Clinical Practice Richtlinien für die Durchführung klinischer Studien) und migränespezifische (197;198) Standardempfehlungen noch nicht verfügbar waren. Berichterstattung und Zuverlässigkeit der Daten sind daher häufig suboptimal. Hypericumextrakte wurden vor allem in den neunziger Jahren Untersuchungsgegenstand randomisierter Studien. Durchführungs- und Berichtsqualität sind daher [Seite 6↓]in der Regel besser. Die unklare Vergleichbarkeit unterschiedlicher Hypericumextrakte – ein typisches Problem bei Übersichtsarbeiten zu Phytotherapeutika – stellt hier die Durchführbarkeit einer quantitativen Meta-Analyse in Frage. Ein weitere Schwierigkeit ist, dass Hypericumextrakte primär von niedergelassenen Ärzten bei Patienten mit leichten bis mittelschweren Depressionen angewendet werden, einer Klientel, die – obwohl zahlenmäßig sehr groß – in der klinischen Forschung zu konventionellen Antidepressiva kaum berücksichtigt wird (232). Dadurch ist der Vergleich mit diesen Substanzen erschwert.
Die Darstellung der Anwendungsbeispiele geht explizit auf diese von vornherein bei der Planung erwarteten Schwierigkeiten ein.
Migräne ist eine weit verbreitete Erkrankung mit einer geschätzten Prävalenz zwischen 8 und 16% in westlichen Industriestaaten (150;383). Bei der Mehrzahl der Patienten ist es ausreichend, ausschließlich die Migräneattacken zu behandeln (87). Bei einer nicht zu vernachlässigenden Minderheit der Patienten ist jedoch auch eine prophylaktische bzw. Intervallbehandlung indiziert, da die Attacken zu häufig oder zu intensiv sind, oder schlecht auf die Akutbehandlung ansprechen. Als Medikamente erster Wahl sind in Leitlinien (21;87) die Betablocker Propranolol und Metoprolol und der Calciumantagonist Flunarizin angegeben.
Eine große Zahl randomisierter Studien wurde zu diesen Wirkstoffen durchgeführt. Aktuelle systematische Übersichtsarbeiten liegen jedoch nicht in einfach zugänlicher Form vor. Zu Propranolol wurde von Holroyd et al. 1991 eine Meta-Analyse publiziert (189). Die Autoren schlossen, dass die kurzfristige Wirksamkeit über Placebo hinaus gut belegt sei, jedoch nur wenig Information zu Langzeiteffekten verfügbar sei. Diese Übersicht wird heutigen Anforderungen jedoch nicht gerecht, vor allem weil in der Meta-Analyse nicht die Zwischengruppenunterschiede (z.B. Differenz Verum – Placebo) sondern nur die Innergruppenunterschiede (vorher – nachher) verwendet wurden und weil die Bewertung ausschließlich auf der Basis der heute in der Migräneforschung nicht mehr empfohlenen (198) Kopfschmerzindices (Scoremaße, in die meist Häufigkeit und Intensität sowie evtl. andere Größen mit unterschiedlicher Gewichtung eingingen) erfolgte. Im Rahmen einer umfangreichen Bewertung aller verfügbaren Optionen zur Migräneprophylaxe bewertete eine Gruppe der Duke University in Durham (USA) im Auftrag der Agency of Health Care Policy and Research (AHCPR) auch Propranolol, Metoprolol und Flunarizin und klassifizierte die Wirksamkeit dieser Substanzen als belegt (62). Diese umfassende Zusammenstellung entspricht zwar den gängigen Anforderungen an systematische Übersichtsarbeiten, ist jedoch nur in Berichtsform publiziert und in Bezug auf die einzelnen bearbeiteten Interventionen recht unübersichtlich. Aus diesem Grund (sowie wegen des für [Seite 7↓]methodische Fragestellungen interessanten Potenzials dieses Studiensets) wurde eine systematische Übersichtsarbeit entsprechend gängiger Vorgehensweisen (2) zu den randomisierten Studien zu Propranolol, Metoprolol und Flunarizin durchgeführt. Folgende Fragen sollten beantwortet werden:
IIst durch randomisierte Studien belegt, dass
Außerdem sollte untersucht werden, wie die Qualität der Studien (aus der Sicht der Methodik klinischer Studien allgemein und in Bezug auf die Interpretierbarkeit für die Routinetherapie der Migräne) einzuschätzen ist und wie häufig Nebenwirkungen im Vergleich zu Placebo und anderen Medikamenten sind.
Extrakte aus Hypericum perforatum (Johanniskraut) sind in Deutschland die am häufigsten verschriebenen Medikamente zur Behandlung von Depressionen bzw. von depressiven Verstimmungen (483). Johanniskrautextrakte enthalten mindestens 10 pharmakologisch potentiell relevante Wirkstoffgruppen, darunter Naphtodianthrone (z.B. Hypericin, auf dessen Gehalt zahlreiche marktgängige Präparate standardisiert sind), Flavonoide (z.B. Quercetin), Xanthone und Biflavonoide (340). Der exakte Wirkungsmechanismus der häufig beschriebenen antidepressiven Effekte ist jedoch nicht vollkommen klar (318).
Seit den achtziger Jahren wurde eine ganze Reihe randomisierter Studien zur Behandlung von Depressionen mit Johanniskrautextrakten durchgeführt. Unter der Leitung des Autors hat eine Arbeitsgruppe 1996 eine erste Meta-Analyse dieser Arbeiten vorgelegt (286); die Metaanalyse wurde 1988 aktualisiert (285). Da in den vergangenen Jahren weitere und vor allem methodisch bessere randomisierte Studien durchgeführt und publiziert wurden, wurde eine erneute Aktualisierung durchgeführt.
Folgende Fragestellungen sollten beantwortet werden.
|
| [Seite 8↓] |
Um in die systematische Übersichtsarbeit eingeschlossen zu werden, musste eine Studie folgende Kriterien erfüllen:
Zur möglichst umfassenden Identifikation der verfügbaren Studien wurden folgende Quellen herangezogen:
Die primären Suchergebnisse aus Medline und dem Cochrane Controlled Trial Register wurden dokumentiert und am Bildschirm einzeln geprüft (sofern ein Abstract vorhanden war, erfolgte immer eine Durchsicht des Abstracts). In einem ersten Screeningschritt wurden alle Referenzen aussortiert, bei denen eindeutig erkennbar war, dass sie die Einschlußkriterien nicht erfüllten (z.B. Studien an Kindern, placebokontrollierte Studien zu Sumatriptan, bei denen lediglich das Wort Propranolol im Abstract vorkam etc.). Alle übrigen Referenzen wurden in eine Datenbank (Reference Manager) eingelesen, im Volltext besorgt und formal (möglichst von zwei Beurteilern) mit einem Standardbogen auf die Erfüllung der Einschlußkriterien geprüft. Die Ausschlußgründe wurden jeweils dokumentiert. Die bibliographischen Angaben der geprüften Übersichtsarbeiten sowie die Querverweise auf potentiell relevante Studien in den besorgten Publikationen wurden ebenfalls geprüft. Lag die entsprechende Publikation nicht vor, wurde sie im Volltext besorgt.
Die Extraktion von bibliographischen Angaben, Information zu Patienten, Methodik, Ergebnissen und Schlußfolgerungen sowie die Beurteilung der Studienqualität erfolgte mit einem vorgeprüften Formular durch einen oder zwei Reviewer. Ergebnisdaten wurden nach Möglichkeit zu vier Zeitpunkten (vor Behandlung, bis zu 4 Wochen nach Behandlungsende, 5 Wochen bis 3 Monate nach Behandlungsende (early follow-up) und mehr als 3 Monate nach Behandlungsende (late follow-up) zu folgenden Parametern extrahiert: Response, Zahl der Kopfschmerztage, Attackenhäufigkeit, -intensität, Kopfschmerzindex, sowie der Verbrauch von Akutmedikation. Wenn keine verwertbaren Daten (d.h. Daten, mit deren Hilfe ein Effektstärkemaß berechnet werden konnte, siehe 2.2.1.5.) vorlagen, wurde dokumentiert, ob entweder der Parameter zwar gemessen, die Ergebnisse aber nicht ausreichend oder gar nicht präsentiert wurden, der Parameter nicht gemessen wurde, oder ob die Situation jeweils unklar war.
Die Bewertung der methodischen Qualität erfolgte mit Hilfe des Jadadscores (206) und der Delphi Liste (469). Ziel beider Instrumente ist die Beurteilung von Aspekten bzgl. des Designs und der Durchführung von klinischen Studien, die relevant sind für ein verzerrungsfreies Studienergebnis.
|
| [Seite 10↓] |
Der Jadadscore ist eine systematisch entwickelte und validierte Skala zur Beurteilung der methodischen Qualität bzw. der „quality of reporting“ bezüglich methodischer Schlüsselkriterien. Er hat drei Items, bei denen maximal fünf Punkte (2-2-1) vergeben werden.
Bei den Originalinstruktionen ist mit Doppelblindbedingungen die Verblindung von Patienten und Beurteilern gemeint (d.h., es können auch nicht-medikamentöse Studien unter bestimmten Bedingungen doppelblind sein). Da im vorliegenden Review medikamentöse Interventionen bearbeitet wurden, wurde die klassische Definition der Doppelblindbedingungen (Patient, Therapeut und Beurteiler verblindet) zugrundelegt.
Die 9 Fragen umfassende Delphi-Liste wurde von einem internationalen Team von Methodikern in einem Delphiprozess (d.h. mehreren Befragungs- und Konsensusrunden) entwickelt (469). Die Fragen können jeweils mit „ja“, „nein“ oder „unklar“ beantwortet werden. Da es für die Anwendung der Liste keine weitergehenden Instruktionen von den Autoren gibt (persönliche Mitteilung A. Verhagen), wurden eigene Vorgaben für die konkrete Anwendung einiger Kriterien formuliert. Die Fragen lauten:
Weitergehende Instruktion: Wird eine Medikamentenstudie als doppelblind bezeichnet, sollten die Frage 5-7 mit „ja“ beantwortet werden (es sei denn, es gibt klare Hinweise, dass eine oder mehrere Gruppen doch nicht verblindet waren).
Weitergehende Instruktion: Anwort „ja“ ankreuzen, wenn entweder explizit mehr als 90% der randomisierten Patienten auch tatsächlich analysiert wurden oder eine intent-to-treat Analyse durchgeführt wurde.
|
| [Seite 12↓] |
Zusätzlich zur Bewertung der methodischen Qualität wurde auch die Angemessenheit von Beobachtung und Berichterstattung mithilfe einer selbstentwickelten Liste beurteilt. Ziel war eine Abschätzung von Aspekten der klinischen Interpretierbarkeit, d.h. es geht um die Frage, ob ein erfahrener Kopfschmerztherapeut die Studie, so wie sie präsentiert ist, sinnvoll interpretieren kann (also prüfen, ob die Ergebnisse auf seinen Patienten übertragbar sind und ggf. eine Prognose erlauben). Die Liste umfasst 10 Fragen, die jeweils mit „ja“ und „nein“ beantwortet werden konnten:
Bei der Protokollerstellung war davon ausgegangen worden, dass aufgrund von Heterogenität und Alter der Studien, von multiplen unterschiedlich gemessenen Zielparametern und mangelhafter Datenpräsentation eine umfassende Zusammenfassung der Primärstudienergebnisse in Effektmaßen vermutlich nicht möglich sein würde. Diese Einschätzung bewahrheitete sich. Soweit möglich wurden jedoch Effektmaße für die Responderanzahl, die Attacken- bzw. Kopfschmerzhäufigkeit und die Anzahl der Patienten mit Nebenwirkungen berechnet. Daten zu Kopfschmerzindices wurden nur selten ausreichend detailliert berichtet, sodass auf diese in der Folge nicht weiter eingegangen wird. Als Responderanzahl wurde, wenn vorhanden, die Anzahl der Patienten mit einer mindestens 50%igen Reduktion der Attackenzahl im Vergleich zur Baselinephase herangezogen, ansonsten andere Responsemaße einschl. Präferenzangaben bei cross-over Studien (siehe unten). Ursprünglich war vorgesehen, den Responderanteil in den einzelnen Gruppen nach dem intent-to-treat Prinzip zu berechnen (Zahl Responder/Zahl in die Gruppe randomisierter Patienten). Da die Zahlenangaben in vielen Studien sehr unklar waren, musste die Berechnung auf der Basis der jeweils in der Studie präsentierten Zahlen ausgewerteter Patienten durchgeführt werden, bei der Studienabbrecher in der Regel nicht berücksichtigt waren. Die berichteten Daten zur Häufigkeit variierten stark: Je nach Studie waren Attackenzahl, Zahl der Kopfschmerztage, der absolute oder der prozentuale Rückgang einer dieser beiden Maße gegenüber der Baselinephase angegeben. Außerdem variierten die Bezugszeiträume (meist 4 Wochen, teilweise aber auch 1, 8 oder mehr Wochen). Für die Effektmaßberechnung stellen jeweils niedrigere Werte günstigere Resultate (geringere Häufigkeit) dar. Dementsprechend wurden Rückgangswerte mit einem negativen Vorzeichen versehen. Zur Berechnung eines Effektmaßes mußten für die jeweilige Studie Mittelwerte und Standardabweichung oder Standardfehler (Rückberechnung der Standardabweichung durch Multiplikation mit √n) vorhanden sein. Studien, bei denen Mediane und Quartile oder ausschließlich Mittelwerte angegeben waren, [Seite 14↓]konnten nicht berücksichtigt werden. Da manche Studien nur die Gesamtfallzahl, nicht jedoch die Fallzahl in den einzelnen Gruppen angaben, wurde in diesen Fällen angenommen, dass jeweils die Hälfte der Patienten in einer Gruppe behandelt wurde.
Als Effektmaß bezüglich Therapieerfolg (Response) wurde das relative Risiko bzw. eine Responderratio ((Zahl der Responder in Testgruppe/Zahl der Patienten in Testgruppe)/(Zahl der Responder in Kontrollgruppe/Zahl der Patienten in Kontrollgruppe)) mit dem zugehörigen 95%-Konfidenzintervall berechnet. Werte > 1 weisen auf eine Überlegenheit der Prüfgruppe, Werte < 1 auf eine Überlegenheit der Kontrollgruppe. Für die Häufigkeitsmaße wurden standardisierte Mittelwertsdifferenzen (Mittelwertsdifferenz/gepoolte Standardabweichung) und 95%-Konfidenzintervalle berechnet. Werte > 0 weisen auf eine Überlegenheit der Testgruppe.
Als Effektmaß bzgl. Nebenwirkungen wurde das relative Risiko ((Zahl der Patienten mit Nebenwirkungen in Testgruppe/Zahl der Patienten in Testgruppe)/(Zahl der Patienten mit Nebenwirkungen in Kontrollgruppe/Zahl der Patienten in Kontrollgruppe)) mit dem zugehörigen 95%-Konfidenzintervall berechnet. Werte < 1 deuten hier auf ein günstigeres Ergebnis für die Testgruppe.
In der Cochrane Collaboration wird häufig empfohlen, bei cross-over Studien zur Effektmaßberechnung für Meta-Analysen nur Daten für die erste (parallele) Behandlungsphase vor dem cross-over heranzuziehen. Da mehr als 40% der Studien ein cross-over Design hatten, jedoch nur einzelne dieser Studien Daten für die erste Phase separat präsentierten, wäre eine Effektmaßberechnung dementsprechend für diese Studien nicht möglich. Da von der Berechnung gepoolter Effektgrößen abgesehen (siehe nächster Absatz) und der Informationsverlust durch den Ausschluss dieser großen Anzahl von Studien als äußerst ungünstig angesehen wurde, erfolgte auch für cross-over Studien eine Effektmaßberechnung, wobei die Ergebnisse beider Phasen herangezogen wurden.
Die Effektmaße wurden je nach Art der Kontrollgruppe (Placebo und andere Behandlung mit Untergruppen Calcium-Antagonisten, β-Blocker, andere Arzneimittel) gruppiert. Es erfolgten separate Zusammenstellungen ohne und mit cross-over Studien. Im Ergebnisteil werden in aller Regel Darstellungen mit Einschluss der cross-over Studien präsentiert, da hierfür mehr Studien Effektmaße beigetragen haben. Nur wenn der Einbezug von cross-over Studien keine zusätzliche Information erbrachte, wird die Zusammenstellung der Studien mit Paralleldesign präsentiert. Im Protokoll war festgelegt, dass ein gepooltes Effektmaß nur dann berechnet werden sollte, wenn a) zumindest für 50% der Studien, die den jeweiligen Parameter zu diesem Zeitpunkt bestimmt hatten, verwertbare Daten vorlagen und b) die Studien aus klinischer Sicht ausreichend vergleichbar waren. Angesichts der oben aufgeführten Schwierigkeiten, wurde die Berechnung gepoolter Effektmaße als obsolet angesehen.
|
| [Seite 15↓] |
Alle Zusammenstellungen und Berechnungen erfolgten mit Hilfe der Cochrane Collaboration Review Manager Software, Version 4.1. Aus diesem Programm stammen auch die tabellarisch-graphischen Ergebniszusammenstellungen.
Angesichts der Problematik der Effektstärkeberechnungen erfolgte entsprechend Studienprotokoll zusätzlich ein 5-stufiger vote count (+ = Test signifikant und/oder klinisch relevant besser als Kontrolle, (+) = Test im Trend (klinisch und/oder statistisch) besser als Kontrolle, 0 = kein Unterschied, (-) = Kontrolle im Trend besser als Test, - = Kontrolle signifikant und oder/klinisch relevant besser als Test (siehe auch Beschreibung in (321)). Außerdem erfolgte eine deskriptive Zusammenfassung der Ergebnisse der jeweiligen Studie.
Folgende Bedingungen mussten für den Einschluss einer Studie erfüllt sein:
|
| [Seite 16↓] |
Potentiell relevante Studien wurden in folgenden Datenbanken bzw. auf folgende Weise gesucht:
Eine Einschränkung der Publikationssprache gab es nicht.
In einem ersten Screeningschritt wurden von einem Reviewer alle Referenzen aussortiert, bei denen eindeutig erkennbar war, daß sie die Einschlußkriterien nicht erfüllen (unkontrollierte Studien, Reviews, Kasuistiken, pharmakokinetische Studien). Alle potentiell relevanten Referenzen wurden im Volltext besorgt und formal von mindestens zwei Beurteilern mit einem Standardbogen auf die Erfüllung der Einschlußkriterien geprüft. Die Ausschlußgründe wurden jeweils dokumentiert.
Die Extraktion von bibliographischen Angaben, Information zu Patienten, Methodik, Ergebnissen und Schlußfolgerungen sowie die Beurteilung der Studienqualität erfolgte mit einem vorgeprüften Formular durch mindestens zwei Reviewer. Ergebnisdaten wurden nach Möglichkeit zu folgenden Parametern extrahiert: Summenscorewerte entsprechend Hamilton Rating Scale for Depression (vor Behandlung, 1-2, 3-4, 5-6 sowie >6 Wochen nach Therapiebeginn und nach Therapieende allgemein), Anzahl Responder bei Therapieende (mit Dokumentation der Responderdefinition), Werte für andere Bewertungsskalen (vor Therapie und bei Therapieende), Anzahl der Patienten mit Nebenwirkungen, Anzahl der Studienabbrüche (insgesamt sowie wegen Nebenwirkungen, mangelnder Wirksamkeit und anderen Gründen).
Die Bewertung der methodischen Qualität erfolgte mit Hilfe des Jadadscores (für detaillierte Angaben siehe Abschnitt 2.2.1.4.) sowie mithilfe einer vom Autor entwickelten Skala (Internal [Seite 17↓]Validity Scale). Diese Skala war bei der ersten Bearbeitung der bis 1995 vorliegenden Studien benutzt worden, weil der Jadascore noch nicht offiziell verfügbar war. Genauere Angaben zur Internal Validity Scale finden sich in Abschnitt 3.2.2. Für die hier präsentierte Auswertung wird jedoch nur das auch in der Delphiliste (siehe 2.2.1.4.) enthaltene Item zur Verblindung der randomisierten Zuteilung (concealment) herangezogen. Als adäquate Concealmentmethoden werden dabei konsekutiv numerierte, neutral verpackte Medikationspackungen oder eine zentrale Randomisation per Telephon und äquivalente Methoden angesehen.
Die Mehrzahl der eingeschlossenen Studien beurteilte den klinischen Verlauf der depressiven Symptomatik mit Hilfe der Fremdbeurteilungsskala Hamilton Rating Scale für Depression (HAMD). Weitere häufig benutzte Instrumente waren der Clinical Global Impression Index (CGI, ebenfalls Beurteilung durch den Arzt) sowie die Selbstbeurteilungsinstrumente SDS (Self Rating Depression Scale, Zung) und D-S (Depressions-Skala, von Zerssen). Fast alle Studien präsentierten ausserdem ein Respondermaß. Häufigstes Responderkriterium war ein Rückgang des Scorewertes auf der HAMD um mindestens 50% gegenüber dem Ausgangswert bzw. auf einen Scorewert von maximal 10. Mehrfach war außerdem als Responderkriterium ein mindestens „deutlich gebesserter“ Zustand entsprechend CGI angegeben. Gelegentlich gab es Globalurteile bzgl. des Therapieerfolgs von Arzt oder Patient.
Hauptzielkriterium zur Beurteilung der Wirksamkeit war das relative Risiko, hier wegen der Missverständlichkeit des Begriffs bei einem positiven Therapieergebnis als Responderratio ((Zahl der Responder unter Hypericum/Zahl der mit Hypericum behandelten Patienten)/(Zahl der Responder in der Vergleichsgruppe/Zahl der in der Vergleichsgruppe behandelten Patienten)) bezeichnet, mit dem entsprechenden 95%-Konfidenzintervall bei Therapieende. Nach Möglichkeit wurde das HAMD-Responsekriterium herangezogen, in zweiter Präferenz die obengenannte CGI-Beurteilung und als dritte Präferenz andere Globalurteile. Außerdem wurden standardisierte Mittelwertsdifferenzen für HAMD-Scorewerte nach 1 bis 2, 3 bis 4, 5 bis 6 Wochen, nach mehr als 6 Wochen sowie nach dem jeweiligen Therapieende berechnet. Auch für D-S-Scorewerte wurden standardisierte Mittelwertsdifferenzen nach Therapieende berechnet.
Hauptzielkriterium für die Beurteilung der Nebenwirkungen (nur im Vergleich zu konventionellen Antidepressiva) war die Zahl der Patienten mit Nebenwirkungen. Berechnet wurde wiederum das relative Risiko und das entsprechende 95%-Konfidenzintervall. Nebenzielvariablen waren die Gesamtzahl von Studienabbrüchen sowie die Zahl von Patienten, die wegen Nebenwirkungen die Studien abbrachen.
Für die weitere Auswertung wurden Studien zu Hypericumextrakten vs. Placebo und zu Hypericumextrakten vs. konventionelle Antidepressiva strikt getrennt. Innerhalb dieser Vergleiche [Seite 18↓]wurden die Extrakte unterschieden (die zwei am häufigsten geprüften Extrakte jeweils separat und die übrigen Extrakte gemeinsam). Die integrierenden statistischen Analysen (Meta-Analysen) erfolgten, soweit nicht anders angegeben, auf intent-to-treat Basis (d.h. als Anzahl der behandelten Patienten wurde die in die jeweilige Gruppe randomisierte Zahl von Patienten herangezogen). Zusätzliche Analysen erfolgten (a) für die Studien, die explizit nur Patienten mit majorer Depression einschlossen, (b) ausschließlich für Studien mit HAMD-Responsekriterium und (c) für den Responder-Vergleich von Hypericumextrakten und konventionellen Antidepressiva nach dem per protocol Prinzip (nur Patienten, die die Studien protokollgemäß abschlossen). Funnel plot-Graphiken wurden für die beiden Hauptvergleiche zur Wirksamkeit erstellt. Sensitivitätsanalysen wurden bzgl. des Einflusses des Publikationsjahres und dem Schweregrad der Depressionen (mittlerer HAMD-Score vor Behandlungsbeginn) durchgeführt. Alle Berechnungen erfolgten mit der Cochrane Collaboration Review Manager Software 4.1.
Zu Propranolol wurden durch den Literatursuche- und Screeningprozess insgesamt 93 potentiell relevante Publikationen identifiziert. 57 Studien, publiziert in 55 Hauptveröffentlichungen (6;9;10;18;26;35;44;45;47;78;82;83;86;88;134;135;144;146;147;153;178;187;218;227-230;237; 238;257;297;298;304;306;310;325;339;343;350;353;357;370;379;392;393;402;409;418;436;438;445;459;492;506;530) und 14 Zweitveröffentlichungen (46;48;90;143;346;378;380;395;424-426;431;437;531) entsprachen den Einschlusskriterien. 25 Publikationen entsprachen nicht den Einschlusskriterien: 6 waren Übersichtsarbeiten (1;14;334;384;458;464), 10 berichteten nichtrandomisierte klinische Studien (75;79;81;222;388;397;432;471;472;519), eine Studie war nicht verfügbar (41), 2 waren Studien zur Behandlung akuter Attacken (27;140), eine hatte eine Beobachtungsdauer von weniger als 4 Wochen (517) und in 5 randomisierten Studien war die Kontrollintervention weder Placebo noch eine andere medikamentöse Behandlung (58;172;188;363;423).
28 Publikationen wurden zu Metoprolol identifiziert. Insgesamt 16 Studien erfüllten die Einschlusskriterien (17;89;146;154;155;177;226;227;262;295;353;402;422;435;477;523); zu 4 Studien lag eine Zweitveröffentlichung vor (90;157;178;524). 8 Publikationen wurden ausgeschlossen: 2 waren Übersichtsarbeiten (384;458), 3 berichteten nichtrandomisierte klinische [Seite 19↓]Studien (397;432;519), jeweils eine Studie hatte eine nicht den Einschlusskriterien entsprechende Kontrollintervention (181), Dauer (517) oder Patientenstichprobe (394).
Zu Flunarizin wurden insgesamt 73 potentiell relevante Publikationen gefunden. 40 Studien, publiziert in 39 Hauptveröffentlichungen erfüllten die Einschlusskriterien (3;8;13;25;44;45;54;63-65;80;86;97;138;144;145;155;156;261;263;264;294;296-298;323;326;341;345;362;366;382;402; 409;421;422;425;433;460;522). In einem Fall wurde eine Übersichtsarbeit eingeschlossen, die Daten zu einer ansonsten unveröffentlichten Studie berichtete (13). Zweitpublikationen lagen zu 10 Studien vor (6;136;137;143;157;163;367;424-426). 24 Publikationen wurden ausgeschlossen: 9 waren Übersichtsarbeiten (14;15;334;351;384;397;417;428;446), 2 nicht verfügbar (16;344), 9 waren nichtrandomisierte Studien (43;77;79;307;309;324;471;472;519), in einer Studie waren Patienten mit verschiedenen Kopfschmerzdiagnosen gemeinsam ausgewertet worden (55), in einer weiteren wurde Flunarizin nicht selbst geprüft (134) und in 2 Studien entsprach die Art der Kontrollintervention nicht den Einschlusskriterien (12;30). Unter Berücksichtigung der Überschneidungen wurden zu Propranolol, Metoprolol und Flunarizin insgesamt 97 Studien in die Bewertung eingeschlossen.
Wichtige Informationen zu den allgemeinen Studienmerkmalen aller Studien zur Migräneprophylaxe mit Propranolol, Metoprolol und Flunarizin sind in Tabelle 1 zusammengestellt. Zusammenfassende Informationen zu Patienten, Methoden und Ergebnissen der einzelnen Studien finden sich in den Tabellen A1 – A10. Aufgrund ihres großen Umfanges werden diese Tabellen als Anhang am Ende dieser Monographie präsentiert.
25 Propranololstudien waren placebokontrolliert, 41 verglichen Propranolol mit anderen Medikamenten (in 9 Studien wurde sowohl mit Placebo wie auch mit anderen Medikamenten verglichen). Für Metoprolol lauten die entsprechenden Zahlen 4 und 13, für Flunarizin 10 und 31 Studien. Die Studien wurden zwischen 1972 und 2001 meist in englischer Sprache publiziert. Nur bei 14 Studien war angegeben, wie die Studie finanziert wurde. Die mediane Zahl randomisierter Patienten über alle 97 Studien betrug 45 (Bereich 9-783); in Studien, in denen zwei Medikamente verglichen wurden, war die mediane Patientenzahl 44, in Studien die sowohl eine Placebo- wie auch eine aktive Kontrolle hatten, 59 Patienten. Soweit dies nachvollziehbar war, wurden im Schnitt 17% der randomisierten Patienten nicht in die Auswertung einbezogen; die Zahl der tatsächlichen Studienabbrüche liegt höher, da in einigen Studien zumindest ein Teil der Patienten, die die Studie abbrachen, in die Auswertung einbezogen wurden. Die Dosierung lag für Propranolol zwischen 80 und 320 mg, für Metoprolol zwischen 50 und 200 mg und für Flunarizin zwischen 5 und 20 mg, meist jedoch bei 10 mg.
|
| [Seite 20↓] |
In 82% der Studien wurden Patienten mit Migräne mit oder ohne Aura eingeschlossen, nur in wenigen Studien erfolgte eine Beschränkung auf einen Migränetyp. 44 Studien (45%) hatten ein cross-over Design; ältere Studien nutzten dieses Design häufiger als neuere. Die Dauer der Behandlungsphase lag in den meisten Studien zwischen 8 und 16 Wochen. Nur wenige Studien beobachteten die Patienten auch nach Abschluss der Behandlung weiter. Die Mehrzahl dieser Studien hatte wiederum hohe Drop-out Raten.
|
Propranolol |
Metoprolol |
Flunarizin |
Alle |
|
|
Anzahl Studien | ||||
|
- Insgesamt |
57* |
16* |
40* |
97* |
|
- vs. Placebo |
25 (44%) |
4 (19%) |
10 (25%) |
39 (40%) |
|
- vs. andere Medikamente |
41 (72%) |
13 (81%) |
31 (78%) |
68 (70%) |
|
Publikationsjahr (Median, Bereich) |
1986 (1972-1999) |
1987 (1983-2001) |
1988 (1980-1999) |
1986 (1972-2001) |
|
Nur als Abstract publiziert/unpubliziert |
5 ( 9%) |
- |
6 (15%) |
10 (10%) |
|
In englischer Sprache verfügbar |
55 (97%) |
16 (100%) |
32 (80%) |
87 (90%) |
|
Sponsor angegeben |
9 (16%) |
3 (19%) |
4 (10%) |
14 (14%) |
|
Patientenzahl (Median, Bereich) |
49 (9-783) |
59 (28-270) |
50 (27-783) |
45** (9-783) |
|
% Abbrüche/Ausschlüsse (Median, Bereich) |
20% (0-50%) |
15% (4-43%) |
16% (0-48%) |
17% (0-50%) |
|
Studien mit Diagnose | ||||
|
- Migräne (mit oder ohne Aura bzw. unklar) |
49 (86%) |
13 (81%) |
30 (75%) |
79 (82%) |
|
- Ausschl. Migräne ohne Aura |
7 (12%) |
1 ( 6%) |
8 (20%) |
14 (14%) |
|
- Ausschl. Migräne mit Aura |
1 ( 2%) |
2 (13%) |
2 ( 5%) |
4 ( 4%) |
|
Kopfschmerzklassifikation | ||||
|
- International Headache Society |
11 (19%) |
5 (31%) |
7 (18%) |
18 (19%) |
|
- Ad-hoc Committee |
20 (35%) |
3 (19%) |
17 (42%) |
37 (38%) |
|
- Andere |
9 (16%) |
7 (44%) |
4 (10%) |
16 (16%) |
|
- Unklar/Keine |
17 (30%) |
1 ( 6%) |
12 (30%) |
26 (27%) |
|
Design | ||||
|
- Parallel |
24 (42%) |
6 (38%) |
35 (88%) |
53 (55%) |
|
- Cross-over |
33 (58%) |
10 (62%) |
5 (12%) |
44 (45%) |
|
Dauer in Wochen (Median, Bereiche) Baselinephase |
4 (0-10) |
4 (3-8) |
4 (0-24) |
4 (0-24) |
|
Behandlungsphase*** |
12 (4-30) |
8 (4-30) |
14 (8-24) |
12 (4-30) |
|
Follow-up-Phase |
0 (0-20) |
0 (0-12) |
0 (0-24) |
0 (0-24) |
Sowohl die methodische Qualität wie auch die Angemessenheit der Beobachtung und Berichterstattung waren bei der Mehrzahl der Studien wenig zufriedenstellend (siehe Tabelle 2). Eindeutiges methodisches Hauptproblem der Studien war die Beschreibung von Studienabbrüchen und –ausschlüssen sowie deren Berücksichtigung in der statistischen Auswertung. Immerhin noch in 41% der Studien wurden die Anzahl und die Gründe für Studienabbrüche und –ausschlüsse [Seite 21↓]genannt, aber nur in 5 Studien wurde eine angemessene intent-to-treat Analyse durchgeführt. Obwohl eine solche Analyse bei Äquivalenzstudien nicht als Hauptanalyse empfohlen wird, ist sie doch zumindest als zusätzliche Analyse angesichts der meist hohen Drop-out Raten wünschenswert.
|
Propranolol |
Metoprolol |
Flunarizin |
Alle |
|
|
Jadadscore | ||||
|
Randomisation | ||||
|
Genannt |
53 (93%) |
15 (94%) |
32 (80%) |
85 (88%) |
|
Randomisationsgenerierung beschrieben |
1 ( 2%) |
- |
2 ( 5%) |
3 ( 3%) |
|
Doppelblindbedingungen | ||||
|
Genannt |
49 (86%) |
16 (100%) |
34 (85%) |
84 (87%) |
|
Doppelblindbed. gut/glaubhaft beschrieben |
13 (23%) |
8 (50%) |
10 (25%) |
26 (27%) |
|
Drop-outs/Abbrüche beschrieben |
24 (42%) |
9 (56%) |
12 (30%) |
40 (41%) |
|
Summenscore (Median, Bereich) |
2 (1-4) |
3 (2-4) |
2 (1-5) |
2 (1-5) |
|
Delphiliste | ||||
|
Explizit randomisiert |
51 (90%) |
15 (94%) |
32 (80%) |
83 (86%) |
|
Concealment beschrieben |
1 ( 2%) |
- |
1 ( 3%) |
2 ( 2%) |
|
Vergleichbarkeit vor Ther. nachvollziehbar |
9 (16%) |
6 (38%) |
10 (25%) |
21 (22%) |
|
Einschlusskriterien spezifiziert |
32 (56%) |
14 (88%) |
25 (63%) |
60 (62%) |
|
Beurteiler blind |
48 (84%) |
15 (94%) |
32 (80%) |
82 (85%) |
|
Therapeut blind |
49 (86%) |
15 (94%) |
32 (80%) |
82 (85%) |
|
Patient blind |
52 (91%) |
16 (100%) |
34 (85%) |
84 (87%) |
|
Detaillierte Ergebnisse zu Hauptzielkriterien |
37 (65%) |
15 (94%) |
28 (70%) |
69 (71%) |
|
Intent-to-treat Analyse |
2 ( 4%) |
2 (13%) |
1 ( 3%) |
5 ( 5%) |
|
Kriterien erfüllt (Median, Bereich) |
5 (1-8) |
6 (0-8) |
5 (1-7) |
5 (0-8) |
|
Angemessenheit Beobachtung und Bericht | ||||
|
Rekrutierung beschrieben |
8 (14%) |
5 (31%) |
8 (20%) |
18 (19%) |
|
Klare Kopfschmerzdiagnose |
36 (63%) |
15 (94%) |
26 (65%) |
66 (68%) |
|
Patienten ausreichend charakterisiert |
17 (30%) |
11 (69%) |
17 (43%) |
38 (39%) |
|
Mindestens 4 Wochen Baseline |
33 (58%) |
15 (94%) |
28 (70%) |
66 (68%) |
|
Kointerventionen beschrieben |
7 (12%) |
6 (38%) |
3 ( 8%) |
13 (13%) |
|
Verwendung von Kopfschmerztagebüchern |
45 (79%) |
15 (94%) |
29 (73%) |
77 (79%) |
|
Daten zu Häufigkeit detailliert präsentiert |
28 (49%) |
13 (81%) |
26 (65%) |
59 (61%) |
|
Daten zur Schmerzintensität detailliert präs. |
14 (25%) |
5 (31%) |
14 (35%) |
28 (29%) |
|
≥ 90% der Pat. mit Daten über 2 Monate |
10 (18%) |
4 (25%) |
12 (30%) |
22 (23%) |
|
≥ 80% der Pat. mit Daten über 6 Monate |
3 ( 5%) |
- |
4 (10%) |
5 ( 5%) |
|
Kriterien erfüllt (Median, Bereich) |
3 (0-8) |
6 (2-8) |
3 (0-8) |
4 (0-8) |
Nur in 22 Studien (23%) konnten nachvollziehbar Daten zu mehr als 90% der randomisierten Patienten über 2 Monate nach Therapiebeginn präsentiert werden. Daten zu mehr als 80% der randomisierten Patienten nach 6 Monaten berichteten nur 5 Studien (5%).
Die Fallzahl war insbesondere bei den Äquivalenzstudien (Median 44 Patienten) meist so gering, dass ein möglicher Unterschied zwischen den verglichenen Medikamenten nicht mit ausreichender [Seite 22↓]Sicherheit erfaßt werden konnte. Die Methoden zur Generierung der Randomisationssequenz und zur Verblindung der Zuteilung (concealment) wurden nur in Ausnahmefällen beschrieben. Auch wenn bei Medikamentenstudien in der Regel davon auszugehen ist, dass das Concealment durch fortlaufend numerierte, neutrale Medikamentenverpackungen erfolgt, ist die Nichtbeschreibung dieses in der methodischen Literatur als Kernkriterium angesehenen Details auch in neuen Studien bedenklich.
Positiv ist anzumerken, dass fast alle Studien doppelblind waren (eine Überprüfung des Verblindungserfolges wurde jedoch in keiner Studie beschrieben). Eine klare Kopfschmerzdiagnose nach definierten Kriterien, eine mindestens vierwöchige Baselinephase, die Verwendung eines Kopfschmerztagebuches und eine zwar heterogene, aber akzeptable Präsentation der Daten zur Kopfschmerz- oder Attackenhäufigkeit war ebenfalls in der Mehrheit der Studien gegeben.
Aufgrund der häufig unzureichenden Darstellung in den Studien muß die Zusammenfassung der Studien unter Einbezug sowohl der Effektmaße als auch des vote counts (Kategorisierung der Ergebnisse) und der Beschreibung in den Tabellen A1 bis A10 im Anhang erfolgen. Tabelle 3 gibt einen Überblick für wieviele Studien bzw. Vergleiche Effektmaßberechnungen möglich waren. In Tabelle 4 sind die Kategorisierungen der Ergebnisse zusammengestellt.
|
Substanz |
Propranolol |
Metoprolol |
Flunarizin |
|
(Gesamtzahl Vergleiche) |
(71) |
(21) |
(46) |
|
Responder bzw. Therapieerfolg |
24 / 37 |
5 / 15 |
22 / 29 |
|
Attacken- oder Kopfschmerzhäufigkeit |
15 / 30 |
5 / 9 |
15 / 16 |
|
Anzahl Patienten mit Nebenwirkungen |
14 / 24 |
3 / 5 |
13 / 13 |
|
|
Tabelle 4: Kategorisierung der Studienergebnisse (vote count)
|
+ |
(+) |
0 |
(-) |
- |
unint. |
|
|
Propranolol | ||||||
|
|
17 |
6 |
2 | |||
|
|
2 |
12 |
1 | |||
|
|
7 |
3 |
1 |
1 |
||
|
|
1 |
5 |
10 |
2 |
1 |
|
|
Metoprolol | ||||||
|
|
3 |
1 | ||||
|
|
1 |
2 |
2 | |||
|
|
2 |
3 |
1 |
|||
|
|
5 |
1 | ||||
|
Flunarizin | ||||||
|
|
6 |
2 |
1 |
1 |
||
|
|
1 |
2 |
5 |
1 | ||
|
|
1 |
10 |
1 | |||
|
|
1 |
5 |
7 |
1 |
1 |
Propranolol vs. Placebo:
Bei der Kategorisierung der Ergebnisse wurde Propranolol in insgesamt 25 Vergleichen mit Placebo in 17 Fällen als signifikant bzw. deutlich überlegen eingestuft, in 6 Fällen war ein Trend zugunsten von Propranolol gegeben und in 2 Fällen kein Unterschied zu Placebo (siehe Tabellen 3
und A1 im Anhang).
| Abbildung 2.1: Responderratios in Studien Propranolol vs. Placebo | ||
|
| ||
| (Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1; siehe Anhang zur Erläuterung) n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI fixed = 95% Konfidenzintervall |
|
| [Seite 24↓] |
Für 10 Studien war die Berechnung von Responderratios möglich. Diese bestätigen grundsätzlich die Überlegenheit gegenüber Placebo, allerdings sind die Unterschiede in 5 Fällen nicht signifikant (siehe Abbildung 1). Bezüglich Kopfschmerzhäufigkeit präsentierten nur 2 Studien ausreichend detaillierte Ergebnisse für eine Effektmaßberechnung. In den 6 Studien, die Angaben zur Anzahl der Patienten mit Nebenwirkungen machten, war diese unter Propranolol im Schnitt etwa um ein Drittel höher als unter Placebo.
Propranolol vs. andere Substanzen:
Bei den 15 Vergleichen mit Flunarizin und anderen Calciumantagonisten ergaben sich in 12 Fällen keine eindeutigen Unterschiede, in zwei Fällen war ein Trend zugunsten von Propranolol, in einem Fall zugunsten eines Calciumantagonisten zu beobachten (siehe Tabellen 4 und A2 bis A4 im Anhang). Bei 11 interpretierbaren Vergleichen mit Metoprolol und anderen β-Blockern ergab sich in 7 Fällen kein Unterschied; zwei Studien fanden unter Metoprolol und eine unter Nadolol etwas bessere Ergebnisse, in einer Studie ergaben sich unter 160 mg Nadolol deutlich bessere Resultate als unter 160 mg Propranolol. Insgesamt 19 Vergleiche erfolgten mit einer Reihe weiterer Substanzen (Femoxetin, Acetylsalicylsäure, Methysergid, Dihydroergotamin, Cyclandelat, Mefenaminsäure, Tolfenaminsäure, Valproinsäure, Hydroxytryptophan, Amitriptylin, Clonidin und Naproxen). Eine eindeutige Überlegenheit ergab sich nur gegenüber Amitriptylin bei Patienten, die explizit keine zusätzlichen Spannungskopfschmerzen hatten. Bei beiden Vergleichen mit Ergotaminpräparaten war Propanolol zumindest tendenziell überlegen. Bei den übrigen Vergleichen war die Wirksamkeit meist ähnlich. Angesichts der häufig sehr kleinen Fallzahlen sind alle Vergleiche mit anderen Medikamenten ohne einen signifikanten Unterschied jedoch mit großer Zurückhaltung zu interpretieren.
In Abbildung 2 sind die 27 Vergleiche von Propranolol und anderen Substanzen bzgl. Responderratios zusammengefasst. Die Ergebnisse bestätigen diejenigen der Kategorisierung. Signifikante Unterschiede sind nur bei einer einzigen Studie zu erkennen.
Abbildung 3 zeigt die Ergebnisse von 18 Studien mit verwertbaren Angaben zur Häufigkeit. Hier zeigt sich allerdings nur in drei Studien kein Unterschied zu anderen β-Blockern. Demgegenüber ergibt sich zum Teil eine Unterlegenheit beim Vergleich mit anderen Substanzen.
|
| [Seite 25↓] |
| Abbildung 2.2:Responderratios in Studien Propranolol vs. andere Substanzen | ||
|
| ||
| (Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1) n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI fixed = 95% Konfidenzintervall |
| Abbildung 2.3: Standardisierte Effektgrößen zu Häufigkeitsmaßen in Studien Propranolol vs. andere Substanzen | ||
|
| ||
| (Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1) n = Anzahl Patienten in der jeweiligen Gruppe, mean (sd) = Mittelwert (Standardabweichung), SMD = standardisierte Mittelwertsdifferenz, 95%CI fixed = 95%-Konfidenzintervall |
|
| [Seite 27↓] |
Bezüglich der Anzahl der Patienten mit Nebenwirkungen (siehe Abbildung 4) gibt es in den 18 Studien mit entsprechenden Daten einen leichten Trend zugunsten einer besseren Verträglichkeit von Propranolol.
| Abbildung 2.4: Relative Risiken bzgl. des Auftretens von Nebenwirkungen in Studien Propranolol vs. andere Substanzen | ||
|
| ||
| (Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1) n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = relatives Risiko, 95%CI fixed = 95% Konfidenzintervall |
Metoprolol vs. Placebo:
Bei 4 Vergleichen mit Placebo erwies sich Metoprolol dreimal als signifikant überlegen und einmal zumindest als tendenziell überlegen (Tabelle 3 und Tabelle A5 im Anhang). Die Ergebnisse der 3 Studien mit Responderangaben und der 2 Studien mit verwertbaren Daten zur Häufigkeit bestätigen die Ergebnisse der Kategorisierung weitgehend (ohne Abbildung).
|
| [Seite 28↓] |
Metoprolol vs. andere Substanzen:
Auch bei Vergleichen mit anderen Medikamenten schneidet Metoprolol nur in einer Studie (im Vergleich zu Pizotifen) tendenziell schlechter ab (siehe Abbildung 5, Tabelle 3 und Tabelle A6 im Anhang). Wiederum ist bei den Vergleichen mit anderen Medikamenten die geringe Fallzahl zu beachten. Aufgrund der geringen Zahl von Studien mit Daten wurde auf eine Abbildung zu Kopfschmerzhäufigkeit und Anzahl der Patienten mit Nebenwirkungen verzichtet.
| Abbildung 2.5: Responderratios in Studien Metoprolol vs. andere Substanzen | ||
|
| ||
| (Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1) n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI fixed = 95% Konfidenzintervall |
Flunarizin vs. Placebo
Flunarizin erwies sich in 9 interpretierbaren Vergleichen Placebo achtmal überlegen (6 mal signifikant, zweimal tendenziell); nur in einer Studie war kein Unterschied zu beobachten (siehe Tabelle 4 und Tabelle A7 im Anhang). Die Ergebnisse der 6 Studien, die Daten zu Responderratios präsentieren, (siehe Abbildung 6) und der 5 Studien mit Daten zur Kopfschmerzhäufigkeit (ohne Abbildung) bestätigen die Ergebnisse der Kategorisierung weitgehend, allerdings sind bei der Berechnung der Responderratio nur 2 Unterschiede signifikant. In den 4 Studien mit Daten zur Anzahl der Patienten mit Nebenwirkungen wurden keine Unterschiede im Vergleich zu Placebo berichtet.
|
| [Seite 29↓] |
| Abbildung 2.6: Responderratios in Studien Flunarizin vs. Placebo | ||
|
| ||
| (Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1) n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI fixed = 95% Konfidenzintervall |
Flunarizin vs. andere Substanzen:
In den 9 Vergleichen mit anderen Calciumantagonisten erwies sich Flunarizin einmal gegenüber Nimodipin als eindeutig überlegen (beim zweiten Vergleich mit dieser Substanz war kein eindeutiger Unterschied zu erkennen). Ansonsten wurden nur geringe Unterschiede beobachtet. Dies gilt auch für die Vergleiche mit β-Blockern. In 6 Vergleichen mit Pizotifen war in drei Fällen ein tendenziell besseres Ergebnis unter Flunarizin zu beobachten, in drei Studien kein Unterschied. Beim Vergleich zu Cyclandelat ergab sich in einer Studie ein signifikant besseres Ergebnis mit Flunarizin. Ansonsten ergeben sich zu weiteren Substanzen keine überzeugenden Unterschiede. Auch hier kann aufgrund der geringen Fallzahl bei fehlenden Unterschieden aber nicht von einer Äquivalenz ausgegangen werden (siehe Tabelle 4 sowie Tabellen A8 bis A10 im Anhang).
Die Kategorisierung der Ergebnisse wird durch die Effektmaßberechnungen für die Responderangaben (siehe Abbildung 7) und für die Kopfschmerzhäufigkeitsmaße (ohne Abbildung) wiederum weitgehend bestätigt.
Im Vergleich zu Propranolol scheinen unter Flunarizin tendenziell mehr Patienten Nebenwirkungen anzugeben. Da jedoch nur sehr wenige Studien verwertbare Angaben hierzu machen, ist dieses Ergebnis mit Vorbehalt zu bewerten.
|
| [Seite 30↓] |
| Abbildung 2.7: Responderratios in Studien Flunarizin vs. andere Substanzen | ||
|
| ||
| (Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1) n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI fixed = 95% Konfidenzintervall |
|
| [Seite 31↓] |
Durch die Literatursuche wurden insgesamt 61 potenziell relevante kontrollierte klinische Studien zu Hypericumpräparaten identifiziert, die formal auf Erfüllung der Einschlusskriterien geprüft wurden. 33 Studien in 43 Publikationen entsprachen den Einschlusskriterien (38;50;159;160;164-169;173;174;186;194;196;250;254;258;259;273;335;338;354;365;381;385;396;399;400;403;404; 407;419;420;484;486-488;499;515;516;518;520). 28 Studien wurden aus folgenden Gründen ausgeschlossen: in 8 Studien ging es nicht primär um die Behandlung depressiver Verstimmungen bzw. war die Einschlussdiagnose nicht Depression (11;36;91;175;193;253;303;413), 7 Studien wurden an gesunden Freiwilligen durchgeführt (52;180;216;217;398;405;430), in 5 Studien erfolgte kein Vergleich mit Placebo oder einem anderen Antidepressivum (40;276;308;427;528), 5 Studien waren zu Kombinationspräparaten mit Hypericum (92;248;358;434;507), eine Studie war nicht verfügbar (4), eine weder explizit randomisiert noch doppelblind (490) und in einer war die Beobachtungszeit unter 4 Wochen (497).
Eine Zusammenstellung der Patientenmerkmale, Methoden, Interventionen und Ergebnisse aller eingeschlossenen Studien findet sich in den Tabellen A11 und A12 im Anhang. 23 Studien verglichen Hypericumextrakte mit Placebo, 12 mit anderen Medikamenten (2 Studien mit Placebo und aktiver Kontrolle). In 4 Studien war die Vergleichsmedikation ein selektiver Serotonin-Wiederaufnahmehemmer (dreimal Fluoxetin 20 mg täglich, einmal Sertralin 75 mg). In 7 Studien dienten zum Teil sehr niedrig dosierte, ältere Antidepressiva (viermal Imipramin in Dosierungen zwischen 75 und 150 mg, zweimal Amitriptylin 30 bzw. 75 mg und einmal Maprotilin 75 mg) und in einer älteren Studie Bromazepam als Vergleichssubstanz. Aufgrund der unterschiedlichen Klassifikationssysteme (ICD 9, ICD 10 und DSM) ist es schwer, die Studien diagnostisch sinnvoll zu gruppieren. In der überwiegenden Mehrheit der Studien sind Patienten mit leichten bis mittelschweren Depressionen eingeschlossen, nur in einer der Studien erfolgte explizit eine Beschränkung auf Patienten mit schwerer Depression (486). Die Behandlungsdauer lag zwischen 4 und 8 Wochen.
Die Mehrzahl der eingeschlossenen Studien war von guter methodischer Qualität. 19 Studien erreichten 4 oder 5 von 5 möglichen Punkten bei der Beurteilung mit der Skala von Jadad et al. Mit Ausnahme von 3 älteren Studien waren alle doppelblind. Die Verblindung der Randomisation [Seite 32↓](concealment) war bei vielen Studien beschrieben und adäquat. In allen Fällen erfolgte die Umsetzung durch fortlaufend numerierte neutrale Medikationscontainer. Bei den älteren Studien waren jedoch aus psychiatrischer Sicht in vielen Fällen Vorbehalte anzumelden. Die Studienpopulationen bzw. diagnostischen Kriterien waren häufig nur ungenau beschrieben, Vergleichsmedikationen niedrig dosiert und bzgl. der Beurteilungsinstrumente stellte sich die Frage einer angemessenen Anwendung. So fällt z.B. bei zwei Studien auf, dass hohe HAMD-Baselinewerte und gleichzeitig eine Diagnose leichte bis mittelschwere Depression berichtet werden (399). Ohne dass dies in den Jadadscores deutlich wird, erscheint insgesamt die Qualität in neueren Studien besser.
Hypericumextrakte vs. Placebo
Insgesamt 22 Studien mit 2178 Patienten präsentierten Daten zum Therapieerfolg (Response, siehe Abbildung 8). Die gepoolte Responderratio lag bei 1,89 (95%-Konfidenzintervall 1,52 –2,36, p < 0,00001), d.h. die Hypericumextrakte erwiesen sich im Mittel Placebo deutlich überlegen. Der Test auf Heterogenität war hochsignifikant, d.h. die Studienergebnisse unterschieden sich überzufällig. Die Heterogenität blieb auch erhalten, wenn in Subgruppen von Präparaten getestet wurde. Die Responderratios waren hier für den Extrakt LI 160 (in zwei Versionen) 1,87 (1,35-2,60), für das Präparat Psychotonin (ebenfalls in zwei Versionen) 2,98 (1,13-7,84) und für die übrigen getesteten Extrakte 1,67 (1,19-2,36), d.h. für alle drei Subgruppen ergab sich wiederum eine signifikante Überlegenheit gegenüber Placebo. Ordnet man die Studien entsprechend dem Publikationsjahr, fällt auf, dass in neueren Studien der Effekt über Placebo hinaus zwar immer noch hochsignifikant, jedoch deutlich geringer ausgeprägt ist als in den älteren Studien (Abbildung 9). Abbildung 10 legt nahe, dass zwischen Schweregrad der Symptomatik vor Behandlung und der Effektivität von Hypericumextrakten ein Zusammenhang besteht: In den Studien an Patienten mit leichten Depressionen (HAMD-Score 12-18) ist die gepoolte Responderratio 2,70 (1,56-4,68), bei Patienten mit HAMD-Scores zwischen 19 und 21 2,02 (1,39-2,94) und bei Patienten mit HAMD-Scores über 22 1,22 (1,05-1,41). Allerdings sind neuere Studien häufiger an Patienten mit vergleichsweise schwerer Symptomatik durchgeführt worden. In 2 von 3 Subgruppen ist der Test auf Heterogenität weiterhin signifikant. Auch in den Analysen zu HAMD-Scorewerten sowie zu den Ergebnissen bei der Selbstbeurteilungsskala D-S (Depressionsskala, von Zerssen) erwiesen sich die Hypericumextrakte gegenüber Placebo deutlich überlegen (ohne Abbildung).
|
| [Seite 33↓] |
| Abbildung 2.8: Responderratios in Studien Hypericum vs. Placebo – geordnet nach Extrakten | ||
|
| ||
| (Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1) n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI random = 95% Konfidenzintervall Extract 1 = LI 160 (Jarsin® oder Jarsin 300®), extract 2 = Psychotonin M® oder Psychotonin forte® |
|
| [Seite 34↓] |
| Abbildung 2.9: Responderratios in Studien Hypericum vs. Placebo – geordnet nach Publikationsjahr | ||
|
| ||
| (Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1) n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI random = 95% Konfidenzintervall |
|
| [Seite 35↓] |
| Abbildung 2.10: Responderratios in Studien Hypericum vs. Placebo – geordnet nach Schweregrad (HAMD-Scorewerte) vor Behandlung | ||
|
| ||
| (Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1) n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI random = 95% Konfidenzintervall |
Hypericumextrakte vs. andere Medikamente (Abbildung 11, Tabelle A12 im Anhang)
Für alle Studien konnten Responderratios berechnet werden. Die gepoolte Responderratio war 1,09 (95%-Konfidenzintervall 0,99-1,20), d.h. Hypericumextrakte waren in den einbezogenen Studien mindestens gleich effektiv wie die geprüften Antidepressiva. Die Subgruppenvergleiche zwischen dem Extrakt LI 160 und anderen Extrakten mit älteren Antidepressiva und selektiven [Seite 36↓]Serotonin-Wiederaufnahmehemmern erbrachten keine signifikanten Unterschiede. Nur in einer Studie (403) war der geprüfte Hypericumextrakt 20 mg Fluoxetin signifikant überlegen. Bei der Auswertung der HAMD-Scorewerte zeigte sich dieser Unterschied jedoch nicht. Klare Auswirkungen der Dosierung der Vergleichsantidepressiva oder des Schweregrades der Depression waren nicht zu erkennen.
| Abbildung 2.11: Responderratios in Studien Hypericum vs. andere Medikamente | ||
|
| ||
| (Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1) n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI random = 95% Konfidenzintervall Extract 1 = LI 160 (Jarsin® oder Jarsin 300®), extract 2 = Psychotonin M® oder Psychotonin forte® |
|
| [Seite 37↓] |
Im Vergleich zu älteren Antidepressiva traten unter Hypericumextrakten bei deutlich weniger Patienten Nebenwirkungen auf (siehe Abbildung 12). Bei den zwei Vergleichen mit selektiven Serotonin-Wiederaufnahmehemmern war der Unterschied geringer ausgeprägt, in der gepoolten
| Abbildung 2.12: Anzahl der Patienten mit Nebenwirkungen (relatives Risiko) in Studien Hypericum vs. andere Medikamente | ||
|
| ||
| (Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1) n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI random = 95% Konfidenzintervall Extract 1 = LI 160 (Jarsin® oder Jarsin 300®), extract 2 = Psychotonin M® oder Psychotonin forte® |
|
| [Seite 38↓] |
Analyse jedoch immer noch signifikant zugunsten der Hypericumextrakte. Auch bezüglich der Anzahl von Studienabbrechern (relatives Risiko 0,73, 95%-Konfidenzintervall 0,56-0,94) und der Anzahl von Studienabbrechern wegen Nebenwirkungen (0,41; 0.26-0,66) schnitten die Hypericumextrakte signifikant besser ab.
Auffallend ist, dass alle 3 nicht in Deutschland durchgeführten placebokontrollierten Studien (338;407;467) keine signifikante Überlegenheit der geprüften Hypericumextrakte finden konnten. Dies könnte zufallsbedingt sein, könnte aber auch dafür sprechen, dass in Deutschland andere Patienten in die Studien einbezogen werden.
Die Wirksamkeit von Propranolol, Metoprolol und Flunarizin ist trotz der häufig unbefriedigenden Qualität der vorliegenden Studien im Vergleich zu Placebo gut belegt. Eindeutige Unterschiede zwischen diesen drei Substanzen sowie im Vergleich zu anderen Calciumantagonisten, β-Blockern sowie verschiedenen weiteren Substanzen lassen sich nur in Ausnahmefällen (z.B. der Überlegenheit von Metoprolol im Vergleich zur Acetylsalicylsäure (89;154)) erkennen. In den allermeisten Studien ist die Fallzahl jedoch so gering, dass aufgund des Fehlens eines signifikanten Unterschiedes keineswegs auf Äquivalenz geschlossen werden kann. Aufgrund der unterschiedlichen Vergleichssubstanzen und Dosierungen, der häufig unbefriedigenden Studienqualität und der heterogenen oder unzureichenden Ergebnispräsentation erschien die Durchführung einer quantitativen Meta-Analyse obsolet. Vergleichende Aussagen über die Wirksamkeit einzelner Substanzen lassen sich daher schwer ableiten. Die Einschätzung von Propranolol, Metoprolol und Flunarizin als Migräneprophylaktika der ersten Wahl (21;87) lässt sich – wenn man sich ausschließlich auf die Evidenz aus randomisierten Studien beschränkt - daher eher durch die grundsätzlich belegte Wirksamkeit gegenüber Placebo als mit einer bewiesenen Überlegenheit im Vergleich zu anderen Substanzen begründen. Diese Schlußfolgerungen sind im Einklang mit denen der im Auftrag der Agency of Health Care Policy and Research durchgeführten Bewertung (62).
Aus methodischer Sicht besonders auffallend sind bei den eingeschlossenen Studien (1) die mangelhafte Beschreibung von Studienabbrüchen und deren Berücksichtigung in der Analyse sowie (2) die enorme Heterogenität und häufig mangelnde Detailgenauigkeit der Ergebnispräsentation.
|
| [Seite 39↓] |
Zu (1): In Studien zur Wirksamkeit einer medikamentösen Migräneprophylaxe kann es aufgrund der vergleichsweise langen Beobachtungsdauer, von Nebenwirkungen, wegen Nichtansprechens auf die Therapie, mangelnder Compliance der Patienten bzgl. Medikationseinnahme und Studienbedingungen (wie z.B. regelmäßige Arztbesuche und sorgfältige Führung des Kopfschmerztagebuchs) häufig dazu kommen, dass ein relevanter Anteil der Patienten die Studie vorzeitig abbricht oder ausgeschlossen wird. Solche Abbrüche und Ausschlüsse sind detailliert zu dokumentieren; diesbezügliche Empfehlungen wurden mehrfach publiziert (34;333). Leider fehlen z.T. auch in neueren Studien noch immer solche Angaben. In der Mehrheit der Studien ist aber darüberhinaus die Abbrecherrate so hoch (in der Größenordnung zwischen 10 und 50%), dass die Ergebnisse dadurch erheblich beeinflußt werden können, d.h. dass z.B. in placebokontrollierten Untersuchungen die Überlegenheit des Prüfpräparates z.T. überschätzt worden sein könnte. Analysen nach dem intent-to-treat Prinzip (514) wurden nur in wenigen Studien durchgeführt. Wenn solche Analysen durchgeführt wurden, wurden für fehlende Werte meist die zuletzt verfügbaren eingesetzt (last value carried forward). Bricht z.B. ein Patient nach 2 Monaten wegen Nebenwirkungen die Studie ab, werden bei dieser Vorgehensweise seine Angaben zur Attackenhäufigkeit in Monat 2 auch zur Bewertung von Monat 4 herangezogen. Bei Erkrankungen, bei denen nicht davon ausgegangen werden kann, dass sich die Ergebnisse bei längerer Beobachtungszeit verbessern, erscheint die Anwendung des last value carried forward Prinzips zumindest kritisierbar. Eine konservativere Einschätzung ergäbe sich vermutlich, wenn die fehlenden Werte durch Baselinewerte ersetzt würden. In zukünftigen Studien sollte unbedingt auf eine bessere Berichterstattung bzgl. Abbrechern und Ausschlüssen geachtet werden. Außerdem sollten sowohl per-protocol wie auch intent-to-treat Analysen präsentiert werden, wobei aus der Sicht des Autors bei den letzteren nicht nach dem last value carried forward Prinzip verfahren werden sollte.
Zu (2): Die Heterogenität in der Verlaufsbeurteilung und Ergebnisdarstellung macht eine systematische Bewertung der Ergebnisse fast unmöglich. Als Reviewer steht man vor einem „Flickenteppich“ von Resultaten, der für den Leser kaum transparent aufarbeitbar ist. Die Probleme sind einerseits in der Komplexität des Krankheitsbildes und den daraus folgenden Problemen bei der Quantifizierung der Symptomatik begründet, andererseits jedoch auch durch unzureichende Präsentation. Die Empfehlungen der International Headache Society für klinische Studien zur medikamentösen Behandlung der Migräne (198) geben einen definierten Katalog von Beurteilungskriterien, jedoch keine Präsentationsformate für die Publikation vor. Für und gegen die einzelnen Parameter und deren Darstellungsweisen gibt es jeweils eine Reihe von Argumenten. Dennoch erscheint es sinnvoll, bestimmte basale deskriptiv-statistische Angaben in Migräneprophylaxestudien standardmäßig zu präsentieren: 1) Jeweils ein zentraler Schätzer (Mittelwert oder Median) und ein Verteilungsmaß (Standardabweichung oder Quartile, nicht Standardfehler oder Konfidenzintervalle) für die Attackenzahl und/oder die Anzahl der Tage mit [Seite 40↓]Kopfschmerzen (dieser Parameter ist in Multicenterstudien zuverlässiger zu erheben, kann aber aufgrund von begleitenden Nicht-Migränekopfschmerzen Probleme bereiten) und für die Anzahl der Tage, an denen Medikamente zur Attackenkupierung eingenommen wurden; 2) Anzahl der Patienten, bei denen im Vergleich zur Baselinephase die Attackenhäufigkeit und/oder die Anzahl der Kopfschmerztage um 50% oder mehr abgenommen hat. Vier-Wochenperioden sind häufige Beurteilungszeiträume in Migräneprophylaxestudien. Daher sollten in jedem Fall Angaben für tatsächlich beobachtete Werte (nicht ausschließlich Abnahmen gegenüber Baseline in Prozent oder absolut) in den 4 Wochen vor Behandlung und in den letzten 4 Behandlungswochen gemacht werden. Weitere Zeitfenster sind selbstverständlich wünschenswert. Für die Berechnung von Effektmaßen für Attackenhäufigkeit und Kopfschmerztage in Meta-Analysen ist die Angabe von Mittelwerten und Standardabweichungen sowie die Anzahl der zugrundeliegenden Beobachtungen notwendig. Da die Daten häufig nicht normalverteilt sind, geben viele Autoren - grundsätzlich richtigerweise - den Median (und selten zusätzlich Quartile) an. In solchen Fällen wäre die zusätzliche Angabe von Mittelwerten und Standardabweichungen dennoch wünschenswert. Angaben zur Kopfschmerzdauer erscheinen wegen der fraglichen Verlässlichkeit problematisch. Für den Patienten ist es häufig schwer einzuschätzen, wann die Kopfschmerzen begannen und wann sie aufhörten. Schwierig sind auch Angaben zur Attackenintensität. Einerseits kann die Intensität der einzelnen Attacken gemittelt werden, auf der anderen Seite können die Intensitäten in einem Score addiert werden.
Zusammenfassend muß festgestellt werden, dass die klinischen Studien zur Migräneprophylaxe mit Propranolol, Metoprolol und Flunarizin die Wirksamkeit dieser Substanzen grundsätzlich belegen, dennoch aber viele Fragen offen lassen. Langzeitstudien sind selten oder aufgrund hoher Abbrecherraten kaum interpretierbar. Vergleiche verschiedener Medikamente haben meist keine ausreichende Power, um eine Äquivalenz abzusichern. Schließlich scheinen Autoren von Publikationen international gängige Empfehlungen zur Veröffentlichung randomisierter Studien (34;333) weitgehend zu ignorieren. Das Ausmaß der prophylaktischen Wirksamkeit der untersuchten Medikamente ist außerdem im Verhältnis zu den nicht unbeträchtlichen Nebenwirkungen nicht wirklich überzeugend, sodass die Suche nach anderen effektiven und nebenwirkungsarmen Behandlungsstrategien fortgesetzt werden sollte.
|
| [Seite 41↓] |
Die Überlegenheit von Hypericumextrakten bei der Behandlung von leichten bis mittelschweren Depressionen im Vergleich zu Placebo ist durch zum Teil qualitativ hochwertige Studien gut belegt. Bei schweren Depressionen scheint die Wirksamkeit, zumindest bei den geprüften Dosierungen, weniger deutlich ausgeprägt zu sein. Außerdem sprechen die Daten dafür, dass das Ausmaß des Effektes in älteren Studien deutlich überschätzt wurde. Die vorhandene Evidenz spricht auch dafür, dass Hypericumextrakte bei leichten bis mittelschweren Depressionen ähnlich wirksam sind wie andere Antidepressiva, gleichzeitig jedoch weniger Nebenwirkungen haben. Aufgrund der häufig unzureichenden Dosierungen der Vergleichspräparate in den älteren Studien und der Vielzahl von Hypericumextrakten und konventionellen Antidepressiva, sind hier jedoch weitere Studien notwendig. Diese Schlussfolgerungen sind weitgehend in Übereinstimmung mit denen anderer systematischer Übersichtsarbeiten zum Thema (siehe Kapitel 4).
Die Interpretation der placebokontrollierten Studien wird durch die erhebliche Heterogenität der berechneten Effektgrößen erschwert. Die statistischen Tests auf Heterogenität werden allgemein als wenig sensitiv angesehen (461). Umso mehr müssen die hochsignifikanten Ergebnisse diesbezüglich beunruhigen. Ein plausibler Grund für die Heterogenität könnten theoretisch die unterschiedlichen Extrakte sein. Da jedoch auch innerhalb der Subgruppenanalysen zu einem Extrakttyp die Heterogenität nur unwesentlich abnimmt, kann dies nicht die einzige Erklärung sein. Aus Sicht des Autors erscheinen vor allem Unterschiede bzgl. Studienqualität und der Studienpopulationen plausible Gründe für die variierenden Effektgrößen. Die Qualitätsunterschiede sind jedoch mit gängigen methodischen Qualitätsskalen kaum zu objektivieren, da auch einige der subjektiv als problematisch eingestuften Studien hohe Scores erreichten. Eine weitergehende Untersuchung der Ursachen für die beobachtete Heterogenität durch Metaregressionstechniken, bei denen mehrere potentielle Einflussfaktoren gleichzeitig berücksichtigt werden können (414), wird für die Zukunft angestrebt.
Hypericumextrakte sind in jüngster Vergangenheit aufgrund von Interaktionen mit anderen Arzneimitteln in die Diskussion geraten (113). Zahlreiche Fallberichte zeigen, dass die Plasmakonzentration verschiedener Wirkstoffe wie z.B. Cyclosporin (391), Indinavir (369) oder Warfarin (527) bei gleichzeitiger Hypericumgabe abnimmt. Als Wirkungsmechanismus wird vor allem eine Induktion von Cytochrom P-450-Enzymen diskutiert (113). Dies verdeutlicht, dass Hypericumextrakte trotz ihrer grundsätzlich sehr guten Verträglichkeit nur unter ärztlicher Aufsicht eingenommen werden sollten.
Mit Spannung werden derzeit die Ergebnisse einer von den National Institutes of Health (NIH) gesponsorten Studie erwartet, in der die Wirksamkeit eines Hypericumextrakts, eines selektiven [Seite 42↓]Serotonin-Wiederaufnahmehemmers und von Placebo bei mehr als 300 Patienten mit majorer Depression verglichen wird. Dieser Studie wird besonders große Bedeutung beigemessen, a) da sie vermutlich die erste nicht von einer Pharmafirma gesponsorte Studie zu einem Hypericumpräparat ist, b) weil sie mit besonders hohem finanziellen und methodischem Aufwand durchgeführt wird und c) da die erste placebokontrollierte amerikanische Studie von Shelton et al. (407) ein negatives Ergebnis erbracht hat. Diese letzte, methodisch sehr hochwertige Studie wurde allerdings kontrovers diskutiert, da sie 1) Patienten einschloss, die im Mittel seit mehr als 2 Jahren an der aktuellen depressiven Episode litten und 2) von einer Pharmafirma gesponsort wurde, die kein Hypericumpräparat herstellt, dafür jedoch einen selektiven Serotonin-Wiederaufnahmehemmer, der aber nicht in die Prüfung miteingebracht wurde. Sollte die NIH-Studie keine Überlegenheit im Vergleich zu Placebo bei gleichzeitiger Unterlegenheit zum synthetischen Antidepressivum erbringen, ist damit zu rechnen, dass die bisher vorliegenden, hauptsächlich aus Deutschland stammenden, positiven Ergebnisse international in Frage gestellt werden. Allerdings ist auch hier nochmals zu berückschtigen, dass in der NIH-Studie nur Patienten mit majorer Depression eingeschlossen wurden und die vorliegende Meta-Analyse darauf hinweist, dass bei diesen Patienten der Effekt geringer ausgeprägt ist als bei Patienten mit leichteren Depressionen.
Ob mit höheren Dosierungen bei schwereren Depressionen bessere Ergebnisse erzielt werden könnten, ist eine Fragestellung, die angesichts der guten Verträglichkeit von Hypericumextrakten untersucht werden sollte. Bisher wurde nur in einer einzigen Studie (486) eine vergleichsweise hohe Extraktdosis untersucht.
Trotz dieser Diskussionen erscheint die Gabe qualitativ hochwertiger und in klinischen Studien geprüfter Hypericumextrakte zur Behandlung leichter bis mittelschwerer Depressionen gerechtfertigt. Weitere sorgfältige Studien müssen zeigen, inwieweit Hypericumextrakte bei majoren bzw. bei schwereren Depressionen vertretbar sind.
| © Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme. | ||
| DiML DTD Version 3.0 | Zertifizierter Dokumentenserver der Humboldt-Universität zu Berlin | HTML-Version erstellt am: 04.08.2004 |