[Seite 5↓]

2  Systematische Übersichtsarbeiten randomisierter Studien - Anwendungsbeispiele

2.1 Hintergrund

2.1.1 Allgemeine Anmerkungen zu den Anwendungsbeispielen

Die für dieses Kapitel gewählten Anwendungsbeispiele zu randomisierten Studien zur Migräneprophylaxe mit Propranolol, Metoprolol und Flunarizin sowie zur Behandlung von Depressionen bzw. von depressiven Verstimmungen mit Hypericumextrakten sind aufgrund der Anzahl der einbezogenen Primärstudien und deren Heterogenität im Vergleich zu vielen publizierten Übersichtsarbeiten sehr umfangreich und komplex.

Die große Zahl von Primärstudien ist aus methodischer Sicht von Vorteil, da sie aussagekräftige Untersuchungen zur Qualität und Sensitivitätsanalysen im Rahmen der quantitativen Auswertungen überhaupt erst ermöglicht.

Die Komplexität ergibt sich einerseits aus den bearbeiteten Krankheitsbildern: Weder Migräne noch Depression sind klinisch in ihrer Ausprägung und im Verlauf leicht zu beurteilen. In Studien erfolgt dies bei der Migräne am besten über Tagebücher, in denen eine ganze Reihe von Parametern (z.B. Attackenhäufigkeit, -schwere, Medikationsverbrauch, Begleitsymptome) erfaßt wird (198). Die Präsentation der Ergebnisse wird von verschiedenen Autoren unterschiedlich gehandhabt (z.B. Mittelwert oder Median, Standardabweichung, Standardfehler oder 95%-Konfidenzintervall, Attackenrückgang im Vergleich zur Baselinephase in Prozent oder absolut oder Attackenhäufigkeit in den einzelnen Phasen etc.) und ist außerdem sehr häufig unvollständig. Bei der Depression werden typischerweise Fremd- und Selbstbeurteilungsinstrumente eingesetzt, in denen eine Reihe von Symptomen bewertet und quantifiziert werden. Zwar werden bei vielen Instrumenten auch „Responder“ und „Nonresponder“ kategorisiert, d.h. Patienten die unter Therapie eine bestimmte Verbesserung erfahren oder nicht, jedoch sind solche Kategorisierungen mit einem Informationsverlust verbunden.

Ein weiterer Grund für die Komplexität der folgenden systematischen Übersichtsarbeiten sind die Interventionen selbst. Propranolol, Metoprolol und Flunarizin sind „alte“ Substanzen; dementsprechend stammen auch die meisten Studien aus einer Zeit, in denen wesentlich geringere Anforderung an die Qualität gestellt wurden und heute übliche allgemeine (Good Clinical Practice Richtlinien für die Durchführung klinischer Studien) und migränespezifische (197;198) Standardempfehlungen noch nicht verfügbar waren. Berichterstattung und Zuverlässigkeit der Daten sind daher häufig suboptimal. Hypericumextrakte wurden vor allem in den neunziger Jahren Untersuchungsgegenstand randomisierter Studien. Durchführungs- und Berichtsqualität sind daher [Seite 6↓]in der Regel besser. Die unklare Vergleichbarkeit unterschiedlicher Hypericumextrakte – ein typisches Problem bei Übersichtsarbeiten zu Phytotherapeutika – stellt hier die Durchführbarkeit einer quantitativen Meta-Analyse in Frage. Ein weitere Schwierigkeit ist, dass Hypericumextrakte primär von niedergelassenen Ärzten bei Patienten mit leichten bis mittelschweren Depressionen angewendet werden, einer Klientel, die – obwohl zahlenmäßig sehr groß – in der klinischen Forschung zu konventionellen Antidepressiva kaum berücksichtigt wird (232). Dadurch ist der Vergleich mit diesen Substanzen erschwert.

Die Darstellung der Anwendungsbeispiele geht explizit auf diese von vornherein bei der Planung erwarteten Schwierigkeiten ein.

2.1.2 Migräneprophylaxe mit Propranolol, Metoprolol und Flunarizin

Migräne ist eine weit verbreitete Erkrankung mit einer geschätzten Prävalenz zwischen 8 und 16% in westlichen Industriestaaten (150;383). Bei der Mehrzahl der Patienten ist es ausreichend, ausschließlich die Migräneattacken zu behandeln (87). Bei einer nicht zu vernachlässigenden Minderheit der Patienten ist jedoch auch eine prophylaktische bzw. Intervallbehandlung indiziert, da die Attacken zu häufig oder zu intensiv sind, oder schlecht auf die Akutbehandlung ansprechen. Als Medikamente erster Wahl sind in Leitlinien (21;87) die Betablocker Propranolol und Metoprolol und der Calciumantagonist Flunarizin angegeben.

Eine große Zahl randomisierter Studien wurde zu diesen Wirkstoffen durchgeführt. Aktuelle systematische Übersichtsarbeiten liegen jedoch nicht in einfach zugänlicher Form vor. Zu Propranolol wurde von Holroyd et al. 1991 eine Meta-Analyse publiziert (189). Die Autoren schlossen, dass die kurzfristige Wirksamkeit über Placebo hinaus gut belegt sei, jedoch nur wenig Information zu Langzeiteffekten verfügbar sei. Diese Übersicht wird heutigen Anforderungen jedoch nicht gerecht, vor allem weil in der Meta-Analyse nicht die Zwischengruppenunterschiede (z.B. Differenz Verum – Placebo) sondern nur die Innergruppenunterschiede (vorher – nachher) verwendet wurden und weil die Bewertung ausschließlich auf der Basis der heute in der Migräneforschung nicht mehr empfohlenen (198) Kopfschmerzindices (Scoremaße, in die meist Häufigkeit und Intensität sowie evtl. andere Größen mit unterschiedlicher Gewichtung eingingen) erfolgte. Im Rahmen einer umfangreichen Bewertung aller verfügbaren Optionen zur Migräneprophylaxe bewertete eine Gruppe der Duke University in Durham (USA) im Auftrag der Agency of Health Care Policy and Research (AHCPR) auch Propranolol, Metoprolol und Flunarizin und klassifizierte die Wirksamkeit dieser Substanzen als belegt (62). Diese umfassende Zusammenstellung entspricht zwar den gängigen Anforderungen an systematische Übersichtsarbeiten, ist jedoch nur in Berichtsform publiziert und in Bezug auf die einzelnen bearbeiteten Interventionen recht unübersichtlich. Aus diesem Grund (sowie wegen des für [Seite 7↓]methodische Fragestellungen interessanten Potenzials dieses Studiensets) wurde eine systematische Übersichtsarbeit entsprechend gängiger Vorgehensweisen (2) zu den randomisierten Studien zu Propranolol, Metoprolol und Flunarizin durchgeführt. Folgende Fragen sollten beantwortet werden:

IIst durch randomisierte Studien belegt, dass

  1. Propranolol, Metoprolol und Flunarizin zur Prophylaxe von Migräneattacken bzw. zur Intervallbehandlung der Migräne wirksamer sind als Placebo?
  2. Propranolol, Metoprolol und Flunarizin zur Prophylaxe von Migräneattacken bzw. zur Intervallbehandlung der Migräne gleich wirksam oder wirksamer sind als andere Medikamente?

Außerdem sollte untersucht werden, wie die Qualität der Studien (aus der Sicht der Methodik klinischer Studien allgemein und in Bezug auf die Interpretierbarkeit für die Routinetherapie der Migräne) einzuschätzen ist und wie häufig Nebenwirkungen im Vergleich zu Placebo und anderen Medikamenten sind.

2.1.3 Behandlung von Depressionen mit Hypericumextrakten

Extrakte aus Hypericum perforatum (Johanniskraut) sind in Deutschland die am häufigsten verschriebenen Medikamente zur Behandlung von Depressionen bzw. von depressiven Verstimmungen (483). Johanniskrautextrakte enthalten mindestens 10 pharmakologisch potentiell relevante Wirkstoffgruppen, darunter Naphtodianthrone (z.B. Hypericin, auf dessen Gehalt zahlreiche marktgängige Präparate standardisiert sind), Flavonoide (z.B. Quercetin), Xanthone und Biflavonoide (340). Der exakte Wirkungsmechanismus der häufig beschriebenen antidepressiven Effekte ist jedoch nicht vollkommen klar (318).

Seit den achtziger Jahren wurde eine ganze Reihe randomisierter Studien zur Behandlung von Depressionen mit Johanniskrautextrakten durchgeführt. Unter der Leitung des Autors hat eine Arbeitsgruppe 1996 eine erste Meta-Analyse dieser Arbeiten vorgelegt (286); die Metaanalyse wurde 1988 aktualisiert (285). Da in den vergangenen Jahren weitere und vor allem methodisch bessere randomisierte Studien durchgeführt und publiziert wurden, wurde eine erneute Aktualisierung durchgeführt.

Folgende Fragestellungen sollten beantwortet werden.

  1. Sind Hypericumextrakte bei Behandlung von Depressionen bzw. von depressiven Verstimmungen wirksamer als Placebo?
  2. Sind Hypericumextrakte ähnlich effektiv wie synthetische Antidepressiva?
  3. Sind Hypericumextrakte nebenwirkungsärmer als synthetische Antidepressiva?


[Seite 8↓]

2.2  Methodik

2.2.1 Migräneprophylaxe mit Propranolol, Metoprolol und Flunarizin

2.2.1.1 Ein- und Ausschlußkriterien

Um in die systematische Übersichtsarbeit eingeschlossen zu werden, musste eine Studie folgende Kriterien erfüllen:

  1. Patienten: Patienten (im Durchschnitt über 18 Jahre) mit Migräne (mit oder ohne andere Kopfschmerzen). Studien mit Migräne- und anderen Kopfschmerzpatienten wurden nur aufgenommen, wenn seperate Ergebnisse zu den Migränepatienten vorlagen.
  2. Interventionen: In der Prüfgruppe Propranolol, Metoprolol oder Flunarizin zur Intervallbehandlung, in der Kontrollgruppe Placebo oder eine andere medikamentöse Migräneprophylaxe. Studien zu verschiedenen Dosen oder Applikationsformen der gleichen Substanz wurden nur einbezogen, wenn zusätzlich auch ein Vergleich mit einer der zwei oben genannten Arten von Kontrollen erfolgte. Studien zur Behandlung akuter Migräneattacken wurden ausgeschlossen.
  3. Design: explizit randomisierte und quasirandomisierte (z.B. Zuteilung entsprechend Geburtsdatum) klinische Studien sowie doppelblinde Studien, in denen neben den Patienten die aufnehmende und behandelnde Person verblindet war (dieses Kriterium wurde einbezogen, da in älteren Doppelblindstudien die Randomisation häufig nicht explizit erwähnt ist, die Doppelblindbedingungen jedoch nur mit Hilfe einer zumindest quasirandomisierten Zuteilung möglich sind).
  4. Zielkriterien: Beurteilung mindestens eines der folgenden Parameter nach mindestens 4 Wochen Beobachtungsdauer: Globalbeurteilung der Wirksamkeit (Response), Kopfschmerzindex, Zahl der Kopfschmerztage, Anfallshäufigkeit, -intensität. Studien, die ausschließlich andere Parameter beurteilten oder nach Therapiebeginn weniger als 4 Wochen beobachteten, wurden ausgeschlossen.

2.2.1.2 Literatursuche

Zur möglichst umfassenden Identifikation der verfügbaren Studien wurden folgende Quellen herangezogen:

  1. Medline (WinSpirs 4.0) 1966-2000/4; Vorgehensweise: Und-Verknüpfung des Suchbegriffs für die Erkrankung (migraine) mit den Begriffen für die Therapie (flunarizin*, propanolol or propranolol, metoprolol) sowie für kontrollierte klinische Studien (Strategie aus Cochrane Handbuch (2) Stufen 1-25)
  2. Cochrane Controlled Trial Register (2000, issue 2): Migraine and Therapiebegriff (siehe Medlinesuche)[Seite 9↓]
  3. Prüfen der gefundenen Studien auf relevante Querverweise
  4. Prüfen von Übersichtsarbeiten auf relevante Querverweise
  5. Regelmäßige Handsuchen in den Zeitschriften Cephalalgia, Headache und Pain seit Januar 1999 sowie Screeningsuchen über PubMed (migraine and Therapiebegriff) im Frühjahr 2001 zur Identifikation neuer Studien

2.2.1.3 Selektionsprozess

Die primären Suchergebnisse aus Medline und dem Cochrane Controlled Trial Register wurden dokumentiert und am Bildschirm einzeln geprüft (sofern ein Abstract vorhanden war, erfolgte immer eine Durchsicht des Abstracts). In einem ersten Screeningschritt wurden alle Referenzen aussortiert, bei denen eindeutig erkennbar war, dass sie die Einschlußkriterien nicht erfüllten (z.B. Studien an Kindern, placebokontrollierte Studien zu Sumatriptan, bei denen lediglich das Wort Propranolol im Abstract vorkam etc.). Alle übrigen Referenzen wurden in eine Datenbank (Reference Manager) eingelesen, im Volltext besorgt und formal (möglichst von zwei Beurteilern) mit einem Standardbogen auf die Erfüllung der Einschlußkriterien geprüft. Die Ausschlußgründe wurden jeweils dokumentiert. Die bibliographischen Angaben der geprüften Übersichtsarbeiten sowie die Querverweise auf potentiell relevante Studien in den besorgten Publikationen wurden ebenfalls geprüft. Lag die entsprechende Publikation nicht vor, wurde sie im Volltext besorgt.

2.2.1.4 Extraktion und Beurteilung

Die Extraktion von bibliographischen Angaben, Information zu Patienten, Methodik, Ergebnissen und Schlußfolgerungen sowie die Beurteilung der Studienqualität erfolgte mit einem vorgeprüften Formular durch einen oder zwei Reviewer. Ergebnisdaten wurden nach Möglichkeit zu vier Zeitpunkten (vor Behandlung, bis zu 4 Wochen nach Behandlungsende, 5 Wochen bis 3 Monate nach Behandlungsende (early follow-up) und mehr als 3 Monate nach Behandlungsende (late follow-up) zu folgenden Parametern extrahiert: Response, Zahl der Kopfschmerztage, Attackenhäufigkeit, -intensität, Kopfschmerzindex, sowie der Verbrauch von Akutmedikation. Wenn keine verwertbaren Daten (d.h. Daten, mit deren Hilfe ein Effektstärkemaß berechnet werden konnte, siehe 2.2.1.5.) vorlagen, wurde dokumentiert, ob entweder der Parameter zwar gemessen, die Ergebnisse aber nicht ausreichend oder gar nicht präsentiert wurden, der Parameter nicht gemessen wurde, oder ob die Situation jeweils unklar war.

Die Bewertung der methodischen Qualität erfolgte mit Hilfe des Jadadscores (206) und der Delphi Liste (469). Ziel beider Instrumente ist die Beurteilung von Aspekten bzgl. des Designs und der Durchführung von klinischen Studien, die relevant sind für ein verzerrungsfreies Studienergebnis.


[Seite 10↓]

Der Jadadscore ist eine systematisch entwickelte und validierte Skala zur Beurteilung der methodischen Qualität bzw. der „quality of reporting“ bezüglich methodischer Schlüsselkriterien. Er hat drei Items, bei denen maximal fünf Punkte (2-2-1) vergeben werden.

  1. Randomisation:
    Wenn die Studie explizit als randomisiert bezeichnet ist, wird ein Punkt vergeben. Ein Zusatz­punkt wird vergeben, wenn zusätzlich die Methode zur Generierung der Randomisations­sequenz beschrieben ist und diese Methode adäquat ist (z.B. Computer-generierte Random­liste, Random-Table etc.). Erfolgte die Zuteilung nach Geburtsdatum, Wochentag u.ä., wird kein Punkt vergeben (auch wenn die Studie angeblich „randomisiert“ ist).
  2. Doppelblindbedingungen:
    Wenn die Studie als doppelblind (Patienten und Ärzte verblindet) beschrieben ist, wird ein Punkt vergeben. Wenn die Doppelblindbedingungen genauer und glaubhaft beschrieben sind (z.B. mit einem Statement, daß Verum und Placebo „identical in taste and appearance“ waren), wird ein zusätzlicher Punkt gegeben. Wenn dagegen aus der Beschreibung klar wird, daß Prüf- und Vergleichsbehandlung unterscheidbar waren, gibt es keinen Punkt, auch wenn die Autoren behaupten, die Studie sei doppelblind gewesen.
  3. Drop-outs/Abbrüche: Hier wird ein Punkt vergeben
    – wenn explizit und glaubhaft gesagt wird, daß alle Patienten, die randomisiert wurden, auch tatsäch­lich analysiert wurden
    – oder wenn für alle Gruppen Zahl und Gründe für Abbrüche und Ausschlüsse genannt sind (Wenn z.B. nur die Zahl genannt wird oder Zahl und Gründe zwar genannt werden, aber nicht für die Gruppen separat, sondern nur insgesamt, wird kein Punkt vergeben)

Bei den Originalinstruktionen ist mit Doppelblindbedingungen die Verblindung von Patienten und Beurteilern gemeint (d.h., es können auch nicht-medikamentöse Studien unter bestimmten Bedingungen doppelblind sein). Da im vorliegenden Review medikamentöse Interventionen bearbeitet wurden, wurde die klassische Definition der Doppelblindbedingungen (Patient, Therapeut und Beurteiler verblindet) zugrundelegt.

Die 9 Fragen umfassende Delphi-Liste wurde von einem internationalen Team von Methodikern in einem Delphiprozess (d.h. mehreren Befragungs- und Konsensusrunden) entwickelt (469). Die Fragen können jeweils mit „ja“, „nein“ oder „unklar“ beantwortet werden. Da es für die Anwendung der Liste keine weitergehenden Instruktionen von den Autoren gibt (persönliche Mitteilung A. Verhagen), wurden eigene Vorgaben für die konkrete Anwendung einiger Kriterien formuliert. Die Fragen lauten:

  1. Erfolgte die Gruppenzuteilung randomisiert?
  2. Erfolgte die Gruppenzuteilung verblindet (concealed)?
    Weitergehende Instruktion: Geben Sie Antwort „ja“, wenn beschrieben ist, wie gewährleistet
    wurde, daß der aufnehmende Arzt nicht wußte, welche Behandlung der nächste Patient bekommen würde. Als adequat ist z.B. anzusehen, wenn „serially numbered, identical medication containers“ (der Patient bekommt in einer doppelblinden Studie jeweils die nächste Nummer zugeteilt, die je nach Randomisation Verum oder Placebo etc. entspricht), eine „central telephone randomisation“ oder „sealed opaque envelopes“ (nur relevant bei nichtmedikamentösen Verfahren) benutzt wurden.
  3. Waren die Gruppen vor der Behandlung bzgl. der relevantesten prognostischen Indikatoren vergleichbar?
    Weitergehende Instruktion: Geben Sie Antwort „ja“, wenn mindestens zu Alter, Geschlecht, Erkrankungsdauer, Symptomintensität und ggf. Diagnosen (bei Studien, bei denen die Patienten zusätzlich andere Kopfschmerzen haben) a) Daten präsentiert wurden und b) diese in beiden Gruppen ausreichend ähnlich waren. Angaben ausschließlich zur Gesamtgruppe in cross-over Studien wurden als nicht ausreichend betrachtet.
  4. Wurden Ein- und Ausschlusskriterien beschrieben?
  5. Erfolgte die Verlaufsbeurteilung (outcome assessment) unter Blindbedingungen?
    Weitergehende Instruktion: Für eine Antwort „ja“ sollte zusätzlich zum Patienten, der bei Kopfschmerzstudien im allgemeinen selbst der wichtigste Beurteiler ist, auch die begleitende Person (in der Regel der Arzt), die die Tagebücher einsammelt oder eine Beurteilung vornimmt, verblindet sein.
  6. War der Therapeut verblindet?
  7. War der Patient verblindet?

Weitergehende Instruktion: Wird eine Medikamentenstudie als doppelblind bezeichnet, sollten die Frage 5-7 mit „ja“ beantwortet werden (es sei denn, es gibt klare Hinweise, dass eine oder mehrere Gruppen doch nicht verblindet waren).

  1. Wurden die Ergebnisse für die Hauptzielparameter ausreichend detailliert beschrieben?
    Weitergehende Instruktion: Anwort „ja“ ankreuzen wenn für das oder die wichtigsten outcome-Maße (typischerweise Kopfschmerztage, -häufigkeit, -intensität, -indices) ein zentraler Schätzer (Mittelwert oder Median) und ein Maß zur Variabilität angegeben ist (Standardabweichung, Quartile etc.) bzw. ein Maß, aus dem die Variabilität rückbestimmt werden kann (Standardfehler, Konfidenzintervall, exakter statistischer Testwert).
  2. Wurde eine Intent-to-treat-Analyse durchgeführt?

Weitergehende Instruktion: Anwort „ja“ ankreuzen, wenn entweder explizit mehr als 90% der randomisierten Patienten auch tatsächlich analysiert wurden oder eine intent-to-treat Analyse durchgeführt wurde.


[Seite 12↓]

Zusätzlich zur Bewertung der methodischen Qualität wurde auch die Angemessenheit von Beobachtung und Berichterstattung mithilfe einer selbstentwickelten Liste beurteilt. Ziel war eine Abschätzung von Aspekten der klinischen Interpretierbarkeit, d.h. es geht um die Frage, ob ein erfahrener Kopfschmerztherapeut die Studie, so wie sie präsentiert ist, sinnvoll interpretieren kann (also prüfen, ob die Ergebnisse auf seinen Patienten übertragbar sind und ggf. eine Prognose erlauben). Die Liste umfasst 10 Fragen, die jeweils mit „ja“ und „nein“ beantwortet werden konnten:

  1. Wurde die Patientenselektion beschrieben?
    Antwort „ja“ ankreuzen, wenn zumindest ansatzweise beschrieben ist, wie die Stichprobe zustande kam. Mindestanforderung sind dabei ein Statement, woher die Patienten kamen (z.B. Formulierungen wie, „die Patienten wurden von niedergelassenen Ärzten an unsere Schmerzambulanz überwiesen“ – also Informationen zur Art des Prüfzentrums und der Rekrutierung der Patienten) sowie zumindest die Angabe basaler Ein- und Ausschlußkriterien.
  2. Wurde eine klare Kopfschmerzdiagnose beschrieben?
    Antwort „ja“ ankreuzen, wenn beschrieben ist, welche und wie die Kopfschmerzdiagnose gestellt wurde (also z.B. nach Kriterien der International Headache Society oder des ad-hoc-Committee oder Beschreibung bzw. Quelle für ein anderes Vorgehen).
  3. Wurden die Patienten ausreichend beschrieben?
    Für beide Gruppen sollten mindestens die 4 folgenden Charakteristika beschrieben sein: Kopfschmerzdiagnose (also z.B. Anzahl der Patienten mit Migräne mit oder ohne Aura), Alter (mindestens Mittelwert, Median oder Range), Geschlecht und ein Maß (z.B. Kopfschmerztage, Schmerzintensität, Kopfschmerzindex etc.), das über die Intensität der Beschwerden bei Studienbeginn Aufschluß gibt.
  4. Erfolgte eine Vorbeobachtung von mindestens 4 Wochen Dauer zur Ermittlung der Beschwerdeintensität vor Behandlungsbeginn?
  5. Wurden die Kointerventionen beschrieben?
    Antwort „ja“ ankreuzen, wenn zumindest orientierend beschrieben ist, wieviele Patienten welche Akutmedikation in welchem Ausmaß benutzten (z.B. Akutmedikation bei 45% der Patienten Analgetika, bei 47% Triptane, bei 23% Ergotamine etc.)
  6. Wurde ein Kopfschmerztagebuch oder –kalender zur Beurteilung der Beschwerdeintensität verwendet?
  7. Wurden Daten zur Häufigkeit der Kopfschmerzen präsentiert?
    Antwort „ja“ ankreuzen, wenn deskriptive Daten (zentrale Tendenz und ein Verteilungsmaß, z.B. Mittelwert und Standardabweichung) zu mindestens einem Zeitpunkt am Ende oder nach der Behandlung zur Kopfschmerzhäufigkeit (also z.B. Anzahl der Kopfschmerztage oder Attackenfrequenz) vorhanden sind. Wird ausschließlich ein Kopfschmerzindex (in dem z.B. Intensität und Kopfschmerztage multipliziert werden und dann nicht mehr separat erkennbar sind) präsentiert, bitte Antwort „nein“ ankreuzen.[Seite 13↓]
  8. Wurden Daten zur Schmerzintensität präsentiert?
    Wie 7, jedoch in Bezug auf ein Maß zur Schmerzintensität.
  9. Wurden 2 Monate nach Beginn der Therapie weitgehend alle Patienten beurteilt und analysiert?
    Antwort „ja“ ankreuzen, wenn nach Beginn der Therapie Ergebnisse über einen Beobachtungszeitraum von mindestens 2 Monaten von mindestens 90% der randomisierten Patienten vorlagen. Wenn nicht klar ist, ob Daten von 90% der Patienten ausgewertet werden konnten, „nein“ ankreuzen.
  10. Wurden 6 Monate nach Beginn der Therapie weitgehend alle Patienten beurteilt und analysiert?
    Wie 9., jedoch in Bezug auf 6 Monate und mindestens 80% der randomisierten Patienten.

2.2.1.5 Zusammenfassung der Primärstudienergebnisse

Bei der Protokollerstellung war davon ausgegangen worden, dass aufgrund von Heterogenität und Alter der Studien, von multiplen unterschiedlich gemessenen Zielparametern und mangelhafter Datenpräsentation eine umfassende Zusammenfassung der Primärstudienergebnisse in Effektmaßen vermutlich nicht möglich sein würde. Diese Einschätzung bewahrheitete sich. Soweit möglich wurden jedoch Effektmaße für die Responderanzahl, die Attacken- bzw. Kopfschmerzhäufigkeit und die Anzahl der Patienten mit Nebenwirkungen berechnet. Daten zu Kopfschmerzindices wurden nur selten ausreichend detailliert berichtet, sodass auf diese in der Folge nicht weiter eingegangen wird. Als Responderanzahl wurde, wenn vorhanden, die Anzahl der Patienten mit einer mindestens 50%igen Reduktion der Attackenzahl im Vergleich zur Baselinephase herangezogen, ansonsten andere Responsemaße einschl. Präferenzangaben bei cross-over Studien (siehe unten). Ursprünglich war vorgesehen, den Responderanteil in den einzelnen Gruppen nach dem intent-to-treat Prinzip zu berechnen (Zahl Responder/Zahl in die Gruppe randomisierter Patienten). Da die Zahlenangaben in vielen Studien sehr unklar waren, musste die Berechnung auf der Basis der jeweils in der Studie präsentierten Zahlen ausgewerteter Patienten durchgeführt werden, bei der Studienabbrecher in der Regel nicht berücksichtigt waren. Die berichteten Daten zur Häufigkeit variierten stark: Je nach Studie waren Attackenzahl, Zahl der Kopfschmerztage, der absolute oder der prozentuale Rückgang einer dieser beiden Maße gegenüber der Baselinephase angegeben. Außerdem variierten die Bezugszeiträume (meist 4 Wochen, teilweise aber auch 1, 8 oder mehr Wochen). Für die Effektmaßberechnung stellen jeweils niedrigere Werte günstigere Resultate (geringere Häufigkeit) dar. Dementsprechend wurden Rückgangswerte mit einem negativen Vorzeichen versehen. Zur Berechnung eines Effektmaßes mußten für die jeweilige Studie Mittelwerte und Standardabweichung oder Standardfehler (Rückberechnung der Standardabweichung durch Multiplikation mit √n) vorhanden sein. Studien, bei denen Mediane und Quartile oder ausschließlich Mittelwerte angegeben waren, [Seite 14↓]konnten nicht berücksichtigt werden. Da manche Studien nur die Gesamtfallzahl, nicht jedoch die Fallzahl in den einzelnen Gruppen angaben, wurde in diesen Fällen angenommen, dass jeweils die Hälfte der Patienten in einer Gruppe behandelt wurde.

Als Effektmaß bezüglich Therapieerfolg (Response) wurde das relative Risiko bzw. eine Responderratio ((Zahl der Responder in Testgruppe/Zahl der Patienten in Testgruppe)/(Zahl der Responder in Kontrollgruppe/Zahl der Patienten in Kontrollgruppe)) mit dem zugehörigen 95%-Konfidenzintervall berechnet. Werte > 1 weisen auf eine Überlegenheit der Prüfgruppe, Werte < 1 auf eine Überlegenheit der Kontrollgruppe. Für die Häufigkeitsmaße wurden standardisierte Mittelwertsdifferenzen (Mittelwertsdifferenz/gepoolte Standardabweichung) und 95%-Konfidenzintervalle berechnet. Werte > 0 weisen auf eine Überlegenheit der Testgruppe.

Als Effektmaß bzgl. Nebenwirkungen wurde das relative Risiko ((Zahl der Patienten mit Nebenwirkungen in Testgruppe/Zahl der Patienten in Testgruppe)/(Zahl der Patienten mit Nebenwirkungen in Kontrollgruppe/Zahl der Patienten in Kontrollgruppe)) mit dem zugehörigen 95%-Konfidenzintervall berechnet. Werte < 1 deuten hier auf ein günstigeres Ergebnis für die Testgruppe.

In der Cochrane Collaboration wird häufig empfohlen, bei cross-over Studien zur Effektmaßberechnung für Meta-Analysen nur Daten für die erste (parallele) Behandlungsphase vor dem cross-over heranzuziehen. Da mehr als 40% der Studien ein cross-over Design hatten, jedoch nur einzelne dieser Studien Daten für die erste Phase separat präsentierten, wäre eine Effektmaßberechnung dementsprechend für diese Studien nicht möglich. Da von der Berechnung gepoolter Effektgrößen abgesehen (siehe nächster Absatz) und der Informationsverlust durch den Ausschluss dieser großen Anzahl von Studien als äußerst ungünstig angesehen wurde, erfolgte auch für cross-over Studien eine Effektmaßberechnung, wobei die Ergebnisse beider Phasen herangezogen wurden.

Die Effektmaße wurden je nach Art der Kontrollgruppe (Placebo und andere Behandlung mit Untergruppen Calcium-Antagonisten, β-Blocker, andere Arzneimittel) gruppiert. Es erfolgten separate Zusammenstellungen ohne und mit cross-over Studien. Im Ergebnisteil werden in aller Regel Darstellungen mit Einschluss der cross-over Studien präsentiert, da hierfür mehr Studien Effektmaße beigetragen haben. Nur wenn der Einbezug von cross-over Studien keine zusätzliche Information erbrachte, wird die Zusammenstellung der Studien mit Paralleldesign präsentiert. Im Protokoll war festgelegt, dass ein gepooltes Effektmaß nur dann berechnet werden sollte, wenn a) zumindest für 50% der Studien, die den jeweiligen Parameter zu diesem Zeitpunkt bestimmt hatten, verwertbare Daten vorlagen und b) die Studien aus klinischer Sicht ausreichend vergleichbar waren. Angesichts der oben aufgeführten Schwierigkeiten, wurde die Berechnung gepoolter Effektmaße als obsolet angesehen.


[Seite 15↓]

Alle Zusammenstellungen und Berechnungen erfolgten mit Hilfe der Cochrane Collaboration Review Manager Software, Version 4.1. Aus diesem Programm stammen auch die tabellarisch-graphischen Ergebniszusammenstellungen.

Angesichts der Problematik der Effektstärkeberechnungen erfolgte entsprechend Studienprotokoll zusätzlich ein 5-stufiger vote count (+ = Test signifikant und/oder klinisch relevant besser als Kontrolle, (+) = Test im Trend (klinisch und/oder statistisch) besser als Kontrolle, 0 = kein Unterschied, (-) = Kontrolle im Trend besser als Test, - = Kontrolle signifikant und oder/klinisch relevant besser als Test (siehe auch Beschreibung in (321)). Außerdem erfolgte eine deskriptive Zusammenfassung der Ergebnisse der jeweiligen Studie.

2.2.2 Behandlung von Depressionen mit Hypericumextrakten

2.2.2.1 Ein- und Ausschlusskriterien

Folgende Bedingungen mussten für den Einschluss einer Studie erfüllt sein:

  1. Patienten: Patienten mit Depressionen bzw. mit depressiven Verstimmungen
  2. Intervention: In der Prüfgruppe Hypericummonoextrakte, in der Kontroll- bzw. Vergleichsgruppe Placebo oder andere Antidepressiva über mindestens 4 Wochen (im Gegensatz zu früheren Versionen der Übersichtsarbeit wurden Studien zu Kombinationspräparaten ebensowenig berücksichtigt wie Studien, in denen die Prüfpräparate weniger als 4 Wochen verabreicht worden waren)
  3. Design: explizit randomisierte und quasirandomisierte (z.B. Zuteilung entsprechend Geburtsdatum) klinische Studien sowie doppelblinde Studien, in denen die aufnehmende und behandelnde Person verblindet war und daher zumindest von einer quasirandomisierten Studie auszugehen ist;
  4. Zielkriterien: Messung von Zielparametern, die eine Beurteilung der Veränderung des klinischen Zustandes bzw. der depressiven Symptomatik erlauben (z.B. Depressionsskalen, Respondermaße etc.). Studien, in denen nur physiologische Parameter bestimmt wurden, fanden keine Berücksichtigung.


[Seite 16↓]

2.2.2.2  Literatursuche

Potentiell relevante Studien wurden in folgenden Datenbanken bzw. auf folgende Weise gesucht:

Eine Einschränkung der Publikationssprache gab es nicht.

2.2.2.3 Selektionsprozess

In einem ersten Screeningschritt wurden von einem Reviewer alle Referenzen aussortiert, bei denen eindeutig erkennbar war, daß sie die Einschlußkriterien nicht erfüllen (unkontrollierte Studien, Reviews, Kasuistiken, pharmakokinetische Studien). Alle potentiell relevanten Referenzen wurden im Volltext besorgt und formal von mindestens zwei Beurteilern mit einem Standardbogen auf die Erfüllung der Einschlußkriterien geprüft. Die Ausschlußgründe wurden jeweils dokumentiert.

2.2.2.4 Extraktion und Beurteilung

Die Extraktion von bibliographischen Angaben, Information zu Patienten, Methodik, Ergebnissen und Schlußfolgerungen sowie die Beurteilung der Studienqualität erfolgte mit einem vorgeprüften Formular durch mindestens zwei Reviewer. Ergebnisdaten wurden nach Möglichkeit zu folgenden Parametern extrahiert: Summenscorewerte entsprechend Hamilton Rating Scale for Depression (vor Behandlung, 1-2, 3-4, 5-6 sowie >6 Wochen nach Therapiebeginn und nach Therapieende allgemein), Anzahl Responder bei Therapieende (mit Dokumentation der Responderdefinition), Werte für andere Bewertungsskalen (vor Therapie und bei Therapieende), Anzahl der Patienten mit Nebenwirkungen, Anzahl der Studienabbrüche (insgesamt sowie wegen Nebenwirkungen, mangelnder Wirksamkeit und anderen Gründen).

Die Bewertung der methodischen Qualität erfolgte mit Hilfe des Jadadscores (für detaillierte Angaben siehe Abschnitt 2.2.1.4.) sowie mithilfe einer vom Autor entwickelten Skala (Internal [Seite 17↓]Validity Scale). Diese Skala war bei der ersten Bearbeitung der bis 1995 vorliegenden Studien benutzt worden, weil der Jadascore noch nicht offiziell verfügbar war. Genauere Angaben zur Internal Validity Scale finden sich in Abschnitt 3.2.2. Für die hier präsentierte Auswertung wird jedoch nur das auch in der Delphiliste (siehe 2.2.1.4.) enthaltene Item zur Verblindung der randomisierten Zuteilung (concealment) herangezogen. Als adäquate Concealmentmethoden werden dabei konsekutiv numerierte, neutral verpackte Medikationspackungen oder eine zentrale Randomisation per Telephon und äquivalente Methoden angesehen.

2.2.2.5 Zusammenfassung der Primärstudienergebnisse

Die Mehrzahl der eingeschlossenen Studien beurteilte den klinischen Verlauf der depressiven Symptomatik mit Hilfe der Fremdbeurteilungsskala Hamilton Rating Scale für Depression (HAMD). Weitere häufig benutzte Instrumente waren der Clinical Global Impression Index (CGI, ebenfalls Beurteilung durch den Arzt) sowie die Selbstbeurteilungsinstrumente SDS (Self Rating Depression Scale, Zung) und D-S (Depressions-Skala, von Zerssen). Fast alle Studien präsentierten ausserdem ein Respondermaß. Häufigstes Responderkriterium war ein Rückgang des Scorewertes auf der HAMD um mindestens 50% gegenüber dem Ausgangswert bzw. auf einen Scorewert von maximal 10. Mehrfach war außerdem als Responderkriterium ein mindestens „deutlich gebesserter“ Zustand entsprechend CGI angegeben. Gelegentlich gab es Globalurteile bzgl. des Therapieerfolgs von Arzt oder Patient.

Hauptzielkriterium zur Beurteilung der Wirksamkeit war das relative Risiko, hier wegen der Missverständlichkeit des Begriffs bei einem positiven Therapieergebnis als Responderratio ((Zahl der Responder unter Hypericum/Zahl der mit Hypericum behandelten Patienten)/(Zahl der Responder in der Vergleichsgruppe/Zahl der in der Vergleichsgruppe behandelten Patienten)) bezeichnet, mit dem entsprechenden 95%-Konfidenzintervall bei Therapieende. Nach Möglichkeit wurde das HAMD-Responsekriterium herangezogen, in zweiter Präferenz die obengenannte CGI-Beurteilung und als dritte Präferenz andere Globalurteile. Außerdem wurden standardisierte Mittelwertsdifferenzen für HAMD-Scorewerte nach 1 bis 2, 3 bis 4, 5 bis 6 Wochen, nach mehr als 6 Wochen sowie nach dem jeweiligen Therapieende berechnet. Auch für D-S-Scorewerte wurden standardisierte Mittelwertsdifferenzen nach Therapieende berechnet.

Hauptzielkriterium für die Beurteilung der Nebenwirkungen (nur im Vergleich zu konventionellen Antidepressiva) war die Zahl der Patienten mit Nebenwirkungen. Berechnet wurde wiederum das relative Risiko und das entsprechende 95%-Konfidenzintervall. Nebenzielvariablen waren die Gesamtzahl von Studienabbrüchen sowie die Zahl von Patienten, die wegen Nebenwirkungen die Studien abbrachen.

Für die weitere Auswertung wurden Studien zu Hypericumextrakten vs. Placebo und zu Hypericumextrakten vs. konventionelle Antidepressiva strikt getrennt. Innerhalb dieser Vergleiche [Seite 18↓]wurden die Extrakte unterschieden (die zwei am häufigsten geprüften Extrakte jeweils separat und die übrigen Extrakte gemeinsam). Die integrierenden statistischen Analysen (Meta-Analysen) erfolgten, soweit nicht anders angegeben, auf intent-to-treat Basis (d.h. als Anzahl der behandelten Patienten wurde die in die jeweilige Gruppe randomisierte Zahl von Patienten herangezogen). Zusätzliche Analysen erfolgten (a) für die Studien, die explizit nur Patienten mit majorer Depression einschlossen, (b) ausschließlich für Studien mit HAMD-Responsekriterium und (c) für den Responder-Vergleich von Hypericumextrakten und konventionellen Antidepressiva nach dem per protocol Prinzip (nur Patienten, die die Studien protokollgemäß abschlossen). Funnel plot-Graphiken wurden für die beiden Hauptvergleiche zur Wirksamkeit erstellt. Sensitivitätsanalysen wurden bzgl. des Einflusses des Publikationsjahres und dem Schweregrad der Depressionen (mittlerer HAMD-Score vor Behandlungsbeginn) durchgeführt. Alle Berechnungen erfolgten mit der Cochrane Collaboration Review Manager Software 4.1.

2.3 Ergebnisse

2.3.1 Migräneprophylaxe mit Propranolol, Metoprolol und Flunarizin

2.3.1.1 Literatursuche und Selektion

Zu Propranolol wurden durch den Literatursuche- und Screeningprozess insgesamt 93 potentiell relevante Publikationen identifiziert. 57 Studien, publiziert in 55 Hauptveröffentlichungen (6;9;10;18;26;35;44;45;47;78;82;83;86;88;134;135;144;146;147;153;178;187;218;227-230;237; 238;257;297;298;304;306;310;325;339;343;350;353;357;370;379;392;393;402;409;418;436;438;445;459;492;506;530) und 14 Zweitveröffentlichungen (46;48;90;143;346;378;380;395;424-426;431;437;531) entsprachen den Einschlusskriterien. 25 Publikationen entsprachen nicht den Einschlusskriterien: 6 waren Übersichtsarbeiten (1;14;334;384;458;464), 10 berichteten nichtrandomisierte klinische Studien (75;79;81;222;388;397;432;471;472;519), eine Studie war nicht verfügbar (41), 2 waren Studien zur Behandlung akuter Attacken (27;140), eine hatte eine Beobachtungsdauer von weniger als 4 Wochen (517) und in 5 randomisierten Studien war die Kontrollintervention weder Placebo noch eine andere medikamentöse Behandlung (58;172;188;363;423).

28 Publikationen wurden zu Metoprolol identifiziert. Insgesamt 16 Studien erfüllten die Einschlusskriterien (17;89;146;154;155;177;226;227;262;295;353;402;422;435;477;523); zu 4 Studien lag eine Zweitveröffentlichung vor (90;157;178;524). 8 Publikationen wurden ausgeschlossen: 2 waren Übersichtsarbeiten (384;458), 3 berichteten nichtrandomisierte klinische [Seite 19↓]Studien (397;432;519), jeweils eine Studie hatte eine nicht den Einschlusskriterien entsprechende Kontrollintervention (181), Dauer (517) oder Patientenstichprobe (394).

Zu Flunarizin wurden insgesamt 73 potentiell relevante Publikationen gefunden. 40 Studien, publiziert in 39 Hauptveröffentlichungen erfüllten die Einschlusskriterien (3;8;13;25;44;45;54;63-65;80;86;97;138;144;145;155;156;261;263;264;294;296-298;323;326;341;345;362;366;382;402; 409;421;422;425;433;460;522). In einem Fall wurde eine Übersichtsarbeit eingeschlossen, die Daten zu einer ansonsten unveröffentlichten Studie berichtete (13). Zweitpublikationen lagen zu 10 Studien vor (6;136;137;143;157;163;367;424-426). 24 Publikationen wurden ausgeschlossen: 9 waren Übersichtsarbeiten (14;15;334;351;384;397;417;428;446), 2 nicht verfügbar (16;344), 9 waren nichtrandomisierte Studien (43;77;79;307;309;324;471;472;519), in einer Studie waren Patienten mit verschiedenen Kopfschmerzdiagnosen gemeinsam ausgewertet worden (55), in einer weiteren wurde Flunarizin nicht selbst geprüft (134) und in 2 Studien entsprach die Art der Kontrollintervention nicht den Einschlusskriterien (12;30). Unter Berücksichtigung der Überschneidungen wurden zu Propranolol, Metoprolol und Flunarizin insgesamt 97 Studien in die Bewertung eingeschlossen.

2.3.1.2 Allgemeine Studienmerkmale

Wichtige Informationen zu den allgemeinen Studienmerkmalen aller Studien zur Migräneprophylaxe mit Propranolol, Metoprolol und Flunarizin sind in Tabelle 1 zusammengestellt. Zusammenfassende Informationen zu Patienten, Methoden und Ergebnissen der einzelnen Studien finden sich in den Tabellen A1 – A10. Aufgrund ihres großen Umfanges werden diese Tabellen als Anhang am Ende dieser Monographie präsentiert.

25 Propranololstudien waren placebokontrolliert, 41 verglichen Propranolol mit anderen Medikamenten (in 9 Studien wurde sowohl mit Placebo wie auch mit anderen Medikamenten verglichen). Für Metoprolol lauten die entsprechenden Zahlen 4 und 13, für Flunarizin 10 und 31 Studien. Die Studien wurden zwischen 1972 und 2001 meist in englischer Sprache publiziert. Nur bei 14 Studien war angegeben, wie die Studie finanziert wurde. Die mediane Zahl randomisierter Patienten über alle 97 Studien betrug 45 (Bereich 9-783); in Studien, in denen zwei Medikamente verglichen wurden, war die mediane Patientenzahl 44, in Studien die sowohl eine Placebo- wie auch eine aktive Kontrolle hatten, 59 Patienten. Soweit dies nachvollziehbar war, wurden im Schnitt 17% der randomisierten Patienten nicht in die Auswertung einbezogen; die Zahl der tatsächlichen Studienabbrüche liegt höher, da in einigen Studien zumindest ein Teil der Patienten, die die Studie abbrachen, in die Auswertung einbezogen wurden. Die Dosierung lag für Propranolol zwischen 80 und 320 mg, für Metoprolol zwischen 50 und 200 mg und für Flunarizin zwischen 5 und 20 mg, meist jedoch bei 10 mg.


[Seite 20↓]

In 82% der Studien wurden Patienten mit Migräne mit oder ohne Aura eingeschlossen, nur in wenigen Studien erfolgte eine Beschränkung auf einen Migränetyp. 44 Studien (45%) hatten ein cross-over Design; ältere Studien nutzten dieses Design häufiger als neuere. Die Dauer der Behandlungsphase lag in den meisten Studien zwischen 8 und 16 Wochen. Nur wenige Studien beobachteten die Patienten auch nach Abschluss der Behandlung weiter. Die Mehrzahl dieser Studien hatte wiederum hohe Drop-out Raten.

Tabelle 1:
Randomisierte Studien zur Migräneprophylaxe mit Propranolol, Metoprolol und Flunarizin: Allgemeine Studienmerkmale

 

Propranolol

Metoprolol

Flunarizin

Alle

Anzahl Studien

    

- Insgesamt

57*

16*

40*

97*

- vs. Placebo

25 (44%)

4 (19%)

10 (25%)

39 (40%)

- vs. andere Medikamente

41 (72%)

13 (81%)

31 (78%)

68 (70%)

Publikationsjahr (Median, Bereich)

1986 (1972-1999)

1987 (1983-2001)

1988 (1980-1999)

1986 (1972-2001)

Nur als Abstract publiziert/unpubliziert

5 ( 9%)

-

6 (15%)

10 (10%)

In englischer Sprache verfügbar

55 (97%)

16 (100%)

32 (80%)

87 (90%)

Sponsor angegeben

9 (16%)

3 (19%)

4 (10%)

14 (14%)

Patientenzahl (Median, Bereich)

49 (9-783)

59 (28-270)

50 (27-783)

45** (9-783)

% Abbrüche/Ausschlüsse (Median, Bereich)

20% (0-50%)

15% (4-43%)

16% (0-48%)

17% (0-50%)

Studien mit Diagnose

    

- Migräne (mit oder ohne Aura bzw. unklar)

49 (86%)

13 (81%)

30 (75%)

79 (82%)

- Ausschl. Migräne ohne Aura

7 (12%)

1 ( 6%)

8 (20%)

14 (14%)

- Ausschl. Migräne mit Aura

1 ( 2%)

2 (13%)

2 ( 5%)

4 ( 4%)

Kopfschmerzklassifikation

    

- International Headache Society

11 (19%)

5 (31%)

7 (18%)

18 (19%)

- Ad-hoc Committee

20 (35%)

3 (19%)

17 (42%)

37 (38%)

- Andere

9 (16%)

7 (44%)

4 (10%)

16 (16%)

- Unklar/Keine

17 (30%)

1 ( 6%)

12 (30%)

26 (27%)

Design

    

- Parallel

24 (42%)

6 (38%)

35 (88%)

53 (55%)

- Cross-over

33 (58%)

10 (62%)

5 (12%)

44 (45%)

Dauer in Wochen (Median, Bereiche) Baselinephase

4 (0-10)

4 (3-8)

4 (0-24)

4 (0-24)

Behandlungsphase***

12 (4-30)

8 (4-30)

14 (8-24)

12 (4-30)

Follow-up-Phase

0 (0-20)

0 (0-12)

0 (0-24)

0 (0-24)

*Mehrere Studien zu mehr als einem der drei Medikamente und zum Teil mit mehr als 2 Vergleichsgruppen
**Der Medianwert liegt in der Gesamtgruppe niedriger als in den einzelnen Subgruppen (Simpson’sches Paradox)
***Bei cross-over-Studien wurde nur die Behandlungsphase pro Medikament gezählt

2.3.1.3 Studienqualität

Sowohl die methodische Qualität wie auch die Angemessenheit der Beobachtung und Berichterstattung waren bei der Mehrzahl der Studien wenig zufriedenstellend (siehe Tabelle 2). Eindeutiges methodisches Hauptproblem der Studien war die Beschreibung von Studienabbrüchen und –ausschlüssen sowie deren Berücksichtigung in der statistischen Auswertung. Immerhin noch in 41% der Studien wurden die Anzahl und die Gründe für Studienabbrüche und –ausschlüsse [Seite 21↓]genannt, aber nur in 5 Studien wurde eine angemessene intent-to-treat Analyse durchgeführt. Obwohl eine solche Analyse bei Äquivalenzstudien nicht als Hauptanalyse empfohlen wird, ist sie doch zumindest als zusätzliche Analyse angesichts der meist hohen Drop-out Raten wünschenswert.

Tabelle 2: Randomisierte Studien zur Migräneprophylaxe mit Propranolol, Metoprolol und Flunarizin: Qualitätsaspekte

 

Propranolol

Metoprolol

Flunarizin

Alle

Jadadscore

    

Randomisation

    

Genannt

53 (93%)

15 (94%)

32 (80%)

85 (88%)

Randomisationsgenerierung beschrieben

1 ( 2%)

-

2 ( 5%)

3 ( 3%)

Doppelblindbedingungen

    

Genannt

49 (86%)

16 (100%)

34 (85%)

84 (87%)

Doppelblindbed. gut/glaubhaft beschrieben

13 (23%)

8 (50%)

10 (25%)

26 (27%)

Drop-outs/Abbrüche beschrieben

24 (42%)

9 (56%)

12 (30%)

40 (41%)

Summenscore (Median, Bereich)

2 (1-4)

3 (2-4)

2 (1-5)

2 (1-5)

Delphiliste

    

Explizit randomisiert

51 (90%)

15 (94%)

32 (80%)

83 (86%)

Concealment beschrieben

1 ( 2%)

-

1 ( 3%)

2 ( 2%)

Vergleichbarkeit vor Ther. nachvollziehbar

9 (16%)

6 (38%)

10 (25%)

21 (22%)

Einschlusskriterien spezifiziert

32 (56%)

14 (88%)

25 (63%)

60 (62%)

Beurteiler blind

48 (84%)

15 (94%)

32 (80%)

82 (85%)

Therapeut blind

49 (86%)

15 (94%)

32 (80%)

82 (85%)

Patient blind

52 (91%)

16 (100%)

34 (85%)

84 (87%)

Detaillierte Ergebnisse zu Hauptzielkriterien

37 (65%)

15 (94%)

28 (70%)

69 (71%)

Intent-to-treat Analyse

2 ( 4%)

2 (13%)

1 ( 3%)

5 ( 5%)

Kriterien erfüllt (Median, Bereich)

5 (1-8)

6 (0-8)

5 (1-7)

5 (0-8)

Angemessenheit Beobachtung und Bericht

    

Rekrutierung beschrieben

8 (14%)

5 (31%)

8 (20%)

18 (19%)

Klare Kopfschmerzdiagnose

36 (63%)

15 (94%)

26 (65%)

66 (68%)

Patienten ausreichend charakterisiert

17 (30%)

11 (69%)

17 (43%)

38 (39%)

Mindestens 4 Wochen Baseline

33 (58%)

15 (94%)

28 (70%)

66 (68%)

Kointerventionen beschrieben

7 (12%)

6 (38%)

3 ( 8%)

13 (13%)

Verwendung von Kopfschmerztagebüchern

45 (79%)

15 (94%)

29 (73%)

77 (79%)

Daten zu Häufigkeit detailliert präsentiert

28 (49%)

13 (81%)

26 (65%)

59 (61%)

Daten zur Schmerzintensität detailliert präs.

14 (25%)

5 (31%)

14 (35%)

28 (29%)

≥ 90% der Pat. mit Daten über 2 Monate

10 (18%)

4 (25%)

12 (30%)

22 (23%)

≥ 80% der Pat. mit Daten über 6 Monate

3 ( 5%)

-

4 (10%)

5 ( 5%)

Kriterien erfüllt (Median, Bereich)

3 (0-8)

6 (2-8)

3 (0-8)

4 (0-8)

Nur in 22 Studien (23%) konnten nachvollziehbar Daten zu mehr als 90% der randomisierten Patienten über 2 Monate nach Therapiebeginn präsentiert werden. Daten zu mehr als 80% der randomisierten Patienten nach 6 Monaten berichteten nur 5 Studien (5%).

Die Fallzahl war insbesondere bei den Äquivalenzstudien (Median 44 Patienten) meist so gering, dass ein möglicher Unterschied zwischen den verglichenen Medikamenten nicht mit ausreichender [Seite 22↓]Sicherheit erfaßt werden konnte. Die Methoden zur Generierung der Randomisationssequenz und zur Verblindung der Zuteilung (concealment) wurden nur in Ausnahmefällen beschrieben. Auch wenn bei Medikamentenstudien in der Regel davon auszugehen ist, dass das Concealment durch fortlaufend numerierte, neutrale Medikamentenverpackungen erfolgt, ist die Nichtbeschreibung dieses in der methodischen Literatur als Kernkriterium angesehenen Details auch in neuen Studien bedenklich.

Positiv ist anzumerken, dass fast alle Studien doppelblind waren (eine Überprüfung des Verblindungserfolges wurde jedoch in keiner Studie beschrieben). Eine klare Kopfschmerzdiagnose nach definierten Kriterien, eine mindestens vierwöchige Baselinephase, die Verwendung eines Kopfschmerztagebuches und eine zwar heterogene, aber akzeptable Präsentation der Daten zur Kopfschmerz- oder Attackenhäufigkeit war ebenfalls in der Mehrheit der Studien gegeben.

2.3.1.4 Studienergebnisse

Aufgrund der häufig unzureichenden Darstellung in den Studien muß die Zusammenfassung der Studien unter Einbezug sowohl der Effektmaße als auch des vote counts (Kategorisierung der Ergebnisse) und der Beschreibung in den Tabellen A1 bis A10 im Anhang erfolgen. Tabelle 3 gibt einen Überblick für wieviele Studien bzw. Vergleiche Effektmaßberechnungen möglich waren. In Tabelle 4 sind die Kategorisierungen der Ergebnisse zusammengestellt.

Tabelle 3: Anzahl der Vergleiche mit verwertbaren Daten für Effektstärkenberechnungen ohne/mit Berücksichtigung von cross-over-Studien

Substanz

Propranolol

Metoprolol

Flunarizin

(Gesamtzahl Vergleiche)

(71)

(21)

(46)

Responder bzw. Therapieerfolg

24 / 37

5 / 15

22 / 29

Attacken- oder Kopfschmerzhäufigkeit

15 / 30

5 / 9

15 / 16

Anzahl Patienten mit Nebenwirkungen

14 / 24

3 / 5

13 / 13


[Seite 23↓]

Tabelle 4: Kategorisierung der Studienergebnisse (vote count)

 

+

(+)

0

(-)

-

unint.

Propranolol

      

  • vs. Placebo (25 Vergleiche)

17

6

2

   

  • vs. Calciumantagonisten (15 Vergleiche)

2

12

1

  

  • vs. andere β-Blocker (12 Vergleiche)

  

7

3

1

1

  • vs. sonstige (19 Vergleiche)

1

5

10

2

 

1

Metoprolol

      

  • vs. Placebo (4 Vergleiche)

3

1

    

  • vs. Calciumantagonisten (5 Vergleiche)

1

2

2

   

  • vs. andere β-Blocker (6 Vergleiche)

 

2

3

  

1

  • vs. sonstige (6 Vergleiche)

5

  

1

  

Flunarizin

      

  • vs. Placebo (10 Vergleiche)

6

2

1

  

1

  • vs. andere Calciumantagonisten (9 Vergleiche)

1

2

5

1

  

  • vs. β-Blocker (12 Vergleiche)

 

1

10

1

  

  • vs. sonstige (15 Vergleiche)

1

5

7

1

 

1

+ = Test signifikant und/oder klinisch relevant besser als Kontrolle, (+) = Test im Trend (klinisch und/oder statistisch) besser als Kontrolle, 0 = kein Unterschied, (-) = Kontrolle im Trend besser als Test, - = Kontrolle signifikant und oder/klinisch relevant besser als Test, unint. = uninterpretierbar

Propranolol vs. Placebo:

Bei der Kategorisierung der Ergebnisse wurde Propranolol in insgesamt 25 Vergleichen mit Placebo in 17 Fällen als signifikant bzw. deutlich überlegen eingestuft, in 6 Fällen war ein Trend zugunsten von Propranolol gegeben und in 2 Fällen kein Unterschied zu Placebo (siehe Tabellen 3
und A1 im Anhang).

Abbildung 2.1: Responderratios in Studien Propranolol vs. Placebo

(Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1; siehe Anhang zur Erläuterung)
n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI fixed = 95% Konfidenzintervall


[Seite 24↓]

Für 10 Studien war die Berechnung von Responderratios möglich. Diese bestätigen grundsätzlich die Überlegenheit gegenüber Placebo, allerdings sind die Unterschiede in 5 Fällen nicht signifikant (siehe Abbildung 1). Bezüglich Kopfschmerzhäufigkeit präsentierten nur 2 Studien ausreichend detaillierte Ergebnisse für eine Effektmaßberechnung. In den 6 Studien, die Angaben zur Anzahl der Patienten mit Nebenwirkungen machten, war diese unter Propranolol im Schnitt etwa um ein Drittel höher als unter Placebo.

Propranolol vs. andere Substanzen:

Bei den 15 Vergleichen mit Flunarizin und anderen Calciumantagonisten ergaben sich in 12 Fällen keine eindeutigen Unterschiede, in zwei Fällen war ein Trend zugunsten von Propranolol, in einem Fall zugunsten eines Calciumantagonisten zu beobachten (siehe Tabellen 4 und A2 bis A4 im Anhang). Bei 11 interpretierbaren Vergleichen mit Metoprolol und anderen β-Blockern ergab sich in 7 Fällen kein Unterschied; zwei Studien fanden unter Metoprolol und eine unter Nadolol etwas bessere Ergebnisse, in einer Studie ergaben sich unter 160 mg Nadolol deutlich bessere Resultate als unter 160 mg Propranolol. Insgesamt 19 Vergleiche erfolgten mit einer Reihe weiterer Substanzen (Femoxetin, Acetylsalicylsäure, Methysergid, Dihydroergotamin, Cyclandelat, Mefenaminsäure, Tolfenaminsäure, Valproinsäure, Hydroxytryptophan, Amitriptylin, Clonidin und Naproxen). Eine eindeutige Überlegenheit ergab sich nur gegenüber Amitriptylin bei Patienten, die explizit keine zusätzlichen Spannungskopfschmerzen hatten. Bei beiden Vergleichen mit Ergotaminpräparaten war Propanolol zumindest tendenziell überlegen. Bei den übrigen Vergleichen war die Wirksamkeit meist ähnlich. Angesichts der häufig sehr kleinen Fallzahlen sind alle Vergleiche mit anderen Medikamenten ohne einen signifikanten Unterschied jedoch mit großer Zurückhaltung zu interpretieren.

In Abbildung 2 sind die 27 Vergleiche von Propranolol und anderen Substanzen bzgl. Responderratios zusammengefasst. Die Ergebnisse bestätigen diejenigen der Kategorisierung. Signifikante Unterschiede sind nur bei einer einzigen Studie zu erkennen.

Abbildung 3 zeigt die Ergebnisse von 18 Studien mit verwertbaren Angaben zur Häufigkeit. Hier zeigt sich allerdings nur in drei Studien kein Unterschied zu anderen β-Blockern. Demgegenüber ergibt sich zum Teil eine Unterlegenheit beim Vergleich mit anderen Substanzen.


[Seite 25↓]

Abbildung 2.2:Responderratios in Studien Propranolol vs. andere Substanzen

(Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1)
n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI fixed = 95% Konfidenzintervall

Abbildung 2.3: Standardisierte Effektgrößen zu Häufigkeitsmaßen in Studien Propranolol vs. andere Substanzen

(Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1)
n = Anzahl Patienten in der jeweiligen Gruppe, mean (sd) = Mittelwert (Standardabweichung), SMD = standardisierte Mittelwertsdifferenz, 95%CI fixed = 95%-Konfidenzintervall


[Seite 27↓]

Bezüglich der Anzahl der Patienten mit Nebenwirkungen (siehe Abbildung 4) gibt es in den 18 Studien mit entsprechenden Daten einen leichten Trend zugunsten einer besseren Verträglichkeit von Propranolol.

Abbildung 2.4: Relative Risiken bzgl. des Auftretens von Nebenwirkungen in Studien Propranolol vs. andere Substanzen

(Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1)
n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = relatives Risiko, 95%CI fixed = 95% Konfidenzintervall

Metoprolol vs. Placebo:

Bei 4 Vergleichen mit Placebo erwies sich Metoprolol dreimal als signifikant überlegen und einmal zumindest als tendenziell überlegen (Tabelle 3 und Tabelle A5 im Anhang). Die Ergebnisse der 3 Studien mit Responderangaben und der 2 Studien mit verwertbaren Daten zur Häufigkeit bestätigen die Ergebnisse der Kategorisierung weitgehend (ohne Abbildung).


[Seite 28↓]

Metoprolol vs. andere Substanzen:

Auch bei Vergleichen mit anderen Medikamenten schneidet Metoprolol nur in einer Studie (im Vergleich zu Pizotifen) tendenziell schlechter ab (siehe Abbildung 5, Tabelle 3 und Tabelle A6 im Anhang). Wiederum ist bei den Vergleichen mit anderen Medikamenten die geringe Fallzahl zu beachten. Aufgrund der geringen Zahl von Studien mit Daten wurde auf eine Abbildung zu Kopfschmerzhäufigkeit und Anzahl der Patienten mit Nebenwirkungen verzichtet.

Abbildung 2.5: Responderratios in Studien Metoprolol vs. andere Substanzen

(Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1)
n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI fixed = 95% Konfidenzintervall

Flunarizin vs. Placebo

Flunarizin erwies sich in 9 interpretierbaren Vergleichen Placebo achtmal überlegen (6 mal signifikant, zweimal tendenziell); nur in einer Studie war kein Unterschied zu beobachten (siehe Tabelle 4 und Tabelle A7 im Anhang). Die Ergebnisse der 6 Studien, die Daten zu Responderratios präsentieren, (siehe Abbildung 6) und der 5 Studien mit Daten zur Kopfschmerzhäufigkeit (ohne Abbildung) bestätigen die Ergebnisse der Kategorisierung weitgehend, allerdings sind bei der Berechnung der Responderratio nur 2 Unterschiede signifikant. In den 4 Studien mit Daten zur Anzahl der Patienten mit Nebenwirkungen wurden keine Unterschiede im Vergleich zu Placebo berichtet.


[Seite 29↓]

Abbildung 2.6: Responderratios in Studien Flunarizin vs. Placebo

(Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1)
n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI fixed = 95% Konfidenzintervall

Flunarizin vs. andere Substanzen:

In den 9 Vergleichen mit anderen Calciumantagonisten erwies sich Flunarizin einmal gegenüber Nimodipin als eindeutig überlegen (beim zweiten Vergleich mit dieser Substanz war kein eindeutiger Unterschied zu erkennen). Ansonsten wurden nur geringe Unterschiede beobachtet. Dies gilt auch für die Vergleiche mit β-Blockern. In 6 Vergleichen mit Pizotifen war in drei Fällen ein tendenziell besseres Ergebnis unter Flunarizin zu beobachten, in drei Studien kein Unterschied. Beim Vergleich zu Cyclandelat ergab sich in einer Studie ein signifikant besseres Ergebnis mit Flunarizin. Ansonsten ergeben sich zu weiteren Substanzen keine überzeugenden Unterschiede. Auch hier kann aufgrund der geringen Fallzahl bei fehlenden Unterschieden aber nicht von einer Äquivalenz ausgegangen werden (siehe Tabelle 4 sowie Tabellen A8 bis A10 im Anhang).

Die Kategorisierung der Ergebnisse wird durch die Effektmaßberechnungen für die Responderangaben (siehe Abbildung 7) und für die Kopfschmerzhäufigkeitsmaße (ohne Abbildung) wiederum weitgehend bestätigt.

Im Vergleich zu Propranolol scheinen unter Flunarizin tendenziell mehr Patienten Nebenwirkungen anzugeben. Da jedoch nur sehr wenige Studien verwertbare Angaben hierzu machen, ist dieses Ergebnis mit Vorbehalt zu bewerten.


[Seite 30↓]

Abbildung 2.7: Responderratios in Studien Flunarizin vs. andere Substanzen

(Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1)
n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI fixed = 95% Konfidenzintervall


[Seite 31↓]

2.3.2  Behandlung von Depressionen mit Hypericumextrakten

2.3.2.1 Literatursuche und Selektion

Durch die Literatursuche wurden insgesamt 61 potenziell relevante kontrollierte klinische Studien zu Hypericumpräparaten identifiziert, die formal auf Erfüllung der Einschlusskriterien geprüft wurden. 33 Studien in 43 Publikationen entsprachen den Einschlusskriterien (38;50;159;160;164-169;173;174;186;194;196;250;254;258;259;273;335;338;354;365;381;385;396;399;400;403;404; 407;419;420;484;486-488;499;515;516;518;520). 28 Studien wurden aus folgenden Gründen ausgeschlossen: in 8 Studien ging es nicht primär um die Behandlung depressiver Verstimmungen bzw. war die Einschlussdiagnose nicht Depression (11;36;91;175;193;253;303;413), 7 Studien wurden an gesunden Freiwilligen durchgeführt (52;180;216;217;398;405;430), in 5 Studien erfolgte kein Vergleich mit Placebo oder einem anderen Antidepressivum (40;276;308;427;528), 5 Studien waren zu Kombinationspräparaten mit Hypericum (92;248;358;434;507), eine Studie war nicht verfügbar (4), eine weder explizit randomisiert noch doppelblind (490) und in einer war die Beobachtungszeit unter 4 Wochen (497).

2.3.2.2 Studienmerkmale

Eine Zusammenstellung der Patientenmerkmale, Methoden, Interventionen und Ergebnisse aller eingeschlossenen Studien findet sich in den Tabellen A11 und A12 im Anhang. 23 Studien verglichen Hypericumextrakte mit Placebo, 12 mit anderen Medikamenten (2 Studien mit Placebo und aktiver Kontrolle). In 4 Studien war die Vergleichsmedikation ein selektiver Serotonin-Wiederaufnahmehemmer (dreimal Fluoxetin 20 mg täglich, einmal Sertralin 75 mg). In 7 Studien dienten zum Teil sehr niedrig dosierte, ältere Antidepressiva (viermal Imipramin in Dosierungen zwischen 75 und 150 mg, zweimal Amitriptylin 30 bzw. 75 mg und einmal Maprotilin 75 mg) und in einer älteren Studie Bromazepam als Vergleichssubstanz. Aufgrund der unterschiedlichen Klassifikationssysteme (ICD 9, ICD 10 und DSM) ist es schwer, die Studien diagnostisch sinnvoll zu gruppieren. In der überwiegenden Mehrheit der Studien sind Patienten mit leichten bis mittelschweren Depressionen eingeschlossen, nur in einer der Studien erfolgte explizit eine Beschränkung auf Patienten mit schwerer Depression (486). Die Behandlungsdauer lag zwischen 4 und 8 Wochen.

2.3.2.3 Studienqualität

Die Mehrzahl der eingeschlossenen Studien war von guter methodischer Qualität. 19 Studien erreichten 4 oder 5 von 5 möglichen Punkten bei der Beurteilung mit der Skala von Jadad et al. Mit Ausnahme von 3 älteren Studien waren alle doppelblind. Die Verblindung der Randomisation [Seite 32↓](concealment) war bei vielen Studien beschrieben und adäquat. In allen Fällen erfolgte die Umsetzung durch fortlaufend numerierte neutrale Medikationscontainer. Bei den älteren Studien waren jedoch aus psychiatrischer Sicht in vielen Fällen Vorbehalte anzumelden. Die Studienpopulationen bzw. diagnostischen Kriterien waren häufig nur ungenau beschrieben, Vergleichsmedikationen niedrig dosiert und bzgl. der Beurteilungsinstrumente stellte sich die Frage einer angemessenen Anwendung. So fällt z.B. bei zwei Studien auf, dass hohe HAMD-Baselinewerte und gleichzeitig eine Diagnose leichte bis mittelschwere Depression berichtet werden (399). Ohne dass dies in den Jadadscores deutlich wird, erscheint insgesamt die Qualität in neueren Studien besser.

2.3.2.4 Studienergebnisse

Hypericumextrakte vs. Placebo

Insgesamt 22 Studien mit 2178 Patienten präsentierten Daten zum Therapieerfolg (Response, siehe Abbildung 8). Die gepoolte Responderratio lag bei 1,89 (95%-Konfidenzintervall 1,52 –2,36, p < 0,00001), d.h. die Hypericumextrakte erwiesen sich im Mittel Placebo deutlich überlegen. Der Test auf Heterogenität war hochsignifikant, d.h. die Studienergebnisse unterschieden sich überzufällig. Die Heterogenität blieb auch erhalten, wenn in Subgruppen von Präparaten getestet wurde. Die Responderratios waren hier für den Extrakt LI 160 (in zwei Versionen) 1,87 (1,35-2,60), für das Präparat Psychotonin (ebenfalls in zwei Versionen) 2,98 (1,13-7,84) und für die übrigen getesteten Extrakte 1,67 (1,19-2,36), d.h. für alle drei Subgruppen ergab sich wiederum eine signifikante Überlegenheit gegenüber Placebo. Ordnet man die Studien entsprechend dem Publikationsjahr, fällt auf, dass in neueren Studien der Effekt über Placebo hinaus zwar immer noch hochsignifikant, jedoch deutlich geringer ausgeprägt ist als in den älteren Studien (Abbildung 9). Abbildung 10 legt nahe, dass zwischen Schweregrad der Symptomatik vor Behandlung und der Effektivität von Hypericumextrakten ein Zusammenhang besteht: In den Studien an Patienten mit leichten Depressionen (HAMD-Score 12-18) ist die gepoolte Responderratio 2,70 (1,56-4,68), bei Patienten mit HAMD-Scores zwischen 19 und 21 2,02 (1,39-2,94) und bei Patienten mit HAMD-Scores über 22 1,22 (1,05-1,41). Allerdings sind neuere Studien häufiger an Patienten mit vergleichsweise schwerer Symptomatik durchgeführt worden. In 2 von 3 Subgruppen ist der Test auf Heterogenität weiterhin signifikant. Auch in den Analysen zu HAMD-Scorewerten sowie zu den Ergebnissen bei der Selbstbeurteilungsskala D-S (Depressionsskala, von Zerssen) erwiesen sich die Hypericumextrakte gegenüber Placebo deutlich überlegen (ohne Abbildung).


[Seite 33↓]

Abbildung 2.8: Responderratios in Studien Hypericum vs. Placebo – geordnet nach Extrakten

(Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1)
n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI random = 95% Konfidenzintervall
Extract 1 = LI 160 (Jarsin® oder Jarsin 300®), extract 2 = Psychotonin M® oder Psychotonin forte®


[Seite 34↓]

Abbildung 2.9: Responderratios in Studien Hypericum vs. Placebo – geordnet nach Publikationsjahr

(Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1)
n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI random = 95% Konfidenzintervall


[Seite 35↓]

Abbildung 2.10: Responderratios in Studien Hypericum vs. Placebo – geordnet nach Schweregrad (HAMD-Scorewerte) vor Behandlung

(Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1)
n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI random = 95% Konfidenzintervall

Hypericumextrakte vs. andere Medikamente (Abbildung 11, Tabelle A12 im Anhang)

Für alle Studien konnten Responderratios berechnet werden. Die gepoolte Responderratio war 1,09 (95%-Konfidenzintervall 0,99-1,20), d.h. Hypericumextrakte waren in den einbezogenen Studien mindestens gleich effektiv wie die geprüften Antidepressiva. Die Subgruppenvergleiche zwischen dem Extrakt LI 160 und anderen Extrakten mit älteren Antidepressiva und selektiven [Seite 36↓]Serotonin-Wiederaufnahmehemmern erbrachten keine signifikanten Unterschiede. Nur in einer Studie (403) war der geprüfte Hypericumextrakt 20 mg Fluoxetin signifikant überlegen. Bei der Auswertung der HAMD-Scorewerte zeigte sich dieser Unterschied jedoch nicht. Klare Auswirkungen der Dosierung der Vergleichsantidepressiva oder des Schweregrades der Depression waren nicht zu erkennen.

Abbildung 2.11: Responderratios in Studien Hypericum vs. andere Medikamente

(Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1)
n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI random = 95% Konfidenzintervall
Extract 1 = LI 160 (Jarsin® oder Jarsin 300®), extract 2 = Psychotonin M® oder Psychotonin forte®


[Seite 37↓]

Im Vergleich zu älteren Antidepressiva traten unter Hypericumextrakten bei deutlich weniger Patienten Nebenwirkungen auf (siehe Abbildung 12). Bei den zwei Vergleichen mit selektiven Serotonin-Wiederauf­nahmehemmern war der Unterschied geringer ausgeprägt, in der gepoolten

Abbildung 2.12: Anzahl der Patienten mit Nebenwirkungen (relatives Risiko) in Studien Hypericum vs. andere Medikamente

(Abbildung aus Cochrane Collaboration Review Manager Software, Version 4.1)
n = Anzahl Responder, N = Anzahl Patienten in der jeweiligen Gruppe, RR = Responderratio, 95%CI random = 95% Konfidenzintervall
Extract 1 = LI 160 (Jarsin® oder Jarsin 300®), extract 2 = Psychotonin M® oder Psychotonin forte®


[Seite 38↓]

Analyse jedoch immer noch signifikant zugunsten der Hypericumextrakte. Auch bezüglich der Anzahl von Studienabbrechern (relatives Risiko 0,73, 95%-Konfidenzintervall 0,56-0,94) und der Anzahl von Studienabbrechern wegen Nebenwirkungen (0,41; 0.26-0,66) schnitten die Hypericumextrakte signifikant besser ab.

Auffallend ist, dass alle 3 nicht in Deutschland durchgeführten placebokontrollierten Studien (338;407;467) keine signifikante Überlegenheit der geprüften Hypericumextrakte finden konnten. Dies könnte zufallsbedingt sein, könnte aber auch dafür sprechen, dass in Deutschland andere Patienten in die Studien einbezogen werden.

2.4 Diskussion

2.4.1 Migräneprophylaxe mit Propranolol, Metoprolol und Flunarizin

Die Wirksamkeit von Propranolol, Metoprolol und Flunarizin ist trotz der häufig unbefriedigenden Qualität der vorliegenden Studien im Vergleich zu Placebo gut belegt. Eindeutige Unterschiede zwischen diesen drei Substanzen sowie im Vergleich zu anderen Calciumantagonisten, β-Blockern sowie verschiedenen weiteren Substanzen lassen sich nur in Ausnahmefällen (z.B. der Überlegenheit von Metoprolol im Vergleich zur Acetylsalicylsäure (89;154)) erkennen. In den allermeisten Studien ist die Fallzahl jedoch so gering, dass aufgund des Fehlens eines signifikanten Unterschiedes keineswegs auf Äquivalenz geschlossen werden kann. Aufgrund der unterschiedlichen Vergleichssubstanzen und Dosierungen, der häufig unbefriedigenden Studienqualität und der heterogenen oder unzureichenden Ergebnispräsentation erschien die Durchführung einer quantitativen Meta-Analyse obsolet. Vergleichende Aussagen über die Wirksamkeit einzelner Substanzen lassen sich daher schwer ableiten. Die Einschätzung von Propranolol, Metoprolol und Flunarizin als Migräneprophylaktika der ersten Wahl (21;87) lässt sich – wenn man sich ausschließlich auf die Evidenz aus randomisierten Studien beschränkt - daher eher durch die grundsätzlich belegte Wirksamkeit gegenüber Placebo als mit einer bewiesenen Überlegenheit im Vergleich zu anderen Substanzen begründen. Diese Schlußfolgerungen sind im Einklang mit denen der im Auftrag der Agency of Health Care Policy and Research durchgeführten Bewertung (62).

Aus methodischer Sicht besonders auffallend sind bei den eingeschlossenen Studien (1) die mangelhafte Beschreibung von Studienabbrüchen und deren Berücksichtigung in der Analyse sowie (2) die enorme Heterogenität und häufig mangelnde Detailgenauigkeit der Ergebnispräsentation.


[Seite 39↓]

Zu (1): In Studien zur Wirksamkeit einer medikamentösen Migräneprophylaxe kann es aufgrund der vergleichsweise langen Beobachtungsdauer, von Nebenwirkungen, wegen Nichtansprechens auf die Therapie, mangelnder Compliance der Patienten bzgl. Medikationseinnahme und Studienbedingungen (wie z.B. regelmäßige Arztbesuche und sorgfältige Führung des Kopfschmerztagebuchs) häufig dazu kommen, dass ein relevanter Anteil der Patienten die Studie vorzeitig abbricht oder ausgeschlossen wird. Solche Abbrüche und Ausschlüsse sind detailliert zu dokumentieren; diesbezügliche Empfehlungen wurden mehrfach publiziert (34;333). Leider fehlen z.T. auch in neueren Studien noch immer solche Angaben. In der Mehrheit der Studien ist aber darüberhinaus die Abbrecherrate so hoch (in der Größenordnung zwischen 10 und 50%), dass die Ergebnisse dadurch erheblich beeinflußt werden können, d.h. dass z.B. in placebokontrollierten Untersuchungen die Überlegenheit des Prüfpräparates z.T. überschätzt worden sein könnte. Analysen nach dem intent-to-treat Prinzip (514) wurden nur in wenigen Studien durchgeführt. Wenn solche Analysen durchgeführt wurden, wurden für fehlende Werte meist die zuletzt verfügbaren eingesetzt (last value carried forward). Bricht z.B. ein Patient nach 2 Monaten wegen Nebenwirkungen die Studie ab, werden bei dieser Vorgehensweise seine Angaben zur Attackenhäufigkeit in Monat 2 auch zur Bewertung von Monat 4 herangezogen. Bei Erkrankungen, bei denen nicht davon ausgegangen werden kann, dass sich die Ergebnisse bei längerer Beobachtungszeit verbessern, erscheint die Anwendung des last value carried forward Prinzips zumindest kritisierbar. Eine konservativere Einschätzung ergäbe sich vermutlich, wenn die fehlenden Werte durch Baselinewerte ersetzt würden. In zukünftigen Studien sollte unbedingt auf eine bessere Berichterstattung bzgl. Abbrechern und Ausschlüssen geachtet werden. Außerdem sollten sowohl per-protocol wie auch intent-to-treat Analysen präsentiert werden, wobei aus der Sicht des Autors bei den letzteren nicht nach dem last value carried forward Prinzip verfahren werden sollte.

Zu (2): Die Heterogenität in der Verlaufsbeurteilung und Ergebnisdarstellung macht eine systematische Bewertung der Ergebnisse fast unmöglich. Als Reviewer steht man vor einem „Flickenteppich“ von Resultaten, der für den Leser kaum transparent aufarbeitbar ist. Die Probleme sind einerseits in der Komplexität des Krankheitsbildes und den daraus folgenden Problemen bei der Quantifizierung der Symptomatik begründet, andererseits jedoch auch durch unzureichende Präsentation. Die Empfehlungen der International Headache Society für klinische Studien zur medikamentösen Behandlung der Migräne (198) geben einen definierten Katalog von Beurteilungskriterien, jedoch keine Präsentationsformate für die Publikation vor. Für und gegen die einzelnen Parameter und deren Darstellungsweisen gibt es jeweils eine Reihe von Argumenten. Dennoch erscheint es sinnvoll, bestimmte basale deskriptiv-statistische Angaben in Migräneprophylaxestudien standardmäßig zu präsentieren: 1) Jeweils ein zentraler Schätzer (Mittelwert oder Median) und ein Verteilungsmaß (Standardabweichung oder Quartile, nicht Standardfehler oder Konfidenzintervalle) für die Attackenzahl und/oder die Anzahl der Tage mit [Seite 40↓]Kopfschmerzen (dieser Parameter ist in Multicenterstudien zuverlässiger zu erheben, kann aber aufgrund von begleitenden Nicht-Migränekopfschmerzen Probleme bereiten) und für die Anzahl der Tage, an denen Medikamente zur Attackenkupierung eingenommen wurden; 2) Anzahl der Patienten, bei denen im Vergleich zur Baselinephase die Attackenhäufigkeit und/oder die Anzahl der Kopfschmerztage um 50% oder mehr abgenommen hat. Vier-Wochenperioden sind häufige Beurteilungszeiträume in Migräneprophylaxestudien. Daher sollten in jedem Fall Angaben für tatsächlich beobachtete Werte (nicht ausschließlich Abnahmen gegenüber Baseline in Prozent oder absolut) in den 4 Wochen vor Behandlung und in den letzten 4 Behandlungswochen gemacht werden. Weitere Zeitfenster sind selbstverständlich wünschenswert. Für die Berechnung von Effektmaßen für Attackenhäufigkeit und Kopfschmerztage in Meta-Analysen ist die Angabe von Mittelwerten und Standardabweichungen sowie die Anzahl der zugrundeliegenden Beobachtungen notwendig. Da die Daten häufig nicht normalverteilt sind, geben viele Autoren - grundsätzlich richtigerweise - den Median (und selten zusätzlich Quartile) an. In solchen Fällen wäre die zusätzliche Angabe von Mittelwerten und Standardabweichungen dennoch wünschenswert. Angaben zur Kopfschmerzdauer erscheinen wegen der fraglichen Verlässlichkeit problematisch. Für den Patienten ist es häufig schwer einzuschätzen, wann die Kopfschmerzen begannen und wann sie aufhörten. Schwierig sind auch Angaben zur Attackenintensität. Einerseits kann die Intensität der einzelnen Attacken gemittelt werden, auf der anderen Seite können die Intensitäten in einem Score addiert werden.

Zusammenfassend muß festgestellt werden, dass die klinischen Studien zur Migräneprophylaxe mit Propranolol, Metoprolol und Flunarizin die Wirksamkeit dieser Substanzen grundsätzlich belegen, dennoch aber viele Fragen offen lassen. Langzeitstudien sind selten oder aufgrund hoher Abbrecherraten kaum interpretierbar. Vergleiche verschiedener Medikamente haben meist keine ausreichende Power, um eine Äquivalenz abzusichern. Schließlich scheinen Autoren von Publikationen international gängige Empfehlungen zur Veröffentlichung randomisierter Studien (34;333) weitgehend zu ignorieren. Das Ausmaß der prophylaktischen Wirksamkeit der untersuchten Medikamente ist außerdem im Verhältnis zu den nicht unbeträchtlichen Nebenwirkungen nicht wirklich überzeugend, sodass die Suche nach anderen effektiven und nebenwirkungsarmen Behandlungsstrategien fortgesetzt werden sollte.


[Seite 41↓]

2.4.2  Behandlung von Depressionen mit Hypericumextrakten

Die Überlegenheit von Hypericumextrakten bei der Behandlung von leichten bis mittelschweren Depressionen im Vergleich zu Placebo ist durch zum Teil qualitativ hochwertige Studien gut belegt. Bei schweren Depressionen scheint die Wirksamkeit, zumindest bei den geprüften Dosierungen, weniger deutlich ausgeprägt zu sein. Außerdem sprechen die Daten dafür, dass das Ausmaß des Effektes in älteren Studien deutlich überschätzt wurde. Die vorhandene Evidenz spricht auch dafür, dass Hypericumextrakte bei leichten bis mittelschweren Depressionen ähnlich wirksam sind wie andere Antidepressiva, gleichzeitig jedoch weniger Nebenwirkungen haben. Aufgrund der häufig unzureichenden Dosierungen der Vergleichspräparate in den älteren Studien und der Vielzahl von Hypericumextrakten und konventionellen Antidepressiva, sind hier jedoch weitere Studien notwendig. Diese Schlussfolgerungen sind weitgehend in Übereinstimmung mit denen anderer systematischer Übersichtsarbeiten zum Thema (siehe Kapitel 4).

Die Interpretation der placebokontrollierten Studien wird durch die erhebliche Heterogenität der berechneten Effektgrößen erschwert. Die statistischen Tests auf Heterogenität werden allgemein als wenig sensitiv angesehen (461). Umso mehr müssen die hochsignifikanten Ergebnisse diesbezüglich beunruhigen. Ein plausibler Grund für die Heterogenität könnten theoretisch die unterschiedlichen Extrakte sein. Da jedoch auch innerhalb der Subgruppenanalysen zu einem Extrakttyp die Heterogenität nur unwesentlich abnimmt, kann dies nicht die einzige Erklärung sein. Aus Sicht des Autors erscheinen vor allem Unterschiede bzgl. Studienqualität und der Studienpopulationen plausible Gründe für die variierenden Effektgrößen. Die Qualitätsunterschiede sind jedoch mit gängigen methodischen Qualitätsskalen kaum zu objektivieren, da auch einige der subjektiv als problematisch eingestuften Studien hohe Scores erreichten. Eine weitergehende Untersuchung der Ursachen für die beobachtete Heterogenität durch Metaregressionstechniken, bei denen mehrere potentielle Einflussfaktoren gleichzeitig berücksichtigt werden können (414), wird für die Zukunft angestrebt.

Hypericumextrakte sind in jüngster Vergangenheit aufgrund von Interaktionen mit anderen Arzneimitteln in die Diskussion geraten (113). Zahlreiche Fallberichte zeigen, dass die Plasmakonzentration verschiedener Wirkstoffe wie z.B. Cyclosporin (391), Indinavir (369) oder Warfarin (527) bei gleichzeitiger Hypericumgabe abnimmt. Als Wirkungsmechanismus wird vor allem eine Induktion von Cytochrom P-450-Enzymen diskutiert (113). Dies verdeutlicht, dass Hypericumextrakte trotz ihrer grundsätzlich sehr guten Verträglichkeit nur unter ärztlicher Aufsicht eingenommen werden sollten.

Mit Spannung werden derzeit die Ergebnisse einer von den National Institutes of Health (NIH) gesponsorten Studie erwartet, in der die Wirksamkeit eines Hypericumextrakts, eines selektiven [Seite 42↓]Serotonin-Wiederaufnahmehemmers und von Placebo bei mehr als 300 Patienten mit majorer Depression verglichen wird. Dieser Studie wird besonders große Bedeutung beigemessen, a) da sie vermutlich die erste nicht von einer Pharmafirma gesponsorte Studie zu einem Hypericumpräparat ist, b) weil sie mit besonders hohem finanziellen und methodischem Aufwand durchgeführt wird und c) da die erste placebokontrollierte amerikanische Studie von Shelton et al. (407) ein negatives Ergebnis erbracht hat. Diese letzte, methodisch sehr hochwertige Studie wurde allerdings kontrovers diskutiert, da sie 1) Patienten einschloss, die im Mittel seit mehr als 2 Jahren an der aktuellen depressiven Episode litten und 2) von einer Pharmafirma gesponsort wurde, die kein Hypericumpräparat herstellt, dafür jedoch einen selektiven Serotonin-Wiederaufnahmehemmer, der aber nicht in die Prüfung miteingebracht wurde. Sollte die NIH-Studie keine Überlegenheit im Vergleich zu Placebo bei gleichzeitiger Unterlegenheit zum synthetischen Antidepressivum erbringen, ist damit zu rechnen, dass die bisher vorliegenden, hauptsächlich aus Deutschland stammenden, positiven Ergebnisse international in Frage gestellt werden. Allerdings ist auch hier nochmals zu berückschtigen, dass in der NIH-Studie nur Patienten mit majorer Depression eingeschlossen wurden und die vorliegende Meta-Analyse darauf hinweist, dass bei diesen Patienten der Effekt geringer ausgeprägt ist als bei Patienten mit leichteren Depressionen.

Ob mit höheren Dosierungen bei schwereren Depressionen bessere Ergebnisse erzielt werden könnten, ist eine Fragestellung, die angesichts der guten Verträglichkeit von Hypericumextrakten untersucht werden sollte. Bisher wurde nur in einer einzigen Studie (486) eine vergleichsweise hohe Extraktdosis untersucht.

Trotz dieser Diskussionen erscheint die Gabe qualitativ hochwertiger und in klinischen Studien geprüfter Hypericumextrakte zur Behandlung leichter bis mittelschwerer Depressionen gerechtfertigt. Weitere sorgfältige Studien müssen zeigen, inwieweit Hypericumextrakte bei majoren bzw. bei schwereren Depressionen vertretbar sind.


© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.
DiML DTD Version 3.0Zertifizierter Dokumentenserver
der Humboldt-Universität zu Berlin
HTML-Version erstellt am:
04.08.2004