[Seite 23↓]

2.  Beobachtung oder Experiment? Empirische Methodenforschung

Aufbau des Kapitels

In der klinischen Epidemiologie existiert zwischen den „Trialists“ und den „Observationalists“ ein grundlegender Dissens über die Frage, ob die Randomisierung im klinischen Experiment eine notwendige Voraussetzung für eine zuverlässige Effektschätzung darstellt. Diese Frage wurde von unserer Arbeitsgruppe (R. Kunz, Berlin und A. Oxman, G. Vist, Oslo) erstmalig anhand realer Daten aus der klinischen Forschung systematisch untersucht (The Unpredictability Paradox; 2.1). Die dadurch ausgelöste Diskussion wurde in den nachfolgenden Jahren in hochrangigen Journals mit weiteren empirischen Studien (Benson N Engl J Med 2000; Concato N Engl J Med 2000; Ioannidis JAMA 2001, Kunz, Cochrane Library 2002) fortgesetzt. Diese Diskussion wird zusammenfassend wiedergegeben und kritisch bewertet (2.2). Das Kapitel schließt mit der Beschreibung von der Entwicklung und dem Aufbau eines Registers für empirische methodische Studien durch unsere Arbeitsgruppe sowie unseren Untersuchungen zur Entwicklung systematischer effizienter Suchstrategien für relevante Studien in gängigen Datenbanken (2.3). Das Register wurde später in die Cochrane Library (Cochrane Review Methodology Datenbank) integriert und stellt eine fundamentale Grundlage für die empirische Methodikforschung dar.

Eigene eingeschlossene Publikationen zum Thema


[Seite 24↓]

2.1.  Beobachtung oder Experiment – ein empirischer Vergleich (eigene Untersuchungen)

Evidenzstufen („Levels of Evidence“)116 und Empfehlungsstärken („Grades of Recommendations“116;117) für Bewertungen von Therapien und Interventionen gehören zu den Kernkonzepten der evidenzbasierten Medizin. Die Evidenzstufen beschreiben eine Hierarchie der Studiendesigns auf der Grundlage ihrer Fähigkeit, den wahren Effekt einer Intervention zuverlässig und mit möglichst geringem Anteil an Irrtum (Bias oder Confounding) zu schätzen. Schutz vor Irrtümern bieten sorgfältig ausgewählte und konsequent eingesetzte methodische Verfahren in der Planung, Durchführung und Analyse von Studien. Designs mit mehr Vorkehrungen vor potentiellen Irrtumsquellen werden in dieser Hierarchie höher angesiedelt als Designs mit größerem Irrtumspotential und höherem Risiko für fehlerhafte Ergebnisse. Die Hierarchie der Studiendesigns118 entstand auf der Grundlage von klinisch-epidemiologischen Regeln („Rules of Evidence“), also auf logischen Überlegungen, unterstützt von anekdotischen Einzelberichten, wo fehlende protektive Strategien zu fatalen Fehleinschätzungen oder Irrtümern geführt haben39; 119; 120. Die ersten Listen für einen Qualitätscheck umfassten mehr als 30 methodische Merkmale in der Planungs-, Durchführungs- oder Analysephase121, andere folgten75. Bei den Interventionsstudien erhalten randomisierte klinische Experimente (Evidenzstufe I) eindeutig eine höhere Wertschätzung als nichtrandomisierte Beobachtungsstudien (Evidenzstufe II und niedriger). Doch wie groß ist der Schutz, den die einzelnen methodischen Verfahren liefern? Welche Evidenz rechtfertigt diese Einstufung? Und hat die Beantwortung dieser Frage praktische Konsequenzen?

Durch die zunehmende Verfügbarkeit riesiger Datensätze mit Patienteninformationen bei den Krankenkassen, in elektronischen Patientenakten oder Forschungsdatenbanken gewinnt die Frage „Beobachtung oder Experiment“ zur Erfassung der Wirksamkeit medizinischer Maßnahmen erneut an Bedeutung. Trotz stichhaltiger Gründe für eine stärkere Erschließung dieser Datenquellen (einfacher, kostengünstiger Zugang zu umfassenden Patientenkollektiven, Abbildung breiter Bevölkerungsgruppen, Möglichkeiten für ergiebige Untergruppenanalysen, lange Nachbeobachtungszeiten zur Erfassung seltener Ereignisse) bleibt die Frage: Liefern die Vergleiche aus (meist) retrospektiven Beobachtungen valide Ergebnisse, d.h. werden Effekte, die wirklich [Seite 25↓]existieren, in der wahren Effektgröße auch abgebildet bzw. Effekte, die nicht vorhanden sind, auch nicht fälschlicherweise dargestellt. Ein wichtiges Argument gegen einen unkritischen Nutzen von Datenbankanalysen ist die Gefahr der Selektionsbias. „In medicine, the doctor chooses the therapy precisely in order to affect outcomes“122, weshalb diese Populationen besonders dazu neigen, sich zu unterscheiden. Auch wenn die Protagonisten von Beobachtungsstudien auf die Weiterentwicklung in Methodik und Analysetechnik hinweisen123, können Defizite in der Dokumentation vorhandener Unterschiede und in dem begrenzten medizinischen Wissen über ausschlaggebende Determinanten und prognostische Faktoren der meisten Erkrankungen damit nicht korrigiert werden. Lange haben „Observationalists“ wie „Trialists“ ihre Positionen mit passenden Beispielen unterstrichen124-128, aber die Diskussion damit nicht weitergebracht.

Wir haben uns der Frage, Beobachtung oder Experiment, mit der Methodik der systematischen Übersichtsarbeit genähert, in dem wir das methodische Verfahren „Randomisierung“ bzw. „keine Randomisierung“ als Intervention aufgefasst und die resultierenden Effektgrößen miteinander verglichen haben. Um aus dem Dilemma der anekdotischen Einzelevidenz herauszukommen, mit der sich nahezu jede Hypothese belegen lässt, haben wir als „Population“ Studien gewählt, die unsere Fragen an einem größeren, möglichst systematisch zusammengestelltem Kollektiv von Studien untersucht haben und diese Ergebnisse auf der Meta-Ebene verglichen. Unsere Studie (1998 im BMJ publiziert) war die erste Studie mit diesem Ansatz und eine der ersten Arbeiten in der empirischen Methodikforschung. Thema und Methodik wurden von anderen Arbeitsgruppen aufgegriffen und die Diskussion in hochrangigen Journals (N Engl J Med, JAMA, s.unten) fortgesetzt.

Im Folgenden soll unsere Studie zusammengefasst dargestellt werden:


[Seite 26↓]

2.1.1.  Das „Unpredictability Paradox“ – Randomisierte und nichtrandomisierte Studien im Vergleich

2.1.1.1. Fragestellungen

In unserer Studie wurden vier Vergleiche untersucht: Wie verhält sich die Effektgröße

  1. bei randomisierten verglichen mit nichtrandomisierten Studien mit gleichen Interventionen
  2. bei randomisierten verglichen mit nichtrandomisierten Studien mit heterogenen Interventionen
  3. bei angemessen maskierter verglichen mit nicht angemessen maskierter Randomzuteilung
  4. bei qualitativ hochwertigen verglichen mit weniger hochwertigen RCTs, bei denen die Randomisierung als methodisches Verfahren nicht von den Auswirkungen anderer methodischer Verfahren getrennt werden konnte. (Hochwertig bedeutet hier den Einsatz einer größeren Anzahl methodischer Manövern, die aufgrund von experimentellen Untersuchungen (z.B. Jadad-Score) oder logischen Argumenten für die Fragestellung als notwendig erachtet und a priori festgelegt worden waren).

2.1.1.2. Methodik

2.1.1.2.1. Literatursuche und Auswahl der Studien

Wir durchsuchten folgende Quellen nach geeigneten Studien: Cochrane Review Methodology Datenbank, methodologische Bibliographien (z.B. Controlled Clinical Trials Bibliographie), Medline, Science Citation Index (über Indexartikel), Handsearching methodischer Journals (Controlled Clinical Trials, Journal of Clinical Epidemiology, Statistics in Medicine), persönliche Kommunikation mit Methodikern, Referenzlisten. Eine grosse Anzahl an Studien war als Nebenprodukt der Suchstrategien zur Entwicklung der Datenbank für methodische Studien (Kapitel 2.3) aufgefunden worden. Klassische Beobachtungsstudien (Fall-Kontroll-Studien, Kohortenstudien) und Einzelbeispiele („anecdotal evidence“) waren ausgeschlossen. Die Suche wurde bis Sommer 1998 durchgeführt. Alle potentiell relevanten Studien wurden in der Druckversion von zwei Autoren (R.K. und A.O.) unabhängig gesichtet und ausgewählt. Bei fehlender Übereinstimmung wurde Ein- bzw. Ausschluss ausdiskutiert.


[Seite 27↓]

2.1.1.2.2.  Methodische Bewertung

Die methodische Bewertung der Kohorten / Meta-Analysen erfasste sechs Items (Auswahl der Studien anhand expliziter Kriterien durch mehrere Wissenschaftler mit Dokumentation der Übereinstimmung („Agreement“), fortlaufende bzw. komplette Studienstichprobe, Kontrolle für andere methodische Verfahren, z.B. doppelte Verblindung oder vollständige Nachbeobachtung und für Heterogenität in den Studienpopulationen / Interventionen der einzelnen Studien, Untersuchung vergleichbarer Endpunkte). Die Studienqualität wurde einer der drei Kategorien zugeordnet („keine bedeutsamen Mängel“, „potentiell bedeutsame Mängel vorhanden“, „folgenreiche Mängel vorhanden“) und ging in die Gesamtbewertung ein.

2.1.1.2.3. Datenextraktion

Für jede Übersicht wurden die relevanten Daten (Stichprobe der ausgewählten Studien, durchgeführte Vergleiche, Ergebnisse, methodische Bewertung) von der Autorin extrahiert und von einem zweiten Wissenschaftler (Andy Oxman (A.O.)) gegengelesen. Die beobachtete Beziehung zwischen Randomisierung und geschätztem Behandlungseffekt (Über- oder Unterschätzung, kein Unterschied, Umkehreffekt) wurde dokumentiert und die Heterogenität innerhalb und zwischen den Studien untersucht.

2.1.1.2.4. Analyse

Die Analyse wurde im Wesentlichen deskriptiv durchgeführt, wobei wir die Schätzwerte der randomisierten Studien (bzw. von adäquat randomisierten Studien, von Studien mit mehr protektiven methodischen Verfahren, ...) als Referenzstandard für die Schätzwerte der nichtrandomisierten Studien definierten.

2.1.1.3. Ergebnisse

Insgesamt wurden 18 Kohorten aus Studien und Meta-Analysen mit insgesamt 1211 einzelnen klinischen Studien untersucht17; 127-142.


[Seite 28↓]

2.1.1.3.1.  Methodische Bewertung

Die eingeschlossenen Arbeiten zeigten ausgeprägte Variabilität in ihrer Qualität (Tab. 2.1): Nur vier Arbeiten erfüllten alle vorgegebenen Qualitätskriterien137; 139-141, drei davon waren Untergruppenanalysen, die mit dem Vergleich „Hochwertige verglichen mit weniger hochwertigen Studien“ die Robustheit der Ergebnisse ihrer Meta-Analyse testeten. Die restlichen Studien wiesen wegen unzureichender Berücksichtigung anderer methodischer Verfahren17; 129; 135; 136 oder klinischer Heterogenität besonders bei Populationen und Interventionen potentiell bzw. sicher schwerwiegende Mängel auf17; 127; 129; 134-136; 142; 143.

2.1.1.3.2. RCTs verglichen mit Nicht-RCTs bei vergleichbaren Interventionen

Tabelle 2.2 beschreibt die acht Studien127; 128; 130-133; 144, in denen die Effektgrößen von RCTs und Nicht-RCTs miteinander verglichen wurden. In fünf von acht Studien fanden die Nicht-RCTs größere Effekte. Dabei kamen die Behandlungsgruppen häufig zu vergleichbaren Ergebnissen, aber der Behandlungseffekt wurde durch die deutlich schlechteren Ergebnisse der nichtrandomisierten (oft historischen) Kontrollen fälschlicherweise aufgebläht. Eine Studie zeigte für beide Zuordnungsmethoden vergleichbare Ergebnisse und zwei Studien fanden in den Nicht-RCTs kleinere Behandlungseffekte, wobei die Patienten der nichtrandomisierten Behandlungsgruppe gleichzeitig eine schlechtere Prognose hatten (eine Studie). Im Vergleich schwankte der Behandlungseffekt von Nicht-RCTs zu RCTs von einer Unterschätzung des Effekts von 76% bis hin zu einer Überschätzung um 160%.

2.1.1.3.3. RCTs verglichen mit Nicht-RCTs bei heterogenen Interventionen

Die Interpretation der drei Studien mit heterogenen Interventionen und unterschiedlichen Studiendesigns (RCTs und Nicht-RCTs, Cross-over-Designs und Beobachtungsstudien)135; 136; 138 gestaltet sich wesentlich schwieriger (Tab. 2.3): Um für die unterschiedlichen klinischen Endpunkte der Einzelstudien eine gemeinsame Größe zu erhalten, konvertierten die Autoren in allen drei Arbeiten die unterschiedlichen Endpunkte in ein standardisiertes Effektmaß. Zwischen Studiendesign / -qualität und dem standardisierten Effektmaß ließ sich keine konsistente Beziehung darstellen. Möglicherweise entstand durch die ausgeprägte klinische Heterogenität der einzelnen Studien und zahlreichen anderen [Seite 29↓]Faktoren, die nicht berücksichtigt wurden, so viel „Rauschen“, dass potentiell vorhandene Assoziationen zwischen Randomisierung und Effektgröße nicht oder nur verzerrt abgebildet wurden.

2.1.1.3.4. Angemessen maskierte verglichen mit nicht angemessen maskierter Randomisierung

Ziel der verdeckten Randomzuordnung zu einer Behandlung ist, gegen Verzerrungen bei der Gruppenzuteilung zu schützen. Chalmers zeigte in zwei sehr frühen Studien, dass selbst innerhalb von randomisierten Studien eine nicht adäquat verblindete („maskierte“) Gruppenzuteilung die prognostischen Faktoren der Studien so fehlverteilt, dass die Behandlungseffekte bis zum siebenfachen überschätzt wurden17; 127. Hauptproblem dieser frühen Arbeit sind die fehlenden Kontrollen für andere methodische Verfahren. Doch 15 Jahre später wurden die Ergebnisse bestätigt, als Schulz nach Korrektur für Verblindung und Nachbeobachtung mittels multi-variater Analyse ähnliche, wenn auch weniger ausgeprägte Effekte nachwiesen konnte137: Verglichen mit maskierter Zuordnung fanden sich bei inadäquater Gruppenzuordnung im Durchschnitt um 40% aufgeblähte Effekte (Odds Ratio).

2.1.1.3.5. Hochwertige verglichen mit weniger hochwertigen RCTs

Die vierte Kategorie waren Sensitivitätsanalysen innerhalb von Meta-Analysen über RCTs zu spezifischen Behandlungsformen, mit denen die Stabilität des gefundenen Effekts überprüft wurde. Ein Vergleich von hochwertigen RCTs mit weniger hochwertigen RCTs (und größerem Potential für Bias) zeigte bei den Effektgrößen erhebliche Unterschiede129; 139; 140; 142; 145 in beide Richtungen (Über- wie Unterschätzung des Effekts). In einer Meta-Analyse über eine spezifische Infertilitätsbehandlung fand sich sogar ein qualitativer Unterschied, das heißt, dass in hochwertigen Studien ein schädigender Effekt nachgewiesen wurde (Rückgang der Schwangerschaften: OR 0.5), während sich in den methodisch minderwertigen Studien ein positiver Effekt (Anstieg der Schwangerschaften: OR 2.6)145. zeigte. In zwei Meta-Analysen unterschätzten die minderwertigen RCTs den günstigen Effekt der Intervention um 27% bis 100%. Konsequenterweise wäre damit durch die Ergebnisse minderwertiger RCTs eine eigentlich wirksame Intervention verworfen worden.


[Seite 30↓]

Tab. 2.1: Methodische Qualität der einzelnen Übersichtsarbeiten / Kohorten von Studien

Study

Sample

Confounding control?

Reproducibility

Outcome measure

Overall judgement

 

Consecutive or complete sample?

1. Other methodological criteria:

2. Participants/clinical interventions

1. Explicit description

2. Assessment of agreement

  

Imperiale 1990

Yes

1 Yes 2 Yes

1 Yes 2 Yes

Same outcome measure

No important flaw

Khan 1996

Yes

1 Yes 2 Yes

1 Yes 2 partly

Same outcome measure

No important flaw

Nurmohamed 1992

Yes

1 Yes 2 Yes

1 Yes 2 partly

Same outcome measure

No important flaw

Schulz 1995

Yes

1 Yes 2 Yes

1 Yes 2 partly

Same outcome measure

No important flaw

Ortiz 1998

Yes

1 Yes 2 No

1 Yes 2 Yes

Same outcome measure

No - possibly important flaw

Carroll 1996

Yes

1 Partly 2 No

1 partly 2 No

p-value or vote counting

Possibly important flaw

Chalmers 1983

Yes

1 No 2 Partly

1 Yes 2 No

Same outcome measure

Possibly important flaw => overestimation

Diehl 1986

No

1 No 2 Yes

1 Yes 2 No

Same outcome measure

Possibly important flaw -- direction of bias unclear

Emerson 1990

No

1 Yes 2 No

1 Yes 2 partly

Same outcome measure

Possibly important flaw => underestimation

Reimold 1992

Yes

1 Partly 2 Partly

1 Yes 2 No

Same outcome measure

Possibly important flaw

RMIT Group 1994

Yes

1 partly 2 Yes

1 Yes 2 partly

Same outcome measure

Possibly important flaw

Watson 1994

Yes

1 Partly 2 Partly

1 Yes 2 No

Same outcome measure

Possibly important flaw

Colditz 1989

Yes

1 Partly 2 No

1 Yes 2 partly

Standardized outcome measure

Possibly important - major flaw =>underestimation

Miller 1989

Yes

1 Partly 2 No

1 Yes 2 partly

Standardized outcome measure

Possibly important - major flaw =>underestimation

Ottenbacher 1992

No

1 No 2 No

1 Yes 2 Yes

Standardized outcome measure

Possibly important - major flaw =>any direction

Pyorala 1995

Yes

1 No 2 No

1 partly 2 No

Same outcome measure

Possibly important - major flaw

Chalmers 1977

Yes

1 No 2 No

1 Yes 2 No

Same outcome measure

Major flaw => overestimation

Sacks 1982

No

1 No 2 Partly

1 Yes 2 No

p-value or vote counting

Major flaw => overestimation


[Seite 31↓]

Tab. 2.2: RCTs verglichen mit Nicht-RCTs bei Übersichten zu gleichen Interventionen

Study

Sample (search strategy)

Comparison

Results

Direction of bias

Chalmers 1977

32 controlled studies of anticoagulation in acute myocardial infarction (systematic)

RCTs with CCTs and HCTs on case fatality rate, rate of thromboembolism, and haemorrhages

Relative risk reduction for mortality overestimated by 35% in HCTs and 6% in CCTs compared with RCTs. Case fatality rate highest in HCTs (38.3%) compared with RCTs (19.6%) and CCTs (29.2%). Similar pattern for thromboembolism

Overestimation of effect

Sacks 1982

Sample of 50 RCTs and 56 HCTs, assessing 6 interventions (treatment of oesophageal varices, coronary artery surgery, anticoagulation in myocardial infarction, chemotherapy for colon cancer and melanoma, and diethylstilboestrol for recurrent miscarriage) (at hand)

RCTs with HCTs on frequency of detecting statistically significant results (p=0.05) of primary outcome and reduction of mortality

20% of the RCTs found a statistically significant benefit from the new treatment compared with 79% of the HCTs. Relative risk reduction of mortality in HCTs v RCTs was 0.49/0.27 (1.8) for cirrhosis, 0.68/0.26 (2.6) for coronary artery surgery at 3 years, 0.49/0.22 (2.2) for anticoagulation in myocardial infarction, and 0.67/0.02 for diethylstilboestrol in recurrent miscarriage. Outcomes in treatment groups were similar in both designs, but outcomes in control groups were worse among historical controls

Overestimation of effect

Diehl 1986

19 RCTs and 17 HCTs for 6 types of cancer (breast, colon, stomach, lung cancer, melanoma, soft tissue sarcoma) (reference lists of two textbooks)

Matching of randomised and historical controls for disease, stage, and follow up, and comparison on survival and relapse free survival 18 of 43 matched control groups (42%) varied by >10% (absolute difference in either outcome), 9 (21%) by >20%, and 2 (5%) by >30%.

Survival or relapse free survival was better in RCTs compared with HCTs in 17/18 matches

Overestimation of effect

Reimold 1992

6 RCTs and 6 CCTs of chinidine in atrial fibrillation (systematic)

RCTs and CCTs on maintenance of sinus rhythm 3, 6, and 12 months after cardioversion

At 3 months, beneficial effect of maintaining sinus rhythm with chinidine was 54% less in non-RCTs compared with RCTs, and was 76% less at 12 months

Underestimation of effect

Recurrent Miscarriage Immunotherapy Trialists Group 1994

9 RCTs and 6 CCTs (with self selected treatment) of allogenic leucocyte immunotherapy for recurrent miscarriage (systematic)

RCTs and CCTs on live birth rate

Beneficial effect of immunotherapy on birth rate among pregnant women was 9% larger in CCTs compared with RCTs, but was 63% lower in CCTs when all women were considered

Underestimation of effect when all women considered, similar effect for pregnant women

Watson 1994

4 RCTs and 6 CCTs/HCTs of oil soluble contrast media during hysterosalpingography in infertile couples (systematic)

RCTs and CCTs/HCTs on pregnancy rate

RCTs and CCTs/HCTs detected similar increases in pregnancy rates: odds ratio for RCTs 1.92 (95% CI, 1.33 to 2.68) and for CCTs/HCTs 1.92 (1.55 to 2.38)

Similar effect

Pyörälä 1995

11 RCTs and 22 (not further specified) non-RCTs on hormonal therapy in cryptorchidism (systematic)

RCTs and non-RCTs on the descent of testes after therapy with luteinising hormone releasing hormone or human chorionic gonadotrophin

Success rate of descent of testes after therapy with luteinising hormone releasing hormone was 2.3 times larger in non-RCTs than in RCTs and 1.7 times larger after therapy with human chorionic gonadotrophin

Overestimation of effect

Carroll 1996

17 RCTs and 19 non-RCTs (including HCTs or trials with inadequate randomisation procedures) on transcutaneous electrical nerve stimulation (systematic)

RCTs and non-RCTs on control of postoperative pain

Transcutaneous electrical nerve stimulation judged ineffective at improving postoperative pain in 85% of RCTs, while 89% of non-RCTs concluded that it did improve postoperative pain

Overestimation of effect

RCT=Randomised controlled study; non-RCT=non-randomised controlled study; CCT=concurrently controlled trial; HCT=historically controlled trial.


[Seite 32↓]

Tab. 2.3: RCTs verglichen mit Nicht-RCTs zu Übersichten mit Vergleichen von heterogenen Interventionen

Study

Sample (search strategy)

Comparison

Results

Direction of bias

Colditz 1989

113 studies published in 1980 comparing new interventions with old, identified in leading cardiology, neurology, psychiatry, and respiratory journals (systematic)

36 parallel RCTs, 29 randomised COTs, 46 non-randomised COTs, 3 CCTs, 5 ECTs, 9 observational studies compared for "treatment gain" (Mann-Whitney statistic), and relation between quality score and "treatment gain" assessed

All but one design achieved similar "treatment gains" (0.56-0.65). Overall, 89% of new treatments were rated as improvements, but only non-randomised COTs detected a significantly higher "treatment gain" from the new treatment compared with RCTs (p=0.004). Within RCTs, there was no correlation between quality score and "treatment gain" (p=0.18)

Inconclusive

Miller 1989

188 studies comparing new surgical interventions with old, published in 1983 and identified in leading surgical journals (systematic)

81 RCTs, 15 CCTs, 27 HCTs, 91 observational studies, 7 BASs compared on "treatment gain" (Mann-Whitney), and association between treatment success and study design and the relation between quality score and treatment gains assessed

Non-significant trend towards larger "treatment gains" for new treatments on the principal disease in non-RCTs (0.56 to 0.78) than in RCTs (0.56). For treatment of complications the "treatment gain" was similar across all study designs (0.54 to 0.55) except in BASs (0.90). Within RCTs, there was no correlation between quality scores and treatment gains (p=0.7)

Inconclusive

Ottenbacher 1992

Sample of 30 RCTs and 30 trials with non-random process of allocation, eg matching or HCTs (systematic search of N Engl J Med and JAMA across several medical specialties)

RCTs and non-RCTs on treatment effects as measured by standardised mean differences

No difference in treatment effect found between non-RCTs (0.23) and RCTs (0.21)

Similar effects

RCT=Randomised controlled study; non-RCT=non-randomised controlled study; CCT=concurrently controlled trial; HCT=historically controlled trial.COT=Crossover trial; CCT=concurrently controlled trial; ECT=external control study; BAS=before and after study; HCT=historically controlled trial.

Tab. 2.4: Experimentelle Studien mit angemessen maskierter Zuordnung verglichen mit unangemessen maskierter Zuordnung

Study

Sample (search strategy)

Comparison

Results

Direction of bias

Chalmers 1983

145 controlled trials of treatment for acute myocardial infarction (systematic)

Studies with different allocation schemes (non-random, non-concealed random, and concealed random allocation) on maldistribution of prognostic variables, frequency of significant outcomes, and case fatality rates

In non-RCTs, non-concealed RCTs, and RCTs with concealed allocation, the maldistribution of prognostic factors was 34%, 7%, and 3.5% respectively, frequency of significant outcomes was 25%, 11%, and 5% respectively, average relative risk reduction for mortality was 33%, 23%, and 3% respectively. Case fatality rate for control groups was 32%, 23%, and 16% and for treatment groups was 21%, 18%, and 16% respectively

Overestimation of effect

Schulz 1995

250 RCTs from 33 meta-analyses (Cochrane Pregnancy and Childbirth Database)

Association between methodological features of controlled trials (allocation concealment, double blinding, and follow up), and treatment effect (odds ratio)

Treatment effect overestimated by 41% in RCTs with inadequate concealment and by 30% in RCTs with unclear adequacy of concealment compared with those with adequate concealment (p=0.001) after adjustment for other methodological features. Studies with no double blinding overestimated treatment effect by 17% compared with double blinded studies (p=0.01). Lack of complete follow up had no influence on treatment effect (7%, p=0.32)

Overestimation of effect

RCT=Randomised controlled trial


[Seite 33↓]

Tab. 2.5: Qualitativ hochwertige verglichen mit weniger hochwertigen Studien

Study

Sample (search strategy)

Comparison

Results

Direction of bias

Emerson 1990

Sample of 7 meta-analyses with 107 primary studies where full information about quality scores was available (at hand)

Assessment of relation between quality score and (a) observed treatment difference and (b) variation of observed treatment difference

No correlation detected between either quality score and treatment difference or variation of treatment difference within each meta-analysis or in combined analysis (p=0.29)

Similar effects

Imperiale 1990

Meta-analysis of 11 RCTs of steroids in alcoholic hepatitis (systematic)

Short term mortality in studies with high and low methodological quality

In studies with low quality, relative risk reduction on mortality was 86% smaller than the reduction observed in high quality studies. In studies with low quality and hepatic encephalopathy no effect was observed, while the relative risk reduction of mortality in high quality studies was 55%

Underestimation of effect

Nurmohamed 1992

Meta-analysis of 35 surgical and orthopaedic RCTs on low molecular weight heparin as thromboprophylaxis (systematic)

Relative risk reduction for deep vein thrombosis and pulmonary embolism in studies of high and low methodological quality

In studies with low quality, relative risk reduction for venous thrombosis in surgical trials was 2.6 times larger, and in orthopaedic trials 1.4 times larger, than studies with high quality. Relative risk reduction for pulmonary embolus in surgical trials was 1.7 times larger, and in orthopaedic trials 2.8 times larger, than studies with high quality

Overestimation of effect

Khan 1996

Meta-analysis of 9 RCTs (parallel or crossover design) evaluating the effect of anti-oestrogen treatment in male infertility (systematic)

Pregancy rates in studies with high and low methodological quality

In studies of low quality, pregnancy rate increased under treatment (odds ratio 2.6), but declined under treatment in high quality studies (0.5)

Reversal of effect

Ortiz 1998

Meta-analysis of 7 RCTs on the effect of folic or folinic acid v placebo (systematic)

Frequency of gastrointestinal side effects in studies with high and low methodological quality

In studies with low quality there was a 43% reduction in the odds ratio of side effects (0.57) compared with a 70% reduction in studies with high quality (0.3)

Underestimation of effect

RCT=Randomised controlled trial.


[Seite 34↓]

2.1.1.4.  Diskussion

Die in den Review eingeschlossenen Übersichten zeigen, dass nichtrandomisierte bzw. nicht angemessen randomisierte Studien (im Vergleich zu (angemessen) randomisierten) Studien dazu neigen, den Effekt einer Behandlung zu überschätzen. Dieses Phänomen trat jedoch nicht bei allen Vergleichen auf, vielmehr fanden sich bei einem nicht unerheblichen Prozentsatz in den nichtrandomisierten Studien gleich große oder kleinere Effekte. In einigen Beispielen wurde sogar ein Effektumkehr beobachtet.

Der „wahre“ Effekt von Interventionen ist immer unbekannt und auch hochwertige Studien können nur eine Schätzung des wahren Effekts liefern. Im Methodikteil unserer Studie haben wir die randomisierten Studien als Referenzwert für die Bewertung der nichtrandomisierten Studien festgelegt. Diese Entscheidung impliziert nicht, dass der „wahre“ Effekt bekannt ist oder dass die Schätzungen von RCTs immer näher an dem unbekannten „wahren“ Wert liegen als die von Nicht-RCTs. Auch in randomisierten Studien, unserem „Goldstandard“, können Mängel auftreten. Allerdings liegt unseren Überlegungen die Prämisse der gesamten (epidemiologischen) Forschung zugrunde, dass Studien mit größerem Schutz vor systematischen Fehlern mit höherer Wahrscheinlichkeit nahe dem unbekannten „wahren“ Wert zu liegen kommen als Studien mit weniger protektivem Design.

Dennoch weist unsere Untersuchung einige Einschränkungen auf: Trotz umfangreicher Bemühungen (s. 2.3) ist es nicht gelungen, eine umfassende Suchstrategie aufzubauen, die in den gängigen Datenbanken die für unsere Forschungsfrage relevanten (und auch vorhandenen) Studien zuverlässig auffindet. Eine Barriere war dabei die unzureichende Kodierung methodischer Studien durch die Datenbankersteller. So überrascht es nicht, dass jede der nachfolgenden Untersuchungen (Concato, Benson, Ioannidis, Kunz 2002) weitere Übersichten eingeschlossen hat. Es besteht nach wie vor eine hohe Chance, dass eine erhebliche Anzahl an Übersichten, die unsere Einschlusskriterien erfüllen, nicht erfasst wurden. Allerdings ist weniger wahrscheinlich, dass qualitativ hochwertige bzw. rein methodisch ausgerichtete Studien129; 135-137, die unsere Ergebnisse substantiell verändern würden, übersehen wurden.


[Seite 35↓]

Die Beschränkung auf eine deskriptive Analyse, mit z.T. semiquantitativen Vergleichen ist eine weitere Einschränkung unserer Untersuchung, die somit nur eine orientierende Abschätzung der Effekte ermöglicht. Allerdings haben die umfangreichen quantitativen Analysen in der Arbeit von Ioannidis146 die Kernaussagen unserer Arbeit bestätigt.

2.1.1.5. Aktualisierung der Studie

Drei Jahre später haben wir nach erneuter Literatursuche (s. 2.3) und mit den im Intervall gesammelten Arbeiten die Evidenzlage unserer Übersicht nahezu verdoppelt. Nach dem Einschluss von 14 weiteren Übersichten und Kohorten mit mehr als 1700 Einzelstudien liegen jetzt 32 Übersichten mit mehr als 3000 Einzelstudien vor (Evidenztabelle Anhang 2, Kunz 2001147), die nach der gleichen Methodik exzerpiert und analysiert worden sind. Die Aussagekraft der neuen Studien ist durch die methodischen Schwächen der meisten Arbeiten deutlich eingeschränkt. Auch die neu eingeschlossenen Übersichten fanden Effektverzerrungen, die in alle Richtungen gehen konnten, aber besonders bei den methodisch weniger validen Studien zu einer Überschätzung der Effektgröße führten. Diese Befunde bestätigen die Beobachtungen unserer ersten Arbeit und untermauern die getroffenen Schlussfolgerungen, dass 1) nicht (angemessen) randomisierte Studien über ein erhebliches Potential für verzerrte Einschätzungen des zugrunde liegenden Effekts verfügen, dass 2) ein offensichtlicher Trend zur Effektüberschätzung erkennbar ist, aber auch Unterschätzungen und Effektumkehr auftreten können. Das nicht lösbare Problem besteht darin, dass die Richtung der Fehlschätzung ohne „Goldstandard“ nicht erkennbar und auch nicht korrigierbar ist. Somit ist es ein Paradox, dass die Unvorhersagbarkeit der Randomisierung den besten Schutz darstellt gegen die Unvorhersagbarkeit von Ausmaß und Richtung von Bias in Studien mit unzureichender Randomisierung. Wir haben dieses Phänomen als das „unpredictability paradox“ bezeichnet.


[Seite 36↓]

2.2.  Weiterentwicklung der Diskussion durch Folgestudien

2.2.1. Zusammenfassung der Folgestudien

Die von uns aufgeworfene Diskussion wurde von anderen Arbeitsgruppen (Britton, Benson, Concato, Ioannidis) mit anderen methodischen Ansätzen fortgesetzt. Die einzelnen Arbeiten sind im Anhang 2 in Form von Evidenztabellen mit methodischen und inhaltlichen Details zusammengefasst. Im Folgenden werden die einzelnen Ergebnisse beschrieben und gegeneinander abgegrenzt.

Eine unserer eigenen Forschungsfragen „Erzeugen Nicht-RCTs systematisch größere oder kleinere Effektgrößen als RCTs?“ wurde in einem methodischen HTA-Bericht (UK) mit vier systematischen Übersichten und 14 Einzelvergleichen bearbeitet148. Während die Ergebnisse ähnlich waren (Nicht–RCTs finden größere, kleinere oder identische Effekte wie RCTs ohne konsistente Richtung der Effektveränderung), betonten die Autoren ihre schlussfolgerung Befund, dass Nicht-RCTs nicht systematisch zu Effektüberschätzungen neigten, was eine längere Diskussion nach sich zog148-151.

Zwei Publikationen im N Engl J Med (2000) präsentierten zwei ähnlich gelagerte Untersuchungen (Vergleich von randomisierten Studien mit (klassischen) Beobachtungsstudien): Benson kontrastierte mit 18 Einzelstudien („anecdotal evidence“) und drei Kohorten von Studien ausgewählte Beobachtungsstudien (retro-/prospektive Kohortenstudien, Querschnittsstudien, historische Kontrollen) mit thematisch gleichen RCTs152. Beim Vergleich der Lage der Punktschätzer der Beobachtungsstudie zum Konfidenzintervall des zugehörigen RCTs befanden sich die Punktschätzer meist innerhalb des Konfidenzbereichs. Die Autoren folgerten, dass Beobachtungsstudien und RCTs in der Regel vergleichbare Ergebnisse liefern und sich somit wichtige klinische Fragen auch durch Beobachtungsstudien (z.B. in Form von Datenbankanalysen) hochwertig und zuverlässig beantworten lassen. Die zweite Studie verglich den Effekt von Beobachtungsstudien (Fall-Kontroll- bzw. Kohortenstudien) mit dem von RCTs anhand von fünf definierten Interventionen123, die in einem engen Sampling Frame (fünf Journals und einen Zeitraum von 1991 – 1995) identifiziert worden waren. In diesen Vergleichen lagen die Gesamteffekte der beiden Studientypen sehr nahe zusammen. Entsprechend lautete die Schlussfolgerung, dass RCTs und Beobachtungsstudien in der Regel zu [Seite 37↓]vergleichbaren Ergebnissen führen und (hochwertige) Beobachtungsstudien per se keine Überschätzung des Interventionseffekts bedingen.

In der jüngsten Publikation (JAMA 2001) untersuchte Ioannidis an 45 systematischen Übersichten (408 Primärstudien) die Frage: „Liefern RCTs und Beobachtungsstudien bei gleichen Behandlungen gleiche Ergebnisse?“146. Dazu schloss er RCTs, Nicht-RCTs, Fall-Kontroll-, Kohorten- und Querschnittsstudien in die Untersuchung ein und führte eine quantitative Analyse mit Adjustierung für potentielle Confounder und Effektmodifikatoren durch. Trotz guter Korrelation zwischen den Behandlungseffekten der beiden Designkategorien (Korrelationskoeffizient 0.75) zeigten sich in Nicht-RCTs häufiger größere Effekte (25/45 versus 14/45 Topics). Sensitivitätsanalysen für unterschiedliche Definitionen von „Diskrepanz“ und alternative Analyseansätze (z.B. nach Designtyp) bestätigten die beobachteten Unterschiede in den Effektgrößen und den Trend zur Effektüberschätzung, aber auch das Vorkommen von Unterschätzungen durch Nicht-RCTs.

2.2.1.1. Kritische Analyse der gegenwärtigen Datenlage

Die Reaktion auf die „Unpredictability Paradox“-Studie und die Folgestudien belegen die Aktualität des Problems für Methodiker wie für Nutzer von Forschungsergebnissen. Im Folgenden sollen die wichtigsten Probleme und Grenzen der bisher durchgeführten Studien gemeinsam beleuchtet werden:

Verwendung von „Anecdotal Evidence“: Die Schlussfolgerungen von Britton148 und Benson152 beziehen sich im Wesentlichen auf die Ergebnisse von „Fallserien“ einzelner Studien (Britton: 14/18 Vergleiche; Benson: 18/21 Vergleiche). Wie die einzelne klinische Studie unterliegt auch eine methodische Einzelstudie den gleichen Irrtumsmöglichkeiten durch Zufall, Bias oder Confounding, was der Aussagekraft und Übertragbarkeit Grenzen setzt. Da sich nahezu jeder methodische Aspekt mit einem effektvollen Beispiel unterstreichen oder widerlegen lässt, gilt eine methodische Beweisführung auf dieser Grundlage als überholt.

Methodische Qualität und klinische Heterogenität: Die Tatsache vergleichbarer Ergebnisse bedeutet nicht automatisch, dass die Primärstudien auch vergleichbare Fragestellungen, Populationen und Interventionen mit hohen methodischen Standard untersucht haben153. In den meisten Arbeiten123; 146; 148; 152 wurden die zugrundeliegendenden Studien überhaupt nicht oder nur sehr oberflächlich auf [Seite 38↓]klinische und methodische Heterogenität untersucht. Die Überprüfung einiger der vorgenommenen Vergleiche123; 152 bestätigen die Berechtigung der Vorbehalte154. So stammte z.B. die „RCT-Vergleichsgruppe“ aus Untergruppenanalysen von RCTs oder aus post hoc definierten Untergruppen152. In einem anderen Vergleich wurden randomisierte Hochdruckstudien mit Bevölkerungsdaten (ohne Angaben zur Intervention) kontrastiert123. Eine umfassende Bewertung und transparente Darstellung von methodischer Qualität und klinischer Heterogenität und eine entsprechende Berücksichtigung dieser Ergebnisse bei der Gesamtbewertung war nur in den eigenen Arbeiten durchgeführt worden147; 151.

Konfidenzintervalle als Analysegrundlage: Drei Untersuchungen123; 146; 152 verglichen die Lage des Punktschätzers aus der Beobachtungsstudie mit dem Konfidenzintervall des zugehörigen RCTs. Umschließt das Konfidenzintervall den Punktschätzer der Beobachtungsstudie, so wurde für beide Studientypen eine gemeinsame Grundgesamtheit angenommen. Allerdings verliert dieser Ansatz bei sehr breiten Konfidenzintervallen (kleine Stichprobe/große Variabilität) an Bedeutung, da der Punktschätzer der Beobachtungsstudie selbst dann noch innerhalb des Intervalls zu liegen kommt, wenn die Punktschätzer von RCT und Beobachtungsstudie weit auseinander liegen. Dieses Phänomen war besonders bei den Vergleichen von Benson152 und Ioannidis146 offensichtlich, wobei Ioannidis das Problem thematisierte und das Ausmaß über eine Sensitivitätsanalyse zu erfassen suchte.

Wurde die Überlappung der Konfidenzintervalle „RCT/Beobachtungsstudie“ als „Gleichheitskriterium“ gewählt, zeigte sich ein ähnliches Problem. Je nach Wahl des zugrundeliegenden Meta-Analysemodells („Random effects model“ oder „Fixed effects model“) fand sich bei demselben Studienbeispiel (Mammographiescreening) eine Überlappung der Konfidenzintervalle der beiden Studientypen („Random effects model“)123 oder nicht („Fixed effects model“)146. Auch dieses Phänomen wurde in der zugehörigen Übersicht123 nicht diskutiert.

Stichprobenrahmen: Eine entscheidende Einschränkung der Arbeiten von Concato und Benson ist das begrenzte Zeitfenster und die limitierte Auswahl an Datenbanken bzw. Journals, was zur Folge hatte, dass die Analysen nur auf einer kleinen Anzahl an Studien beruhten. Wichtige Meilensteinstudien155-157 und andere Studien158, die die postulierten Effekte widerlegten, blieben dadurch unberücksichtigt.


[Seite 39↓]

2.2.1.2.  Variabilität zwischen Studiendesigns: wünschenswert oder problematisch ?

Ist Variabilität innerhalb und zwischen den Designkategorien wünschenswert oder problematisch? Erstmals kann Variabilität ein Hinweis auf natürliche Vielfalt bei gleichen Einschlusskriterien und gleicher Umsetzung der Intervention in unterschiedlichen Settings bedeuten, wodurch es selbst bei hochwertigen Studien zu Unterschieden in wesentlichen Parametern kommen kann. Aber es müssen auch andere Ursachen für Variabilität bedacht werden: „Efficacy“-Studien, die die Wirksamkeit unter Idealbedingungen messen, können bei gleicher Intervention zu anderen Ergebnissen kommen als Effectiveness-Studien, die die Versorgungsrealität erfassen. Time Lag Bias kann sich bemerkbar machen, wenn nach frühen hochpositiven Effekten in Beobachtungsstudien bei weiteren Untersuchungen in RCTs mit größeren oder weniger selektierten Populationen ein „Verdünnungseffekt“ gefunden wird. Bei einem negativen Ergebnis können Designkategorien wie Beobachtungsstudien stärker von Publikationsbias betroffen werden als gut durchgeführte RCTs. Dies würde ebenfalls zu scheinbar größeren Effekten in Nicht-RCTs führen.

Daneben fallen noch andere wichtige Aspekte auf, die für ein besseres Verständnis der Datenlage näher untersucht werden müssten: Auf der Ebene der Primärforschung stellt sich die Frage, wie es überhaupt dazu kommt, dass die gleiche Forschungsfrage z.T. sogar zeitgleich mit zwei unterschiedlichen Designs untersucht wird. Auf der Ebene der Reviews ist unklar, weshalb in einigen Meta-Analysen überhaupt unterschiedliche Studientypen zur gleichen Fragestellung integriert werden123 und in anderen nicht? Hier könnte ein neues Beispiel für Selektionsbias vorliegen, falls diese Kombination von Designs in der Existenz von Nicht-RCTs mit ähnlichen Ergebnissen wie den von RCTs begründet wäre.

2.2.2. Forschungsbedarf: Heterogenität - klinisch und methodisch

Die bisherigen Untersuchungen zeigen auf, dass die Schwierigkeiten, die einfache Frage nach der Bedeutung von Beobachtung oder Experiment valide zu beantworten, viel größer sind als ursprünglich angenommen und dass ein umfassender, systematischer Ansatz unter Einschluss aller existierender Studien dazu erforderlich ist. Ausserdem wurde deutlich, dass die klinische (Populationen, [Seite 40↓]Interventionen, Endpunkte) und methodische Heterogenität der Übersichten und möglicherweise sogar der Primärstudien herausgearbeitet und als Parameter in die Analyse eingeschlossen werden muss. Der dazu erforderliche Aufwand ist eine mögliche Erklärung, weshalb dieser Ansatz noch nicht umgesetzt wurde159. Weitere vergleichende Untersuchungen sollten sich stärker auf die Unterschiede in der Effektgröße konzentrieren, an denen die Wirksamkeit einer Behandlung letztendlich gemessen wird.

2.2.3. Beobachtungsstudien – eine Standortbestimmung

Es besteht die Gefahr, dass durch die prominent publizierten Arbeiten von Concato und Benson die Beobachtungsstudie als Methode zur Bewertung der Wirksamkeit von Gesundheitsmaßnahmen (wieder) salonfähig wird. Die Aufweichung des Goldstandards RCT würde jedoch erhebliche Einbußen in der Qualität der Bewertung von Interventionen und einen Rückschlag in der Sicherstellung einer hochwertigen Medizin zum Schutze der Patienten bedeuten. Dabei besitzt die Beobachtungsstudie einen festen Platz als wichtige und informative Ergänzung zu RCTs, wenn es um die Erfassung der Wirksamkeit in der Routineversorgung, um späte Endpunkte oder unerwünschte Effekte geht160-162 oder die Durchführung eines RCTs unethisch ist. Bei sehr ausgeprägten Effekten kann ein RCT überflüssig werden, bei sehr kleinen Interventionseffekten oder seltenen Ereignissen scheitert er schnell an der Durchführbarkeit. Hier wird man sich mit der größeren Unsicherheit über den wahren Behandlungseffekt arrangieren müssen, die der Einsatz von Beobachtungsstudien mit sich bringt.

Randomisierte kontrollierte Studien und Beobachtungsstudien haben bei der Bewertung von Interventionen derzeit klar zugeordnete Plätze. Empirische Methodikforschung muss zeigen, ob diese Zuteilung gerechtfertigt ist. Bevor sich unser Wissen darüber nicht weiter verdichtet hat, sollte der Status Quo, auch aus Respekt vor dem Patienten, nicht geändert werden.


[Seite 41↓]

2.3.  Datenbank für methodische Studien – Grundstock für eine empirische Methodikforschung (eigene Untersuchungen)

Auch Empfehlungen, welche methodischen Verfahren zur Bewertung von Interventionen eingesetzt werden sollen, sollten möglichst auf guter Evidenz beruhen, und logisch plausible Argumente sollten einer empirischen Überprüfung standhalten.

1994 begann eine Gruppe von Wissenschaftlern (DL Sackett, AD Oxman, R Kunz, D Cowan, S Halperin) an der McMaster-University mit der Entwicklung eines Registers (Database of Trials and Reviews of Trials, TORTs) für Studien, die mit Daten aus der Patientenversorgung die Auswirkungen von methodischen Techniken auf die Effektschätzung untersuchten163. Der erste Versuch (1995), auf der Grundlage der gesammelten Studien in elektronischen bibliographischen Datenbanken (MEDLINE) oder durch Handsearching eine systematische Suchstrategie zu entwickeln, scheiterte an der undifferenzierten Kodierung der Studien und den diffus verbreiteten Publikationsorten. Die unsystematische Sammlung über Referenzlisten, persönliche Kontakte und Vernetzung mit anderen Wissenschaftlern mit methodischem Interesse wurde fortgesetzt. Mit der Überführung der Datenbank in die Cochrane Collaboration als CRMD (Cochrane Review Methodology Database) wurde auch die Zielsetzung breiter (www.cochrane.de; Cochrane Methodology Review Group, „Scope“ and „Topics“). Angesichts des Eindrucks eines gestiegenen Interessses an empirisch-methodischer Forschung wurde von der Autorin während eines Forschungsaufenthalts 1999 an der Health Services Research Unit Folkehelsa in Oslo, das Projekt, eine sensitive und effiziente systematische Suchstrategie zu entwickeln, nochmals aufgegriffen. Die Ergebnisse dieser Untersuchung sind bisher nicht veröffentlicht.

2.3.1. Fragestellung

Lässt sich für gängige medizinische Datenbanken eine effiziente Suchstrategie entwickeln, um Studien zu identifizieren, die die Auswirkung von definierten methodischen Verfahren zur Vermeidung von Bias auf Studienendpunkte untersuchen und dazu reale Patientendaten aus Studien zur [Seite 42↓]Gesundheitsversorgung verwenden. Relevante methodische Verfahren sind z.B. Randomisierung, Maskierung, Verblindung, qualitativ hochwertige verglichen mit weniger hochwertigen Studien, Vollständigkeit der Nachbeobachtung.

2.3.2. Methodik

2.3.2.1. Eingesetzte Datenbanken

Folgende Datenbanken wurden herangezogen: 1) MEDLINE (Ovid MEDLINE und Internet Grateful Med; Zeitfenster: 1996-7/1999) 2) Science Citation Index (SCI), eine Datenbank über die Zitierhäufigkeit von Artikeln 3) Die Cochrane Review Methodology Database (CRMD) der Cochrane Library, eine Bibliographie von methodischen Publikationen mit Relevanz für die Zusammenfassung von Interventionen aus der Gesundheitsversorgung (Stand 7/1999: >900 Zitate). Zum Zeitpunkt der Studie war die Entwicklung einer CRMD-eigenen Kodierung mit differenzierten methodischen Schlagwörtern weitgehend abgeschlossen Die CRMD wurde als Referenzdatenbank für die Suchstrategien verwendet.

2.3.2.2. Einschlusskriterien

Studienpopulation: Einzelstudien und Kohorten von Studien, Studien mit primärer methodischer Fragestellung, Studien zur Wirksamkeit von Interventionen in der Gesundheitsversorgung mit sekundär methodischer Fragestellung.

Interventionen: Vergleichende Untersuchungen über die Auswirkung von methodischen Verfahren auf Studienendpunkte mit Relevanz für die Durchführung von Reviews zur Vermeidung von Bias (beschrieben in dem Themenkatalog der Cochrane Empirical Methodological Studies Methods Group (Draft 30. Juni 1999; jetzige Version: www.cochrane.de; Cochrane Methodology Review Group, Scope and Topics).

Endpunkte: Qualitative oder quantitative Beschreibung der Auswirkung der methodischen Techniken.


[Seite 43↓]

2.3.2.3.  Entwicklung der Suchstrategien

Folgende Strategien wurden exploriert: 1) Medline - MESH-Headings: Die Suche in Medline (OVID Medline) lief über die Medical Subject Headings (MeSH) - Indexierung, von denen für methodische Verfahren nur ein sehr limitiertes Set an Begriffen existiert. Diese wurden durch Subheadings wie standard (st), statistics & numerical (sn) or classification (cl) weiter eingegrenzt und anschließend entsprechend der Fragestellung mit verschiedenen Varianten von „Random“ verknüpft. 2) Medline Feature „Related Articles“: In der seit 1998 existierenden „Related Articles“-Funktion von Internet Grateful Med (mit prädefinierten Algorithmen, die Studien auf der Grundlage von ähnlichen bzw. benachbarten Begriffen in Titel und Abstract suchen) wurden über (Index-) Publikationen weitere Artikel (www.ncbi.nlm.giv:80/entrez/query/static/computation.html) identifiziert und die unzureichende MeSH-Kodierung umgangen. Die Effizienz des Verfahrens wurde durch zwei Arten von Indexstudien ausgetestet: Studien mit primär methodischer Fragestellung127-129; 135; 137; 138; 151 und Studien mit primär klinischer und sekundär methodischer Fragestellung133; 134; 140; 143. Studien, die bereits sicher in der CRMD-Datenbank eingeschlossen waren, wurden kein weiteres Mal berücksichtigt. 3) Im Science Citation Index wurden über die gleichen Indexstudien mit primär methodischer Fragestellung wie unter 2) weitere potentiell relevante Publikationen identifiziert. Die Vorgehensweise bei Screening und Auswahl der Studien, die durch zwei Wissenschaftler (RK und AO) erfolgte, sind für alle drei Suchansätze in Tabelle 6 wiedergegeben. Die Studien wurden in separaten Datenbanken gespeichert und die zusätzliche Ausbeute abgeglichen.


[Seite 44↓]

Tab. 6: Studienidentifizierung und Auswahlverfahren in den einzelnen Datenbanken

MeSH-Schlagwörter

(Medline)

„Related Articles“-Funktion

(Medline)

Science Citation Index

  • Zuordnung von MeSH-Begriffen zu den für die Studienfrage relevanten CRMD-Schlagwörter
  • Suche mit MeSH-Begriffen (Tab.7a)
  • Kombination der Suchbegriffe mit verschiedenen Strategien für „Random“ (Tab.7b )

  • 7 methodische Schlüsselstudien
  • Suche in “Related Articles”

  • 7 methodische Schlüsselstudien
  • Suche in “Science Citation Index”

 

  • Klassifikation (R.K.) in:
    - (potentiell) geeignet
    - Quelle für weitere Zitate
    - ungeeignet
  • Überprüfung der (potentiell) geeigneten Studien durch 2. Wissenschaftler (A.O.) è Gesamtergebnis
  • Abgleich mit CRMD

 

CRMD: Cochrane Review Methodology Database


[Seite 45↓]

2.3.3.  Ergebnisse

2.3.3.1. Ausbeute der MEDLINE-Suche

Die Suche über MeSH-Begriffe ist exemplarisch in Tab. 7a / 7b zusammengefasst. Tabelle 7a beschreibt die Trefferhäufigkeit einzelner MeSH-Begriffe ohne / mit Subheadings und Textwörter. Durch Kombinationen von methodischen Begriffen (immer mit Variationen des Begriffs „random“) konnten die sehr hohen Trefferzahlen deutlich reduziert werden (Tab. 7b). Von den 1594 initial identifizierten Zitaten wurden schließlich 49 Zitate als geeignet ausgewählt (Ausbeute: 3%). Mit den sieben methodischen Indexartikeln127-129; 135; 137; 138; 151 wurden über die “RELATED ARTICLES” Funktion insgesamt 863 Zitate identifiziert. Davon wurden 25 weitere, von den MeSH-Terms nicht entdeckte Studien eingeschlossen (25/863 = 2,9%). Über die klinischen Indexstudien133; 134; 140; 143 fanden sich keine weiteren relevanten Studien.

Tabelle 8 vergleicht die Ausbeute der beiden Medlinestrategien mit den in der CRMD-Datenbank bereits vorhandenen Studien (inkompletter Referenzstandard). Die Ausbeute durch beide MEDLINE Strategien lag bei 3% (74 / 2455) aller gescreenten Studien. Davon befanden sich bereits 43 Studien (58%) in der CRMD, 31 neue Studien (42 %) konnten in die CRMD zusätzlich eingebracht werden (Zugewinn: 26%).

Tab. 7 a : Häufigkeit von MeSH-Begriffen und Textwörtern in Ovid-MEDLINE (1996 - 1999), die den relevanten Schlagwörtern der CRMD-Kodierung am ehesten entsprachen. Über methodische Subheadings (s.u.) wurden Studien mit methodischem Schwerpunkt herausgefiltert.

MeSH-headings / Textwörter

Treffer

Ovid MEDLINE
(1996 – 1999)

MeSH-headings / Textwörter

Treffer

Ovid MEDLINE
(1996 – 1999)

1. Bias (epidemiology) exp

7.467

7. Random allocation

5.940

2. Case control studies

66.715

8. Randomised controlled trials

11.008

3. Clinical trials

19.805

9. Randomised controlled

trials / cl, mt, sn, st, td, ut

1348

4. Clinical trials / cl, mt, sn,

st, td, ut

2.487

10. Research

82.960

5. Double blind method

15.108

11. Research / cl, mt, sn, td

3.128

6. Follow-up studies

55.704

12. Selection bias

435


[Seite 46↓]

Tab. 7 b: Verknüpfung methodischer MeSH-Begriffe und Textwörter mit Kombinationen des Begriffs „Random“ in Ovid Medline (1996 - 1999)

MeSH-Begriffe oder Textwörter kombiniert durch den Boole’schen Operator “OR”

Kombiniert mit MeSH-Begriffen durch den Operator “AND”

(Potentiell) geeignete / identifizierte

Abstracts

1. Random allocation “OR” RCTs /cl, mt, sn, st, td, ut

Double blind method

23/138

2. RCTs (exp)

Selection bias

5/19

3. Random allocation “OR” RCTs (exp)

Research (cl, mt, sn, st, td)

10/80

4. RCTs (exp)

Case control studies (exp)

36/236

5. RCTs (exp)

Follow-up studies

18/245

6. RCTs /mt, sn, st, ut,

Follow-up studies

5/23

7. Random allocation “OR” RCTs (exp)

Bias (Epidemiology)

50/237

8. Random allocation “OR” RCTs /cl, mt, sn, st, td, ut

Clinical Trials /cl, mt, sn, st, td, ut

147/614

  

(mit Überlappungen)

49 geeignete Studien

294/1592

Abkürzungen: Subheadings: cl=classification, mt=methods, sn=statistics & numerical, st=standards, td=trends, ut=utilization; exp=explode

Tab. 8: Ausbeute an geeigneten Studien aus der MEDLINE-Suche (MeSH-Begriffe und „RELATED ARTICLES“) und Zugewinn zu den in der CRMD bereits vorhandenen Studien

CRMD

MeSH

(Gesamtzahl: 1592)

“RELATED ARTICLES”

(Gesamtzahl: 863)

Gesamt

(2455)

Bereits vorhanden

29

14

43

Neu eingeschlossen

20

11

31

 

49

25

74


[Seite 47↓]

2.3.3.2.  Ausbeute der Suche im Science Citation Index

Bei der Suche im SCI blieben von den 896 identifizierten Zitaten nach Entfernung von Duplikaten 56 geeignete Studien übrig (6,25%; Tab. 9). Dabei ergab der Indexartikel von Ken Schulz137 über die Bedeutung der verdeckten Randomisierung die größte Ausbeute. Von den 56 identifizierten Studien wurden 21 (37%) neu in die CRMD aufgenommen, die restlichen Studien waren in der Datenbank bereits erfasst.

Tab. 9: Suche im Science Citation Index auf der Grundlage von sieben methodischen Indexstudien

 

Jahre seit Publikation

Anzahl gescreenter Abstracts

für CRMD geeignete Studien

Geeignete Studien / Jahr

Kunz 1998151

2 J.

9

2

1/J.

Schulz 1995137

5 J.

418

28

5,6 / J.

Ottenbacher 1992138

8 J.

7

1

0.13 / J.

Emerson 1990129

10 J.

74

10

1 / J.

Colditz 1989135

10 J.

70

15

1.5 / J.

Sacks 1982128

10 J.

161

10

1 / J.

Chalmers 1977127

10 J.

157

6

0.6 / J.

Gesamte Ausbeute

 

896

56 *

 

* ohne Duplikate


[Seite 48↓]

2.3.3.3.  Sekundäre Fragestellungen

Methodikforschung im Trend

Eine Auflistung der eingeschlossenen Publikationen nach Publikationsjahr (Tab. 10) zeigt einen klaren Trend für eine Zunahme empirischer Untersuchungen innerhalb der Methodikforschung. Während zu Beginn der 90er Jahre (90/91) gerade sechs Studien in zwei Jahren publiziert worden waren, erfüllten in den Jahren 97/98 100 Studien die Einschlusskriterien.

Tab. 10: Zeittrend für Publikationen empirischer Methodikstudien („geeignete“ und „potentiell geeignete“ Studien mit den beschriebenen Suchstrategien)

 

MEDLINE

SCI

1999

4 + X #

10

1998

38

13

1997

35

14

1996

27

12

1995

10

7

1994

5

3

1993-92

3

7

1991-90

3

3

89 – 82

10

3

# Zum Zeitpunkt der Suche war vermutlich nur ein Bruchteil der Publikationen von 1999 bereits in MEDLINE gelistet

Tab. 11: Potential für Handsearching?
Publikationsorgane der 74 relevanten Studien aus der kombinierten MEDLINE –Suche

Zeitschrift

Anzahl Publikationen

BMJ

8

Controlled Clinical Trials

7

JAMA

6

Lancet

4

Archives of Internal Medicine

2

Journal of Family Practice

2

Epidemiologische und statistische Zeitschriften (n=3)

5

40 Journals (je 1 Publikation )

40

Potential für Handsearching?

In unserer explorativen Studie von 1995 war ein punktuelles Handsearching in potentiell relevanten Journals (Contr Clin Trials, J Chron Dis, später J Clin Epidemiol; Stats Med) wenig ergiebig gewesen. Eine Auflistung der Medline-Suchergebnisse nach Publikationsorgan belegt erneut, dass Methodikstudien selten, aber in dem gesamten Spektrum der existierenden Journals publiziert werden (Tab. 11). 40 Journals veröffentlichten in dem Beobachtungszeitraum gerade eine Studie. In unserer Stichprobe hatten nur das BMJ, Controlled Clinical Trials und JAMA mehr als fünf Studien [Seite 49↓]publiziert. Systematisches Handsearching erscheint auf der Grundlage dieser Daten unverändert unergiebig.

Wissenschaftliche Wertschätzung von Methodikstudien

Tabelle 12 listet die Impactfaktoren der Zeitschriften, in denen die Studien von Tabelle 11 publiziert wurden. Die überwiegende Mehrzahl der Studien wurde nicht in den theoretisch-methodischen, sondern in medizinischen Journals mit hohen Impactfaktoren publiziert. Danach finden Methodikstudien Eingang und wissenschaftliche Anerkennung in hochwertigen Journals.

Tab. 12: Publikationsorgan nach Fachgebiet und Impactfaktor der Zeitschrift

Journal nach Fachgebiet

Anzahl der Zeitschriften

Impact factor (1999)

(median)

Impact factor (1999)

(mean)

Spezialisierte Journal

27

2.49

2.33

Allgemein medizinische Journal

8

5.92*

6.03°

Public Health und epidemiologische Journal

7

1.69

1.42

Methodik- und Statistik-Journal

5

1.34

0.93

Allgemeinmedizinische Journal

2

1.70

1.70

Insgesamt

49

1.91*

2.76°

*ohne N Engl J Med; sonst: IF: 6.70, bzw. Gesamtbewertung: IF: 1.97

2.3.4. Diskussion

Trotz der fokusierten primären Fragestellung (empirische Vergleiche über die Auswirkung von methodischen Verfahren auf Studienendpunkte) ist es nicht gelungen, in den elektronischen bibliographischen Datenbanken Medline und Science Citation Index eine effiziente systematische Suchstrategie zu entwickeln, die routinemäßig einsetzbar wäre, um mit ausreichender Sicherheit und Ergiebigkeit die relevanten Publikationen zu erfassen. Verglichen mit den Suchstrategien von 1994/95 hat sich die Ausbeute insbesondere im „Science Citation Index“ und in der „Related Articles“- [Seite 50↓]Variante von MEDLINE deutlich verbessert, was sich durch ein gestiegenes Interesse an methodischen Fragestellungen, die zunehmende wissenschaftliche Anerkennung und gute Publizierbarkeit in renommierten Zeitschriften erklären lässt.

Die explorative Studie bestätigt die Notwendigkeit eines Registers wie dem CRMD als eine Ressource, mit der durch spezifischere Indexierung der relevanten Arbeiten und unter Einführung neuer Schlagwörter die Voraussetzungen für weitere empirische Methodikforschung geschaffen werden. Angesichts des nachgewiesenen Trends sollte in zwei bis drei Jahren ein erneuter Versuch zur Entwicklung einer geeigneten Suchstrategie unternommen werden. Bis dahin müssen die Grundlagen für empirische Studien weiterhin mühsam und unvollständig zusammengetragen werden, was die Schwierigkeit der Durchführung solcher Studien erhöht und die Zuverlässigkeit der Studienergebnisse limitiert.


© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.
DiML DTD Version 3.0Zertifizierter Dokumentenserver
der Humboldt-Universität zu Berlin
HTML-Version erstellt am:
09.09.2004