Statistische Evaluation und Reliabilität von SAGE

5.1  Ergebnisse

5.1.1  Ausgangsituation und Strategie

↓112

Um die Reliabilität von SAGE abschätzen zu können, wurde folgende Vorgehensweise gewählt.

↓113

Aus vier Mäusegroßhirnen von gesunden männlichen Tieren derselben Rasse, Alters,- und Gewichtsklasse war die Gesamt-RNS extrahiert und vereinigt worden. Diese Transkriptgrundpopulation war zweigeteilt und wie dargestellt parallel mittels SAGE untersucht worden, wobei pro Gruppe Zufallsstichproben von mehr als je 15000 Tags sequenziert wurden. Die nach Abzug der Artefakte (siehe S.72ff) verbleibenden 13548 (K1) beziehungsweise 13915 Tags (K2) waren einander anhand ihrer Sequenz zugeordnet worden.

Diese beiden Gruppen sollen nun statistisch auf Homogenität beziehungsweise ihren Zusammenhang (und dessen Ausmaß) untersucht werden. Zusätzlich zu dieser Ermittlung und Beurteilung der Reliabilität von SAGE sollen die Möglichkeiten der statistischen Auswertung von SAGE Projekten evaluiert werden. Hierzu wird die statistische Analyse "normaler" SAGE Experimente nachgeahmt. Die beiden Kontrollgruppen K1 und K2 werden dazu in zwei zu vergleichende Expressionsprofile umgedeutet. Das heißt, daß die Anzahl der Tagpaare, die auf dem α-Signifikanzniveau von 5% einen statistisch bedeutsamen Unterschied aufweisen, bestimmt werden soll. Um eventuelle Besonderheiten herauszuarbeiten, sollen zusätzlich bestimmte Untergruppen (Regulation mindestens zweifach, Mittelwert der Tagpaare mindestens fünf) untersucht werden. Die Ergebnisse dieser Berechnungen bilden die Grundlage für den statistischen Vergleich der Tests, die SAGE Daten paarweise testen (S. 129ff). Auf dieser Basis können Empfehlungen zur Verwendung der Tests abgegeben werden.

Die in der vorliegenden Arbeit entwickelte Sequenzfehlerkorrektur hatte eine zweite Version der beiden Profile K1 und K2 (K1KORR beziehungweise K2KORR) ergeben. Diese soll mit dem nicht korrigierten, ursprünglichen Datensatz statistisch mit der Fragestellung verglichen werden, ob sich dadurch die Meßgenauigkeit verbessert (S. 134ff).

5.1.2  Vergleich der Gesamtverteilungen

↓114

In den nachstehenden Abschnitten werden die Verteilungen der beiden Expressionsprofile als Gesamtheit zur Bestimmung der Reliabilität anhand folgender Tests verglichen:

Daran schließen sich im darauffolgenden Kapitel die Einzelvergleiche der Tagpaare an.

↓115

Für sämtliche statistische Tests gelten folgende globale Hypothesen14:

Ho: Zwischen den beiden Stichproben (Expressionsprofile) K1 und K2 besteht bezüglich ihrer Merkmalsverteilung kein Unterschied.

H1: Zwischen den beiden Stichproben (Expressionsprofile) K1 und K2 besteht bezüglich ihrer Merkmalsverteilung ein Unterschied.

5.1.2.1  Chi²-Test für k x 2- Felder-Tafeln (Simulationen)

Beschreibung des Tests

↓116

Zur Prüfung der Frage, ob die Gesamtverteilungen der beiden erstellten SAGE Profile K1 und K2 übereinstimmen (H0), SAGE also als reliabel eingestuft werden kann, oder nicht (H1), wurde folgende Vorgehensweise gewählt. Die globalen Hypothesen sollen mittels eines Testes zum Vergleich von Verteilungsfunktionen getestet werden. Für diskrete Verteilungen wie die vorliegenden kommt hierfür der Chi²-Test für k x 2 -Feldertafeln in Frage (Bortz 19934, S 159ff). Da als Voraussetzung für die gültige Anwendung dieses Testes gilt, daß die Erwartungswerte15 größer oder gleich fünf sind (Bortz 19934, S. 159) und dies nur auf 1,8% der Zellen (Daten ohne Sequenzfehlerkorrektur) beziehungsweise 3,2% (Daten mit Korrektur) zutrifft, wurde eine Monte-Carlo Simulation durchgeführt.16 Ausgangspunkt für diese Simulationen sind die beiden zu prüfenden Expressionsprofile. Es wird wiederholt eine Merkmalsverteilung erzeugt, die der H0 entspricht, indem bei fixierten Spalten- und Zeilensummen die spezifischen Taghäufigkeiten n 1 und n 2 durch Zufallszahlen ersetzt werden. Anschließend wird der Chi²-Wert für diese simulierte Verteilung ermittelt. Mittels der Chi²-Werte der Iterationen kann eine spezifische Kennwertverteilung erstellt werden, welche die H0-Verteilung darstellt. Anhand dieser Kennwertverteilung kann ermittelt werden, wie der empirische Chi²-Wert, das heißt der Kennwert der tatsächlich beobachteten Häufigkeitsverteilung, einzuschätzen ist. Läge er außerhalb der Verteilung, wäre H1 anzunehmen.

Beschreibung der Berechnungen

Es wurden pro Datensatz 100 Zyklen durchgeführt. Es wurden für beide Datensätze (mit und ohne Sequenzfehlerkorrektur) die Gesamtverteilungen sowie die Verteilungen der Tagpaare mit einem Mittelwert m≥ 5 und ≥ 10 geprüft. Die Berechnung der empirischen Chi²-Werte für eine k x 2- Feldertafel erfolgte nach der Formel von Brandt-Snedecor (Sachs 19999, S. 585).

Aussagen zu den Hypothesen

Die H0 kann nicht angenommen werden. In beiden Datensätzen (mit und ohne Sequenzfehlerkorrektur) liegen die Chi²-Werte der beobachteten Häufigkeitsverteilungen außerhalb der simulierten Verteilung. Dies gilt auch, wenn die Verteilungen der beiden Datensätze anhand der Kriteriums " m≥ 5 beziehungsweise 10" geprüft werden.

↓117

Nach Bortz (1990, S. 50) lautet die Entscheidungsregel zur globalen H0, daß diese bereits abgelehnt werden muß, wenn ein einziger Test einen statistisch bedeutsamen Unterschied aufweist. Aus diesem Grund wird in der vorliegenden Arbeit auf die Durchführung der paarweisen Tests zum Reliabilitätsnachweis verzichtet.

Ergebnisse

Die ermittelten Verteilungen und die Chi²-Werte der beobachteten Verteilungen sind für die beiden Gesamtverteilungen (mit und ohne Korrektur) den Graphiken (Abb. 25 und 26) und den und Tabelle 14 und 15 für die Simulationen unter Ausschluß von Tagpaaren mit kleinen Mittelwerten zu entnehmen.

Tabelle 14. Chi²-Werte der Verteilungen der Tagpaare mit einem Mittelwert von m≥ 5.

 

Daten ohne Korrektur

Daten mit Korrektur

simulierte Chi²-Werte

217 - 360

334 - 467

beobachtete Chi²-Werte

368

628

↓118

Tabelle 15. Chi²-Werte der Verteilungen der Tagpaare mit einem Mittelwert von m ≥ 10.

 

Daten ohne Korrektur

Daten mit Korrektur

simulierte Chi²-Werte

66 - 131

97 - 180

beobachtete Chi²-Werte

170

204

↓119

Abb. 25: Monte-Carlo Simulationen der gesamten Daten mit Korrektur.

Das Histogramm zeigt die simulierte Verteilung der Chi² Werte unter der Annahme der Nullhypothese (graue Balken). Der Pfeil weist auf die Lage des beobachteten Chi² Wertes hin (schwarzer Balken).

Abb. 26: Monte-Carlo Simulationen der gesamten Daten ohne Korrektur.

Das Histogramm zeigt die simulierte Verteilung der Chi² Werte unter der Annahme der Nullhypothese (graue Balken). Der Pfeil weist auf die Lage des beobachteten Chi² Wertes hin (schwarzer Balken).

5.1.2.2  Kontingenzkoeffizient

Beschreibung

Nach Bortz (1990, S. 60) kann das Ausmaß der Reliabilität für nominalskalierte Merkmale anhand eines Kontingenzkoeffizienten beschrieben werden. Dieser Kennwert gibt das Maß der Enge des Zusammenhangs zwischen den Merkmalen der entsprechenden Kontingenztafel wieder und basiert auf χ²-Techniken. Als Voraussetzung gilt, daß die Existenz eines statistisch signifikanten Zusammenhangs gesichert ist. Die Hypothesen, die hierfür die Grundlage bieten, beziehen sich nicht auf die Gleichartigkeit der Merkmalsverteilungen der beiden Kontrollgruppen (siehe S. 116), sondern auf die Prüfung ihrer stochastischen (Un-) Abhängigkeit17. Es sind also folgende Hypothesen zu überprüfen:

↓120

H0:. Die beide Kontrollgruppen sind voneinander stochastisch unabhängig.

H1: Die beide Kontrollgruppen sind voneinander stochastisch abhängig.

Die Kontingenztafel, die dem Hypothesen-Test und dem Koeffizienten zugrunde liegt, gestaltet sich folgendermaßen:

↓121

Tabelle 16. Prototypische Kontingenztafel.

K2

K1

1

2

3

etc.

1

x1

x2

x3

x…

2

x4

x5

x6

x…

3

x7

x8

x9

x…

etc.

x…

x...

x...

xn

Diese Tafel dient der Gegenüberstellung der beiden Kontrollgruppen. Bei den Benennungen "1, 2, 3, etc. " handelt es sich um die Taghäufigkeiten, die Werte x1 bis xn geben die Anzahl der Tagpaare wieder, welche die jeweilige Konstellation aufweisen.

Als Assoziationsmaß wurde Cramérs V gewählt. Dieser Kennwert ermittelt sich nach folgender Formel:

Hierbei ist k = min (Spaltenanzahl, Zeilenanzahl) und N die Summe der Beobachtungen (Tagpaare). Des weiteren wurde getestet, ob sich V von dem Wert 0 statistisch signifikant unterscheidet.

Beschreibung der Berechnungen

↓122

Es wurden jeweils für beide Datensätze (mit und ohne Sequenzfehlerkorrektur) beide Kontrollgruppen einander gegenübergestellt. Dabei wurde folgendes Vorgehen gewählt: Zuerst wurden die Kontingenztafeln per Chi²-Test auf Gültigkeit der Hypothesen beziehungsweise Existenz eines Zusammenhangs (H1) überprüft. Wenn dieser als statistisch gesichert angesehen werden konnte, wurde Cramérs V berechnet und auf statistische Signifikanz überprüft. Dieses Vorgehen wurde für sämtliche Daten, deren Mittelwert m ≥ 5 beziehungsweise m < 5 war, wiederholt. Die Erstellung der Kontingenztabellen und alle Berechnungen erfolgten anhand statistischer Software (SPSS).

Aussagen zu den Hypothesen

Die H1, daß K1 und K2 stochastisch abhängig sind, ist auf dem 1% Niveau für alle untersuchten Konstellationen abgesichert. Zwischen beiden Gruppen besteht also ein statistisch bedeutsamer Zusammenhang. Die zugehörigen Werte sind Tabelle 17 zu entnehmen.

Tabelle 17. Chi²-Werte, Freiheitsgrade und Quantil der Kontingenztafeln.

 

Chi²-Wert

Freiheitsgrade

p

ohne: alle

249644,5

1587

→ 0

m ≥ 5

4402,444

1404

→ 0

m < 5

11133,57

64

→ 0

mit: alle

183006,8

1591

→ 0

m ≥ 5

5806,633

1548

→ 0

m < 5

8683,832

81

→ 0

Die Bezeichnungen "ohne" beziehungsweise "mit" kennzeichnen die Datensätze mit beziehungsweise ohne Sequenzfehlerkorrektur, "alle" bezieht sich auf jeweils den gesamten Datensatz, "m < /≥ 5" auf die selektierten Datensätze, deren Mittelwert größer beziehungsweise kleiner 5 ist.

Ergebnisse

↓123

Tabelle 18 sind die berechneten Werte von Cramérs V für die Gegenüberstellung von K1 und K2 ohne Selektion sowie getrennt für Tagpaare, deren Mittelwert größer oder gleich beziehungsweise kleiner fünf ist, zu entnehmen. Sämtliche Koeffizienten sind statistisch signifikant von 0 verschieden (p→ 0). Da die Bewertung dieser Ergebnisse sehr komplex ist, wird auf eine Darstellung an dieser Stelle verzichtet und auf die Einschätzung der Ergebnisse in bezug auf die Meßgenauigkeit von SAGE im Rahmen der Diskussion verwiesen (siehe S. 169f).

Tabelle 18. Cramérs V.

Auswahl

Daten ohne Sequenzfehlerkorrektur

Daten mit Sequenzfehlerkorrektur

alle

0,681

0,637

m ≥ 5

0,693

0,642

m < 5

0,316

0,286

Die Bezeichnung "alle" bezieht sich auf jeweils den gesamten Datensatz, "m < /≥ 5" auf die selektierten Datensätze, deren Mittelwert größer beziehungsweise kleiner 5 ist.

5.1.3 Paarweise Vergleiche

Nach Bortz (1990, S. 50) lautet die Entscheidungsregel zu globalen Hypothesen (H0), daß diese bereits abgelehnt werden müssen, wenn ein einziger Test einen statistisch bedeutsamen Unterschied aufweist. Da der den paarweisen Tests vorangehende Gesamtvergleich der beiden Verteilungen bereits zur Ablehnung der H0 führte und so die Aussage zur globalen H0 bereits entschieden ist, wird in der vorliegenden Arbeit auf die Durchführung der paarweisen Tests zum Reliabilitätsnachweis verzichtet.

↓124

In den üblichen SAGE Experimenten18 dagegen stehen die einzelnen Hypothesen zu jedem Tagpaar im Mittelpunkt des Forschungsinteresses zur differentiellen Regulation der Genexpression. Um die möglichen Ergebnisse eines solchen üblichen SAGE Experimentes zu simulieren und so Empfehlungen für den statistischen Entscheidungsprozeß üblicher SAGE Experimente abgeben zu können, werden beispielhaft die auf dem 5% Niveau statistisch als unterschiedlich zu betrachtenden Tagpaare ermittelt und unter den Aspekten "praktisch relevanter Unterschied (Regulation)" und "minimale Taghäufigkeiten" evaluiert.

In diesen Fällen gelten als paarweise Hypothesen: Ho: Zwischen den beiden Tags eines Paares besteht bezüglich ihrer Häufigkeiten kein Unterschied. H1: Zwischen den beiden Tags eines Paares besteht bezüglich ihrer Häufigkeiten ein Unterschied. Sämtliche Berechnungen werden für beide Datensätze (mit und ohne Sequenzfehlerkorrektur) durchgeführt.

Es werden die folgenden Tests angewandt:

↓125

5.1.3.1  Test nach Madden et al. (1997)

Beschreibung

Ebenso wie Audic und Claverie (1997) (siehe unten) wählen Madden et al. (1997) einen auf der Poissonverteilung (Kal et al. 1999) beruhenden Ansatz. Die auf den spezifischen Häufigkeitswerten des interessierenden Tagpaares basierende Formel für statistisch signifikante Unterschiede lautet:

↓126

Bei x und y handelt es sich um die spezifischen Tagmengen eines Paares und bei k um einen Faktor, der das gewählte Signifikanzniveau integriert und damit den Konfidenzgrad darstellt. Der Faktor k entspricht dem erwünschten Signifikanzniveau mit 1,96 bei p = 0,0519. X muß größer als y gewählt werden. Die Entscheidungsregel lautet: Die Ho, daß zwischen x und y keine Differenz besteht, kann abgelehnt werden, wenn Gleichung 2 positive Werte ergibt20. In der vorliegenden Arbeit wurden die Berechnungen zur Signifikanz nach Madden et al. (1997) nach der von Ruijter (1999) umgeformten Formel durchgeführt:

Dem Kennwert a wurde das entsprechende Quantil der Standardnormalverteilung zugeordnet und mit /2 verglichen.

Simulation der statistischen Entscheidungen üblicher SAGE Experimente

Tabelle 19 ist zu entnehmen, wie viele Tagpaare einen statistisch bedeutsamen Unterschied aufgewiesen hätten.

↓127

Tabelle 19. Ergebnisse des Tests nach Madden et al. (1997).

Signifikanz-niveau

Daten ohne Sequenzfehlerkorrektur

Daten mit Sequenzfehlerkorrektur

 

Gesamt

≥ 2fach

m ≥ 5

beides

Gesamt

≥ 2 fach

m ≥ 5

beides

5%

96

(0,7%)

94

(6,6%)

2

(0,8%)

0

(0%)

272

(2,2%)

270

(17,9%)

17

(4,3%)

15

(14,6%)

Anzahl der Paare insgesamt

14159

1432

255

64

12182

1511

391

103

5.1.3.2 Test nach Audic und Claverie (1997)

Beschreibung des statistischen Ansatzes

Die Veröffentlichung von Audic und Claverie (1997) zur Berechnung der Signifikanz digitaler Genexpressionsdaten beruht auf einem klassischen statistischen Ansatz, der dem Sammelprozeß von SAGE die Poissonverteilung zugrunde legt21. Sie entwickeln folgende Gleichung zur Berechnung der Wahrscheinlichkeit, zwei Vorfälle x und y (Häufigkeiten eines bestimmten Tags in zwei Expressionsprofilen) zu beobachten, die auf dem gleichen seltenen Ereignis (Boten-RNS - Niveau) beruhen22, wobei die Anzahl der pro Profil insgesamt sequenzierten Tags (Nund N) unterschiedlich sein darf und mit in die Formel eingeht:

↓128

P(y|x) gibt die bedingte Wahrscheinlichkeit an, mit der bei Gültigkeit von Ho 23 erwartet wird, die Häufigkeit y eines bestimmten Tags zu beobachten, wenn in einem anderen Profil dieses Tag bereits x- mal aufgetreten ist. Unter Verwendung von Gleichung 5 berechnen die Autoren durch Aufsummierung24 für die gegebenen x Werte Konfidenzintervalle [y, y], innerhalb derer der Wert von mit einer Wahrscheinlichkeit p = 1 - α (beispielsweise 95%) liegen sollte. Diese Intervalle tragen der Tatsache Rechnung, daß es sich bei SAGE um einen zufälligen Sammelprozeß handelt, der auch dann einer gewissen Fluktuation unterworfen ist, wenn den Tags zweier Expressionsprofile ein unreguliertes Gen zugrunde liegt. Liegt ein y-Wert innerhalb des entsprechenden Konfidenzintervalls, so spricht dies für die Gültigkeit von H0. Befindet er sich außerhalb davon, muß die Alternativhypothese auf dem entsprechenden Signifikanzniveau angenommen werden. In diesem Fall scheinen stochastisch sehr unwahrscheinliche Schwankungen zwischen den beiden Profilen vorzuliegen.

Beschreibung der Berechnungen

Es wurde folgendes Vorgehen gewählt: Es wurden Tafeln erstellt, in welchen zu sämtlichen gegebenen x- Werten eines Datensatzes (entspricht K1) die Summenwahrscheinlichkeiten der y-Werte von 0 bis mindestens zu dem beobachteten y-Wert (K2) errechnet wurden. So konnte die summierte bedingte Wahrscheinlichkeit für ein beobachtetes Tagpaar abgelesen und mit α/2 verglichen werden25.

Simulation der statistischen Entscheidungen üblicher SAGE Experimente

Tabelle 20 kann entnommen werden, wie viele Tagpaare einen statistisch signifikanten Unterschied gezeigt hätten. Diese Daten wurden nicht nur für die Gesamtprofile mit und ohne Korrektur ermittelt, sondern auch für bereits genannten Untergruppen der beiden Datensätze. Einmal wurden alle Tagpaare ausgewählt, die mindestens zweifach verschieden waren, dann diejenigen, die mindestens einen Mittelwert von fünf aufwiesen, und zuletzt diejenigen, die beiden Kriterien entsprachen.

↓129

Tabelle 20. Ergebnisse des Tests nach Audic und Claverie.

Signifikanz-niveau

Daten ohne Sequenzfehlerkorrektur

Daten mit Sequenzfehlerkorrektur

 

Gesamt

≥ 2fach

m ≥ 5

beides

Gesamt

≥ 2 fach

m ≥ 5

beides

5%

67

(0,5%)

59

(4,1%)

24

(9,4%)

16

(25,0%)

243

(2,0%)

236

(15,6%)

53

(13,6%)

46

(44.7%)

Anzahl der Paare insgesamt

14159

1432

255

64

12182

1511

391

103

5.1.3.3 Vier-Felder-Chi²-Test

Beschreibung

Methoden, die auf χ²-Prüfstatistiken basieren, dienen der Analyse von Häufigkeitsunterschieden im Auftreten bestimmter Merkmale (Bortz, 19934, S. 145). Sie sind also für SAGE geeignet, ohne ein spezifisches Verfahren darzustellen, das speziell für SAGE entwickelt worden ist.

Ausgehend von den Darstellung in Man et al. (2000) und der einer UniGene-Internetseite (www.ncbi.nlm.nih.gov/UniGene/fisher.shtml, 1.10.2002) wurden für den Vergleich einzelner Tagpaare jeweils folgende Vier-Felder-Tafeln erstellt:

↓130

Tabelle 21. Vier-Felder-Tafel für den Chi²-Test.

 

K1

K2

Summen

Tagpaar

a

c

NTAG

Rest

b

d

NREST

Summen

N1

N2

NGES

Bei a und c handelt es sich um die beobachteten Häufigkeiten eines bestimmten Tagpaares, b und d entstehen jeweils durch Subtraktion von a beziehungsweise c von N 1 beziehungsweise N.

Der statistische Kennwert χ² wurde anhand folgender Formel berechnet (Sachs 19999, S. 451):

↓131

Daran schloß sich die Ermittlung des entsprechenden Quantils der χ²-Verteilung für einen Freiheitsgrad an.

Simulation der statistischen Entscheidungen üblicher SAGE Experimente

Der Tabelle 22 kann entnommen werden, wie viele Tagpaare einen statistisch signifikanten Unterschied gezeigt hätten. Es wurde dabei folgendes Vorgehen gewählt: Diese Daten wurden nicht nur für die Gesamtprofile mit und ohne Korrektur ermittelt, sondern auch für die drei bereits genannten Untergruppen der beiden Datensätze. Einmal wurden alle Tagpaare ausgewählt, die mindestens zweifach verschieden waren, dann diejenigen, die mindestens einen Mittelwert von fünf aufwiesen, und zuletzt diejenigen, die beiden Kriterien entsprachen.

Tabelle 22. Ergebnisse des Vier-Felder-Chi²-Tests.

Signifikanz-niveau

Daten ohne Sequenzfehlerkorrektur

Daten mit Sequenzfehlerkorrektur

 

Gesamt

≥ 2fach

m ≥ 5

beides

Gesamt

≥ 2 fach

m ≥ 5

beides

5%

129 (0,9%)

121 (8,5%)

26 (10,2%)

18

(28,1%)

333 (2,7%)

326 (21,6%)

54 (13,8%)

47 (45,6%)

Anzahl der Paare insgesamt

14159

1432

255

64

12182

1511

391

103

Es sind für beide Datensätze die Anzahl der Tagpaare (in Klammern: prozentualer Anteil an der jeweiligen Bezugsgruppe) aufgeführt, für die unter dem Signifikanzniveau α die H0 verworfen werden muß. Die Spalte "Gesamt" enthält die Daten der Gesamtprofile, "≥2fach" enthält die Daten der Tagpaare, die mindestens einen Häufigkeitsunterschied vom Faktor zwei aufweisen, "m ≥ 5", die mindestens einen Mittelwert von fünf besitzen, und "beides" enthält die Daten der Paare, die beide Kriterien erfüllen.

5.1.3.4  Z-Test

Beschreibung

↓132

Der Z-Test zur Prüfung der Gleichheit zweier Proportionen wurde von Kal et al. (1999) vorgestellt. Dieser Ansatz betrachtet die Anzahl der Kopien einer bestimmten Boten-RNS in einer Zelle als Bruchteil aller Boten-RNS Moleküle in dieser Zelle. Dieser spezifische Anteil sollte in der SAGE Bibliothek mit dem Verhältnis dieses bestimmten Transkriptes zu allen sequenzierten Tags übereinstimmen. Für die große Anzahl an sequenzierten Tags geht diese Binomialverteilung in eine Normalverteilung über (Kal et al. 1999). Aus der Differenz der beiden Proportionen p 1 und p 2 eines Tagpaars () und ihres Standardfehlers wird folgende Teststatistik entwickelt:

wobei p 0 = (n 1 + n 2 ) / (N 1 + N 2)26 ist und den Schätzwert der Proportionen unter der Bedingung, daß die H0 wahr ist, darstellt. H0 ist zu verwerfen, wenn entweder z > z α /2 oder wenn z < - z α /2 ist27. Nach Sachs (19999, S. 441) sollte dieser Test nur angewandt werden, wenn folgende Konstellationen zutreffen: a) N 1 ≥ 50 und N 2≥ 50, b) N 1 p 1 > 5 und N 2 p 2 > 5, c) N 1 (1 - p 1) > 5 und N 2 (1 - p 2) > 5. Dies ist bei SAGE Experimenten oft nicht gegeben.

↓133

Z läßt sich deswegen alternativ nach Sachs (19999) exakter und vor allem unter weniger strengen Voraussetzungen anhand einer auf der Winkeltransformation beruhenden Approximation berechnen:

Hierfür gelten folgende Bedingungen: a) N 1 ≥ 25 und N 2≥ 25, b) N 1 p 1 > 1 und N 2 p 2 > 1, c) N 1 (1 - p 1) > 1 und N 2 (1 - p 2) > 1 (Sachs 19999).

Simulation der statistischen Entscheidungen üblicher SAGE Experimente

Da die Ergebnisse des nicht modifizierte Test exakt mit denjenigen des Vier-Felder-Chi²-Testes übereinstimmen, wurde auf eine gesonderte Darstellung verzichtet.

↓134

In Tabelle 23 sind die Resultate des nach Sachs (19999) modifizierten Z-Testes dargestellt.

Tabelle 23. Ergebnisse des modifizierten Z-Testes.

Signifikanz-niveau

Daten ohne Sequenzfehlerkorrektur

Daten mit Sequenzfehlerkorrektur

 

Gesamt

≥ 2fach

m ≥ 5

beides

Gesamt

≥ 2 fach

m ≥ 5

beides

5%

1351

(9,5%)

842

(58,8%)

37

(14,5%)

28

(43,8%)

1548

(12,7%)

998

(66,0%)

70

(17,9%)

63

(61,2%)

Anzahl der Paare insgesamt

14159

1432

255

64

12182

1511

391

103

Es sind für beide Datensätze die Anzahl der Tagpaare (in Klammern: prozentualer Anteil an der jeweiligen Bezugsgruppe) aufgeführt, für die unter dem Signifikanzniveau α die H0 verworfen werden muß. Die Spalte "Gesamt" enthält die Daten der Gesamtprofile, "≥2fach" enthält die Daten der Tagpaare, die mindestens einen Häufigkeitsunterschied vom Faktor zwei aufweisen, "m ≥ 5", die mindestens einen Mittelwert von fünf besitzen, und "beides" enthält die Daten der Paare, die beide Kriterien erfüllen.

5.1.4  Zusammenfassung der Ergebnisse der Simulationen üblicher Experimente

Im Folgenden sollen diese Ergebnisse der vier paarweisen Tests zueinander in Bezug gestellt werden.

↓135

Im Rahmen der Simulationen üblicher SAGE Experimente war herausgearbeitet worden, welchen Effekt es auf die Ergebnisse hat, wenn die Expressionsprofile nach den Kriterien "minimale Verschiedenheit" (Regulation) und "minimale Taghäufigkeit" selektiert werden. Bei allen vier Tests ist eine leichte (Regulation) bzw. starke (m≥ 5) Abnahme der Anzahl der statistisch signifikant verschiedenen Tagpaare zu beobachten. Die stärkste Reduktion findet bei der Anwendung beider Kriterien statt. Im Fall des modifizierten Z-Tests und des Tests nach Madden et al. (1997) ist die Reduktion der Anzahl der statistisch signifikant verschiedenen Tagpaare besonders ausgeprägt, wenn die Daten anhand des Kriteriums m≥ 5 ausgewählt werden; wohingegen die Selektion von Tagpaaren, die mindestens eine zweifachen Unterschied aufweisen, nur eine minimale Reduktion bewirkt. Um zu ermitteln, ob es solche und weitere testspezifischen Unterschiede von statistischer Relevanz gibt, werden die Resultate der verschiedenen Tests im nächsten Abschnitt rechnerisch verglichen.

Auffällig ist des weiteren, daß sich die Resultate der Daten ohne Sequenzfehlerkorrektur von denjenigen mit Korrektur teilweise stark unterscheiden. Diese Unterschiede sollen weiter unter statistisch evaluiert werden (siehe S. 134ff).

5.1.5  Statistischer Vergleich der angewandten paarweisen Tests

Es soll geprüft werden, ob die Ergebnisse der Simulation üblicher SAGE Experimente anhand verschiedener Test statistisch signifikante Unterschiede aufweisen. Dazu wurde folgendes Vorgehen gewählt. Um eventuelle Unterschiede zwischen den einzelnen Tests herauszuarbeiten, wurden diese einzeln miteinander verglichen. Dabei wurden folgende Hypothesen geprüft:

↓136

H0: Der Anteil an Tagpaaren, die auf dem geprüften Niveau einen statistisch signifikanten Unterschied aufweisen, ist in beiden Tests gleich.

H1: Der Anteil an Tagpaaren, die auf dem geprüften Niveau einen statistisch signifikanten Unterschied aufweisen, ist in beiden Tests unterschiedlich.

Die beiden Datensätze (mit und ohne Sequenzfehlerkorrektur) wurden getrennt betrachtet.

↓137

Es wurde auf eine Fehleradjustierung verzichtet. Da grundsätzlich eine komplexe statistische Situation im Sinne von multiplen Testen vorliegt, ist damit das Vorgehen explorativ zu verstehen. Das heißt, daß die Ergebnisse nicht als allgemein gültig und konfirmativ aufgefaßt werden dürfen.

Beschreibung des statistischen Vergleichs

Zur Überprüfung der beiden Hypothesen wurde mittels 4-Felder-Chi²-Test die Anzahl der Tagpaare, die einen statistisch bedeutsamen Unterschied aufweisen, verglichen. Die entsprechende Tafel gestaltet sich folgendermaßen:

Tabelle 24. Vier-Felder-Tafel zum Testvergleich.

 

verschieden

nicht verschieden

Summen

Test 1

a

c

NPaare

Test 2

b

d

NPaare

Summen

Nverschieden

Nnicht verschieden

N

Bei a und b handelt es sich um die Anzahl der ermittelten Paare, die einen statistisch signifikanten Unterschied aufweisen, bei c und d um die Anzahl der entsprechenden nicht statistisch signifikant verschiedenen Paare. N Paare hat in dem Datensatz ohne Korrektur immer einen Wert von 14159, in dem Datensatz mit Korrektur von 12182.

↓138

Der Test überprüft, ob die Besetzung der Felder homogen ist oder statistisch signifikant verschieden. Es wurde auf dem 5% Niveau getestet. Wenn sich eine statistisch bedeutsame inhomogene Besetzung der Felder ergab, wurden korrigierte standardisierte Residuen (Abweichungen der beobachteten von den erwarteten Werten28) berechnet, um erkennen zu können, welcher Test wie zur Signifikanz beiträgt.

Aussagen zu den Hypothesen

Die H1 kann auf dem 5% Niveau für folgende Testergebnisse in beiden Datensätzen als gesichert gelten: sämtliche Kombinationen, die den modifizierten Z-Test enthalten, sowie der Vergleich der Ergebnisse des Chi²-Tests mit denjenigen des Tests von Audic und Claverie. Die H1 kann für folgende Testergebnisse in beiden Datensätzen nicht angenommen werden: sämtliche Konstellationen außer den oben genannten.

Ergebnisse

Der folgenden Tabelle ( Tabelle 25) sind die Testkonstellationen und ihre statistische Bewertung zu entnehmen. Da sich die Ergebnisse für die beiden Datensätze (mit und ohne Sequenzfehlerkorrektur) nicht unterscheiden, werden die Resultate des Testsvergleichs nur einmal dargestellt.

↓139

Tabelle 25. Vergleich der Ergebnisse der paarweisen Tests.

Simulation 5%

Audic und Claverie

Madden et al.

4-Felder-Chi²

Madden

gleich

-

-

4-Felder-Chi²

verschieden (4,4 / 3,8)

gleich

-

modifizierter Z

verschieden (35 / 32)

verschieden (33,9 / 31,1)

verschieden (32,6 / 29,2)

"Gleich" weist auf die Annahme von H0 hin, während "verschieden" die Bestätigung von H1 wiedergibt. In den Klammern sind die korrigierten standardisierten Residuen (z-Werte) derjenigen Zellen angegeben, welche die Anzahl der statistisch signifikant verschiedenen Tagpaare des in dieser Tabelle links aufgeführten Testes enthalten (erste Zahl: Werte der Daten ohne Sequenzfehlerkorrektur, zweite: Datensatz mit Korrektur).

Der modifizierte Z-Test unterscheidet sich auf allen drei simulierten Signifikanzniveaus von allen anderen Tests statistisch signifikant (immer p gegen 0). Die Analyse der entsprechenden korrigierten standardisierten Residuen zeigt, daß im Vergleich zu den anderen drei Testarten bei diesem Test überzufällig viele Tagpaare statistisch signifikant werden. Die entsprechenden z-Werte sind zu entnehmen ( Tabelle 25 zu entnehmen (z KRIT = 1,645)29. Der Vergleich des Chi²-Tests mit dem Test nach Audic und Claverie zeigt einen statistisch bedeutsamer Unterschied mit einer Überrepräsentation der mittels Chi²-Test als verschieden ermittelten Tagpaare. Im folgenden sollen diese Konstellationen näher beleuchtet werden.

Spezieller Vergleich des Chi²-Tests mit dem Test nach Audic und Claverie

Man et al. (2000) berichten, daß der Vier-Felder-Chi²-Test im Bereich kleiner Taghäufigkeiten (n < 15) eine höhere Teststärke besitzt als der Test nach Audic und Claverie. Das bedeutet, daß der Chi²-Test eine höhere Wahrscheinlichkeit aufweist, tatsächlich vorhandene Unterschiede auch aufzudecken. Um zu prüfen, ob der beobachtete Unterschied zwischen den beiden Tests auf dieser Beobachtung beruhen könnte, wurde die Anzahl der auf dem 5% Simulationsniveau statistisch signifikanten Tagpaare, deren Mittelwert m≥ beziehungsweise m < 15 für jeden Test ermittelt und anhand des Z-Test auf dem 5% Niveau verglichen.30 Dies ergab: Die beiden Test entscheiden in beiden Datensätzen dann identisch, wenn nur die Anzahl der statistisch signifikanten Tagpaare betrachtet wird, die einen Mittelwert m von ≥ 15 haben. Die H1 kann hier also nicht angenommen werden. Wird dagegen die Anzahl der statistisch signifikanten Tagpaare betrachtet, die einen Mittelwert m von < 15 haben, kann die H1 bestätigt werden (p→ 0). Die entsprechenden Verteilungen der Anzahl der Tagpaare sind Tabelle 26 zu entnehmen.

↓140

Tabelle 26. Vergleich des Tests nach Audic und Claverie mit dem Chi²-Test.

 

Daten ohne Sequenzfehlerkorrektur

Daten mit Sequenzfehlerkorrektur

 

Audic

Chi

Audic

Chi

m ≥ 15

13

13

14

14

m <15

54

116

229

319

Es ist die Anzahl der auf dem simulierten 5% Niveau signifikanten Tagpaare in Abhängigkeit von deren Häufigkeit aufgeführt. "m" bezeichnet den Mittelwert.

Die beiden Tests weisen also ein deutlich verschiedenes Entscheidungsverhalten in Abhängigkeit der geprüften Taghäufigkeiten auf. Die höhere Teststärke der Chi²-Testes im Bereich kleiner Taghäufigkeiten zeigt sich deutlich.

Vergleich der Ergebnisse des modifizierten Z-Test mit denjenigen der anderen Test

Es sollte geprüft werden, ob sich die Ergebnisse des modifizierten Z-Tests auch dann von denjenigen der anderen drei Tests unterscheiden, wenn die Anzahl der statistisch signifikanten Paare verglichen wird, die sich ergibt, wenn nur Paare betrachtet werden, die einen Mittelwert von m≥ 5 haben. Dieser Vergleich erfolgte ebenfalls analog zu dem auf S. 129f vorgestellten. Die Ergebnisse sind Tabelle 27 zu entnehmen.

↓141

Tabelle 27. Vergleich des modifizierten Z-Testes mit den anderen paarweisen Tests mit "m ≥ 5".

Simulationsniveau

Chi²

Audic und Claverie

Madden

5%

gleich (0,178)

gleich (0,101)

verschieden

(p→ 0)

"Verschieden" bedeutet, daß die H1 angenommen werden muß, "gleich", daß sie nicht angenommen werden kann. In Klammern p-Werte, α = 0,05.

Das bedeutet, der modifizierte Z-Test sich von den anderen evaluierten Tests im Bereich (sehr) kleiner Taghäufigkeiten unterscheidet. Werden nur Tagpaare in Betracht gezogen, die eine Mindesthäufigkeit von m≥ 5 aufweisen, unterscheiden sich die Entscheidungen dieses Tests nur noch von dem Test nach Madden.

5.1.6  Zusammenfassung der Berechnungen zur Reliabilität von SAGE

↓142

Die globale H0, daß die Verteilungen der beiden SAGE Profil K1 und K2 gleich ist, stellt die Grundlage für eine indirekte Überprüfung der Reliabilität von SAGE dar. Die Prüfung mittels Chi²-Test für k x 2- Feldertafeln (computersimulierter Verteilung der Chi²-Werte unter Gültigkeit von H0) führte nicht zu einer Annahme der globalen H0. Nach Bortz (1990, S. 50) lautet die Entscheidungsregel zu einer globalen H0, daß diese bereits abgelehnt werden muß, wenn ein einziger Test einen statistisch bedeutsamen Unterschied aufweist. Aus diesem Grund wird in der vorliegenden Arbeit auf die Durchführung der paarweisen Tests zum Reliabilitätsnachweis verzichtet. Deren Ergebnis hätte keinen weiteren Einfluß auf die Gesamtaussage gehabt. Diese lautet: Die Verteilung der Taghäufigkeiten in den beiden Gruppen K1 und K2 ist statistisch also nicht gleich. Dies gilt für beide Datensätze (mit und ohne Sequenzkorrektur).

5.1.7  Sequenzfehlerkorrektur

Um den Sequenzfehler systematisch korrigieren zu können, war im Rahmen der vorliegenden Arbeit ein Verfahren entwickelt worden. Sämtliche Tests wurden auf beide Datensätze, den korrigierten und den ursprünglichen, angewandt, so daß ein Vergleich der Ergebnisse möglich ist.

Im Folgenden soll überprüft werden, ob und wenn ja, wie sich diese Korrektur auf die statistischen Ergebnisse auswirken würde. Aufgrund der Überlegung, durch die systematische Korrektur des Sequenzfehlers die Meßgenauigkeit, das heißt die Reliabilität, zu erhöhen und somit die zufällige Streuung der Werte und die Verschiedenheit der Tagpaare zu reduzieren, wurden folgende Hypothesen entwickelt:

↓143

H0: Zwischen den beiden Datensätzen besteht bezüglich der Anzahl der Tagpaare, die auf den berechneten Niveaus einen statistisch bedeutsamen Unterschied besitzen in beiden Datensätzen, kein Unterschied.

H1: Der Datensatz mit Sequenzfehlerkorrektur weist weniger Tagpaare auf, die auf den berechneten Niveaus einen statistisch bedeutsamen Unterschied besitzen.

Beschreibung der Vorgehensweise

Es wurde folgendes Vorgehen gewählt. Zur Überprüfung der beiden Hypothesen wurde mittels Vier-Felder-Chi²-Test die Anzahl der Tagpaare, die auf dem simulierten α-Signifikanzniveau von 5% einen statistisch bedeutsamen Unterschied aufweisen, verglichen. Die entsprechende Tafel gestaltet sich folgendermaßen:

↓144

Tabelle 28. Prototypische Vier-Felder -Tafel für den Vergleich der beiden Datensätze (mit beziehungsweise ohne Sequenzfehlerkorrektur) mittels Chi²-Test.

 

Daten

mit Korrektur

Daten ohne Korrektur

Summen

Anzahl der Paare mit einem statistisch signifikanten Unterschied

a

c

N SIG

Anzahl der Paare ohne einen statistisch signifikanten Unterschied

b

d

N Rest

Summen

N 1

N 2

N ges

Der Chi²-Test überprüft, ob die Besetzung der Felder homogen ist oder statistisch signifikant verschieden. Um bei nachgewiesener Inhomogenität zu testen, welche der Felder statistisch bedeutsam über- beziehungsweise unterbesetzt sind, wurden zusätzlich die adjustierten standardisierten Residuen berechnet (analog dem Vorgehen beim Vergleich der paarweisen Tests miteinander, siehe S. 129f). Es wurde auf dem 5% Niveau getestet. Die Hypothese wurde mittels der Ergebnisse folgender Tests überprüft: Audic und Claverie (1997), Vier-Felder-Chi²-Test und Madden et al. (1997). Sämtliche Berechnungen wurden mit statistischer Software (SPSS) durchgeführt.

Aussagen zu den Hypothesen

Die H1 kann auf dem 5% Niveau nicht bestätigt werden. Wenn die Anzahl der Tagpaare, die auf diesen Niveaus einen statistisch signifikanten Unterschied aufweisen, miteinander verglichen wird, ergibt sich zwischen dem Datensatz mit und demjenigen ohne Sequenzfehlerkorrektur ein statistisch bedeutsamer Unterschied (p-Werte siehe Tabelle 29). Dieser ist jedoch nicht hypothesenkonform wie den korrigierten standardisierten Residuen zu entnehmen ist. Hier ist zu sehen, daß in den Zellen des korrigierten Datensatzes, welche die Anzahl der einen statistisch signifikanten Unterschied aufweisenden Tagpaare enthalten (Zelle a in Tabelle 28), eine statistisch bedeutsame Überbesetzung vorliegt. Die Anzahl der Tagpaare, die einen statistisch bedeutsamen Unterschied aufweisen, nimmt durch die Sequenzfehlerkorrektur also zu und nicht ab, wie in H1 postuliert worden war.

Ergebnisse

↓145

Tabelle 29 sind die ermittelten p-Werte der Vier-Felder-Tafeln und Tabelle 30 die korrigierten standardisierten Residuen der Zellen, die die Anzahl der Tagpaare mit einem statistisch bedeutsamen Unterschied des Datensatzes mit Sequenzfehlerkorrektur31 enthalten, zu entnehmen.

Tabelle 29. P-Werte des Vier-Felder-Chi²-Testes.

Audic und Claverie

4-Felder-Chi²

Madden

3,7 x 10-27

2,9 x 10-29

8,2 x 10-27

↓146

Tabelle 30. Werte der korrigierten standardisierten Residuen.

Audic und Claverie

4-Felder-Chi²

Madden

10,8

11,2

10,7

Es sind diejenigen Werte angegeben, die den Zellen entsprechen, die die Anzahl der Tagpaare mit einem statistisch bedeutsamen Unterschied des Datensatzes mit Sequenzfehlerkorrektur enthalten (Zelle a in Tabelle 28).

5.2 Diskussion

Die Diskussion des zweiten Teils dieser Arbeit, der sich mit statistischen Facetten von SAGE auseinandersetzt, gliedert sich folgendermaßen. Zuerst werden der statistische Entscheidungsprozeß näher erläutert (5.2.1) und Teste evaluiert, welche im Kontext von SAGE zur Anwendung kommen können (5.2.2 und 5.2.3). Anschließend werden Aspekte, die die Reliabilität betreffen, dargestellt (5.2.4).

5.2.1  Der statistische Entscheidungsprozeß

Im Folgenden sollen verschiedene Aspekte theoretischer Natur diskutiert werden, welche die Grundlagen statistischer Entscheidungen im Rahmen von SAGE bilden. Darunter fällt die Diskussion über die zu wählende Teststruktur, die Größe der Fehlerwahrscheinlichkeit, über den praktisch relevanten Unterschied sowie über den Aufbau des Entscheidungsprozesses.

5.2.1.1  Welche Teststruktur ist entscheidend?

Differenztest

↓147

Die meisten SAGE Studien werden von der Frage bestimmt, welche Unterschiede zwischen Expressionsprofilen - zum Beispiel in der Genexpression von gesundem versus pathologisch verändertem Gewebe - bestehen. Es handelt sich folglich bei der forschungsleitenden Hypothese, also bei derjenigen Hypothese, die von inhaltlichem Interesse ist, um die Alternativhypothese H1 "Es besteht ein Unterschied.". Zur statistischen Berechnung dieser Fragestellung werden Differenztests verwandt.

Die mit dem entsprechenden Test verbundene Wahrscheinlichkeit p wird mit dem vorgegebenem Risiko α verglichen32. Als a priori anhand inhaltlicher Kriterien festgelegtes Signifikanzniveau gibt dieses die Wahrscheinlichkeit an, mit welcher man bereit ist, falsch positive Ergebnisse zu tolerieren. Liegt die ermittelte empirische Wahrscheinlichkeit p (Beobachtung|Ho)33 unter dem Niveau dieser festgelegten α-Irrtumswahrscheinlichkeit, entscheidet man sich zugunsten der Alternativhypothese, was gleichzeitig bedeutet, daß man sich bei dieser Entscheidung zugunsten der Alternativhypothese im Rahmen der fixierten Wahrscheinlichkeit irren könnte.

Wenn die beobachtete Wahrscheinlichkeit dagegen über dem α-Niveau liegt, ist das nicht mit einer Bestätigung der Ho "Es besteht kein Unterschied." gleichzusetzen. Die Hypothese der Gleichheit kann zwar nicht abgelehnt werden, dennoch ist über das Zutreffen von Ho und H1 bei konstanter Stichprobengröße keine Aussage möglich (Bortz 19934, S. 114). Wellek (1994, S.1) formuliert diesen Sachverhalt folgendermaßen: "Nichtsignifikante Unterschiedlichkeit ist nicht dasselbe wie signifikante Übereinstimmung." Dies macht deutlich, daß - soll eine Ho bestätigt werden - eine weitere Testart benötigt wird, worauf im nächsten Abschnitt eingegangen werden soll.

Äquivalenztest

↓148

Der Nachweis von Gleichwertigkeit erfordert die Anwendung eines Äquivalenztests. Analog zum Differenztest wird durch die Teststatistik die Wahrscheinlichkeit p ermittelt und mit dem vorgegebenen Risiko α verglichen. Allerdings werden die Hypothesen vorab anders formuliert. H0 lautet " Es besteht ein Unterschied.", während H1 - also wiederum die forschungsleitende Hypothese - "Es besteht kein bedeutsamer Unterschied." (zum Beispiel "Die Expressionsprofile sind vergleichbar.") heißt. Der weitere Entscheidungsweg entspricht grundsätzlich dem oben erläuterten. Im Rahmen von Äquivalenztests wird allerdings ein genügend enges, beidseits eingeschränktes Intervall geprüft, das die Gleichwertigkeit der zu vergleichenden Parameter charakterisiert. Es beinhaltet praktisch irrelevante, also keine bedeutsamen Abweichungen von der absoluten Gleichheit. Das bedeutet, daß im Vergleich zum Differenztest die Hypothesen nicht nur vertauscht, sondern auch modifiziert werden (Wellek 1994, S. 3). Spezifische Testverfahren finden sich bei Wellek (2003).

In der vorliegenden Arbeit wurde zum Nachweis der Reliabilität (forschungsleitende Hypothese: Gleichheit der beiden SAGE Kontrollprofile K1 und K2) kein Äquivalenztest eingesetzt, sondern ein Differenztest benutzt. Eine Aussage ist demnach nur darüber möglich, ob eine signifikante Verschiedenheit der beiden generierten Expressionsprofile vorliegt oder ob eine Unterschiedlichkeit der Profile, das heißt H1 (Differenz), nicht nachzuweisen ist.

Welches Fehlerniveau sollte gewählt werden?

Um die Frage, nach der Höhe des zu wählenden Fehlerniveaus zu beantworten, muß man sich die Gewinne und Verluste vor Augen führen, die durch die unterschiedlichen Höhen der beiden Signifikanzniveaus entstehen können. Was ist problematischer: Fehlinvestitionen (α-Fehler) oder verpaßte Gelegenheiten (ß-Fehler)?

↓149

Üblicherweise wird in biologischen Zusammenhängen, wenn es sich wie bei SAGE um eine Screeninguntersuchung handelt, für ein α-Niveau von 5% votiert. Im Gegensatz zur Wahl niedrigerer Signifikanzniveaus wird auf diese Weise der ß-Fehler auf einem relativ niedrigen Niveau gehalten. So werden weniger Unterschiede, die realiter vorhanden sind, übersehen. Die Annahme von H1, die so gefördert wird, soll weitere Studien anregen. Gelegenheiten zu verpassen (das heißt ß-Fehler zu begehen) hieße, den Sinn der Studie zu verfehlen. Angesichts der Tatsache jedoch, daß Folgeuntersuchungen von SAGE aufwendig sind und somit eine hohe Anzahl falsch positiver Ergebnisse, also Fehlinvestitionen, die mit einem solchen hohen Signifikanzniveau verbunden sind, unerwünscht ist, scheint es angemessen, die Wahl eines niedrigeren α-Niveaus zu fordern. Diese Forderung wird von weiteren Argumenten unterstützt. Hierzu zählt, daß in den meisten Studien, auf die sich die Empfehlung eines α-Niveaus von 5% bezieht, die Stichprobengröße sehr viel geringer ist als die Anzahl der sequenzierten Tag(paare) selbst in kleinen SAGE Projekten. Dieses N liegt bei SAGE zwischen 428 Tagpaaren bei 840 Tags insgesamt im allerersten SAGE Projekt (Velculescu et al. 1995) und 49000 Tagpaaren bei 300000 sequenzierten Tags (Zhang et al. 1997) oder sogar noch höher in späteren Projekten34. Wie weiter unten zu sehen sein wird, ermöglicht die Erhöhung der Stichprobengröße, immer kleinere Unterschiede zwischen den Taghäufigkeiten nachzuweisen. Das heißt, daß ein "hypothesenkonformer Unterschied bei genügend großen Stichproben und einer gegebenen (endlichen) Populationsstreuung immer signifikant [wird]" (Bortz 19934, S. 115) und somit jede Ho bei einer genügend großen Stichprobe chancenlos ist und verworfen werden kann. Dagegen wird es bei einem festen Stichprobenumfang N schwieriger Unterschiede nachzuweisen, wenn das Signifikanzniveau immer kleiner, etwa 1% oder 0,1% gewählt wird. Wenn also bei einem kleinen Signifikanzniveau ein Unterschied als signifikant ausgewiesen werden soll, muß er hinreichend groß sein. Aufgrund der diskutierten Problematik erscheint es also empfehlenswert im Falle von SAGE ein niedriges α-Niveau zu wählen. Die Durchsicht der Literatur ergibt, daß sich die AutorInnen selten für ein α von 0,05 (beispielsweise Kal et al. 1999), sondern meist für 0,01 oder 0,001 (Madden et al. 1997, Welle et al. 2000 und andere) entscheiden.

Die folgende Möglichkeit der Datenaufbereitung findet sich in der Literatur (vergleiche zum Beispiel Audic und Claverie 1997): Anstatt das α-Signifikanzniveau vor der Datengewinnung aufgrund inhaltlicher Überlegungen festzulegen, kann der ermittelten p-Wert für jedes Tagpaar angeben werden. Im Stile eines 'Rankings' können dann Tagpaare, deren Konstellation ein kleines p zur Folge hat, aufsteigend in Veröffentlichungen aufgelistet werden. Diese Vorgehensweise verwenden beispielsweise Michiels et al. (1999) und Welle et al. (2000). Audic und Claverie (1997) empfehlen es in ihrer Veröffentlichung zur Statistik von digitalen Expressionsprofilen ausdrücklich. Ein solches 'Ranking' befreit den Untersucher oder Leser jedoch nicht von der Entscheidung, welche Transkripte weiter untersucht werden sollen, um ihre Relevanz im betrachteten Kontext nachzuweisen. Dies hat zur Folge, daß ohne die Anwendung begründeter Entscheidungskriterien eine mögliche Auswahl der interessanten Transkripte beliebig ist. Hieraus folgt, daß - sollen nachvollziehbare wissenschaftliche Entscheidungskriterien angewendet werden - die Verwendung statistischer Entscheidungskriterien letztendlich nicht vermieden werden kann. Aus diesem Grunde ist zu empfehlen, a priori ein - wie oben begründet- geringes α-Niveau zu wählen, um aus den p-Wert-Ranglisten mit dieser Zusatzinformation sinnvoll Gene für weitere Studien aussuchen zu können.

5.2.1.2 α-Fehler-Adjustierung

Werden auf ein und denselben Datenkörper zur Überprüfung einer globalen Hypothese Signifikanztests wiederholt angewandt, steigt die Wahrscheinlichkeit, daß mindestens einer dieser Tests fälschlicherweise signifikant wird (Bortz 1990, S. 48ff). Um das ursprünglich angestrebte α-Niveau dennoch zu halten und innerhalb des vorgegebenen Rahmens korrekt über die globale Hypothese zu entscheiden, muß eine α-Fehleradjustierung durchgeführt werden.

↓150

Im Rahmen der vorliegenden Berechnungen würde diese Problematik nur beim statistischen Vergleich der paarweisen Tests und der Evaluation der Sequenzfehlerkorrektur eine Rolle spielen. Auf eine α-Fehleradjustierung wurde verzichtet. Hierauf folgt, daß keine konfirmativen Verallgemeinerungen durchgeführt werden können. Die Datenanalyse ist explorativ zu verstehen (mündliche Mitteilung K. Wernecke).

Im Rahmen eines üblichen SAGE Experimentes, das Unterschiede zwischen einzelnen Transkriptomen herausarbeiten möchte, ist im Gegensatz zur vorliegenden Arbeit (Aspekt Reliabilitätsprüfung) die globale Hypothese, also der Vergleich der Gesamtverteilungen sekundär35. Es interessiert inhaltlich nicht, ob zwischen den beiden zu vergleichenden Expressionsprofilen insgesamt ein Unterschied besteht, sondern nur, welche einzelnen Transkripte reguliert erscheinen. Dennoch sind die verschiedenen Tagpaare über die Gesamttagzahl miteinander verbunden, was für die Durchführung einer Adjustierung sprechen würde. Außerdem können manche Transkripte einer funktionellen Einheit angehören, wodurch ihre Regulation interdependent ist.

Im Folgenden soll dargestellt werden, welche Möglichkeiten zur α-Fehlerkorrektur im Rahmen von üblichen SAGE Experimenten sinnvoll anzuwenden wären.

↓151

Eine traditionelle Form der Adjustierung ist die sogenannte Bonferroni-Korrektur. Hierbei errechnet sich αKORR, das α-Niveau, das für den einzelnen Test entscheidend ist, nach: αKORR = α / k, wobei k die Anzahl der durchgeführten Tests ist (Bortz 1990, S.51). αKORR wäre zum Beispiel auf die vorliegenden Daten angewandt angesichts der 14159 Paare (Datensatz ohne Sequenzfehlerkorrektur) sehr klein (beispielsweise für ein globales α von 5%: 0,00035%). Das heißt, das diese Art der Korrektur äußerst konservativ ist und damit einem Übersichtsverfahren wie SAGE nicht angemessen.36 Etwas progressiver wäre eine sequentielle Weiterentwicklung der Bonferroni-Korrektur (Holm 1979). Hierzu werden die Tagpaare nach Bestimmung ihres jeweiligen empirischen P-Wertes aufsteigend angeordnet; das heißt, beginnend mit dem Paar, das den kleinsten P-Wert aufweist. Über die Signifikanz des ersten, das heißt des kleinsten Wertes wird anhand eines αKORR entschieden, das entsprechend der Gleichung für die Bonferroni-Korrektur bestimmt wurde. Das nächst größere P wird mit einem zweiten αKORR verglichen, das nach αKORR = α / (k-1) berechnet wurde. Dies wird solange wiederholt bis pn > α/ (k- n) ist, so daß dieser und alle folgenden Vergleiche keine signifikanten Unterschiede auf dem gewählten Niveau mehr aufweisen. Doch auch diese sequentielle Vorgehensweise führt dazu, daß nur sehr wenige Gene als reguliert erkannt werden (Yang 2003, S. 60f). Beide Verfahren kontrollieren die FWER ('family-wise error rate'), welche die Wahrscheinlichkeit angibt, mindestens einen Typ I- Fehler zu begehen.

In den letzten 10 Jahren wurden andere Ansätze zur Fehlerkontrolle entwickelt, die insbesondere im Rahmen der Mikroarray- und Chiptechnologien zur Anwendung kommen. Hier ist die 'false discovery rate' (FDR) hervorzuheben (Benjamini 1995, Weiterentwicklung beispielsweise Storey 2002: positive FDR). Diese ist der erwartete Anteil an Typ I- Fehlern unter den abgelehnten Hypothesen, also den als reguliert deklarierten Genen. Der Vorteil der darauf aufbauenden Verfahren liegt darin begründet, daß der α-Fehler streng versuchsbezogen kontrolliert wird und damit nicht ins Unermeßliche steigen kann, und auf der anderen Seite genügend Gene als reguliert identifiziert werden, die für weitere Untersuchungen relevant sein können.

Ein wichtiger Gesichtspunkt bei der Entwicklung dieser Verfahren ist die Abhängigkeit der Einzeltests untereinander. Die Korrekturform nach Bonferroni beispielsweise trägt diesem nicht Rechnung (Dudoit 2003). Dudoit (2003) nennt einige statistische Verfahren, welche auf diese Problematik Bezug nehmen (unter anderem FDR-Verfahren, siehe hierzu auch Storey 2002).

↓152

Ein weiterer Aspekt ist die sogenannte "Stärke der Fehlerkontrolle": Eine starke Prüfung des α-Fehlers kontrolliert diesen unabhängig von der Kombination von regulierten und konstant expremierten Genen, während eine schwache Kontrolle davon ausgeht, daß kein Gen reguliert ist, was im Rahmen von SAGE unwahrscheinlich ist, so daß Verfahren mit starker Kontrolle zu bevorzugen sind. Hierzu zählen unter anderem die Bonferroni-Methode, die FDR nach Benjamini 1995 und deren Weiterentwicklungen (Dudoit 2003).

Auch bezüglich der FWER gibt es Weiterentwicklungen, die den Erfordernissen von molekularbiologischen Verfahren mit tausenden von zu testenden Einzelhypothesen Rechnung tragen (Westfall 1993). Hierunter scheint jedoch nur das maxT Verfahren sinnvoll anwendbar zu sein (Yang 2003).

Im Rahmen von üblichen SAGE Experimenten werden moderne Verfahren bisher selten abgewandt. Beispiele für eine α-Fehler-Kontrolle mittels FDR wären Hosack 2003, Hauser 2003 und Divina 2004, wobei hier nur die ursprüngliche Form der FDR (Benjamini 1995) verwandt wird (Ausnahme Divina 2004).

↓153

Die statistischen Resultate werden zusätzlich zum α-Niveau durch drei weitere Kriterien bei der Entscheidung, welche Transkripte weiter untersucht werden sollen, unterstützt: Einmal spielt es eine Rolle, welcher funktionellen Gruppe die fraglichen Transkripte angehören (Carulli et al. 1998). Bestimmte Bereiche mögen aufgrund der bereits vorhandenen Literatur interessanter erscheinen als andere. Dieses Kriterium ist also inhaltlicher Natur und muß im Kontext der jeweiligen Untersuchung diskutiert werden. Die anderen beiden Kriterien beziehen sich dagegen auf die Struktur der Daten. Es handelt sich dabei um die Häufigkeiten der Tags, und um die Höhe ihres Unterschieds (so er auf dem gewählten Niveau signifikant ist). Im folgenden Abschnitt sollen diese beiden Kriterien diskutiert werden.

5.2.1.3  Praktische Bedeutsamkeit

Regulation

Mit Erhöhung der Stichprobengröße ins Unendliche kann theoretisch jeder noch so kleine Unterschied statistisch bedeutsam, das heißt signifikant sein. Das bedeutet, daß für die Entscheidung, welche Transkripte in weiteren Studien betrachtet werden sollen, nicht nur erheblich ist, ob sie in statistischen Tests einen signifikanten Unterschied aufweisen, sondern auch wie groß dieser ist37. Transkripte, welche beispielsweise lediglich um ein Drittel reguliert38 erscheinen, sind es unter Umständen nicht wert weiteruntersucht zu werden, auch wenn kleine Veränderungen der Genexpression in biologischen Systemen eine große Wirkung haben können. Für die Praxis von SAGE und den nachfolgenden (Funktions-)Untersuchungen entscheiden sich die meisten Autoren für eine mindestens zweifache Regulation (zum Beispiel Kal et al. 1999, Angelastro 2000a). Manche Publikationen konzentrieren sich jedoch sogar nur auf Transkripte, welche mindestens fünffach (Lal et al. 1999), zehnfach (Yu et al. 1999) oder sogar zwölffach (Hashimoto et al. 1999) reguliert erscheinen. Diesem Konzept entspricht in der Statistik die Effektgröße ε, die aufgrund inhaltlicher Erwägungen festgelegt wird, um einen praktisch bedeutsamen Unterschied zwischen Parametern von Ho und H1 zu definieren (Bortz 19934). Gerade, wenn zukünftig Sequenzierverfahren noch effizienter werden und die Produktion einer sehr großen Menge Tags auch in Standardlabors möglich ist, ist es wichtig, einen solchen praktisch relevanten Unterschied festzulegen, da sonst undeutlich wird, welche der statistisch signifikanten Unterschiede der Genexpression es sich lohnt, weiter zu verfolgen.

Darüber hinaus werden Stichprobenumfänge dann als optimal bezeichnet, wenn bei festgelegtem α und ß ein bestimmter erwarteter Unterschied nachgewiesen werden kann. Der mit der Sequenzierung einer großen Menge Tags verbundene Aufwand lohnt sich dann nicht, wenn eine unter praktischen Gesichtpunkten für bedeutsam erachtete Effektgröße auch mit einem kleineren, dem 'optimalen' Stichprobenumfang, abgesichert werden könnte (Bortz 19934, S. 120). Die Software SAGEstat bietet die Möglichkeit zu derartigen Kalkulationen.

Minimale Taghäufigkeiten

↓154

Einer anderer Aspekt der praktischen Bedeutsamkeit sind die Häufigkeiten, die Tags mindestens aufweisen müssen, um als relevant erachtet zu werden.

Man et al. (2000) empfehlen nur Tags näher zu betrachten, die öfter als 10 mal auftreten. Welle et al. (2000) konzentrieren ihre Auswertung ebenfalls auf Tags, die mindestens 10 mal in einem der beiden Expressionsprofile präsent sind. Während beispielsweise Michiels et al. (1999) oder Larson et al. (2000) schon Tags in ihre Analyse einbeziehen, die 5 mal und Angelastro et al. (2000a) sogar solche, die nur 2 mal vorhanden sind. Dabei ist zu beachten: Eine bestimmte Tagmenge bedeutet im Kontext einer kleinen Gesamtmenge etwas anderes als bei einer sehr großen Menge an sequenzierten Tags, so daß das Kriterium "minimale Taghäufigkeiten" im Rahmen des jeweiligen Projektes festgelegt werden sollte.

Ein wichtiger Gesichtspunkt ist zudem der Kontext des jeweiligen Projektes. Während es bei zerebralen Expressionsprofilen aufgrund der Komplexität des Expressionsmusters sinnvoll sein kann, auch Transkripte zu betrachten, welche sehr gering exprimiert erscheinen, ist bei Geweben geringer Komplexität das Gegenteil der Fall. Sinnvoll wäre es, nicht einzelne Taghäufigkeiten als Grenzwert zu bestimmen (wie Man et al. 2000 es zum Beispiel machen), sondern das gemeinsame arithmetische Mittel oder die Summe zweier zu vergleichender Transkripte als Richtlinie zu nehmen wie es in der vorliegenden Arbeit gehandhabt wurde.

↓155

Auf das Thema der geringen Häufigkeiten wird nochmals unter dem Gesichtpunkt der Reliabilität eingegangen werden (siehe S. 181).

5.2.1.4 Struktur des statistischen Entscheidungsprozesses

Wie bereits deutlich geworden ist, können die Daten, die SAGE produziert, unter zwei verschiedenen Blickwinkeln betrachtet werden. Einmal kann die Frage nach dem Zusammenhang zweier SAGE Profile beziehungsweise nach deren Gleichheit oder Unterschiedlichkeit global für die Gesamtverteilung der Profile gestellt werden, und einmal individuell für jedes einzelnen Tagpaar.

Bei der quantitativen Auswertung und dem Vergleich zweier SAGE Profile stellt sich als erstes die Frage, ob die beiden Datenreihen insgesamt als homogen anzusehen sind oder nicht. Erst wenn hier ein geeigneter Test (zum Beispiel der in der vorliegenden Arbeit verwendete Chi²-Test mit Iterationen) diese globalen Hypothesen evaluiert hat und die Verteilungen als inhomogen angenommen werden können, kann in Einzelvergleichen untersucht werden, welche Tagpaare diese Inhomogenität verursachen. Bezüglich ihrer inhaltlichen Relevanz unterscheiden sich diese beiden Blickwinkel, je nachdem, ob es sich um eine Reliabilitätsstudie wie die der vorliegenden Arbeit oder aber um ein übliches SAGE Experiment handelt. In der vorliegenden Arbeit ist die Prüfung der globalen H0 inhaltlich bedeutsam, während üblicherweise nur der direkte Vergleich der einzelnen Transkripte und ihres Expressionsniveaus von Interesse ist. Dennoch sollte diese inhaltliche Präferenz das statistische Vorgehen bei üblichen Experimenten nicht dominieren. Es sind in der Literatur jedoch nur zwei Veröffentlichungen bekannt, die dieser korrekten Struktur des statistischen Entscheidungsprozeß folgen (Michiels et al 1999 und Margulies et al. 2001).

↓156

Nachdem in den oben stehenden Abschnitten die wesentlichen Aspekte des statistischen Entscheidungsprozesses eines SAGE Projektes deutlich geworden sind, stellt sich die Frage, welche der paarweisen Test unter welchen Bedingungen zur Anwendung kommen sollten. Dies soll in den nun folgenden beiden Kapiteln 5.2.2 und 5.2.3 diskutiert werden.

5.2.2  Evaluation nicht angewandter Tests

5.2.2.1  Bayes-Test nach Chen et al. (1998)

Beschreibung

Diese Methode wurde von Chen et al. (1998) entwickelt und von Lal et al. (1999) und Lash et al. (2000) für den Gebrauch einer interaktiven Webseite ("SAGEmap") modifiziert. Der Ansatz berechnet die Posterior-Wahrscheinlichkeit, daß das Expressionsniveau eines Transkriptes mindestens um einen bestimmten (vorher festzulegenden) Faktor angestiegen ist. Dazu muß die Verteilung der Prior-Wahrscheinlichkeit (vor der Beobachtung der Taghäufigkeiten) abgeschätzt werden. Auf eine Darstellung der mathematischen Herleitung soll an dieser Stelle verzichtet werden. Mittels der Internetseite SAGEmap (www.sagenet.org) kann für dort veröffentlichte oder hochgeladene eigene SAGE Profile diese Posterior-Wahrscheinlichkeit nach Wahl des kleinsten Regulationsniveaus, das als relevant erachtet wird, berechnet werden.

Diskussion des statistischen Ansatzes

Der Ansatz nach Chen et al. (1998) weist einige Einschränkungen auf.

↓157

Chens statistisches Verfahren setzt annähernd gleiche Gesamttagmengen voraus, was seine Anwendungsmöglichkeit erheblich reduziert, wenn nicht sogar unmöglich macht (siehe S. 151). Die Modifikation von Lal et al. (1999) läßt jedoch auch unterschiedlich Gesamtmengen zum Vergleich zu. Für die Wahl der Größe der Parameter der Prior-Wahrscheinlichkeit gibt es keinen verbindlichen Wert, sie unterscheiden sich je nach Gewebe, Krankheit etc. Dadurch können die Ergebnisse des statistischen Entscheidungsprozesses inkonsistent werden (Man et al. 2000). Unklar ist, ob die fehlende Anpassung der Parameter (wie es auf der Webseite der Fall ist) nicht sogar zu falschen Ergebnissen führen kann. Chen et al. (1998) berufen sich bei der Abschätzung dieser Parameter nur auf die Verteilung ihrer eigenen Daten, Lal et al. (1999) beziehen zwei weitere SAGE Projekte (Zhang et al. 1997 und Polyak et al. 1997) mit ein. Der Ansatz nach Chen et al. (1998) berechnet die Wahrscheinlichkeit für die Gültigkeit folgender Hypothese: Das Expressionsniveau eine bestimmten Transkriptes ist um einen Faktor k (im Voraus festgelegt) angestiegen. Die Hypothese, die diesem statistischen Test zugrunde liegt, unterscheidet sich damit von den in dieser Arbeit überprüften Hypothesen. Sie ist spezifisch und gerichtet, was einem einseitigen Test entspricht, während die in dieser Arbeit vorgestellten Hypothesen unspezifisch und ungerichtet sind. Zu beachten ist hierbei, daß eine gerichtete und spezifische Hypothese bereits durch geringere Differenzen bestätigt wird als eine ungerichtete und unspezifische (Bortz 19934, S. 114). Der hier vorgestellte Test weist somit geringere Häufigkeitsunterschiede zwischen Tagpaaren als statistisch bedeutsam aus als Tests, die unspezifische und ungerichtete Hypothesen prüfen. Es werden damit mehr Tagpaare statistisch signifikant. Zu beachten ist außerdem, daß der Test zweimal durchgeführt werden muß, um auch Transkripte zu erfassen, die herunterreguliert sind. Daraus folgt, daß eine α-Fehleradjustierung vorgenommen werden sollte. Aufgrund der genannten Einschränkungen des Tests wurde in der vorliegenden Arbeit auf dessen Durchführung verzichtet.

5.2.2.2 Fishers Exakt Test

Beschreibung

Dieser Test wird üblicherweise als Alternative zum Vier-Felder-Chi²-Test eingesetzt, wenn es sich um Tafeln mit sehr kleinen Besetzungszahlen handelt (Sachs 19999, S. 477). Der Test basiert auf der hypergeometrischen Verteilung und fragt bei fixierten Randsummen, "nach der Wahrscheinlichkeit dafür, daß die beobachtete Besetzung der Tafel oder eine noch weniger wahrscheinliche rein zufällig zustanden kommt" (Sachs 19999, S. 477).

Diskussion des statistischen Ansatzes

Fishers Exakt Test ist als konservativ entscheidend bekannt (Sachs 19999, S.477). Das heißt, daß weniger Werte signifikant werden, als nach dem nominellen α-Niveau zu erwarten wäre. So berichten auch Man et al. (2000) in ihrer bereits erwähnten Monte-Carlo-Studie zur Teststärke und Robustheit von Tests, die im Kontext von SAGE zur Anwendung kommen können, daß Fishers Exakt Test in Vergleich zum Vier-Felder-Chi²-Test eine geringere Teststärke39 und Robustheit40 besitzt. Dies hat zur Folge, daß das Risiko einen ß-Fehler41 zu begehen höher ist. Der Test ist zudem für die großen Zahlen, die ein SAGE Projekt wie das vorliegende beinhalten, extrem aufwendig zu berechnen.

↓158

Aus diesen Gründen wurde in der vorliegenden Arbeit auf die Anwendung dieses Tests verzichtet.

Verwendung in der Literatur

Obwohl der Test als der vielleicht am meisten akzeptierte für Vier-Felder-Tafel bezeichnet wird und im Rahmen von übergreifenden EST Projekten zur Genexpressionsanalyse als Standard vorgeschlagen wird (www.ncbi.nlm.nih.gov/UniGene/fisher.shtml, 1.10.2001), scheint er sich im Kontext von SAGE nicht durchzusetzen. So ergibt die Literaturrecherche (Stand 2002) kaum Publikation, die Fishers Exakt Test zur statistischen Analyse von SAGE Daten verwendet. Ein Beispiel wäre Trendelenburg et al. 2002.

5.2.2.3 SAGE 300

Beschreibung

Die von Zhang et al. (1997) vorgestellte Software zur Auswertung von SAGE-Daten enthält unter anderem Möglichkeiten, diese statistisch zu analysieren. Der verwendete Ansatz beruht auf einer Monte-Carlo-Studie ohne auf spezifische statistische Testverfahren zurückzugreifen.

↓159

Es wird dabei die relative Wahrscheinlichkeit ermittelt, daß - bei Gültigkeit der H0 42 - die beobachtete Differenz (oder eine größere) zwischen den beiden Häufigkeiten eines Tagpaares aufgrund zufälliger Schwankungen zustande gekommen ist. Dazu werden 100000 Simulationszyklen durchgeführt43. Der Wert der resultierenden Wahrscheinlichkeit repräsentiert denjenigen Anteil der Simulationsergebnisse, der die beobachtete Differenz oder eine größere aufweist. Um diese relative Wahrscheinlichkeit in eine absolute zu konvertieren, werden 40 Experimente simuliert, in welchen eine repräsentative Anzahl von Transkripten identifiziert und verglichen wird. Die Verteilung der dazu verwendeten Transkripte wird vom durchschnittlichen Expressionsniveau, wie es den experimentell beobachteten SAGE Profilen zu entnehmen ist, abgeleitet. Die relativen Wahrscheinlichkeiten, die in diesen 40 simulierten Experimenten ermittelt werden, entsprechen falsch positiven Ergebnissen (α-Fehler). Die Verteilung dieser p-Werte wird mit der Verteilung verglichen, welche die anhand der experimentellen Daten simulierten relativen Wahrscheinlichkeiten wiedergibt. Anhand dieses Vergleichs kann - im Sinne einer α-Fehlerkorrektur - der maximale p-Wert festgelegt werden, der (entsprechend der Hypothesen) einen möglichen Nachweis von Unterschieden in der Genexpression mit der zuvor gewählten Irrtumswahrscheinlichkeit sichert44.

Diskussion des statistischen Ansatzes

Die statistische Entscheidungsfindung der SAGE 300 Software orientiert sich an den beobachteten Daten beziehungsweise den darauf aufbauenden Computersimulationen. Es wird keine Teststatistik verwendet, die auf einem bestimmten mathematischen Modell basiert, wodurch die Anzahl der zugrundeliegenden Annahmen minimiert wird und keinerlei Einschränkungen bezüglich der Taghäufigkeiten bestehen. Dieser Aufbau des Tests hat allerdings zur Folge, daß sich der simulierte p - Wert, den die Software ermittelt, bei jedem Testdurchlauf ändert (auch wenn die Eingabe identisch ist). Ein exakter Vergleich dieses Tests mit denjenigen, die den p - Wert exakt errechnen, gestaltet sich deswegen schwierig, so daß auf die Durchführung dieses Tests in der vorliegenden Arbeit verzichtet wurde.

Ruijter et al. (2002) vergleichen SAGE300 dennoch mit anderen paarweise prüfenden Tests (SAGEstat, Fishers Exakt Test, Test nach Madden und Test nach Audic und Claverie) und kommen zu dem Schluß, daß die Ergebnisse der Simulationen von SAGE300 mit von denjenigen von SAGEstat, Fishers Exakt Test und dem Test nach Audic und Claverie (1997) übereinstimmen.

5.2.3  Evaluation der angewandten Tests

↓160

Im Folgenden sollen Tests diskutiert werden, die im Rahmen der vorliegenden Arbeit zur Anwendung kamen beziehungsweise geprüft wurden. Es wird dabei auf Besonderheiten der statistischen Ansätze, gegebenenfalls auf die Voraussetzungen zur gültigen Anwendung, die Praktikabilität und die Verwendung in der Literatur eingegangen werden.

5.2.3.1  Tests zum Vergleich der Gesamtverteilungen

5.2.3.1.1  Chi²-Test für k x 2- Felder Tafel (Simulationen)

Diskussion des statistischen Ansatzes

Anhand von Zufallszahlen und Iterationen eine Verteilung der Chi²-Werte bei Gültigkeit von H0 zu erstellen, ist eine gute Möglichkeit, um angesichts der Tatsache, daß die Voraussetzungen zur Anwendung des k x 2- Felder-Chi²-Testes nur eingeschränkt erfüllt werden können, eine Kennwertverteilung für H0 zu erzeugen, die sich an den jeweils konkret vorliegenden Daten orientiert. Der p-Wert der beobachteten Verteilung kann entsprechende der Formel für den k x 2- Felder-Chi²-Test exakt berechnet werden.

Verwendung in der Literatur

Im Rahmen üblicher SAGE Experimente ist es sinnvoll wie oben dargestellt, vor der paarweisen Überprüfung der Profile zu untersuchen, ob insgesamt betrachtet ein Unterschied zwischen den Verteilungen vorliegt. Dieser Ansatz wurde von Ruijter (1999) im Rahmen des Vortrags "SAGE and Statistics" (SAGE Workshop, Hilversum) vorgestellt. Michiels et al. (1999) und Margulies et al. (2001) folgen der Vorgehensweise.

5.2.3.1.2 Kontingenzkoeffizient

Diskussion des statistischen Ansatzes

↓161

Um das Assoziationsmaß von Kontingenztafeln auszudrücken, gibt es diverse Koeffizienten: Phi, Pearsons C, Cramérs V und andere. Cramérs V wird im allgemeinen bevorzugt (Rasch 1996, S. 617), da dieser Koeffizient im Gegensatz zu anderen unabhängig von der Größe der Kontingenztafel zwischen 0 (totale Unabhängigkeit) und 1 (totale Abhängigkeit) liegt. Aus diesem Grund wurde er auch in der vorliegenden Arbeit zur Berechnung des Assoziationsmaßes gewählt.

Folgende Einschränkungen sind bei der Interpretation der vorliegenden Ergebnisse zu berücksichtigen. Erstens geht die Tatsache, daß N 1 ungleich N 2 ist, insofern nicht in die Berechnungen ein, als durch den Aufbau der Kontingenztafel auch eine Taghäufigkeit von Null als Beobachtung gilt, wenn das Tag in der anderen Gruppe gefunden wurde.

Ein zweiter Aspekt ist die Frage nach der Erfüllung der Voraussetzungen des χ²-Testes (siehe auch S. 116), insbesondere der Größe der erwarteten Häufigkeiten. In der Regel wird davon ausgegangen, daß sämtliche Erwartungshäufigkeiten mindestens den Wert fünf annehmen sollten. Aufgrund der heterogenen Verteilung der Daten ist dies bei den betrachteten Kontingenztafeln nicht immer gegeben. Zur Verwendung des Testes im Zusammenhang mit der Reliabilitätsprüfung siehe S. 171).

5.2.3.2 Tests zum paarweisen Vergleich

↓162

Um neben den theoretischen Überlegungen und der Diskussion der vorhandenen Literatur die Tests konkret miteinander vergleichen zu können, wurde die statistische Analyse „normaler“ SAGE Experimente beispielhaft nachgeahmt (α = 5%). Die Ergebnisse dieser Berechnungen wurden statistisch evaluiert. Aufgrund der Komplexität der Testsituation sind diese Ergebnisse bei fehlender α-Fehleradjustierung explorativ zu verstehen.

5.2.3.2.1  Test nach Madden et al. (1997)

Statistischer Ansatz

Ein Vorteil des Tests nach Madden et al. (1997) ist, daß er sehr einfach mit einem Tabellenkalkulationsprogramm zu berechnen ist.Der Hauptkritikpunkt an diesem Ansatz liegt darin begründet, daß die Gesamthäufigkeiten der zu vergleichenden Expressionsprofile nicht berücksichtigt werden. Dies hat zur Folge, daß dieser Test genaugenommen lediglich zum Vergleich zweier SAGE Bibliotheken gleicher Größe angewendet werden kann (Kal et al. 1999 und Ruijter 1999)45. Dies ist bei SAGE jedoch selten der Fall. Selbst wenn die beiden zu vergleichenden Profile im Rahmen eines einzigen Projektes erstellt werden und angestrebt wird, in beiden Gruppen die gleiche Menge Tags zu sequenzieren, können sich diese Zahlen aufgrund der Auswertung (Elimination von Linkerartefakten, redundanten Dimeren und Korrektur des Sequenzfehlers) anschließend wesentlich verändern. Es ist folglich realistischer Weise nicht möglich, davon auszugehen, daß die für diesen Test erforderliche Bedingung im Normalfall erfüllt werden kann.

Kal et al. (1999) weisen darauf hin, daß der Test nach Madden et al. (1999) konservativ entscheidet. Das heißt, daß die faktische α-Fehlerwahrscheinlichkeit46 unter dem festgelegten Signifikanzniveau liegt. Es werden dadurch weniger Tagpaare als statistisch signifikant verschieden ermittelt, als das mit einem weniger konservativ entscheidenden Test der Fall wäre (siehe auch S. 160). Ruijter (2002) stellt einen Vergleich verschiedener Test (SAGE 300 Software, Vier-Felder-Chi²-Test, nicht modifizierter Z-Test (SAGEstat), Audics und Claveries Test, Maddens Test) an. Analog zum Vorgehen der vorliegenden Arbeit werden die Häufigkeitswerte verglichen, bei welchen die verschiedenen Tests aus dem 5% Niveau einen statistisch bedeutsamen Unterschied angeben. Der Test nach Madden et al. (1997) unterscheidet sich dem Augenschein nach deutlich von den anderen, die einheitlich zu entscheiden scheinen. Im Gegensatz zu den hier vorliegenden Ergebnisse werden die Befunde jedoch nicht statistisch abgesichert. Die Untersuchung der vorliegenden Arbeit kann diese Unterschiedlichkeit des Tests von Madden et al. (1997) nicht bestätigen.

Verwendung in der Literatur

↓163

Der Test nach Madden et al. (1997) wird selten verwendet. Ein Beispiel wäre Hashimoto et al. (1999).

5.2.3.2.2  Test nach Audic und Claverie (1997)

Voraussetzung: Poissonverteilung

Die mathematische Grundlage der von Audic und Claverie (1997) entwickelten Statistik ist die Annahme, daß Transkripte poissonverteilt sind. Diese Annahme wurde an den vorliegenden Daten mittels Kolmogorov-Smirnov-Anpassungstest (SPSS Version 10.0) auf dem 1% Niveau überprüft. Dieser Test vergleicht die beobachtete kumulierte mit der theoretischen Verteilung. Bei z-Werten von 15,1 (K1 ohne Korrektur), 15,7 (K2 ohne Korrektur), 18,1 (K1 mit Korrektur) und 18,8 (K2 mit Korrektur) wurde in allen vier Fällen p-Werte → 0 erreicht. Das heißt, daß die H0 (Die beobachtete Verteilung ist poissonverteilt) auf dem 1% Niveau abgelehnt werden muß. Die Daten sind also nicht poissonverteilt. Dies hat zur Folge, daß die Voraussetzungdes Testes wahrscheinlichnicht erfüllt sind. Allerdings muß das nicht heißen, daß der Test bei den vorliegenden Daten nicht angewandt werden darf. Möglich wäre die Beantwortung der Frage, wie der Test auf diese Verletzung seiner Vorraussetzung reagiert, per Monte Carlo Studie (Bortz 19934, S.125). Alternativ könnte ein verteilungsfreier Test durchgeführt werden, der an weniger Voraussetzungen geknüpft ist, jedoch eine geringere Teststärke ( T = 1 - ß) besitzt (Bortz 19934, S.125). Mit dem Vier-Felder-Chi²-Test wird ein derartiger Test vorgestellt.

Statistischer Vergleich mit anderen Tests

Die Ergebnisse der Simulationen üblicher SAGE Experimente dienten dem statistischen Vergleich der Tests. Die Anzahl der als signifikant verschieden ermittelten Tagpaare unterscheiden sich statistisch nicht von derjenigen des Test nach Madden et al. (1997). Ein Unterschied besteht beim Vergleich mit dem Chi²- Test sowie dem modifizierten Z-Test (siehe S. 132f, S. 157 und S. 160).

Testrobustheit

↓164

Nach Bortz (1990, S. 83) bezeichnet die Robustheit eines statistischen Testes seine "Unempfindlichkeit [...] gegenüber Voraussetzungsverletzungen und gegenüber ungewöhnlichen Stichprobencharakteristika.". Analysen dieser Eigenschaft werden meist im Rahmen von Monte-Carlo-Studien durchgeführt. Mittels beispielsweise tausendfachem Ziehen von Zufallsstichproben aus einer Population von Zufallszahlen, für welche Ho gilt, wird hierbei die Rate an richtigen und falschen Entscheidungen des Testes berechnet.

Audic und Claverie berichten in der Veröffentlichung von 1997 zu dem von ihnen entwickelten Signifikanztest von einer Monte-Carlo-Studie zur Überprüfung der Robustheit ihres Test in Abhängigkeit von verschiedenen Expressionsniveaus. Der Test zeige bei einer Taghäufigkeit von n < 5 ein leicht konservatives Verhalten. Das heißt, daß die Rate an falsch positiven Resultaten unter dem gewählten α-Niveau liegt. Bortz (19934, S. 125) bewertet eine solche Reaktion als akzeptabel, wenn man mit einer reduzierten Rate an signifikanten Ergebnissen einverstanden ist. Bei Taghäufigkeiten von n ≥5 erweist sich der Test von Audic und Claverie als robust. Das Niveau von α wird knapp erreicht, jedoch nicht überschritten.

Es liegen Ergebnisse von Man et al. (2000) vor, die in diesem Kontext von besonderem Interessen sind. Die Autoren führten per Monte-Carlo-Studie einen Vergleich der Robustheit dreier statistischer SAGE Test bezüglich des α- und ß- Fehlerniveaus durch (paarweiser Chi²-Test, paarweiser Fishers Exakt Test und Audics und Claveries Ansatz). An dieser Stelle soll nur von den Ergebnissen zu Audics und Claveries Test berichtet werden. Für einheitliche Gesamttagzahlen (N=50000 in beiden Stichproben) ergeben sich im Falle von Taghäufigkeiten n≥ 20 ein durchgehend kleiner ß-Fehler (circa 1%) sowie ein konstantes α (nahe 5%). Sobald die Taghäufigkeiten n unter 15 sinken, steigt der ß-Fehler rapide an (bis auf fast 100%), während α gleichzeitig abnimmt. Wenn unterschiedliche Taggesamtzahlen eingesetzt werden (50000 versus 250000 und vice versa), scheint der Test besonders wenig robust zu sein. Man et al. (2000) spezifizieren die entsprechenden Resultate nur für den Bereich kleiner Häufigkeiten: Bei Häufigkeiten von n = 15 ergibt sich ein ß-Fehler von circa 45%, der kontinuierlich ansteigt, wenn die Taghäufigkeiten Richtung n = 1 gehen. Der α-Fehler bleibt dagegen im Bereich von n = [15; 5] Tags konstant, um erst darunter abzunehmen. Die Ergebnisse zum α-Fehler stimmen mit der Beobachtung von Audic und Claverie (1997) überein. Auch bei den Ergebnissen der vorliegenden Arbeit läßt sich beobachten, daß die Rate der Tagpaare, die einen statistisch bedeutsamen Unterschied aufweisen, höher ist, wenn nur Tagpaare mit einem Mittelwert von m≥ 5 untersucht werden (zum Beispiel 13,6% aller Paare), als die Rate, die Tags aufweisen, die einen Mittelwert von m < 5 haben (gleicher Fall 1,6%).

↓165

Welche Auswirkungen haben die Ergebnisse der Monte-Carlo-Studien für den experimentellen Vergleich zweier SAGE Profile?

Um diese Frage zu beantworten, muß der α-Fehler betrachtet werden. Dieser weicht erst ab einer Taghäufigkeit von n < 5 vom vorgegebenen Niveau nach unten ab. Im Bereich derartig kleiner Taghäufigkeiten liegt die de facto Irrtumswahrscheinlichkeit somit unter der gewählten. Diese Eigenschaft macht den Test von Audic und Claverie (1997) zu einem geeigneten Test, wenn keine minimale Taghäufigkeit festlegt werden soll (wie es zum Beispiel in SAGE Projekten mit einer vergleichsweise geringen Anzahl an sequenzierten Tags der Fall sei könnte), aber in diesem unteren Bereich, die Daten unter strengen Kriterien betrachtet und wenig falsch positive Transkripte riskiert werden sollen.

Anwendung

Ohne eine Automatisierung der Berechnungen sind diese mit einem Tabellen-kalkulationsprogramm wie zum Beispiel Excel kaum praktikabel. Auf einer Internetseite (http://igs-server.cnrs-mrs.fr/~audic/cgi-bin/winflat.pl) können die Signifikanzberechnungen nach dem Test von Audic und Claverie (1997) durchgeführt werden. Jedoch können hierüber nur einzelne Paare abgefragt werden, so daß dieses Vorgehen für ganze Datenreihen kaum in Frage kommt. Des weiteren stellen die Autoren ein Programm für UNIX Rechner zur Verfügung. Diese führt die Berechnungen jedoch auch nur für einzelne Paare durch. Dies reflektiert die Tatsache, daß dieses statistische Vorgehen ursprünglich für EST Sequenzierungsprojekte geplant war, welche wesentlich weniger Transkripte enthielten.

Verwendung in der Literatur

↓166

Die Literaturrecherche (Stand 2001) ergibt, daß der Ansatz von Audic und Claverie (1997) selten verwendet wird (zum Beispiel bei Welle et al. 2000). Margulies und Innis (2000) haben ihn zur Berechnung des p-Wertes in der von ihnen entwickelte SAGE-Analyse-Software "eSAGE" übernommen, ohne ihr Vorgehen jedoch näher zu begründen. Allerdings läßt diese Software keine ausschließlich statistische Datenanalyse zu, sondern kann nur für die gesamte Auswertung eines SAGE Projektes inklusive der Schritte vor der statistischen Prüfung verwenden werden. Es wäre folglich erstrebenswert, wenn eine Software entwickelt werden würde, die auf dem Test von Audic und Claverie beruhend auch den rein statistischen Vergleich ganzer SAGE Expressionsprofile gestattet, um im Bereich der Statistik größere Flexibilität zu ermöglichen.

5.2.3.2.3 Vier-Felder-Chi²-Test

Voraussetzungen

Zu den Voraussetzungen des Tests finden sich in der Literatur verschiedene Hinweise. Im allgemeinen wird als Bedingung gefordert, daß die Erwartungswerte pro Zelle mindestens 5 betragen sollten (Bortz 19934, S. 159 und Man et al. 2000). Bortz (19934, S. 159) weist jedoch darauf hin, daß bei geringeren Erwartungswerten der Test auch dann noch einsetzbar ist, wenn der Umfang der Stichprobe N größer als 7 ist. Sachs (19999, S. 451) gibt an, daß sowohl N 1 als auch N 2≥ 6 sein sollten. Die Erwartungswerte pro Zelle sind bei den vorliegenden Daten nur bei 255 Tagpaaren (Daten ohne Sequenzfehlerkorrektur) beziehungsweise bei 391 Paaren (Daten mit Sequenzfehlerkorrektur) größer oder gleich 547. Da jedoch N 1 und N 2 konstant bei 13584 beziehungsweise 13915 bleiben, wird in der vorliegenden Arbeit davon ausgegangen, daß die Voraussetzungen des Testes als erfüllt betrachtet werden können.

Dennoch wäre es for die Anwendung des Vier-Felder-Chi²-Testes günstiger, wenn die Bedingung für die Erwartungswerte beachtet wird. Dies macht den Test besonders geeignet für SAGE Projekte, die eine sehr große Anzahl von Tags sequenziert haben und/oder ein Gewebe oder einen Zustand untersuchen, das/der ein wenig komplexes Expressionsmuster besitzt, so daß auf die Auswertung sehr kleiner Taghäufigkeiten verzichtet werden kann.

Robustheit und Power

↓167

Man et al. (2000) untersuchen in der bereits erwähnten Monte-Carlo-Studie zur Robustheit und Power verschiedener statistischer Verfahren, die im Rahmen von SAGE zur Anwendung kommen, auch den Vier-Felder-χ²-Test. Dieser erweist sich im Vergleich zu Audic und Claveries Test und Fishers Exakt Test als besonders robust. Das heißt, daß das in den Simulationen beobachtete α sich unabhängig vom Expressionsniveau nahe an der festgelegten α-Irrtumswahrscheinlichkeit bewegt, diese jedoch nicht überschreitet. Die ß-Fehlerwahrscheinlichkeit ist im Bereich von Taghäufigkeiten n≥ 20 für N 1 = N 2 bei allen drei untersuchten Tests sehr ähnlich und niedrig48. Im Bereich von n≤ 15 besitzt der Chi²-Test einen geringeren ß-Fehler als die anderen beiden Tests. Wenn den Simulationen ungleiche Gesamtmengen und verschiedene Regulationsausmaße zugrunde gelegt werden, weist der Chi²-Test durchgehend den geringsten ß-Fehler auf: Im Bereich kleiner Taghäufigkeiten (n≤ 15) liegt er 5 - 10% unter demjenigen des Fishers Exakt Test und des Tests von Audic und Claverie. Bei n = 15 liegt er bei 40%, bei n = 5 bei 80% und bei n = 1 bei 95%. Anzumerken ist, daß die von Man et al. (2000) vorgestellten Ergebnisse nur als Anhaltspunkt dienen und die Werte des ß-Fehlers nicht genau auf die hier vorliegenden Daten übertragen werden können, da diese Werte auf der Grundlage bestimmter Gesamttagzahlen und unterschiedlichster Regulationsmaße entstanden sind.

Die Beobachtungen dieser Monte-Carlo-Studie decken sich mit den explorativen Ergebnissen der vorliegenden Arbeit. Der statistisch abgesicherte Vergleich des Vier-Felder-Chi²-Testes mit dem Test nach Audic und Claverie zeigt, daß die Anwendung des Chi²-Testes statistisch signifikant mehr Tagpaare ergibt, die einen Häufigkeitsunterschied aufweisen, als die Verwendung des Test nach Audic und Claverie. Wenn nur Tagpaare betrachtet werden, die einen Mittelwert von m≥ 15 aufweisen, ist kein Unterschied nachweisbar (jeweils 13 statistisch signifikant verschiedene Tagpaare), während die beiden Tests für Paare mit m < 15 deutlich unterschiedlich entscheiden (Audic: 54, Chi²-Test: 116).

Welche Implikationen haben diese Ergebnisse für experimentelle Vergleiche zweier SAGE Profile?

↓168

Man et al. (2000) empfehlen die Anwendung des Chi²-Testes aufgrund der im Vergleich zu den anderen beiden untersuchten Tests höheren Teststärke und Robustheit. Da der Vier-Felder-Chi²-Test - vor allem in dem Bereich kleiner Taghäufigkeiten - weniger konservativ entscheidet als der Test nach Audic und Claverie, werden bei der Berechnung der statistisch verschiedenen Tagpaare mittels Chi²-Test mehr derartige Paare gefunden werden, als das bei der Verwendung des Tests nach Audic und Claverie der Fall wäre.

Design der Vier-Felder-Tafel

Es gibt Argumente gegen die übliche Aufstellung der Vier-Felder-Tafel (zum Beispiel Man et al. 2000), wie sie auch in der vorliegenden Arbeit erfolgt ist. Audic und Claverie (1997) kritisieren den Mangel an Homogenität, den die Kategorie "Rest" impliziert. Diese besteht aus der Summe der Häufigkeiten all derjeniger Tags eines Expressionsprofils, die nicht das bestimmte Tag sind, das anhand der Tafel untersucht werden soll. Beim Vergleich verschiedener Bibliotheken repräsentiere diese Kategorie unter Umständen unterschiedliche Untergruppen von Transkripten, da die beiden Expressionsprofile verschiedene Gene beinhalten können. Man et al. (2000) wenden dagegen ein, daß ein SAGE Experiment einem Sammelprozeß aus der Population aller Transkripte entspräche und deswegen wahrscheinlichkeitstheoretischer Natur sei. Das bedeute, daß die Tatsache, daß ein Transkript nicht beobachtet wird, nicht beweist, daß es in der Population nicht vorhanden ist. Für die Anwendung einer solchen Vier-Felder-Tafel in der vorliegenden Arbeit trifft das Argument von Audic und Claverie (1997) insofern nicht zu, da die Grundlage der Untersuchung ein einziges Pool ist.

Anwendung

Der Vier-Felder-Chi²-Test ist sehr leicht und schnell mittels eines Tabellen-kalkulationsprogrammes auch für große SAGE Projekte durchzuführen.

Verwendung in der Literatur

↓169

Die Literaturrecherche ergibt zum gegenwärtigen Zeitpunkt (2001) nur eine Publikation (Michiels et al. 1999), die den hier vorgestellten Test zur Berechnung der statistischen Signifikanzen verwendet.

5.2.3.2.4 Z-Test

Statistische Ansatz

Man et al. (2000) weisen darauf hin, daß für einen Freiheitsgrad χ² = z² ist. Der Ansatz des Z-Testes nach Kal et al (1999) ist also nicht neu. Er führt zu den selben Entscheidungen wie der Vier-Felder-Chi²-Test. Somit gelten die Aussagen über die Eigenschaften (Robustheit und Teststärke) des Chi²-Tests auch für den Z-Test nach Kal et al. (1999). Kal et al. (1999) weisen nicht auf die Voraussetzungen zur gültigen Anwendung des Tests hin. Sobald die Taghäufigkeiten unter 6 sinken sind diese jedoch nicht mehr gegeben, so daß sich auch hier Ähnlichkeiten zu den Einschränkungen des Vier-Felder-Chi²-Tests ergeben.

Da jedoch in einem Großteil der SAGE Expressionsprofile Taghäufigkeiten von n < 6 oft auftreten, ist die Approximationsformel zur Berechnung von z im Kontext von SAGE vorzuziehen (modifizierter Z-Test). Es ist jedoch auch hier bei der Interpretation der Ergebnisse zu berücksichtigen, daß die Bedingungen des modifizierten Testes für Taghäufigkeiten n = 0 nicht erfüllt sind.

↓170

Zur Kalkulation des nicht modifizierten Testes wurde ein Windows Programm, SAGEstat, erstellt49 (Kal et al. 1999). Dieses berechnet für die beobachteten N 1 und N 2 eine Matrix mit kritischen Taghäufigkeiten, die im Sinne eines Konfidenzintervalls (95%, 99% und 99,9%) die oberen und unteren Grenzen für spezifische Taghäufigkeiten angeben. Taghäufigkeiten des zweiten Profils, die außerhalb dieses Intervalls liegen, können auf dem entsprechenden Niveau als statistisch signifikant verschieden betrachtet werden. Wenig Anwender freundlich erscheint hier jedoch, daß die Konfidenzintervalle nicht für alle theoretisch möglichen Taghäufigkeiten berechnet werden, sondern nur etappenweise50, so daß eine exakte Ermittlung der statistischen Verhältnisse teilweise nicht möglich ist. Auch ist der p-Wert der Tagpaare nicht bekannt. Dieser ist jedoch anhand eines Tabellenkalkulationsprogrammes unabhängig von der Software sehr leicht zu berechnen und für die statistische Entscheidungsfindung zu verwenden, so daß für die statistische Auswertung eines gesamten SAGE Experimentes auf den Einsatz dieser Software verzichtet werden kann. Zumal für kleine Taghäufigkeiten die Verwendung des modifizierten Z-Testes der Berechnung des p-Wertes anhand von SAGEstat vorzuziehen ist.

Zur Planung von SAGE Experimenten bietet SAGEstat indessen interessante Möglichkeiten. Unter Angabe der zuvor festgelegten α- und ß-Irrtumswahrscheinlichkeit (siehe S. 137) kann ermittelt werden, wie viele Tags pro Profil sequenziert werden müssen, um auf verschiedenen Expressionsniveaus51 bestimmte Regulationsmaße detektieren zu können. Diese Berechnungen sind auch für den Fall möglich, daß eines der beiden Profile bereits vorhanden ist. Mit SAGEstat steht also eine Software zur Verfügung, die die orientierende Planung effizient durchgeführter SAGE Projekte möglich macht.

Der modifizierte Z-Test ist nach Gleichung 8 einfach mittels eines Tabellenkalkulations-programmes zu berechnen.

Testvergleich

↓171

Der modifizierte Z-Test unterscheidet sich deutlich von den anderen drei evaluierten paarweisen Tests. Bei Anwendung dieses Tests werden statistisch signifikant mehr Tagpaare als unterschiedlich erachtet. Wenn jedoch nur diejenigen Tagpaare betrachtet werden, die einen Mittelwert von mindestens fünf aufweisen, verschwindet dieser Unterschied, was den Chi²-Test und den Test nach Audic und Claverie betrifft. Dies ist ein Hinweis darauf, daß das progressive Entscheidungsverhalten des modifizierten Z-Tests sich insbesondere auf den Bereich kleiner Taghäufigkeiten bezieht. Der Unterschied zwischen dem Z-Test und dem Test nach Madden et al. bleibt bestehen, wenn die Resultate des simulierten 5% Niveaus betrachtet werden. Dies spiegelt die Tatsache, daß der Test nach Madden im Gegensatz zum modifizierten Z-Test tendenziell konservativ entscheidet (Kal et al. 1999).

Vergleich der beiden Formen des Z-Testes

Es ist zu sehen, daß die modifizierte Testform sehr viel progressiver entscheidet als die von Kal et al. (1999) dargestellte Variante beziehungsweise der 4-Felder-Chi²-Test. Diese Eigenschaft des auf der Winkeltransformation beruhenden Z-Testes hat zur Folge, daß im Rahmen der Simulation üblicher SAGE Experimente vergleichsweise viele Tagpaare einen statistisch bedeutsamen Unterschied aufweisen (siehe auch Tabelle 23). Ob es sich bei Paaren, bei denen einer der Partner eine Häufigkeit von 0 hat, um eine Verletzung der Voraussetzungen des Z-Testes handelt, die zu falsch positiven Ergebnissen führt, wäre mittels eine Monte-Carlo-Studie zu prüfen (Bortz 19934, S. 123ff). Eine solche Studie überschreitet jedoch den Rahmen der vorliegenden Arbeit. Solange die Ergebnisse einer derartigen Studie zur Robustheit des modifizierten Z-Testes nicht bekannt sind, sollte bei der Entscheidung darüber, welche Tagpaare mit einem statistisch nachgewiesenen signifikanten Unterschied in weiteren Untersuchungen betrachtet werden sollen, berücksichtigt werden, daß bei Paaren, bei welchen das Transkript in einem der beiden Profile nicht beobachtet wurde, unter Umständen ein α-Fehler52 vorliegt.

Zusammenfassend ist zu sagen, daß der modifizierte Z-Test exakter und im Kontext von SAGE gültiger anzuwenden ist als die von Kal et al. (1999) vorgestellte Form. Insbesondere bei Projekten, die insgesamt eine große Anzahl an Tags sequenzieren oder - was die Genexpression betrifft - wenig komplexe Gewebe oder Zustände untersuchen, ist der Test zu empfehlen, da auf die Auswertung von Tags mit n = 0 verzichtet werden kann.

5.2.4  Reliabilität

↓172

Der Begriff Reliabilität bezieht sich auf das Ausmaß, in dem Messungen - unter gleichbleibenden Bedingungen durchgeführt - statistisch identisch repliziert werden können.

Im Folgenden wird diskutiert, inwiefern die Reliabilität von SAGE in der existierenden Literatur untersucht wird (5.2.4.1), was das in der vorliegenden Arbeit verwendete Versuchsdesign zur Untersuchung der Reliabilität genau beitragen kann, beziehungsweise ob und wie es die dazu notwendigen formellen Kriterien erfüllt, und auf welche der einleitend vorgestellten Komponenten der Reliabilität es sich dabei bezieht (5.2.4.2). Daran schließen sich die Diskussion der statistschen Ergebnisse dieser Arbeit, insofern sie die Reliabilität von SAGE betreffen (5.2.4.3), und ein Exkurs zur Validierung von SAGE Daten in der Literatur (5.2.4.4) an. Es folgen eine Erörterung derjenigen Aspekte der Praxis von SAGE, die die Reliabilität der Methode beziehungsweise ihr Messung beeinflussen könnten (5.2.4.5), und der Möglichkeiten die Meßgenauigkeit von SAGE zu verbessern (5.2.4.6) inklusive einer abschließenden Evaluation der durchgeführten Sequenzfehlerkorrektur. Es folgt ein Fazit (5.2.4.7) und ein Ausblick (5.2.4.8).

5.2.4.1  Die Reliabilität von SAGE in der Literatur

In der ersten Publikation von Velculescu et al. (1995) findet sich keine Aussagen zur Reliabilität von SAGE. Im Folgenden sollen spätere Veröffentlichungen, die das Thema Reliabilität behandeln, vorgestellt und bewertet werden.

↓173

Peters et al. (1999) behaupten, daß SAGE reliabel sei, ohne dies jedoch gesondert zu belegen oder experimentell zu überprüfen. Madden et al. (1997) schließen auf eine zufriedenstellende Reliabilität von SAGE, indem die beobachteten Expressionsstärken einiger "Housekeeping"-Gene und ribosomaler Proteine53 in den beiden untersuchten Expressionsprofilen vergleichen werden. Diesem Ansatz liegt die weit verbreitete Annahme zugrunde, daß die Expression dieser Gene konstant bleibt - unabhängig von Gewebsart, Entwicklungszustand und pathologischem Hintergrund, obwohl diese These bereits mehrfach hinterfragt (zum Beispiel Velculescu et al. 1999b) und widerlegt worden ist (zum Beispiel Spanakis 1993). Interessant ist in diesem Zusammenhang auch die Veröffentlichung von Michiels et al. (1999) über per SAGE erstellte zerebrale Expressionsprofile, in welcher "Housekeeping"-Gene wie GAPDH und γ-Aktin signifikant reguliert erscheinen. Desssenungeachtet, beziehen sich Madden et al. (1997) auf diese Transkripte und zeigen, daß sich GAPDH (107/92 Tags bei pro Profil circa 30.000 sequenzierte Tags), EF1 (327/396) und exogenes p53 (46/32) nach der von dieser Arbeitsgruppe für SAGE entwickelten Statistik auf dem 5% Niveau nicht statistisch signifikant unterscheiden. Hieraus wird geschlossen, daß SAGE ein reliables Verfahren sei. Wie gezeigt wurde, wäre es angemessen eine solche Fragestellung mit einem Äquivalenztest zu prüfen. In dem vorliegenden Fall ist genaugenommen keine positive Aussage zur Gleichheit der Transkripte möglich. Zudem ist die Teststatistik nach Madden et al. (1997) als konservativ entscheidend bekannt (Kal et al. 1999), was die Nichtannahme von H1 54 unterstützt. Die erneute Berechnung der Signifikanzen der drei von Madden et al. verwendeten Tagpaare mittels SAGEstat ergibt für EF1 einen p-Wert von 0,009, für GAPDH von 0,295 und für p53 von 0,115. Dies heißt, daß eines der Tagpaare (EF1) einen statistisch signifikanten Unterschied aufweist, so daß die globale H0 nicht angenommen werden kann55. Die Werte dieser Publikation lassen demzufolge nicht den Schluß zu, daß SAGE reliabel mißt. Zu kritisieren ist außerdem, daß lediglich drei Gene von pro untersuchtem Profil mehr als 9000 verschiedenen Genen verglichen werden. Die Autoren beziehen sich in ihrer Beweisführung also nur auf 0,03% der beiden von ihnen erstellten Expressionsprofile. Zudem handelt es sich hierbei um relativ häufig auftretende Transkripte, so daß die Aussage zur Reliabilität nur auf diese Expressionsniveaus beschränkt hätte getroffen werden können.

Eine Überprüfung der Reliabilität beziehungsweise ihrer Teilaspekte über das gesamte erstellte Expressionsprofil hinweg wäre folglich sinnvoller, wodurch sich auch ein fragliches Hilfskonstrukt wie die Verwendung von "Housekeeping"-Genen umgehen läßt. Von einem derartigen Experiment berichten Bertelsen und Velculescu (1998) in einem Review zu SAGE auf persönliche Kommunikation mit W. Zhou verweisend. Aus ein und derselben RNS Präparation wurden hier verschiedene SAGE Bibliotheken erstellt und miteinander verglichen. Sobald eine genügend große Anzahl an Tags sequenziert worden war, wurden Differenzen, welche zuvor bei geringerer Sequenzierungsmenge beobachtet worden waren, hinfällig, so daß sie auf Stichprobenvariationen zurückgeführt wurden. Die Autoren halten so erwiesen, daß die Messungen von SAGE eine gute Reliabilität aufweisen. Leider wird dieses Experiment nicht mit Zahlen belegt, so daß es nicht nachvollzogen werden kann. Es verweist jedoch auf die beiden Ebenen der Meßgenauigkeit von SAGE: die stochastischen Schwankungen, die mit dem Messen einer Stichprobe einhergehen, und die praktisch bedingte (methodische) Ungenauigkeit, die sich ebenfalls mit der Erhöhung der sequenzierten Tagmenge verringert (siehe S. 174f).

Angelastro et al. (2000a) verwenden zum Reliabilitätsnachweis ebenso wie Madden et al. (1997) "Housekeeping"-Gene (EF-1 Varianten) - ohne dies jedoch statistisch zu belegen. Die von der Autorin der vorliegenden Arbeit aus den angegebenen Expressionswerten ermittelten entsprechenden p-Werte lauten: EF-1 α 0,336, EF-1 ß 0,699, EF-1 γ 0,724 und EF-1 δ 0,842.56 Die Verschiedenheit der vier Transkripte in beiden Profilen kann folglich nicht angenommen werden. Da jedoch nicht das gesamte Profil geprüft wird, kann keine allgemeine Aussage zur Reliabilität von SAGE getroffen werden. Angelastro et al. (2000a) verweisen zusätzlich darauf, daß ihre Ergebnisse mit denjenigen aus der Literatur übereinstimmen. Es handelt sich dabei jedoch nicht - wie in der Publikation angenommen - um einen direkten Nachweis der Reliabilität, sondern um einen Hinweis auf die Validität von SAGE.

↓174

Die Literatur zur Reliabilität von SAGE gibt also ein widersprüchliches und unvollständiges Bild wider. Diese Lücken versucht die vorliegende Arbeit zu schließen. Inwiefern dies gelungen ist und mit welchem Ergebnis, soll in den folgenden Abschnitten diskutiert werden.

5.2.4.2 Formale Grundvoraussetzungen der Reliabilitätsuntersuchung

Reliabilitätsmessung allgemein

Reliabilität, wie sie einleitend definiert wurde, erfordert die statistische Gleichheit der Resultate einer mehrfach angewandten Methode. Die Prüfung dieser Gleichheit sollte unter den identischen Verhältnissen am selben Material geschehen, so daß sämtliche Schwankungen der Daten auf Anwender oder Methode zurückgeführt werden können. Diesem Ideal gerecht zu werden, ist jedoch in der Praxis von SAGE nur schwer möglich. Im Folgenden soll gezeigt werden, welche Probleme im Rahmen der vorliegenden Arbeit bei der Umsetzung des theoretischen Konzeptes der Ermittlung von Reliabilität entstanden.

Hier noch mal der Versuchsaufbau: Es wurde aus vier Mäusegroßhirnen von gesunden männlichen Tieren derselben Rasse, Alters,- und Gewichtsklasse die Gesamt-RNS extrahiert und vereinigt. Diese Transkriptgrundpopulation wurde zweigeteilt und parallel per SAGE untersucht, wobei pro Gruppe Zufallsstichproben von mehr als je 15000 Tags sequenziert wurden.

↓175

Da bei dem hier geschilderten Versuchsaufbau der zweite Durchlauf parallel erfolgte, kann die Bedingung "gleiche Verhältnisse" als weitestgehend erfüllt erachtet werden. Minimale Schwankungen können jedoch nie gänzlich ausgeschlossen werden. Das gilt insbesondere für langwierige Vorgänge wie dem zweiten NlaIII Verdau (siehe S. 67) oder der Ligation der Tags zu Konkatemeren (siehe S. 68), welche nicht an einem Tag zeitnah erfolgen konnten. Das bedeutet, daß in der Praxis in diesen Punkten bezüglich des Aspektes "gleiche Verhältnisse" ein gewisser Unsicherheitsfaktor besteht, der nicht quantifiziert werden kann.

Schwieriger gestaltet es sich mit der zweiten Forderung: Durchführung der Messungen am selben Material. Da im Zuge eines SAGE Durchlaufes die orginale RNS aufgebraucht wird, läßt sich SAGE - wie alle anderen Methoden zur Messung der Genexpression auch - nicht mehrfach am selben Material durchführen. Um sich dieser Bedingung der Reliabilitätsmessung anzunähern, wurde ein Pool hergestellt, das die RNS mehrerer Individuen in sich vereinigt. Auf diese Weise wurde eine sehr große Transkriptgrundpopulation geschaffen. Es wurde angenommen, daß durch die enorme Anzahl der darin enthaltenen RNS-Moleküle selbst gering exprimierte Gene dieselbe Chance haben, bei der Teilung des Pools in den beiden parallelen Durchläufen präsent zu sein.57

Die dritte Bedingung der Reliabilitätsmessung fordert die mehrfache Anwendung der zu evaluierenden Methode. Die Reliabilität einer Methode ist durch das Ausmaß des zufälligen Meßfehlers charakterisiert, das sich anhand von Meßwiederholungen bestimmen läßt.58 Je stärker dieser Fehler streut, um so größer muß die Anzahl der Beobachtungen sein, bis sich die Schätzung des Parameters stabilisiert. Diese Stabilisierung läßt sich auf unterschiedlichen Wegen erreichen. Im Rahmen der 'Framingham Heart' Studie (Dawber 1980) wurden zum Beispiel Reliabilitätsstudien zur Registrierung einiger Laborwerte durchgeführt. Diese kamen zu dem Schluß, daß beispielsweise eine Stichprobengröße von N = 10 bei jeweils zehn Wiederholungen pro Individuum genauso effizient den Meßfehler bestimmen kann wie nur je zwei Messungen von 100 Individuen. Auf SAGE übertragen, hieße das entweder viele (zum Beispiel 100) RNS-Pools zu teilen und jeweils die beiden Hälften parallel per SAGE zu messen oder wenige (zum Beispiel 10) Pools mehrfach zu teilen (10 mal) und ebenfalls parallel zu behandeln. Dies macht deutlich, daß dem vorgestellten Versuchsaufbau eine Dimension fehlt, da nur eine einzige Stichprobe (N = 1) zweimal gemessen wurde. Die genannten Versuchsdesigns würden jedoch den Rahmen der Möglichkeiten des hier vorgestellten Projektes sprengen. Diese Einschränkung hat zur Folge, daß die sinnvolle Anwendung standardmäßiger statistischer Kennwerte der Reliabilität wie beispielsweise der Fehlervarianz, dem Retest-Reliabilitätskoeffizienten oder "Intraclass Correlation" Koeffizient in der vorliegenden Arbeit nicht erfolgen kann, da diese mehr Stichproben erfordern.

↓176

Das bedeutet, daß in der vorliegenden Arbeit der Nachweis der Reliabilität nur indirekt erfolgen kann, indem die beiden ermittelten Merkmalsvektoren K1 und K2 daraufhin untersucht werden, ob ihre Verteilungen homogen sind (globale Ho), was - im dem Fall, daß H1 nicht angenommen werden kann - ein Hinweis darauf wäre, daß die Schritte eines SAGE-Durchlaufes keine Ungenauigkeit eingeführt haben. Die gleiche Vorgehensweise findet sich bei Spinella et al. (1999), um die Reliabilität der von ihnen entwickelten (SAGE ähnlichen) Methode zur Messung von Genexpression zu prüfen. Es werden ebenfalls zwei Expressionsprofile aus einem gemeinsamen RNS-Pool erstellt und die Tags mittels Vier-Felder-Chi²-Test paarweise auf statistische Unterschiede untersucht.59

Die Messung der verschiedenen Aspekte der Reliabilität

Die verschiedenen Aspekte von Reliabilität sind Reproduzierbarkeit, Wiederholbarkeit und Stabilität. Im Folgenden wird dargestellt, inwiefern diese vom Design der vorliegenden Studie erfaßt werden.

a) Stabilität

Beim Begriff der Stabilität steht die biologische Variabilität eines Individuums über die Zeit im Vordergrund. Da sämtliche molekular-biologischen Methoden zur Messung der Genexpression im Messen den Gegenstand ihrer Untersuchung zerstören, kann das Ausmaß dieser intraindividuellen Variabilität nie ermessen werden. Theoretische Überlegungen, Computersimulationen, chemische Modelle und indirekte Untersuchungen zeigen folgendes: Die natürlichen Schwankungen, die die biologische Variabilität bedingen, haben im Kontext der Genexpression - je nach Stärke des Promotors (Kierzek 2000) - stochastische und pulsatile Eigenschaften, was bedeutet, daß die Transkription großen Fluktuationen unterworfen sein kann (Newlands 1998, Arkin 1998). Diese Schwankungen können sich je nach Gen (Spanakis 1994), nach Tageszeitpunkt (Lavery 1997), nach Zelltyp und Entwicklungsphase unterschiedlich gestalten. Selbst ständig vorhandene Proteine können von nicht-kontinuierlich aktiven Genen kodiert werden (Kierzek 2000, Newlands 1998). Dies hat zur Folge, daß die zeitlichen Muster einer spezifischen Expression in einzelnen Zellen eines Zellverbandes sich unter Umständen wenig gleichen und unberechenbar sein können (McAdams 1997).

↓177

Diese natürliche Variabilität beeinflußt vor allem dann sämtliche Aspekte der Reliabilität, wenn Messungen an einzelnen Individuen durchgeführt werden, da sie Teil der interindividuellen Variabilität ist. Um diese Einflußgröße statistisch in den Griff zu bekommen, wäre es notwendig, die Werte mehrerer Individuen statistisch zu mitteln (Spanakis 1994). Da jedoch ein Teil der Anwendungen von SAGE auf die Verwendung immer kleinerer Mengen zielt (Datson et al. 1999, Peters et al. 1999, Ye und Zhang 2000) - bis hin zum Vergleich von Einzelzellanalysen (Brady 2000), ergibt sich das Problem, daß Einzelfälle verglichen werden, deren intra- und interindividuellen Variabilitäten unbekannt sind - ein statistisch fragliches Unterfangen. Wenn die RNS mehrerer Individuen vereinigt wird, um eine ausreichend große Menge für einen SAGE-Durchlauf zur Verfügung zu haben, können interindividuelle Schwankungen eventuell ausgeglichen werden. Es besteht jedoch auch die Gefahr, daß einzelne stark abweichende Expressionsmuster die Resultate verzerren (Welle et al. 2000). Auch hier ist das Problem, daß die Variabilitäten nicht bekannt sind und so nicht beim Vergleich von Expressionsprofilen bedacht werden können.

In der vorliegenden Arbeit wurden die beiden Hälften eines einzigen RNS-Pools verglichen, so daß der Faktor Stabilität keine Rolle spielt, deswegen aber auch nicht erfaßt werden kann.

b) Reproduzierbarkeit

Die Höhe der Reproduzierbarkeit einer Methode ist unmittelbar abhängig von der Exaktheit der Arbeitsweise des Untersuchers. Da im Laufe der Durchführung von SAGE verschiedene Untersucher beteiligt waren, ist es nicht möglich die Reproduzierbarkeit, die sich per definitionem auf die Gleichheit der Resultate wiederholter Durchläufe eines einzigen Untersuchers bezieht, einzuschätzen. Es kann nicht im Sinne effizienter Forschung und sinnvollem Zeit- und Arbeitskraftmanagement sein, eine derart arbeitsintensive Methode wie SAGE von einer einzigen Person durchführen zu lassen, so daß die Überprüfung der Reproduzierbarkeit von SAGE nicht praktikabel zu sein scheint. Durch standardisiertes Arbeiten soll erreicht werden, daß Schwankungen der Reproduzierbarkeit möglichst gering ausfallen.

c) Wiederholbarkeit

↓178

Das Ausmaß der Wiederholbarkeit wird per definitionem nur von der Meßmethode selbst beeinflußt. Die Abschätzung der Größe dieses Einflusses, erfordert die Prüfung der Gleichheit der Resultate, welche ein Verfahren liefert, indem dieses unter gleichen Bedingungen (das hießt auch von einer Arbeitsgruppe) am selben Material erneut durchgeführt wird. Dies entspricht dem Versuchsaufbau der vorliegenden Arbeit.

5.2.4.3 Die statistische Überprüfung der Reliabilität

Die statistische Prüfung der Reliabilität von SAGE erfolgte in der vorliegenden Arbeit indirekt. Die beiden Profile wurden auf Homogenität (Chi-Test für k x 2 Felder-Tafeln mit Monte-Carlo-Simulationen) geprüft. Dabei wurde davon ausgegangen, daß die beiden Expressionsprofile, die parallel erstellt worden waren, die statistisch gleichen Resultate liefern würden, wenn die Meßgenauigkeit von SAGE hinreichend groß wäre. Ein solches Vorgehen kann keine exakten quantitativen Aussagen zur Reliabilität liefern, sondern lediglich qualitative Hinweise geben. In dem Fall, daß H1 (statistische Ungleichheit) angenommen werden kann, wäre SAGE als nicht reliabel einzustufen.

Dies ist in der hier vorliegenden Untersuchung der Fall. H1 mußte angenommen werden, da sich die beiden Profile - insgesamt betrachtet - als statistisch nicht identisch erwiesen. Das bedeutet jedoch nicht zwangsläufig, daß die Reliabilität von SAGE schlecht ist. Dies soll im Folgenden begründet werden.

↓179

Da SAGE ein "sammelndes" Verfahren ist, das aus der Grundpopulation eines Transkriptoms Stichproben entnimmt, sind in Abhängigkeit von der Größe dieser Stichprobe gewisse stochastische Schwankungen vorhanden (siehe dazu auch S. 21). Im Fall der vorliegenden Arbeit könnten die Abweichungen der Transkriptverteilungen von K1 und K2 entweder auf eine tatsächlich vorhandene Ungenauigkeit verweisen, die im Laufe eines SAGE Durchlaufes entsteht (für eine genaue Analyse der molekularbiologischen Praxis siehe S. 174f), oder durch die Stichprobenvariabilität entstanden sein. Diese ist im hier diskutierten Projekt aufgrund der Komplexität des untersuchten Gewebes und der relativ kleinen Stichprobe vermutlich hoch. Dies bedeutet, daß in der vorliegenden Arbeit keine endgültige Aussage zur Reliabilität möglich ist - bis auf die folgende: Im vorliegenden Kontext (geringe Stichprobe, komplexes Gewebe) liefert SAGE keine statistisch identischen Tagzahlen und kann nicht als reliabel messend eingestuft werden. Ein weiterer Gesichtspunkt ist, daß ein Chi²-Test (mit Variante: Kontingenzkoeffizient) verwendet wurde, welcher mit wachsendem Stichprobenumfang60 schnell signifikant wird (mündliche Mitteilung K. Wernecke), so daß progressiv zugunsten der Alternativhypothese entschieden wird.

Diskussion der Resultate des Kontingenzkoeffizienten

Die statistische Prüfung der Reliabilität von SAGE wurde in der vorliegenden Arbeit durch die Analyse der Daten mit einem zweiten statistischen Modell ergänzt. Zusätzlich zur Prüfung der beiden Profile auf Homogenität (siehe vorherigen Abschnitt) wurde untersucht, ob zwischen ihnen ein Zusammenhang besteht (Kontingenzkoeffizient).

Diese ergänzende Betrachtung der beiden Profile als verschiedene Merkmalsausprägungen einer Stichprobe anhand einer Kontingenztafel und der Berechnung eines Zusammenhangmaßes (Cramers V), führt zur Bestätigung der Hypothese, daß die beiden Gruppen voneinander stochastisch abhängig sind. Zu berücksichtigen ist dabei, daß möglicherweise eine Inhomogenitätskorrelation bestehen könnte. Aufgrund weit auseinanderliegender Werte entsteht hierbei ein künstlicher Korrelationseffekt, der bei Betrachtung nahe beieinanderleigender Wertegruppen verschwindet.

↓180

Im Folgenden werden die Resultate der Untersuchung des Zusammenhangsmaßes Cramers V genauer dargestellt. Nach Bortz (1990, S. 60) ist die über einen Kontingenzkoeffizienten definierte Reliabilität einer biologischen Beobachtung hoch, wenn sie 0,9 erreicht. Bei 0,7 ist sie zufriedenstellend und bei 0,5 ausreichend.61 Wie sind in diesem Bewertungsschema die Ergebnisse der vorliegenden Arbeit unter der hypothetischen Annahme, daß keine Inhomogenitätskorrelation vorliegt, einzustufen?

Wenn die gesamten Datensätze betrachtet werden, kann die Reliabilität von SAGE - wie sie hier gemessen und definiert wurde - als zufriedenstellend bis ausreichend bezeichnet werden. Dies gilt sowohl für die Daten ohne Sequenzfehlerkorrektur als auch für diejenigen mit Korrektur, wobei letztere dem Augenschein nach einen etwas niedrigeren Kontingenzkoeffizienten aufweisen (0,681 versus 0,637).62 Werden die Datensätze anhand der Größe des Mittelwertes aufgeteilt (m < beziehungsweise≥ 5) ist zu sehen, daß die Reliabilität in beiden Datensätzen für die Tagpaare, die einen Mittelwert von größer oder gleich fünf haben, weiterhin als zufriedenstellend bis ausreichend eingestuft werden kann (0,693 und 0,642).63 Tagpaare dagegen, deren Mittelwert kleiner als fünf ist, können nicht als reliabel gemessen eingestuft werden (0,316 und 0,286). Es scheint also eine Abhängigkeit der Reliabilität von SAGE von der beobachteten Häufigkeit der Tagpaare vorzuliegen. Dieses Resultat kann verschiedene Ursachen haben. a) Die Streuung (Fehlervarianz) ist im Bereich kleiner Häufigkeiten tatsächlich größer. Darüber kann jedoch im Rahmen der vorliegenden Arbeit keine zuverlässige Aussage gemacht werden, da dazu mehrere Profile in die Berechnungen einbezogen werden müßten. b) Es liegt doch eine Inhomogenitätskorrelation vor. Das heißt, daß bei Betrachtung der Gesamtprofile beziehungsweise der Tags mit m≥ 5 eine so starke Inhomogenität der Werte vorliegt (0 beziehungsweise 5 bis über 300), daß dadurch der Kontingenzkoeffizient künstlich hoch wird. Während die Daten bei der Berechnung von Cramers V für Tags, deren Mittelwert m < 5 ist, homogener sind (0 - 4), so daß in diesem Fall kein Korrelationseffekt durch Lageunterschiede erzielt wird.64

Diskussion des Zusammenhangs von Reliabilität und Taghäufigkeit

Die Frage, ob sich die Größe der Fehlerschwankungen mit der Höhe des Expressionsniveaus ändert, kann in der vorliegenden Arbeit nicht klar beantwortet werden, da aufgrund des Versuchsdesigns (indirekte Reliabilitätsmessung) nur qualitative Aussagen gemacht werden können (siehe S. 165). Wenn die molekular-biologischen Praxis von SAGE betrachtet wird (siehe unten), lassen sich keine theoretischen Erklärungen für einen solchen Zusammenhang finden. Da jedoch größere Häufigkeitswerte - bei angenommener konstanter Fehlervarianz - Häufigkeitsschwankungen besser tolerieren als kleine Werte und das Problem der Stichprobenvariabilität bei Transkripten niedriger Expressionsniveaus eine größere Rolle spielt, erscheint in praxi die Betrachtung von Transkripten, welche häufig auftreten, genauer. Eine absolute Schwankung von beispielsweise ± 4 Tags führt zu starken Meßunsicherheiten, wenn der wahre Wert eine Transkriptes bei 5 Tags liegt, während ein Tag, das realiter 100 mal vorhanden ist, auch durch einen Wert von 97 oder 104 hinreichend genau erfaßt zu werden könnte. Dieser Zusammenhang führt zu der Empfehlung, nur Tagpaare, die eine gewisse Häufigkeit aufweisen, in die Auswertung von SAGE Projekten einzubeziehen. Dies entspricht dem bereits diskutierten Kriterium der "minimalen Taghäufigkeiten". Um bei obigem Beispiel zu bleiben: Bei Schwankungen von ± 4 kann ein Tagpaar mit den Werten 1/9 unreguliert sein (wahrer Wert wäre in beiden Fällen zum Beispiel 5) oder aber auch wirklich reguliert. Wären in diesem Beispiel Mengen der Größenordnung der vorliegenden Arbeit sequenziert worden, wäre das Tagpaar statistisch signifikant verschieden. Es entspräche auch dem Kriterium "größer zweifach reguliert". Dies zeigt, wie wichtig es ist, zusätzlich zur statistischen Signifikanz, dem Kriterium einer Mindestregulation auch das Kriterium "minmale Taghäufigkeit" zu beachten. Im Fall sehr kleiner Taghäufigkeiten entsteht sonst ein Bereich, in dem häufig falsch positive Resultate zu finden sind.

↓181

Finden sich zu diesem Aspekt von SAGE Hinweise in der Literatur?

Vingron und Hoheisel (1999) weisen in einem Review zu SAGE darauf hin, daß reliable Schätzungen der Taghäufigkeiten erst ab einer bestimmten Menge an insgesamt sequenzierten Tags stattfinden können. Audic und Claverie (1997) behaupten, daß reliablere Aussagen über Tags getroffen werden können, deren absolute Häufigkeiten höher sind. Beiden Aussagen ist gemeinsam, daß sie den oben erörterten Zusammenhang von Schwankungen der Meßwerte und deren Größe mit einer Veränderung der Reliabilität gleichsetzen - ohne dies jedoch zu belegen oder Zahlen zu nennen. Ein weiterer Hinweis zu diesem Thema findet sich bei Ishii et al. (2000). Diese Publikation vergleicht die Resultate von SAGE und einer Chip-Technik. Hier geht es um die Übereinstimmung zweier Methoden. Die Reliabilität beider ist eine der notwendigen Voraussetzungen für ihre Übereinstimmung, weswegen an dieser Stelle ein Ergebnis der Studie erwähnt werden soll. Die Messungen beider Methoden sollen näher beieinander liegen, wenn höhere Expressionsniveaus verglichen werden.65 Auch hier läßt sich hinsichtlich der Meßgenauigkeit keine Aussage zur Ursache dieser Beobachtung machen.

Zusammenfassend läßt sich sagen:

↓182

Die Reliabilität von SAGE kann den Ergebnissen der vorliegenden Arbeit entsprechend - das heißt im vorliegenden Kontext - nicht als gut eingeschätzt werden. Es kann jedoch keine Aussage dazu gemacht werden, ob dies der Methode selbst, das heißt ihrer molekularbiologischen Praxis und der Datenaufbereitung, anzulasten ist oder einer großen Stichprobenvariabilität. Anhand welcher Studiendesigns diese Fragen beantwortet werden könnten, soll im Abschnitt Ausblick zusammengefaßt werden (ab S. 183).

Dieses Ergebnis der vorliegenden Reliabilitätsstudie führt dazu, sich den eingangs postulierten Erwartungen erneut zuzuwenden und zu analysieren, ob deren Grundlagen unter Umständen fehlerhaft sein könnten. Dies soll im folgenden Exkurs zur Validität geschehen.

5.2.4.4  Exkurs: Validierung von SAGE Daten in der Literatur

Einer der Gründe dafür, zu Beginn der vorliegenden Arbeit die Hypothese aufstellen zu können, daß die Reliabilität von SAGE als gut einzuschätzen ist, war, daß sich die per SAGE erstellten Expressionsdaten in der Literatur gut per Northern Blot oder anderer Methoden validieren ließen. Da das Vorhandensein von Validität an die Existenz eines gewissen Maßes von Reliabilität geknüpft ist (siehe S. 23), wurde letztere bisher als gegeben angenommen.Wenn die Reliabilität von SAGE - wie im vorliegenden Kontext - sich nicht als eindeutig gut darstellt, wie lassen sich dann die guten Ergebnisse der Validierungen in der Literatur erklären?

↓183

Eine zweite Durchsicht der Literatur ergibt methodische Mängel der statistischen Prüfungen der Validität von SAGE. Da die diese jedoch nicht das Thema der vorliegenden Arbeit ist, soll an dieser Stelle im Folgenden lediglich beispielhaft auf zwei frühe Veröffentlichungen der Arbeitsgruppe, die SAGE entwickelt hat, eingegangen werden.

In der ersten Publikation zu SAGE (Velculescu et al. 1995) erfolgte die Validierung der Taghäufigkeiten der hier erstmals vorgestellten Methode per Vergleich mit den Hybridisierungsergebnissen von cDNS Bibliotheken. Dies geschah nur für 10 verschiedene Gene (von 428 insgesamt beobachteten) und ohne statistischen Prüfung. Die Tatsache, daß sich die relativen Quantitäten der beiden Methoden per Augenschein ähnlich waren, genügte, um zu der Schlußfolgerung zu kommen, daß eine "gute Übereinstimmung" (Velculescu et al. 1995) zwischen beiden besteht.

1997 geben Velculescu et al. an, daß die Korrelation der Expressionsniveaus von einigen Genen, die sich in einer Untersuchung zur Genexpression der Hefe als stark exprimiert und/oder statistisch signifikant reguliert erweisen haben, mit Daten, die per Northern Blot und PhosporImager erstellt wurden, hoch ist. Das angegebene Bestimmtheitsmaß r² liegt bei 0,97. Wenn dieser Kennwert für die beiden Profile (Daten ohne Sequenzfehlerkorrektur) der vorliegenden Arbeit berechnet wird, ergibt sich ein Wert von 0,84 (r = 0,91), also ebenfalls eine sehr hohe Korrelation, die sich jedoch bei Anwendung der adäquaten Statistik nicht bestätigt66. Der hier verwendete Korrelationskoeffizient (Produkt-Moment-Korrelation) dient der Messung eines linearen Zusammenhangs metrisch skalierter Merkmale67, wohingegen adäquate Zusammenhangsmaße für nominal skalierte Häufigkeitsdaten, wie sie im Falle von SAGE vorliegen, Kennwerte wie beispielsweise die verschiedenen Kontingenzkoeffizienten wären (Bortz 1993, S. 215f).68 Die Richtigkeit der von Velculescu et al. (1997) getroffenen Aussage zur Validität kann also nicht beurteilt werden. Außerdem handelt es sich bei beiden Untersuchungen um keine vollständige Überprüfung der Validität von SAGE, sondern nur um eine Teilbetrachtung "repräsentativer" (Velculescu et al. 1997) Gene, nämlich stark exprimierter und statistisch signifikant regulierter. Eine Untersuchung der Validität gesamter SAGE Profile, die sehr aufwendig wäre, in Kombination mit derjenigen Statistik, die dem Skalenniveau der Daten und dem Untersuchungsziel angemessen ist, steht noch aus.

↓184

Diese kurze Diskussion sollte andeutungsweise begründen, weshalb zwischen den veröffentlichten Resultaten zur Validität von SAGE und den hier dargestellten Ergebnissen zur Reliabilität nur ein scheinbarer Widerspruch besteht.

5.2.4.5 Inhaltliche Bewertung der Reliabilität von SAGE

Es folgt eine Zusammenfassung methodischer Probleme von SAGE unter dem Gesichtspunkt ihrer Auswirkung auf die Reliabilität des Verfahrens.

Zur Erinnerung: Meßungenauigkeit im Sinne der methodischen Reliabilität entsteht durch zufällige Fehler. Derartige Fehlermöglichkeiten in der Praxis von SAGE sollen im folgenden dargestellt werden. Dabei ist folgendes zu beachten: "Es liegt in der Natur der zufälligen Fehler, daß über ihre Ursachen nur wenig ausgesagt werden kann. " (Hart et al. 19977, S. 62).

↓185

Ein SAGE-Durchlauf kann in drei Phasen eingeteilt werden:

Da diesen Phasen sehr unterschiedliche Prozesse zugrunde liegen, ist es sinnvoll, bei der inhaltlichen Betrachtung der Reliabilität von SAGE diese getrennt zu bewerten.

Erste Phase: Von der Extraktion der Gesamt-RNS bis zur Fertigstellung der Polytags

↓186

Generell sind molekular-biologische Technologien durch Schwankungen der Umgebungs-temperatur, der Enzymaktivitäten (besonders von NlaIII), der Pipettiervolumina et cetera für zufällige Fehler anfällig. Dies spielt gerade bei einer aufwendigen Methode wie SAGE, die viele komplexe Schritte beinhaltet, eine gewichtige Rolle und trägt dazu bei, daß deren Meßgenauigkeit sinken kann. Bei der Diskussion der Etablierung von SAGE wurde außerdem deutlich, daß es über diese allgemeinen Punkte hinaus besonders vulnerable Schritte gibt, die die Wiederholbarkeit beeinflussen können.

Zweite Phase: Sequenzierung

Der Sequenzfehler hat einen großen Einfluß auf die Meßgenauigkeit von SAGE, da sich durch diesen zufälligen Fehler die ermittelten Häufigkeiten direkt verändern. Die für die vorliegenden Daten aus den Linkersequenzierungen geschätzte maximale Wahrscheinlichkeit für mindestens einen Fehler liegt bei 31%, was die Reliabilität von SAGE deutlich einschränkt. Hier ist noch mal die Wichtigkeit einer Sequenzierung in beiden Richtungen zu betonen69. Die entstehenden Mehrkosten senken aufgrund der präziseren Ergebnisse den Kostenaufwand der Folgestudien.

Dritte Phase: Auswertung

Um aus einem SAGE Projekt sinnvolle Aussagen ableiten zu können, ist eine Auswertung der SAGE Rohdaten in drei Schritten - Erstellung der endgültigen Tagliste, Homologierecherche und Statistik - notwendig. Auch hier haben bestimmte Schritte oder Konstellationen besondere Relevanz für die Reliabilität von SAGE. Im folgenden sollen die ersten beiden Schritte beleuchtet werden.

a) Erstellung der endgültigen Tagliste

↓187

Hierbei ist die Elimination der Linkerartefakte hervorzuheben. Durch die Entfernung der Linkerderivate wie es in der vorliegenden Arbeit geschehen ist, ergibt sich die Situation, daß ein Linkertag, wenn es sich aufgrund von mehrfachen Sequenzlesefehlern um mehr als eine Base von den Orginallinkern unterscheidet, im Datensatz verbleibt. Die geschätzte Wahrscheinlichkeit für das Vorhandensein derartiger Derivate beträgt für die vorliegenden Daten 5% (siehe S. 93). Wenn ein solches Derivat zufälligerweise mit einem bereits vorhandenen Tag übereinstimmt, verfälscht es dessen Häufigkeitswert, so daß die Meßgenauigkeit negativ beeinflußt wird. Wenn ein solches Linkerartefakt mit mehrfachen Sequenzfehlern dagegen mit keinem Tag aus einer RNS Population korrespondiert - was allerdings erst auffallen könnte, wenn sämtliche mögliche Tags eines Gewebes oder einer Spezies bekannt sind - kann es ebenfalls die Reliabilität von SAGE senken, da es sein Zustandekommen einem zufälligen Fehler verdankt, der in den beiden Profilen unterschiedlich ausfallen kann. Über Tags, die realiter von einer Boten-RNS abstammen, die jedoch im Rahmen der Entfernung von Linkerartefakten eliminiert werden, weil sie per Zufall von einer Base abgesehen mit den Linkersequenzen übereinstimmen, kann bezüglich der Reliabilität keine Aussage getroffen werden, da sie nicht gemessen werden.70

b) Homologierecherche

Die Reliabilität, wie sie in der vorliegenden Arbeit betrachtet wird, bezieht sich auf die Messung der Taghäufigkeiten. Die Reliabilität der Homologierecherche selbst wird statistisch nicht erfaßt. An dieser Stelle soll auf Aspekte eingegangen werden, die die Genauigkeit der Homologierecherche und auch das quantitative Resultat von SAGE beeinflussen können.

Wenn ein Tag zum Beispiel aufgrund eines unvollständigen NlaIII Verdaus als inneres Tag (5% bei Welle et al. 1999) erscheint, jedoch als solches bei der Auswertung nicht erkannt und demzufolge falsch zugeordnet wird, wird die Genauigkeit von SAGE vermindert, da die Häufigkeit des eigentlichen Transkriptes zu gering ausfällt, während diejenige eines anderen Tags fälschlicherweise ansteigt oder aber ein neues Tag entsteht. Durch die Zuordnung der Tags zu Genen kann die induzierte Meßungenauigkeit noch ausgeweitet werden, wenn ein neu entstandenes Tag einem bislang reliabel bestimmten Gen durch die Homologierecherche mit zugeordnet wird und so dessen Häufigkeitswert verzerrt.

↓188

Ein zweiter Aspekt, der im Kontext von üblichen SAGE Experimenten relevant sein kann: Wenn Expressionsprofile verglichen werden, welchen - im Gegensatz zur vorliegenden Arbeit - jeweils unterschiedliche Individuen zugrunde liegen und in deren Transkriptomen verschiedene Polymorphismen (SNPs, Spleißvarianten, siehe S. 100ff) vorliegen, dann entstehen für ein und dasselbe Gen (teilweise) unterschiedliche Tags. Hinsichtlich der Reliabilität der Messung sind dann drei Konstellationen möglich: Werden die Tags der beiden Expressionsprofile unmittelbar verglichen, ergibt sich eine erhöhte Meßungenauigkeit. Dies hat zur Folge, daß der Vergleich von Tagprofilen einzelner Individuen nicht reliabel sein kann und deswegen nicht durchgeführt werden sollte.Werden die Genprofile nach erfolgter Homologierecherche verglichen, können - wenn die Polymorphismen in der Datenbank enthalten sind - die Verhältnisse wieder ausgeglichen sein. Wenn jedoch nicht alle Polymorphismen in die UniGene Cluster aufgenommen sind - wovon zum gegenwärtigen Zeitpunkt ausgegangen werden kann - oder aber durch Polymorphismen eine NlaIII Erkennungssequenz zerstört oder eine neue einführt wurde, werden Tags gar nicht oder falsch zugeordnet. Dann ergibt sich auch beim Vergleich der zugeordneten Tags ein quantitatives Reliabilitätsproblem. Dies macht deutlich, daß in der vorliegenden Reliabilitätsstudie nicht alle Aspekte, welche die Meßgenauigkeit von SAGE beeinflussen, erfaßt werden können, da bestimmte Probleme zum Beispiel erst im Zusammenhang mit Vergleichen unterschiedlicher Individuen an Einfluß gewinnen.

Dieser Abschnitt sollte deutlich machen, daß SAGE zahlreichen Einflüssen unterworfen ist, welche die Reliabilität dieser Methode negativ beeinflussen könnten. Kann den dargestellten Problemen, begegnet werden? Und wenn ja, wie? Diese Fragen sollen im Folgenden beantwortet werden.

5.2.4.6  Möglichkeiten zur Behandlung des zufälligen Fehlers

Exaktes Arbeiten unter möglichst gleichbleibenden Bedingungen und Modifikationen in der Praxis von SAGE, wie die im ersten Teil der Arbeit diskutierten, die zufällige Schwankungen minimieren, können die Reliabilität erhöhen. Ganz vermeiden lassen sich zufällige Fehler jedoch nicht - gerade bei einer komplexen Methode wie SAGE. Über diese allgemeinen Vorschläge hinaus ist der Zusammenhang von Meßgenauigkeit und Stichprobengröße (auf verschiedenen Ebenen) zu beachten.

↓189

Allgemein gilt: Bei geringer Reliabilität streuen Werte weiter als bei hoher. Das bedeutet, daß, je geringer die Reliabilität eines Verfahrens ausfällt, desto mehr Beobachtungen notwendig sind, um ein statistisch signifikantes Ergebnis im Rahmen eines üblichen SAGE Experimentes zu erzielen (Bortz et al. 1990, S. 60). Eine Lösungsmöglichkeit für zufällige Fehler, die im Laufe eines SAGE Durchlaufes entstehen, wäre also, die Stichprobengrößen auf verschiedenen Ebenen zu erhöhen. Was dies in bezug auf die verschiedenen Phasen von SAGE genau bedeutet, soll im folgenden dargestellt werden.

Im Kontext von SAGE können drei Arten von Stichproben unterschieden werden: die Anzahl der untersuchten Individuen, die Anzahl der parallel durchgeführten Durchläufe, die auf einem einzigen aufgeteilten RNS-Pool oder auf verschiedenen Pools basieren, und die Anzahl der sequenzierten Tags als Stichprobe der Gesamtpopulation "untersuchtes Transkriptom". Je nachdem welche Phase oder Problematik betrachtet wird, ist eine andere Stichprobenart der Bezugpunkt.

Die der ersten Phase von SAGE, der Hauptphase aus der Sicht molekular-biologischer Praxis, zugrundeliegende Stichprobe ist die Anzahl der durchgeführten Durchläufe. Dies hieße, entweder eine (mehrfache) Spaltung der extrahierten RNS wie in der vorliegenden Arbeit durchzuführen oder diverse RNS-Pools zur Erstellung eines einzigen Expressionsprofils zu untersuchen.71 Es stellt sich jedoch die Frage, inwiefern eine derartige Forderungen in einem Standardlabor umsetzbar ist.

↓190

Um die durch Polymorphismen des Transkriptoms und anderen interindividuellen Unterschieden induzierten zufälligen Schwankungen auszugleichen, müßte ein Expressionsprofil auf der Basis von vielen Individuen erstellt werden. Dies stellt - abgesehen von speziellen Varianten von SAGE, die kleine Mengen und damit einzelne Individuen untersuchen können - den Normalfall eines SAGE-Durchlaufes dar. Durch das Poolen werden die Schwankungen jedoch nicht quantifiziert. Ideal wäre auch hier, das Mitteln mehrer Profile von unterschiedlichen Individuen.

Die Streuung des zufälligen Fehlers bei der Sequenzierung der Polytagketten bezieht sich auf die Anzahl der sequenzierten Tags. Hier ermöglicht eventuell die Steigerung der Effizienz der Sequenzierautomaten einen Handlungsspielraum, um eine möglichst große Anzahl an Tags bei möglichst geringen finanziellen und personellem Aufwand zu erreichen.72

Um zu versuchen, diesen zufälligen Sequenzfehler für die vorliegenden Daten auf einem andere Weg zu reduzieren und so die Reliabilität a posteriori positiv zu beeinflussen, war ein Computerprogramm zur systematische Korrektur entwickelt worden, das Tags, welche nur einmal vorkamen, häufigeren Tags zuordnete, wenn ein Unterschied von einer Base bestand (siehe S. 75). Somit sollte die zufällige Streuung der Werte und die Verschiedenheit der Tagpaare reduziert werden. Im Folgenden wird die statistische Evaluation dieser Korrektur erörtert und die Korrektur bewertet werden.

Evaluation der Sequenzfehlerkorrektur

↓191

Im statistischen Vergleich der beiden Datensätze "mit" versus "ohne" diese Korrektur wurde geprüft, ob sich diese Korrektur in den Ergebnissen der paarweisen Signifikanztests insofern äußert, als in dem Datensatz mit Korrektur weniger Paare mit statistisch signifikanten Unterschieden zu finden seien. Dazu wurde folgendes Vorgehen gewählt. Es wurde die Anzahl der Tagpaare, die in Rahmen der Simulation üblicher SAGE Experimente einen statistisch bedeutsamen Unterschied aufweisen (simuliertes 5% Niveau), der beiden Datensätze einander gegenüber gestellt. Im Folgenden werden die Ergebnisse dieses Vergleichs diskutiert.

Es kann nicht nachgewiesen werden, daß durch die systematische Korrektur des Sequenzfehlers eine stärkere Homogenität zwischen K1 und K2 entsteht, wie aufgrund der theoretischen Überlegungen angenommen worden war. Über die Gründe hierfür lassen sich verschiedene Vermutungen anstellen, die kurz dargestellt werden sollen.

Wenn die Anzahl der Tagpaare verglichen wird, welche auf dem 5% Simulationsniveau statistisch verschieden erscheinen, dann ist - entgegen der aufgestellten Hypothese - in dem Datensatz mit Korrektur eine vergleichsweise höhere Anzahl dieser statistisch unterschiedlichen Paare finden. Das bedeutet, daß die in dieser Arbeit entwickelte Sequenzfehlerkorrektur nicht zur Erhöhung der Meßgenauigkeit beiträgt. Dies wirft die Frage auf, inwiefern die Korrektur unzureichend ist.

↓192

Da lediglich Tags zugeordnet werden, die eine Häufigkeit von 1 haben, wird nur ein Bruchteil des vorhandenen Fehlers ausgeglichen. Des weiteren erhalten Tags, die mindestens 3 mal vorkommen, gegebenenfalls durch die Korrektur einen höheren Wert. Fehlerhafte Tags dagegen, welche fälschlicherweise häufigen Tags zugerechnet werden, werden von diesen nicht abgezogen. Das heißt, daß die Korrektur assymetrisch erfolgt: von unten nach oben, nicht jedoch umgekehrt.

Ein weitere Erklärung ist folgende. Der Entwicklung der hier geprüften Hypothesen liegt die Annahme zugrunde, daß von einer Gleichheit der beiden Profile ausgegangen werden kann (globale H0, siehe S. 116). Dann würde bei genauerem Messen durch die Korrektur eine Reduktion der Verschiedenheit zu erwarten sein. Wenn aber durch die Herstellung der SAGE Profile zufällige Ungenauigkeiten (vergleiche S. 174ff), welche die Reliabilität von SAGE senken, induziert werden, welche die beobachteten unterschiedlichen Taghäufigkeiten widerspiegeln, dann könnte das genauere Messen durch die Sequenzfehlerkorrektur diese Unterschiede deutlicher werden lassen. Das würde bedeuten, daß die hier vorgestellten Ergebnisse nicht gegen die Korrektur, sondern für sie sprechen würden. Diese Überlegung reflektiert die Tatsache, daß aufgrund der Komplexität von SAGE zufällige Fehler, welche die Reliabilität der Methode beeinflussen, zu verschiedenen Zeitpunkten auftreten können und sich fortpflanzen.

Eine aufwendige Überprüfung der in der vorliegenden Arbiet entwickelten Fehlerkorrektur und der oben aufgestellten Erklärungsansätze wäre, SAGE Daten aus einfachen Sequenzierungen mit und ohne Korrektur mit Daten zu vergleichen, die aus doppelten Sequenzierungen stammen, so daß davon ausgegangen werden kann, daß nur ein minimaler Sequenzfehler vorliegt und diese Sequenzdaten als externe Kontrolle im Sinne einer Validierung fungieren können. Es könnte so überprüft werden, ob die a posteriori Korrektur eine Annäherung des Datensatzes an denjenigen des doppelt sequenzierten erbringt.

↓193

Als Fazit der Sequenzfehlerkorrektur ist folgendes zusammenzufassen: Solange die Ursachen der Ergebnisse des hier vorgestellten Vergleiches nicht bekannt sind, sollte die Korrektur in der in dieser Arbeit entwickelten Form nicht angewendet werden. Die Ergebnisse machen auch deutlich, welchen herausragenden Stellenwert das möglichst fehlerfreie Sequenzieren hat, da so sekundäre Korrekturen nicht notwendig werden.

5.2.4.7  Fazit der ermittelten Reliabilität

Die Reliabilität von SAGE, wie sie in der vorliegenden Arbeit ermittelt wurde, kann nicht als gut bezeichnet werden. Es bleibt jedoch offen, ob die ermittelten Unterschiede auf mangelnde methodische Meßgenauigkeit von SAGE oder aber auf stochastische Schwankungen, die der Stichprobenentnahme geschuldet sind, zurückzuführen sind.

Was bedeutet das für die Verwendung von SAGE zur Messung von Transkriptomen?

↓194

Es heißt nicht, daß SAGE nicht als wissenschaftliche Methode benutzt werden kann, sondern daß bestimmte Aspekte bei der Auswertung und Interpretation der Expressionsdaten berücksichtigt werden sollte. Diese werden im Folgenden zusammengefaßt.

• Das Charakteristikum, daß SAGE ein Stichproben untersuchendes Verfahren ist, führt dazu, daß durch die Größe der Stichprobe und damit die Repräsentativität des konkreten Projektes die Meßgenauigkeit von SAGE bereits zu einem gewissen Grad determiniert ist. Je größer eine Stichprobe ist, umso repräsentativer wird das Projekt, und umso geringer fallen die stochastischen Schwankungen aus.

Die allgemeine Möglichkeit oder sogar Notwendigkeit, eine möglicherweise suboptimale methodische Reliabilität über Erhöhung von Stichprobengrößen auszugleichen, ist detailliert ausgeführt worden (siehe S.177). Es spielt dabei nicht nur die Gesamttagmenge eine Rolle, sondern auch die Untersuchung mehrerer (geteilter) RNS-Pools bezeihungsweise Individuen, deren Resultate gemittelt (nicht addiert!) werden. Zu beachten ist bei der Erhöhung der Gesamttagmenge, daß so immer kleinere Differenzen signifikant sein können. Eine Planung des sogenannten optimalen Stichprobenumfangs mit festgelegtem alpha- und beta-Fehler wäre also sinnvoll (siehe S. 181).

↓195

• Je geringer das Expressionsniveau eines Transkriptes ist, desto größer fallen die stochastischen Schwankungen aus, die mit der Stichprobenentnahme einhergehen. Außerdem gilt: Größere Taghäufigkeiten tolerieren durch die Praxis von SAGE bedingte Meßungenauigkeiten besser, da bei gleichbleibender Größe des zufälligen Fehleranteils, der auf methodische Meßungenauigkeiten zurückzuführen ist, dieser relativ gesehen geringer ausfällt als bei Tags, die selten auftreten, so daß häufig auftretende Transkripte in der Praxis von SAGE besser zu handhaben sind. Dies spricht ebenfalls für die Sequenzierung einer möglichst großen Menge an Tags, da so die Häufigkeiten der einzelnen Transkripte ansteigen, und - wenn möglich - für die Auswertung von Tagpaaren, deren Mittelwert eine gewisse Mindesthäufigkeit hat. Letzteres ist in Projekten, die Gewebe und/oder Zustände mit komplexem Expressionsmuster untersuchen, unter Umständen nur schwer umzusetzen, da viele Gene niedrige Expressionsniveaus aufweisen. Dies bedeutet, daß SAGE vorzugsweise auf homogene Materialien (zum Beispiel Zellkultur) angewandt werden sollte.

• Nur Transkripte in die Auswertung einbeziehen, die einen ausgeprägten Regulationsunterschied aufweisen:

Wenn die Reliabilität von Messungen nicht optimal ist, können nur große Unterschiede reliabel gemessen werden. Bei kleinen Unterschieden, auch wenn diese statistisch signifikant werden, bleibt unklar, ob sie praktisch relevant sind und zuverlässig gemessen wurden. Dies bedeutet, daß ein - möglichst großer - Faktor festgelegt werden sollte, um den Transkripten mindestens reguliert sein sollten, um für weitere Untersuchungen relevant zu sein.

↓196

• Überwachung der Meßgenauigkeit in jedem SAGE Experiment:

Um zumindest auf qualitativer Ebene eine Idee der Genauigkeit jedes einzelnen SAGE Experimentes zu erhalten, wäre es zu empfehlen, den in dieser Arbeit vorgestellten Aufbau eines SAGE Durchlaufes, das heißt die parallele Verarbeitung eines mindestens einmal geteilten RNS Pools, als Standard zu etablieren.

Um die Schwankungen, die durch die stochastische Natur der Stichprobenentnahme entstehen, zu erfassen, wäre zusätzlich jeweils ein Vergleich der ersten Häfte der sequenzierten Tags mit der zweiten Hälfte erforderlich. Auf diese Weise würde eine Teilung des Materials erst im letzten Schritt von SAGE erfolgen, so daß - unter der Voraussetzung, daß der Sequenzfehler minimiert worden ist - alle Meßungenauigkeiten induzierenden Schritte ausgeschlossen wären.

↓197

• Wichtig ist zu beachten, daß angesichts der vorhandenen Unsicherheit bezüglich der Reliabilität von SAGE Resultate dieser Methode nicht für sich stehen sollten, sondern daß SAGE als sehr potentes Screeningverfahren aufgefaßt werden sollte, dessen ermittelte Expressionsunterschiede immer anhand eines zweiten etablierten Verfahren (beispielsweise Northern Blot) überprüft werden sollten.

5.2.4.8  Ausblick

Wenn SAGE solchermaßen als Screeningverfahren aufgefaßt wird, impliziert dies wie soeben erläutert, daß die Resultate dieser Methode steter Validierung mit einer zweiten Methode bedürfen. Hier bietet sich eine Möglichkeit für weitere Arbeiten zu SAGE: Die Überprüfung der Gesamtvalidität von SAGE steht noch aus.

In der vorliegenden Arbeit ist keine Aussage darüber möglich, ob die ermittelte Reliabilität deswegen nicht als gut eingestuft werden kann, weil SAGE nicht genau mißt, oder ob aufgrund der Gewebskomplexität und der relativ kleinen Stichprobe eine deutliche Stichprobenvariabilität vorliegt. Aus diesem Grund wären weitere Reliabilitätsstudien mit homogenen Geweben (zum Beispiel Zellkulturen) und größeren Stichproben zu empfehlen, die bei festgelegtem alpha- und beta-Fehler den sogenannten optimalen Stichprobenumfang jedoch nicht überschreiten. Es wäre interessant zu quantifizieren, welchen Anteil die stochastischen Schwankungen bei der Stichprobenentnahme haben und eine an einer noch zu tolerierenden Variabilität orientierte Mindeststichprobengröße festzulegen. Grundsätzlich wäre bei weiteren Reliabilitätsstudien die Anwendung eines Äquivalenztestes zu empfehlen.

↓198

Interessant wäre auch, anhand mehrerer parallel durchgeführter SAGE Durchläufe zu prüfen, wie groß die Fehlervarianz von SAGE ist (quantitativer Ansatz), und wie stark der Einfluss der Höhe des Expressionsniveaus ist. Auf diese Weise könnte auch untersucht werden, ob die zufälligen Fehler wirklich normalverteilt sind,73 um so den geeigneten Kennwert zur Mittelung von Taghäufigkeiten ermitteln zu können.


Fußnoten und Endnoten

14  Wenn diese Hypothesen im Einzelfall durch spezifische Hypothesen untersetzt werden müssen, wird dies an gegebener Stelle dargestellt.

15  Die Erwartungswerte e werden folgendermaßen berechnet: e = Zeilensumme x Spaltensumme/ Gesamttagzahl.

16  Das entsprechende Programm in S-Plus 2000 wurde der Autorin freundlicherweise von E. H. Margulies (Department of Human Genetics, Universitity of Michigan Medical School, Ann Arbor, MI 48109, USA) zur Verfügung gestellt.

17  Für die statistischen Berechnungen ist dieser Unterschied unerheblich, es liegen ihm jedoch unterschiedliche Zufallsmodelle zugrunde. Während Zusammenhangshypothesen die Realisierung einer bivariaten Zufallsvariablen an einer Stichprobe untersuchen, wird anhand von Unterschiedshypothesen die Realisierung einer univariaten Zufallsvariablen an zwei Stichproben untersucht (Bortz 1990, S. 103). In diesem Abschnitt wird also im Sinne einer Meßwiederholung das ursprüngliche Boten-RNS-Pool als eine Stichprobe aufgefaßt.

18  Der Begriff "übliche SAGE Experimente" meint hier und im weiteren SAGE Projekte, die Expressionsprofile von zwei verschiedenen Geweben, Zuständen etc. miteinander vergleichen, um Unterschiede in der Genexpression herauszuarbeiten.

19  Dieser Faktor beruht somit auf der Z-Verteilung (Standardnormalverteilung).

20  Dies kann in folgende Form (Ruijter 1999) umgewandelt werden: Ho wird abgelehnt, wenn (x - y) / (x0,5 + y0,5) > Zα/2 ist.

21  Diese gibt die Verteilung seltener Ereignisse wieder. Das heißt, daß die Anzahl aller Ereignisse n (Transkripte einer RNS-Population) sehr groß ist und die Wahrscheinlichkeit p des untersuchten Alternativereignisses (konkretes Transkript) sehr klein. Daraus folgt, daß die exakte binomiale Wahrscheinlichkeitsfunktion durch die Poisson-Verteilung approximiert werden kann. Für N und p geht die Binomial- in die Poissonverteilung über (Bortz 1993, S. 70f). Audic und Claverie (1997) gehen davon aus, daß die einzelnen Transkripttypen jeweils nicht mehr als 5% einer RNS-Population ausmachen und somit als seltene Ereignisse betrachtet werden können.

22  Audic und Claverie gehen davon aus, daß die apriori Wahrscheinlichkeit für alle Ereignisse im Bereich von Null bis Unendlich gleich ist.

23  Hier paarspezifische H0: Die beobachteten Taghäufigkeiten x und y sind gleich. H1: Sie unterscheiden sich.

24  Die Grenzen der Konfidenzintervalle lauten:
C (y ≤ ymin |x) = und D (y≥ ymax | x) =

25  Da hier zwei einseitige kumulative Wahrscheinlichkeiten ermittelt werden, muß als Signifikanzniveau α/2 zum Vergleich herangezogen werden (Man et al. 2000).

26  Man et al. (2000) geben die Formel für p0 leicht verändert wieder, was zu einer minimalen Veränderung der Ergebnisse führt.

27  Hierbei handelt es sich um die entsprechenden Quantile der Standardnormalverteilung.

28  Es handelt sich um approximativ normalverteilte standardisierte Residuen, die aus dem Quotienten aus der Differenz des beobachteten und dem erwarteten Wert und dem geschätzten Standardfehler gebildet werden. Zur Signifikanzprüfung wurde der dem α-Wert zugehörige kritische z-Wert berechnet (im Folgenden zKRIT genannt).

29  Der nach Bonferoni adjustierte α-Wert würde folgendermaßen lauten: αKORR = 0,05 / 24 = 0,0021. Daraus ergäbe sich zKRIT = 2,87. An der Aussage würde sich dadurch nichts ändern.

30  Die Hypothesen sind mit denjenigen zum allgemeinen Testvergleich identisch .

31  Entspricht Zelle a der prototypischen Vier-Felder-Tafel.

32 α-Fehler oder Risiko 1. Art: Es wird ein Unterschied angenommen, obwohl keiner vorhanden ist.

33  Lies: Die bedingte Wahrscheinlichkeit des beobachteten Ergebnisses oder extremerer unter der Annahme, daß Ho zutrifft (Bortz 19934, S. 110).

34  Die relevante Stichprobe ist in diesem Fall die Anzahl der ermittelten Tagpaare beziehungsweise die der sequenzierten Tags und nicht der untersuchten Individuen oder RNS Pools.

35  Auf die exakte Vorgehensweise statistischer Beweisführung im Rahmen eines üblichen SAGE Experimentes
(1. Überprüfung der globalen Hypothesen, 2. paarweise Signifikanzberechnung) wird weiter unten (siehe S. 134) eingegangen.

36  Im Falle des Test von Audic und Claverie beispielsweise wäre erst ab 497 Tagpaaren (damit αKORR = 0,00050302) oder weniger anstelle von 14159 Tagpaaren (Daten ohne Sequenzfehlerkorrektur) H1 anzunehmen.

37  Die "statistische Signifikanz [ist] eine notwendige, aber keine hinreichende Bedingung für praktische Bedeutsamkeit." (Bortz 1990, S. 42).

38  Lal et al. (1999) weisen darauf hin, daß die beiden zu vergleichenden Profile vorher normalisiert werden müssen. Zur Berechnung der Größe des Unterschieds zwischen den beiden Häufigkeiten eines Tagpaars siehe S. 51.

39  Die Teststärke gibt an, mit welcher Wahrscheinlichkeit ein Test zugunsten einer Alternativhypothese entscheidet (Bortz 19934, S. 118): Teststärke = 1 - ß

40  Nach Bortz (1990, S. 83) bezeichnet die Robustheit eines statistischen Testes seine "Unempfindlichkeit [...] gegenüber Voraussetzungsverletzungen und gegenüber ungewöhnlichen Stichprobencharakteristika.".

41  ß-Fehler: Die H0 wird angenommen, obwohl die H1 gilt.

42  Als H0 gilt, daß das Niveau, die Art und die Verteilung der Transkripte in den beiden zu vergleichenden Populationen gleich ist.

43  Laut Ruijter (1999) werden die Simulationen beendet, wenn 100 Zyklen zu einer Differenz geführt haben, die genauso groß (oder größer) wie die beobachtete ist.

44  Das Testresultat ist einseitig (Ruijter 1999).

45  Die in dieser Arbeit verglichenen Gruppen unterscheiden sich nur um 2,38 % in ihrer Gesamtzahl voneinander. Der Test nach Madden et al. (1997) wurde unter der Annahme, daß diese Differenz zu vernachlässigen sei, durchgeführt.

46 α-Fehler: Die H1 wird angenommen, obwohl die H0 gilt.

47  Dies entspricht in den vorliegenden Daten exakt den Tagpaaren, auf die das Kriterium "Mittelwert ≥ 5" zutrifft.

48  Man et al. (2000) geben keine Werte an. Der aus einem Graphen ablesbare ß-Fehler beträgt schätzungsweise 1%.

49  SAGEstat wurde der Autorin von J. M. Ruijter (Abteilung für Anatomie und Embryologie der Universität Amsterdam) freundlicherweise zur Verfügung gestellt.

50  Bis 20 Tags wird das entsprechende Intervall zu jeder Häufigkeit angegeben. Über 20 Tags erfolgen die Angaben in 2er Schritten, über 30 Tags in 3er Schritten und so weiter.

51  Auch hier sollten aus den diskutierten Test immanenten Bedingungen bezüglich der minimalen gültigen Taghäufigkeiten lediglich Expressionsniveaus abgefragt werden, die diese untere Grenze überschreiten.

52 α-Fehler: Die H1 wird angenommen, obwohl H0 gilt.

53  Die Daten dieser Transkriptgruppe werden nicht konkretisiert.

54  H1: Alternativhypothese, daß die Häufigkeitsverteilungen beider Profile verschieden sind.

55  H0 muß bereits erworfen werden, wenn nur ein Tagpaar statistisch signifikant verschieden ist.

56  Angelastro et al. (2000a) geben keine entsprechenden p-Werte an. Die hier genannten Werte wurden per SAGEstat errechnet. Das αKORR nach Bonferroni beträgt 1,25% (5% / 4).

57  Zufällige Schwankungen sind jedoch nicht ganz auszuschließen. Diese sind jedoch beispielsweise auch vorhanden, wenn dasselbe Individuum zur Reliabilitätsprüfung eines Tests über die Zeit wiederholt untersucht wird.

58  Der Anteil des wahren Wertes bleibt bei der Meßwiederholung konstant, während der Anteils des zufälligen Fehlers variiert und so über die Gesamtvarianz der Meßergebnisse ermittelt werden kann (Lienert 1994, S. 176).

59  Es wurden allerdings nur Tags verglichen, die mindestens eine Häufigkeit hatten, die 0,01% der Gesamtanzahl entsprach. Auf die Daten der vorliegenden Arbeit übertragen, hieße dies, sämtliche Singletons von der Reliabilitätsuntersuchung auszuschließen.

60  Dies bezeiht sich auf die Gesamttagzahl.

61  In psychologischen Tests dagegen wird mindestens eine Reliabilität von 0,8 gefordert (Bortz und Döring 1995², S. 184) Der Bereich von 0,8 bis 0,9 gilt als mittelmäßig.

62  Es müßte ein spezielles Verfahren für den statistischen Vergleich der hier ermittelten Kennwerte entwickelt werden. Dies kann im Rahmen der vorliegenden Arbeit nicht geleistet werden, so daß die Werte einander nur gegenübergestellt werden können ohne zu prüfen, ob sie statistisch signifikant verschieden sind.

63  Die Ergebnisse der Prüfung der Gesamtverteilungen für Tagpaare mit m ≥ 5 beziehungsweise 10 auf Homogenität mittels k x 2- Felder-Chi²-Test mit Computersimulationen zeigt jedoch weiterhin, daß die beiden Gruppen K1 und K2 unterschiedlich sind.

64  Um den Effekt einer Inhomogenitätskorrelation zu vermeiden, müßten mehrere SAGE Profile erstellt werden, so daß für jedes Tag eine Meßreihe entsteht. Auf diese Weise könnte das Zusammenhangsmaß für jedes Tagpaar getrennt berechnet werden.

65  Das gleiche gilt, wenn die Häufigkeiten stark regulierter Gene miteinander verglichen werden.

66  Ein hoher Wert von r kann beispielsweise allein dadurch zustande kommen, daß die Werte weit gestreut sind (Altman 1991). Dies ist bei Velculescu et al. (1997) der Fall; es finden sich Taghäufigkeiten von 0 bis 561.

67  Skalentypen: Nominalskala (Unterteilung nach Gruppen, Beispiel: Tags bei SAGE, Krankheitsklassifikationen), Ordinalskala (Rangdaten, Beispiel: Schulnoten), Intervallskala (metrische Meßwerte, Beispiel: Temperatur in °C), Verhältnisskala (metrische Meßwerte mit absolutem Nullpunkt, Beispiel:Temperatur in Kelvin) (Bortz 1993, 24ff).

68  Zur Vorgehensweise bei Validierungen vergleiche zum Beispiel Altmann (1991). Dort wird darauf hingewiesen, daß es sich hierbei statistisch nicht um eine Korrelation handelt.

69  Zu den Ergebnissen der Sequenzfehlerkorrektur siehe S.164.

70  Hier liegt ein systematischer Fehler vor, der die Validität von SAGE negativ beeinflußt.

71  Diese Durchläufe sollten nicht miteinander addiert, sondern gemittelt werden!

72  Auch die schon diskutierte Problematik der Stichprobenvariabilität, die in die Gesamtreliabilität zusätzlich zur methodischen mit einfließt, läßt sich über die Erhöhung dieser Stichprobe positiv beeinflussen.

73  Nach Hart et al. (1997³) ist die Annahme, daß zufällige Fehler normalverteilt sind zwar oft gerechfertigt, es sei jedoch keine Naturgesetz.



© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.
DiML DTD Version 4.0Zertifizierter Dokumentenserver
der Humboldt-Universität zu Berlin
HTML-Version erstellt am:
23.08.2006