4 Etablierung von SAGE

4.1  Ergebnisse der Etablierung

4.1.1  Ausgangssituation und Ziel

↓50

Um Fragen der Genexpression zu etablierten Tiermodellen wie zum Beispiel Schlaganfall umfassender als zuvor beantworten zu können, wurde angestrebt, eine entsprechende Methode zu etablieren. Aus den eingangs dargestellten Gründen wurde SAGE gewählt. Das ermittelte Expressionsprofil gesunder Mäusegroßhirne sollte später als Vergleichswert in Studien zur Genexpression pathologischer Zustände dienen. Ziel des folgenden Kapitels ist es, die Resultate der Etablierung dieser Methode darzustellen.

4.1.2  Zusammenfassende Beschreibung der Methode

Die serielle Analyse der Genexpression wurde anhand des von Velculescu et al. (1997b) in der Version 1.0c freundlicher Weise zur Verfügung gestellten Protokolls durchgeführt.

↓51

Zur Herstellung einer SAGE-Bibliothek wurde als erstes extrahierte Boten-RNS in doppelsträngige cDNS umgewandelt (siehe Abbildung 3). Hierbei wurden während der Erststrangsynthese Oligo(dT)Primer verwendet, die am 5' Ende biotinyliert waren. Auf diese Weise konnte die cDNS am 3' Ende des ursprünglichen Transkriptes später über die Bindung an Streptavidin erfaßt werden. Die cDNS wurde zunächst mit dem Restriktionsenzym NlaIII verdaut. Diese im Kontext von SAGE Verankerungsenzym genannte Endonuklease erkennt und schneidet die DNS unmittelbar 3' der Sequenz CATG (2). Dieser Schritt generierte eine definierte Lokalisation innerhalb des Transkriptes, da über die Biotinylierung dasjenige Fragment gekennzeichnet war, das dem 3' Ende des Transkriptes am nächsten liegt. Die biotinylierten cDNS Stücke wurden unter Verwendung von Streptavidin bedeckten magnetischen Partikeln affinitäts-gereinigt. Die immobilisierten cDNS Fragmente wurden in zwei Gruppen geteilt und jeweils am 5' Ende mit den Linkern A beziehungsweise B ligiert (3). Diese Linker enthalten einen der NlaIII Schnittstelle entsprechenden vier Basen langen Überhang, eine Erkennungssequenz für BsmFI (Typ IIS Restriktionsenzym) und eine Anlagerungssequenz (A beziehungsweise B) für PCR Primer. Die so verlängerten cDNS Stücke wurden mit BsmFI verdaut, welches 14 (20%) bis 15 (80%) (Madden et al. 2000) Basen 3' seiner Erkennungssequenz schneidet (4). "Tag" meint im Zusammenhang mit SAGE also die Nukleotidabfolge unmittelbar 3' der NlaIII Erkennungssequenz eines Transkriptes, die dem Poly-A-Schwanz am nächsten liegt. Die auf diese Weise von ihrer Verankerung an

Abb. 3: Schema eines SAGE Durchlaufes.

die magnetischen Streptavidinpartikel abgeschnittenen und mit den beiden Linkern verbundenen, ungefähr 11bp langen, SAGE Tags wurden mittels Klenow DNS Polymerase begradigt (4).

↓52

Die beiden Gruppen wurden wieder vereinigt und mit T4 Ligase ligiert (5). Die daraus resultierenden Ditags, welche von den beiden Linkern eingerahmt werden, wurden unter Verwendung der Primer A und B amplifiziert (5) und anschließend mit NlaIII verdaut, um die Linkersequenzen wieder zu lösen (6). Abschließend wurden die Ditags mittels T4 Polymerase zu langen Ketten verbunden, die in einen Vektor kloniert und sequenziert wurden (7), wobei die Erkennungssequenz von NlaIII als Interpunktion zwischen den Ditags dient.

4.1.3  Vorbereitende Tests

Vor dem Beginn eines SAGE-Durchlaufes sind Versuche notwendig, um den Grad der Biotinylierung der Oligo(dT)-Primer sowie der Kinasierung der Linker A und B zu überprüfen.

4.1.3.1 Streptavidin Gelshift – Assay

↓53

Eine optimale Biotinylierung der Oligo(dT)-Primer, welche zur cDNS Synthese verwendet werden, stellt eine wesentliche Voraussetzung für eine effiziente Bindung der 3' Enden der cDNS an die magnetischen Partikel dar.ZumÜberprüfendesBiotinylierungsgradesder Oligo(dT)-Biotin Primer wurde ein Streptavidin Gelshift Assay in einem 12% Polyacrylamidgel durchgeführt.

Die HPLC gereinigten Oligo(dT)-Biotin Primer (Eurogentec) wurden für eine Stockkonzentration von 100pmol/µl in LoTE gelöst. Für den Assay wurden folgende 10µl Ansätze, deren Volumen entsprechend mit LoTE ergänzt worden war, für zwei Stunden bei Raumtemperatur inkubiert:

↓54

Wie Abbildung 4 zeigt, nahm die Anzahl der ungebundenen Primer mit steigender Zugabe von Streptavidin kontinuierlich ab. Bei einem Überangebot an Streptavidin (Ansatz D) wurden die Primer allesamt gebunden. Das bedeutet, daß der Anteil nicht biotinylierter Primer vernachlässigbar war.

4.1.3.2  Selbstligation der Linker

Um die Kinasierung der Linker zu überprüfen, wurden diese im Vorfeld einer Selbstligation unterzogen, wobei davon ausgegangen wird, daß nicht phosphorylierte Oligomere sich nicht ligieren lassen. Ein geringer Phosphorylierungsgrad hätte im eigentlichen SAGE-Durchlauf aufgrund einer ineffizienten Ligation der Linker an die SAGE Tags einen Substanzverlust zur Folge.

Duplexbildung

↓55

Bevor die Verwendung der Linker jedoch möglich war, mußten die PAGE gereinigten einzelnen Linkerstränge (Eurogentec) zuerst in einem 100µl Ansatz mit einer Konzentration von je 100ng/µl anhand des folgenden Programms aneinandergelagert werden: 95°C für zwei Minuten, 65°C für zehn Minuten, 37°C für zehn Minuten, 19°C für zwanzig Minuten. Hierbei gewährleistet der erste Schritt die Denaturierung der Linker und die folgenden drei die Formierung von Duplexen. Durch das abfallende Temperaturprofil wird zu Beginn eine spezifische Anlagerung der beiden Stränge gesichert, um dann bei niedrigeren Temperaturen den Prozeß zu vervollständigen. Bis zum weiteren Gebrauch wurden die Duplexe bei -20°C aufbewahrt.

Ligationstest

Im 15µl Ansatz wurde die Selbstligation der Linkerduplexe folgendermaßen getestet: Eine Mischung von 3µl 5x Ligasepuffer und 11µl Duplex-Linkerlösung in einer Konzentration von 100ng/µl wurde zwei Minuten lang bei 50°C und für 15 Minuten bei Raumtemperatur inkubiert, um die Überhänge der Linker zu linearisieren, ohne durch zu hohe Temperaturen den gebildeten Doppelstrang wieder aufzutrennen. Anschließend wurde 1µl T4 Ligase (5 Units/µl, GibcoBRL) zugegeben und für zwei Stunden bei 16°C inkubiert. Nach Phenol-Chloroform-Extraktion und Ethanolfällung wurden die Ansätze in 6µl LoTE gelöst und in einem 12% Polyacrylamidgel elektrophoretisch aufgetrennt (Abb. 5). Obwohl nur eine Ligationsrate von schätzungsweise 50% resultierte - im Protokoll von Velculescu et al. (1997b) werden mindestens 70% Selbstligationsrate gefordert, wurden die Linker aus finanziellen Überlegungen weiter verwendet und ein entsprechender Effizienzverlust in Kauf genommen.

Abb. 6: Gesamt-RNS.

Auftrennung der Kontroll-RNS (je 2µl) im 1% Agarosegel.

4.1.4  SAGE-Durchlauf

↓56

Nach dem erfolgreichen Abschluß der beiden Vorteste konnte mit dem eigentlichen Durchlauf von SAGE begonnen werden.

4.1.4.1  Isolierung der Gesamt-RNS

Aus den Großhirnhemisphären von vier erwachsen männlichen Mäusen desselben Stamms (C57b6, BGVV Berlin) mit einem mittleren Körpergewicht von 20 ± 2g wurde die Gesamt-RNS wie im methodischen Abschnitt dargestellt (vergleiche S. 39) extrahiert, vereinigt, gemischt und in zwei gleich große Volumina (jeweils 800µl) aufgeteilt (K1 und K2). Zur Überprüfung der Reliabilität wurden diese beiden Gruppen getrennt, jedoch parallel behandelt.

Die Messung der optischen Dichte ergab eine Konzentration der Gesamt-RNS von circa 0,8µg/µl, so daß bei einer Weiterverarbeitung von je 500µl Gesamt-RNS-Lösung eine Menge von je 10µg Boten-RNS zu erwarten war.4 Das Verhältnis der OD260/OD280 von größer zwei in beiden Fällen sprach für die Reinheit der extrahierten RNS. Abb. 6 zeigt in der Standardelektrophorese zwei diskrete Banden für die 18S und 28S ribosomale RNS, die in einem Verhältnis von 1 zu 1,5 - 2 zueinander stehen, so daß auf eine erfolgreiche Präparation ohne Degradierung der RNS geschlossen werden konnte.

4.1.4.2  Präparation der Boten-RNS aus der Gesamt-RNS

↓57

Die Präparation der Boten-RNS aus der Gesamt-RNS gestaltete sich wie beschrieben (siehe S. 40). Hier ergab die anschließende Messung der optischen Dichte eine Konzentration von 640ng/µl für K1 und 660ng/µl für K2. Bei einem Volumen von 20µl entspricht dies einer Gesamtmenge von 12,8µg (K1) beziehungsweise 13,2 (K2). Als Ausgangsmaterial für die cDNS Synthese lieferten im Falle von K1 7,8µl die erforderlichen 5µg Boten-RNS, im Falle von K2 waren dies 7,5µl. 3,1µl (K1) beziehungsweise 3,0µl (K2) wurden zur Analyse im Northern Blot verwendet.

Abb. 7: Reamplifikations-PCR Akap149 (B5).

B5IAT7 Rev - IIB5EF (670 bp). Um die PCR Bedingungen zu optimieren, wurden jeweils 1 µl des gereinigten PCR Produktes pur beziehungsweise aus einer 1:10 Verdünnung als Matratze eingesetzt. PCR-Programm: 95°C/1', 35 Zyklen mit 95°C/1', 60°C/2', 72°C/2' mit 5'' Extension der Elongationszeit bei jedem Zyklus, abschließend 72°C/10'. Die 1:10 Verdünnung erwies sich als einerseits spezifisch amplifizierbar, andererseits war die produzierte Menge für eine Sonde ausreichend genug, so daß diese PCR als Grundlage für die folgende Markierungs-PCR verwendet werden konnte. M: 1kb DNS Größenstandard.

4.1.4.3  Northern - Blot

Um die Güte der Boten-RNS überprüfen zu können, wurde zu diesem Zeitpunkt mit den oben genannten Volumina der Boten-RNS-Lösungen (je 2µg) ein Northern Blot durchgeführt. Die Herstellung der Membran erfolgte wie dargestellt (siehe S. 46).

↓58

Als Sonde wurde ein Fragment des Proteinkinase A - Ankerproteins 149 (Akap149) verwendet, da dessen Transkriptvarianten eine Länge von mehreren Kilobasen aufweisen und so gut zur Qualitätsüberprüfung von Boten-RNS geeignet sind. Da die zur Amplifikation benutzten Primer der humanen Variante entsprechen, wurde die Sonde unter Verwendung muriner cDNS (vergleiche S. 40) und der Primer B5IAT7 Rev und IIB5EF wie beschrieben (siehe S. 44) hergestellt (siehe Abb. 7).

Da die Primer zuvor noch nicht in Versuchen mit Mäusen eingesetzt worden waren, wurde die Identität der Sonde anhand eines Restriktionsenzymverdau überprüft. Die Fragmente wurden mit per Internet erstellten Sequenzanalysen (www.firstmarket.com/cutter/cut2.html) verglichen. Die Auftrennung der geschnittenen Fragmente (keine Abbildung) zeigte eine gute Übereinstimmung mit der theoretischen Vorhersage, so daß die Spezifität der Sonde als erwiesen angenommen werden konnte.

Abb. 8: Northern Blot mit Akap149.

Es wurden pro Kontrollgruppe (K1, K2) 2µg Boten-RNS aufgetragen.

Ergebnis der Hybridisierung

↓59

Das bereits in diversen humanen Geweben und im Gehirn der Ratte detektierte 4,2kb große Fragment war auch in der Maus zu sehen (siehe Abb. 8). Diese Detektion des nicht degradierten Transkriptes ließ den Schluß zu, daß die Qualität der RNS den Erfordernissen von SAGE entsprach und weiter verwendet werden konnte.

4.1.4.4  cDNS Herstellung mit Oligo(dT)20-Biotin Primern

Die Weiterverarbeitung der zurückbehaltenen Boten-RNS erfolgte wie dargestellt (siehe S. 40 im Methodenteil). Anstelle der vom Hersteller des cDNS Synthese Kits (GibcoBRL) mitgelieferten Oligo(dT)-Primer wurden jedoch jeweils 2,5µg der 5'-biotinylierten Oligo(dT)20 Primer verwendet. Diese waren zuvor in einem Streptavidin-Gelshift-Assay auf ihren Biotinylierungsgrad getestet worden. Die gewonnene cDNS wurde in 21µl LoTE aufgenommen. 1/10 dieser cDNS wurde zur Analyse im 1% Agarosegel und anschließendem cDNS Southern Blot verwendet. Wie Abbildung 9 zeigt, erzielte die cDNS Synthese Fragmente, welche einen Längenumfang von mehreren hundert Basen bis zu über 10 Kilobasen aufwiesen und damit den gesamten Bereich der Boten-RNS abdeckten.

Abb. 9: cDNS Auftrennung.

1% Agarosegel. Diese Elektrophorese ergibt eine Länge der cDNS Fragmente von ungefähr 200bp bis größer als 12kb. M: 1kb DNS Größenstandard, K1 und K2: 1,9µl cDNS (von je 21µl).

4.1.4.5  cDNS Southern Blot

↓60

Abb. 10: cDNS Southern Blot mit Akap149.

Die Menge an cDNS entspricht jeweils einem Zehntel der aus je 5µg Boten-RNS synthetisierten cDNS. K1 und K2: die beiden Kontrollgruppen.

Dieser wurde wie beschrieben durchgeführt (siehe S.47). Als Sonde wurde die für den Northern Blot erstellte Sonde (Akap149) verwendet. Das Ergebnis der Hybridisierung (siehe Abb. 10) zeigt ein höheres Hintergrundsignal als dasjenige des Northern Blots, was darauf zurückzuführen sein könnte, daß die Bindung zwischen zwei DNS Stücken weniger stabil ist, als diejenige zwischen RNS und DNS wie es beim Northern Blot der Fall ist (Sambrook et al. 1998²) . Dennoch konnte auch hier das 4,2kb lange Transkript ohne Hinweis auf Degradierung als singuläre Bande detektiert werden, so daß mit dem SAGE-Durchlauf fortgefahren werden konnte.

4.1.4.6  Restriktionsenzymverdau der biotinylierten cDNS mit dem Verankerungsenzym NlaIII

Um aus den die gesamte Boten-RNS Länge umfassenden cDNS Stücken die SAGE Tags herzustellen, wurde die biotinylierte cDNS mit NlaIII (NEB) geschnitten.

↓61

Hierzu wurde die Hälfte (10µl) der synthetisierten cDNS eingesetzt (vergleiche S. 37). Die andere Hälfte der Proben wurde für spätere weiterführende Untersuchungen zurückbehalten. Es wurden pro Ansatz 50 Units einer frisch gelieferten Charge NlaIII verwendet. Nach einstündiger Inkubation bei 37°C, Extraktion und Ethanolfällung (S.35) wurde die geschnittene cDNS in 20µl LoTE aufgenommen.

4.1.4.7  Binden der biotinylierten cDNS-Fragmente an magnetische mit Streptavidin bedeckte Partikel

Im nächsten Schritt sollten diejenigen Fragmente der cDNS, welche an Biotin gebunden waren, vom Rest der cDNS getrennt werden. Auf diese Weise wurden nur diejenigen cDNS Fragmente weiterverarbeitet, die das am meisten 3' liegende NlaIII Fragment jedes Transkriptes repräsentierten und so einem definierten Ort der Boten-RNS entstammten. Hierzu wurden pro Kontrollgruppe je zweimal 100µl Dynabead M-280 Streptavidin Suspension (Dynal) eingesetzt, was jeweils einer Menge von 1mg entsprach, und die Hälfte der verdauten cDNS (vergleiche S. 49), also jeweils 20µl in zwei Ansätzen. In diesem Schritt wurde die cDNS der beiden Kontrollgruppen jeweils in die Untergruppen A und B aufgeteilt, um sie im darauffolgenden Schritt entweder mit Linker A oder mit Linker B ligieren zu können.

4.1.4.8  Ligation der Linker an die gebundene cDNS

Abb. 11: Die Entstehung eines SAGE-Tags.

↓62

Es folgte die Ligation der Linker A und B an die in die Untergruppen A und B geteilte und an die Dynabeads gebundene cDNS-Fragmente. Die Oligomerduplexe (Linker) enthalten eine Primerbindungssequenz (A beziehungsweise B), die Erkennungssequenz für das später verwendete 'tagging' Enzym BsmFI und einen der Schnittstelle von NlaIII entsprechenden Überhang (siehe Abb. 11). Dieser Schritt des SAGE Protokolls ermöglicht später das Herausschneiden des SAGE Tags durch das Typ IIS Restriktionsenzym BsmFI und die PCR- Amplifikation der Ditags. Der Zustand der Kinasierung der Linkerduplexe war im Vorfeld durch Selbstligation untersucht worden (siehe S. 55). Die Ligation der Linkerduplexe A und B wurde sofort im Anschluß an das Binden der cDNS Fragmente an die Dynabeads durchgeführt. Hierzu wurde jeweils die gesamte Menge der immobilisierten cDNS und 2µg von einem der beiden Linkerduplexe eingesetzt und wie auf S. 38 beschrieben verfahren.

4.1.4.9  Restriktionsenzymverdau der gebundenen cDNS mit dem Tags produzierendem Enzym BsmFI

Die Typ IIS Restriktionsendonuklease BsmFI schneidet in 20% der Fälle 14 Basen und in 80% der Fälle 15 Basen (Madden 2000) 3' ihrer Erkennungssequenz asymmetrisch (siehe Abb. 11). Durch den Verdau mit diesem Enzym wurden die SAGE Tags mitsamt den 5' ligierten Linkern A oder B von dem 3’-terminalen cDNS-Anteil abgeschnitten, welcher an den magnetischen Partikeln gebunden blieb. Hierzu wurden pro Ansatz 4U BsmFI (NEB) eingesetzt und eine Stunde bei 65°C inkubiert. Anschließend wurden die abgeschnittenen Transkriptreste samt PolyA-Schwanz magnetisch immobilisiert und der die Tags enthaltende Überstand abgenommen. Nach Phenol-Chloroform-Extraktion und hochkonzentrierter Ethanol-Fällung wurden die vier Ansätze in je 10µl LoTE aufgenommen.

4.1.4.10  Begradigung der Tags

Wie der Abbildung 11 zu entnehmen ist, wiesen die Linker-Tag-Komplexe 5' am komplementärer Strang einen Überhang auf, der durch den Verdau mit BsmFI verursacht worden war. Um die Ligation der Tags der beiden Untergruppen A und B miteinander zu ermöglichen, mußten diese Enden begradigt werden. Dazu wurde das Enzym Klenow wie auf S. 38 beschrieben verwendet. Nach einer halbstündigen Inkubation der Ansätze bei 11°C wurde die DNS wie beschrieben extrahiert, gefällt und in 6µl LoTE resuspendiert. Im Protokoll (Velculescu et al. 1997b) werden 37°C zur Inkubation empfohlen. Die Modifikation des Protokolls geschah aufgrund der Beobachtung, daß das Klenow Fragment bei einer niedrigeren Temperatur eine geringere 3'-5' Exonukleaseaktivität aufweist (mündliche Mitteilung A. Meisel) und somit eine höhere Wahrscheinlichkeit für den Erhalt längerer Tags besteht.

4.1.4.11 Ligation der Monotags zu Ditags

↓63

Um die Tags mit den Primern A und B zu amplifizieren, wurden die beiden Untergruppen A und B wieder zusammengeführt und End-zu-End ligiert, so daß Ditags einer Länge von ungefähr 100 Basenpaaren entstanden (Abb. 12). Von den mit Klenow begradigten DNS-Fragmenten wurden je 2µl der Lösungen (entspricht jeweils einem Drittel der Ansätze) der beiden Gruppen A und B zusammenpipettiert und die Ansätze auf 6µl mit 1,2µl 5x Ligase Puffer und 4 Units T4 Ligase ergänzt. Als Negativkontrolle für spätere PCR Schritte wurden die gleichen Ansätze ohne Ligase hergestellt. Die Ligation erfolgte bei 16°C über Nacht.

Abb. 12: Schema eines Ditags.

Um einen eventuell effizienteren Ansatz zu überprüfen (Lund et al. 1996), wurde jeweils ein zweiter identischer Ligationsansatz hergestellt und einem alternativen Ligationsprogramm, das zyklische Temperaturschwankungen aufwies, unterzogen: 99 mal 22°C/10'' und 9°C/10'', 99 mal 22°C/10'' und 8°C/10'', 12°C über Nacht. Das Ergebnis dieser beiden Ligationsansätze sollte nach der sich anschließenden PCR verglichen werden (siehe dort).

4.1.4.12  Amplifikation der Ditags mittels PCR

↓64

Um für die Sequenzierungen genügend Material zur Verfügung zu haben, müssen die Ditags amplifiziert werden. Der Vorteil einer PCR an dieser Stelle des SAGE-Durchlaufes liegt darin, daß ein durch diesen Amplifikationsschritt eingeführter quantitativer Bias dadurch kontrolliert werden kann, daß redundante Ditags, das heißt Ditags, welche wiederholt Tags einer bestimmten Kombination aufweisen, später von der Auswertung eliminiert werden können.

Den Ligationsansätzen wurde jeweils 14µl LoTE zugegeben und es wurden diverse Verdünnungen erstellt (1:10, 1:50, 1:100, 1:200). Die exakte Zusammensetzung der 50µl Standardansätze ist S. 42 (Methodenteil) zu entnehmen. Die PCR erfolgte im Warmstart-Verfahren und wurde mit folgendem Programm durchgeführt: zehn Sekunden 95°C; 24 bis 28 Zyklen: dreißig Sekunden 95°C, eine Minute 55°C und eine Minute70°C; abschließend fünf Minuten 70°C. Bevor die eigentlichen PCRs durchgeführt werden konnten, mußten die verschiedenen PCR Bedingungen jedoch optimiert werden. Hierbei wurde besonderes Augenmerk auf die Konzentration der Matrize, das heißt der Ditags, die Konzentration der dNTPs und die Anzahl der Zyklen gelegt.

Abb. 13: K2 Ditag PCR in verschiedenen Verdünnungsstufen.

12% PAGE, ein Zehntel des PCR Ansatzes jeweils aufgetragen. NK: PCR Negativkontrolle (ohne Matrize), LigNK: Amplifikation der Negativkontrolle der Ligation (ohne Ligase). Selbst eine Verdünnung von 1:200 resultiert in die sichtbare Amplifikation der 102bp langen Ditags.

Optimierung der PCR 1

↓65

In Probedurchläufen von SAGE erwiesen sich eine Verdünnungsstufe von 1:400 (bei 28 Zyklen) und eine Zyklenzahl von 24 (Verdünnung von 1:50) noch als suffizient zur Amplifikation der 102bp Bande (keine Abbildung).

Optimierung der PCR 2

Hierbei wurden in beiden Kontrollgruppen sämtliche Verdünnungen der beiden Ligationsansätze getestet. Abbildung 13 zeigt, daß auch eine Verdünnung der Ligationsansätze von 1:200 (26 Zyklen) noch eine gut sichtbare 102bp Bande lieferte, und daß kein deutlicher Unterschied zwischen den beiden Ligationsprogrammen vorhanden war. Im Vergleich mit den Ergebnissen der Probedurchläufe (Optimierung 1, keine Abbildung) fiel auf, daß die Amplifikation des gewünschten 102bp Fragmentes effizienter als zuvor verlief. Als Erklärung dafür ist die Tatsache in Betracht zu ziehen, daß zum ersten Mal PAGE gereinigte Oligomere eingesetzt worden waren, während in den Probedurchläufen ungereinigte Primer verwendet worden waren.

Abb. 14: K1 Ditag PCR. Vergleich zweier dNTP Konzentrationen.

8% PAGE. Die PCR mit unterschiedlichen dNTP Konzentrationen ergab für 0,4mM eine geringere Ausbeute als für 1,5mM. 100bp M: 100bp DNS Größenstandard.

↓66

Da auch die dNTP Konzentration das Resultat der PCR beeinflussen kann (siehe Diskussion), wurde diese probeweise ebenfalls variiert. Der Vergleich der standardmäßig verwendeten finalen dNTP Konzentration von 1,5mM mit einer Konzentration von 0,4mM (Abb. 14) ergab eine verringerte Ausbeute bei Verwendung der geringeren Konzentration, so daß die Standardkonzentration beibehalten wurde.

Die Negativkontrollen der PCR sowie der Ligation zeigten keine Amplifikation.

Um für die folgenden Schritte von SAGE genügend Material zur Verfügung zu haben, wurde letztendlich für alle weiteren PCRs eine Verdünnung von 1:100 und 26 Zyklen gewählt.

PCR Großansatz

↓67

Nach Abschluß der Optimierung der PCR Bedingungen wurden parallel je 50 50µl Ansätze durchgeführt.

Nach Gelreinigung (8% PAGE) der vereinigten Ansätze (Abb.15), Phenol-Chloroformextraktion und Ethanolfällung ließ sich anhand einer semiquantitativen DNS Mengenbestimmung mit Ethidiumbromid für K1 eine Gesamtmenge von 0,6µg und für K2 von 1,3µg schätzen. Da die zur Klonierung als notwendig erachtete Menge Ditag-DNS 10 - 20µg beträgt, wurden pro Kontrollgruppe 500PCRs durchgeführt - statt wie im Protokoll angegeben 100, um diese Menge zu erhalten. Die PCR Großansätze erfolgten nach obigem Schema parallel. Nach erneuten Massenextraktionen von je 30 vereinigten Ansätzen ergab die semiquantitative Schätzung der Menge per Ethidiumbromid (vergleiche S. 36) eine ausreichende Gesamtmenge (K1: circa 25µg, K2: von 37µg).

4.1.4.13 Entfernung der Linker mittels NlaIII Verdau

Um die beiden Linkerduplexe wieder zu entfernen, wurde ein erneuter Verdau mit NlaIII durchgeführt. Durch diesen Schritt wurden kohäsive Enden produziert, was eine effiziente Ligation der Ditags miteinander und in einen Vektor ermöglichen sollte.

↓68

Abb. 15: Massenextraktion der 102bp Fragmente (K1).

8%PAGE, 30 PCR Ansätze.

In einem Volumen von 200µl wurden ungefähr 9µg (K1) beziehungsweise 10µg (K2) der gelgereinigten DNS und 150 (K1) beziehungsweise 170 (K2) Units NlaIII (circa 60ng DNS/UNlaIII) angesetzt, so daß jeweils circa 30% des gesamten gelgereinigten Amplifikats eingesetzt wurden. Der Inkubation bei 37°C für drei Stunden schloß sich eine Phenol-Chloroform-Reinigung und eine Ethanolfällung an. Ein vorhergehender Verdau hatte ergeben, daß die von Velculescu et al. (1997b) angegebene Inkubationszeit von einer Stunde keine ausreichenden Ergebnisse (ohne Abb.) lieferte, so daß diese auf drei Stunden verlängert werden mußte. Eine semiquantitative Mengenabschätzung per Ethidiumbromid ergab nach diesem Schritt 5,5µg DNS (K1) und 13,5µg (K2), gelöst in je 50µl LoTE. Die Gelreinigung der nun mehr 24 bis 26 Basenpaare langen Bande erfolgte nach elektrophoretischer Auftrennung im 12% PAGE (Abb. 16) wie beschrieben (S. 37 im Methodenteil). Um qualitativ hochwertige Dimere zu erhalten, wurde nur eine Spannung von 100 - 120V angelegt.

4.1.4.14  Ligation der Ditags zu Ketten

Um ein arbeits- und kostensparendes serielles Sequenzieren durchführen zu können, wurden die 26 bp langen Ditags zu Ketten aneinanderligiert, wobei die Erkennungssequenz von NlaIII (CATG) später als Interpunktion zwischen den einzelnen Ditags diente.

↓69

Abb. 16: Verdau der 102bp Fragmente mit NlaIII.

12%PAGE. Das gesamte Volumen (50µl≙ 180 PCRs) wurde auf vier Bahnen verteilt aufgetragen. 10bp M: 10bp DNS GS.

Abb. 17: K1 Konkatemerisierung (5U Li-gase, 1h).

12% PAGE (90V, 3h). Es wurde das gesamte Volumen (10µl) des Ligations-ansatzes aufgetragen. Es bildeten sich lediglich Ketten größer 2kb. 1kb M: DNS Größenstandard.

Abb. 18: Zweite K2 Ligation der Ditags zu Ketten

(1U Ligase, 20min Inkubation). 8% PAGE, 10µl aufgetragen. 1kb/100bp M: DNS Größenstandards. Dieser Ligationsansatz ergab Ditagketten von circa 100 bis 4000bp.

↓70

Die gesamte Menge der gelextrahierten 26 bp Fragmentewurden per Zentrifugation konzentriert und in 7µl LoTE gelöst, was für K1 einem Drittel des per PCR gewonnenen Materials entsprach. Die Ditags wurden im 10µl Ansatz mit 5 Units T4 Ligase (GibcoBRL) versetzt. Es wurde bei 16°C für eine Stunde inkubiert. Velculescu et al. (1997b) empfehlen eine Inkubationszeit zwischen dreißig Minuten und zwei Stunden. Da sich in der anschließenden Gelelektrophorese (Abb. 17) zeigte, daß lediglich sehr lange Fragmente (größer 2000bp) entstanden waren, die für eine effiziente Ligation in einen Vektor wenig geeignet gewesen wären, wurde das Protokoll dahingehend modifiziert, daß lediglich 1U T4 Ligase statt der vorgegebenen 5U eingesetzt wurde und die Reaktionszeit halbiert wurde. Für K2 (Verwendung von einem Sechstel des PCR Amplifikats) ergaben sich so nach der Gelelektrophorese Fragmentlängen von 450 - 4000bp (keine Abb.), welche in drei Größenstufen (450 - 600bp, 600 - 900bp und 900 - 4000) ausgeschnitten wurden und anhand der üblichen Vorgehensweise aufbereitet wurden. Um die Menge an klonierbaren Fragmenten noch weiter zu steigern, wurde in einem dritten Anlauf bei ansonsten gleicher Vorgehensweise die Ligationszeit weiter verkürzt (zwanzig Minuten), was Konkatemere (K2) im Bereich von 100 - 4000bp (Abb. 18) ergab. Auch hier wurden die Fragmente ausgeschnitten (400 - 800bp und 800 - 4000bp) und aufbereitet. Da weiterhin sehr lange Fragmente bei der Ligation der Ditags entstanden waren, wurde für die zweite Konkatemerisierung von K1 nach erneutem NlaIII Verdau von einem weiteren Drittel des PCR Amplifikats lediglich zehn Minuten lang bei 16°C inkubiert. Hiernach waren in der Elektrophorese Ditagketten im Bereich von 100 - 6000bp zu sehen (keine Abb.). Ausgeschnitten wurden drei Fraktionen, nämlich 500 - 700bp, 700 - 2000bp und 2000 - 6000bp. Die Aufbereitung erfolgte wie beschrieben (siehe S.50).

4.1.4.15 Klonieren der Ditagketten

Um die Tags sequenzieren zu können, wurden sie in einen Vektor (pZErO™ - 1, Invitrogen) ligiert und diese per Elektroporation in Bakterien übertragen. Verwendet wurden hierfür die ausgeschnittenen Konkatemere verschiedener Längenbereiche (400 - 4000bp).

Ligation der Ditags in einen Vektor

Als Vektor wurde ein SphI geschnittener pZErO verwendet. Nach dem Verdau von 1µg des Vektors (vergleiche S. 37) mit 2,5U SphI (NEB) wurde das Restriktionsenzym folgendermaßen inaktiviert: Inkubation bei 65°C für zwanzig Minuten, Zugabe von 90µl TE, Inkubation bei 70°C für sechs Minuten, dann bei Raumtemperatur für zehn Minuten. Die Endkonzentration des Vektors betrug 10ng/µl.

↓71

Zur Ligation wurde das gesamte Volumen der gelgereinigten Konkatemere (5µl) im 10µl Ansatz mit 25ng des vorbereiteten Vektors und 2U der T4 Ligase (GibcoBRL) zusammengegeben und für vierzig Minuten bei 16°C inkubiert. Als Negativkontrolle wurde der Vektor alleine inkubiert, das heißt ohne Ditag- und Ligasezugabe. Dies diente auch der Überprüfung der Funktion des letalen Proteins, das bei Selbstligation des Vektors gebildet wird. Nach PC8 Extraktion und Ethanolfällung wurden die Ligationsprodukte in 8µl LoTE gelöst.

Elektroporation

Dies erfolgte wie dargestellt (siehe S. 39). Es wurden jeweils 1µl Ligationsansatz und 40µl kompetente XL1 - Blue MRF E.coli (Stratagen) benutzt. Ein Zehntel der transfizierten Bakterien wurde auf je einem Zeozin-haltigen Agarboden ausplattiert, so daß pro Ansatz zehn Platten zur Verfügung standen. Auf den Selbstligationsplatten so wie den Platten der Negativkontrolle (keine Ligase und keine Konkatemere im Ligationsansatz) ließ sich kein Wachstum beobachten.

Abb. 19: Plasmidscreening PCR.

1% Agarosegel. Jeweils 8µl von 25µl aufgetragen. 1kb M: DNS Größenstandard.

Kontroll-PCR

↓72

Um zu überprüfen, ob die Länge der klonierten Tagketten den Erwartungen entsprach, wurden Screening-PCRs mit M13 F (universal) und R (reverse) Primern (Eurogentec)durchgeführt (Abb. 19). Für die PCR wurden 25µl Ansätze wie auf S. 51 beschrieben gewählt. In diesen Ansatz wurde eine mit einer sterilen Pipettenspitze gepickte Bakterienkolonie getaucht. Anschließend wurde nachfolgendes Programm durchgeführt: 95°C für zehn Minuten (initiale Denaturierung), 30 Zyklen mit 95°C für eine Minute, 60°C für eine Minute und 72°C für zwei Minuten, 72°C für zehn Minuten (finaler Elongationsschritt). Klone, welche eine Insertlänge größer als 500bp (inklusive 226 bp Vektorsequenz) aufwiesen, wurden anschließend zur Sequenzierung vorbereitet (siehe S. 49).

4.1.4.16 Sequenzieren

Die Erstellung von Pilotsequenzen erfolgte wie beschrieben (S. 50). Alle weiteren Sequenzierungen wurden in Kooperation mit dem Institut für Molekulare Biotechnologie in Jena nach dem dort verwendeten Standardprotokoll (siehe S. 51) durchgeführt.

4.1.4.17 Auswertung

4.1.4.17.1 Auswertung der Sequenzrohdaten

Die Auswertung der Rohdaten erfolgte am Institut für Molekulare Biotechnologie in Jena anhand von PHRED, einem Programm, das eine Qualitätsbewertung für jede Base vornimmt. Ein PHRED "quality score" von 30 beispielsweise bedeutet, daß die Base mit einer Genauigkeit von 99,9% gelesen wurde (International Human Genome Sequencing Consortium 2001). Es wurden zur Auswertung die im Rahmen des humanen Genomprojektes angewandten Qualitätskriterien benutzt.

4.1.4.17.2 Aufbereitung der sequenzierten Tagketten

↓73

Bevor die 10bp langen Tags einer Homologierecherche und der statistischen Auswertung unterzogen werden konnten, mußten sie aus den mehreren hundert Basenpaaren langen Sequenzen extrahiert werden. Dies geschah mittels der von K.W. Kinzler und Kollegen freundlicherweise zur Verfügung gestellten SAGE300 Software Version 3.01.

Bei der Analyse der verwertbaren Sequenzdaten per Computer konnten die Ditags anhand der Unterbrechungen durch die NlaIII Erkennungssequenz (CATG) identifiziert werden. Da aufgrund der End-zu-End Ligation der Monotags das zweite Tag sozusagen rückwärts in 3'→ 5' Richtung sequenziert worden war, wurde dieses jeweils von der Software umgedreht, nachdem die Grenze der beiden Tags voneinander anhand anzugebener Tag- und Ditaglängen bestimmt worden war.

Vor der automatisierten Analyse mußten unter "Präferenzen" grundlegende Einstellungen angegeben werden. Aus einer 'drop down' Liste von 92 Typ II Restriktionsendonukleasen konnte das verwendete Verankerungsenzym ausgewählt werden. Des weiteren mußte die geschätzte Taglänge (abhängig von den verwendeten Enzymen) mit 4 bis 13bp angegeben werden - wobei empfohlen wird, ein Basenpaar weniger als erwartet zu wählen (also 10bp), um bei schwankenden Ditaglängen bei der Zuordnung der Basen zu einem Tag auf der sicheren Seite zu sein und auch kürzere Tags in die Auswertung miteinbeziehen zu können. Die erforderliche Angabe der maximalen Länge der Ditags ergab sich aus der zweifachen Taglänge, zu welcher mindestens 2bp addiert werden, um auch längere Ditags in die Analyse einschließen zu können.Als Mindestlänge wurde von dem Programm automatisch die zweifache Monotaglänge eingesetzt. Außerdem war erforderlich, den Organismus, aus welchem das analysierte Gewebe entnommen worden war, einzutragen (hier: Mus musculus). Eine Verknüpfung stellte die Verbindung zu einem sogenannten 'Tag Exclude Manager' her. Dieser beinhaltet eine Liste von maximal vierzig Tags, welche von der Analyse ausgeschlossen werden sollten, wie zum Beispiel die Linkersequenzen (vergleiche Tabelle 6).

↓74

Abb. 20: Ausgabe der Analyse eines Konkatemers mit SAGE300.

Tabelle 6. Liste der Linkerartefakte

Linkerderivate

Fehlerart

Linkerderivate

Fehlerart

Linkerderivate

Fehlerart

TCCCTATTAA-GCC

Orginalsequenz

TCCATATTAA

sub

TCCCTACTAA

sub

ACCCTATTAA

sub

TCCGTATTAA

sub

TCCCTAGTAA

sub

CCCCTATTAA

sub

TCCTTATTAA

sub

TCCCTATAAG

del

GCCCTATTAA

sub

TCCCAATTAA

sub

TCCCTATAAA

sub

CCCTATTAAG

del

TCCCCATTAA

sub

TCCCTATCAA

sub

TACTATTAAG

del+sub

TCCCGATTAA

sub

TCCCTATGAA

sub

TGCCTATTAA

sub

TCCCATTAAG

del

TCCCTATAAG

del

TTCCTATTAA

sub

TCCCTCTTAA

sub

TCCCTATTCA

sub

TCCTATTAAG

del

TCCCTGTTAA

sub

TCCCTATTGA

sub

TCACTATTAA

sub

TCCCTTTTAA

sub

TCCCTATTTA

sub

TCGCTATTAA

sub

TCCCTTTAAG

del

TCCCTATTAG

del?sub?

TCTCTATTAA

sub

TCCCTAATAA

sub

TCCCTATTAC

sub

(Linker 1B), die von der SAGE300 Software als Vorlage zur Elimination von Linkersequenzen verwendet wurde. Die Liste für Linker 2B verhält sich analog. Bei den von der Orginalsequenz (um eine Base) abweichenden Sequenzen gibt die Spalte "Fehlerart" eben diesen an: "sub" für Substitutionen und "del" für Deletionen.

Nach der Eingabe dieser Informationen konnte die Analyse des SAGE Projektes vorgenommen werden. Hierzu wurde ein Ordner erstellt, welcher sämtliche Informationen zum aktuellen Projekt enthält. Die Sequenzen wurden im selben Verzeichnis mit der Extension "*.seq" abgespeichert. Um sicher zu gehen, daß es sich um relevante Daten handelt, wurden die Sequenzen ansatzweise vor der automatisierten Auswertung "per Hand" gegengelesen. Pro Klon war die Auswertung von 9000bp möglich. Des weiteren wurde die Position der Start (1 - 1000)- und Stoppbase (<9000) angegeben (in den vorliegenden Daten meist knapp 500bp). Auf diese Weise können zum Beispiel Strecken, welche Vektorsequenzen aufweisen, von der Analyse ausgeschlossen werden. Durch die automatische Auswertung wurden die einzelnen Tags extrahiert und das gesamte Projekt auf mehrfach auftretende Ditags und Linkersequenzen (siehe Tabelle 6) überprüft, wobei auch Ditags in umgekehrter Orientierung aussortiert wurden. Ditags, welche zu kurz waren, sowie Ditags, welche als zu lang erkannt wurden, wurden von der Auswertung ebenfalls ausgeschlossen (siehe Abb. 20). Die SAGE300 Software bietet auch die Möglichkeit der statistischen Auswertung per Monte Carlo Simulation (ohne Teststatistik), so wie des Vergleichs verschiedener Projekte. Auf diese Option soll im Rahmen der Diskussion der statistischen Probleme von SAGE eingegangen werden.

4.1.4.17.3 Sekundäre Elimination verbliebener Linker

↓75

Bei der Durchsicht der beiden durch den vorherigen Schritt entstandenen Taglisten fiel auf, daß sich darunter Sequenzen befanden, welche den eingesetzten Linkern stark ähnelten, jedoch nicht von der SAGE300 Software aussortiert worden waren. Um diese Sequenzen auch noch zu eliminieren, wurde in Kooperation mit Dr. Oliver Redner5 ein Programm in C/C++ erstellt. Dieses ist in der Lage, Tags zu erkennen, welche sich um eine Base von häufigeren Tags unterscheiden. Damit orientiert es sich an der Vorgehensweise der SAGE300 Software. Die Taglisten wurden von Excel in ".prn" Textdateien konvertiert und insofern editiert, als die beiden originalen Linkersequenzen als 10er Tag mit dem fiktiven Häufigkeitswert von 700 an den Anfang gesetzt wurden. Nach dem Einlesen der Tagliste wurde der maximale Wert für Tags, die als Matrizen dienen sollten, nämlich die beiden Linkersequenzen, auf 400 festgelegt. Auf diese Weise waren die beiden Linkertags die Grundlage für den Abgleich mit allen Tags des Projekts (maximaler Häufigkeitswert 379). Das Ergebnis ist Tabelle 7 zu entnehmen. Es wurden in K1 31 zusätzliche Linkerartefakte, die zusammen 364 mal vorkamen, auf diese Weise identifiziert und eliminiert. In K2 waren dies 24 verschiedene Tags (Masse: 269). Es wurden in K1 31 zusätzliche Linkerartefakte, die zusammen 364 mal vorkamen, auf diese Weise identifiziert und eliminiert. In K2 waren dies 24 verschiedene Tags (Masse: 269).

Tabelle 7. Sekundär eliminierte Linkerartefakte.

Linkerderivate

K1

K2

Linkerderivate

K1

K2

TCCCCCGTAC

75

60

TCCCCGACAC

3

1

TCCCCTATTA

59

37

TGCCCTATTA

2

0

TCCCTTATTA

26

24

TCCCATATTA

2

3

TCCCGTACAC

22

18

TACCCCGTAC

2

0

TCCCCGTAAC

22

12

CCCCGTACAC

2

3

TCCCCGTACC

20

18

TCCTCTATTA

1

0

TCCCCGTTAC

20

11

TCCTCCGTAC

1

0

TTCCCTATTA

20

9

TCCCTTTAAA

1

0

TCCCTAATTA

19

11

TCCCTACTTA

1

0

TCCCCGGTAC

17

13

TCCCGTATTA

1

1

TTCCCCGTAC

12

16

TCCCCGTCAG

1

1

ATCCCTATTA

9

3

TCCCCGTAAG

1

0

TCCCCGTCAC

7

15

TCCCCGACAG

1

0

ATCCCCGTAC

7

4

CCCTATTAAA

1

0

TCCCGTACAG

3

0

TCTCCCGTAC

0

1

TCCCCTACAC

3

3

TCCTATTAAA

0

1

TCCCCGTACG

3

3

TCCCCGACAA

0

1

In den Spalten ist nach den beiden Gruppen getrennt die jeweilige Häufigkeit angegeben.

4.1.4.17.4 Sequenzfehlerkorrektur

Um eventuelle Sequenzfehler der in der vorliegenden Arbeit erstellten Expressionsprofilen näherungsweise, aber systematisch (ausführliche Erklärung siehe S. 134) - zu korrigieren, wurde erneut das oben beschriebene Programm in C/C++ eingesetzt. Diesmal wurden alle Singletons, die sich um eine Base von häufiger auftretenden Tags unterschieden und damit vermutlich Resultat eines Sequenzierfehlers waren, diesen zugeordnet. Dies führte dazu, daß die Menge der häufiger auftretenden Tags sich um ein Tag erhöhte, während das als fehlerhaft interpretierte Singleton aus dem Datensatz verschwand. Als Grenze für die Tags, welchen die Singletons zugeordnet werden sollten, wurde das Kriterium ">= 3" gewählt. In dem Fall, daß ein zuzuordnendes Tag sich von mehreren öfter auftretenden Tags um eine Base unterschied, wurde es dem häufigsten zugewiesen. Falls es dabei mehr als ein Tag mit einer bestimmten Häufigkeit gab, wurde es dem in der Liste oben stehenden zugeordnet. Dies bedeutet, daß hier Kriterien der Listensortierung (Mittelwert, Alphabet) zur Anwendung kamen, die inhaltlich nicht mit der Sequenzierung und ihren Fehlern zusammenhängen. Doch ist dies in Ermanglung besserer Vorgehensweisen nicht zu umgehen und traf lediglich in 1,0% (K1) beziehungsweise 1,8% (K2) der Fälle zu. Wenn Taghäufigkeiten sehr nah beieinander liegen (beispielsweise 3 und 4) ergibt sich das gleiche Problem. Dies wurde jedoch nicht berücksichtigt, da es den Rahmen der Analyse gesprengt hätte. Auf diese Weise wurden in K1 1140 Singletons zugeordnet und in K2 1163. In beiden Gruppen entspricht dies 8,4% der Gesamttagmenge.

4.1.4.17.5 Homologierecherche

↓76

Die Zuordnung der extrahierten Tags zu bereits bekannten Gensequenzen erfolgte unter Verwendung einer über das Internet erhältlichen Gendatenbank, welche mit Hilfe des UniGene Projektes (http://www.ncbi.nlm.nih.gov/UniGene) speziell für SAGE erstellt worden war (ftp://ncbi.nlm.nih.gov/pub/sage) (Lash et al. 2000). UniGene bündelt ähnliche GenBank Sequenzen in Gruppen (Cluster), welche jeweils ein Gen repräsentieren. Um dieses Projekt für SAGE nutzbar zu machen, waren diese Cluster folgendermaßen bearbeitet worden: Sortierung nach Spezies, Orientierung der Sequenzen anhand eines Polyadenylierungssignals (ATTAAA/AATAAA) oder -schwanzes (mindestens acht A) oder einer vorhandenen Angabe zur Orientierung, Extraktion eines SAGE entsprechendem 10bp Tags unmittelbar 3' der am meisten 3' liegenden NlaIII Erkennungssequenz, Zuordnung der UniGene Cluster Nummer zu dem Tag. Nicht jedes potentielle Tag konnte mit einem Cluster gepaart werden, der aus gut charakterisierten cDNS Sequenzen besteht, deren Sequenzierfehler vernachlässigbar ist. Häufig fanden sich in der Datenbank lediglich ESTs, welche nur einmal sequenziert worden waren und somit einen geschätzten Fehler von 10% für die 10bp lange Sequenz (Lash et al. 2000) aufweisen. Das bedeutet, daß 10% der Tag-UniGene Cluster Paarungen aufgrund dieses Fehlers entstanden waren. Um diesem Problem zu begegnen, wurden 10% der seltensten Tag-UniGene Zuordnungen entfernt, da hier Fehler am wahrscheinlichsten sind. Das Ergebnis dieser Prozesse ist oben erwähnte Datenbank, welche sämtliche als zuverlässig bezeichnete UniGene Cluster - bestehend aus cDNS Sequenzen und ESTs - enthält. Die dort gespeicherten ESTs werden in vier Klassen eingeteilt, wobei ihr Wert für die Tag-Gen-Paarungen von oben nach unten abnimmt. Als erstens kommen ESTs, die als 3' orientiert in der GenBank geführt werden und ein Polyadenylierungssignal oder -schwanz aufweisen können. Es folgen ESTs ohne Orientierungsangabe, aber mit Poly(A)-Kennzeichen, ESTs mit einer 5'Orientierung und Poly(A)-Kennzeichnung und als letztes ESTs mit 3'Orientierung ohne Hinweis auf eine Polyadenylierung (siehe Tabell 8 Spalte "Ursprung"). Diejenige Datei, welche M.musculus Sequenzen enthielt und NlaIII als Verankerungsenzym verwendet hatte ("SAGEmap_tag_ug-rel-Nla3-Mm"), wurde von dem NCBI FTP Server heruntergeladen und als MS Access Tabelle gespeichert. Per Auswahl-Abfrage erfolgte eine Verknüpfung mit den erstellten Tagsequenzen. Alternativ wurden Zuweisungen anhand des 'Tag Mapping' Werkzeugs der SAGE Internetseite (http://www.ncbi.nlm.nih.gov/sage) vorgenommen, das auf demselben Prinzip wie die Datenbank basiert. Das Ergebnis dieser Recherche ist für die fünfzig häufigsten Gene des hier vorliegenden Projektes zu entnehmen.

Tabelle 8. Resultate der Homologiesuche für die 50 häufigsten Gene.

UniGene Cluster Nr.

Tagsequenz

11. Base

Beschreibung

Ursprung

Mittelwert (Tags)

keine reliable Zuordnung

vorhanden

GCTGCCCTCC

A

mitochondriale Sequenz

EST: 3'Orientierung,

Poly(A)-Kennzeichnung

332,5

35 reliable Clusterzu-

ordnungen vorhanden

GTGGCTCACA

A

Beispiel: Mm.100791:

RIKEN cDNS 2700038G22 Gen

cDNS

157

keine zuverlässige Zuordnung vorhanden

ATACTGACAT

T

mitochondriale Sequenz

EST:

3'Orientierung, Poly(A)-Kennzeichnung

106

keine zuverlässige Zuordnung vorhanden

AGGAGGACTT

A

mitochondriale Sequenz

EST:

5'Orientierung,

Poly(A)-Kennzeichnung

92,5

keine zuverlässige Zuordnung vorhanden

AACGGCTAAA

C

mitochondriale Sequenz

EST:

3'Orientierung, Poly(A)-Kennzeichnung

76,5

 

TCCCCCGTAC

A

Linkerartefakt

 

67,5

keine zuverlässige Zuordnung vorhanden

AGGACAAATA

T

mitochondriale Sequenz

EST:

keine Orientierungsangabe,

Poly(A)-Kennzeichnung

65

keine zuverlässige Zuordnung vorhanden

ATGACTGATA

A

mitochondriale Sequenz

EST:

3'Orientierung, Poly(A)-Kennzeichnung

64

keine zuverlässige Zuordnung vorhanden

ATAATACATA

A

Mm.14087:

Komplement Komponente 4 bindendes Protein

EST:

3'Orientierung, Poly(A)-Kennzeichnung

61,5

27 zuverlässige Zuordnungen gefunden

AAAAAAAAAA

A

1. Mm.104540:

RIKEN cDNS 1500039N14 Gen

cDNS

57,5

keine zuverlässige Zuordnung vorhanden

AGCAATTCAA

A

mitochondriale Sequenz

EST:

5'Orientierung, Poly(A)-Kennzeichnung

50

Mm.2992

GCTTCGTCCA

G

Myelin Basic Protein

cDNS

48,5

Mm. 30245

TCCCCTATTA

A

Phosphatidylserine Decarboxylase Klon MGC:7133 ähnlich

cDNS

48

keine zuverlässige Zuordnung vorhanden

AGCAGTCCCC

T

mitochondriale Sequenz

EST:

3'Orientierung, Poly(A)-Kennzeichnung

44

 

CAAACCTCCA

T

keine Homologie gegenwärtig

 

38,5

Mm. 5289

GCCTCCAAGG

A

Glyceraldehyde-3-Phosphat Dehydrogenase

cDNS

35,5

Mm. 4263

CCTTGCTCAA

T

Cystatin C

cDNS

30,5

Mm. 29846

CCGCCCCTTT

C

verwandt einer "N-myc downstream 1" regulierten Sequenz

cDNS

30

 

TCCCTTATTA

A

Linkerartefakt

 

25

Mm. 196614

AGGCAGACAG

T

Eukaryotischer Translationselongations- Faktor 1 alpha 1

cDNS

24

Mm. 4881

GCGGGGTCGC

C

Granin-ähnlicher neuroendokrinischer Peptidvorläufer

cDNS

23

Mm. 44101

GCCCCCCTCT

C

schwach ähnlich der I49143 gastrischen H(+)-K(+)-ATPase Alpha Subunit (Mm)

EST:

5'Orientierung, Poly(A)-Kennzeichnung

22,5

Mm. 29807

GCGCCAGCTC

A

Ubiquitin Carboxy-terminale Hydrolase L1

cDNS

22

Mm. 18041

GCACAACTTG

C

Calmodulin II

cDNS

22

Mm. 39185 Mm. 21110

GCTGCCCCTC

C

Mm. 39185: EST

Mm. 21110: EST

EST:

3'Orientierung, Poly(A)-Kennzeichnung bzw.

ohne Orientierung, Poly(A)-Kennzeichnung

22

Mm. 1268

AAATTATTGG

G

Proteolipid Protein (Myelin)

cDNS

21,5

Mm. 5246

GAGCGTTTTG

G

Peptidylprolylisomerase A

cDNS

20,5

 

TCCCGTACAC

G

Linkerartefakt

 

20

keine zuverlässige Zuordnung vorhanden

ACCAATGAAC

A

1. Mm. 150211: schwach ähnlich dem T21052 hypothetischen Protein F226125 (C.elegans)

2. Mm. 22575: Melanomantigen, Familie D, 2

3. Mm. 4962: differentiell exprimierter Tumor

EST:

3'Orientierung, Poly(A)-Kennzeichnung

20

Mm. 34246

ACAAACTTAG

G

Calmodulin

cDNS

19,5

Mm. 4024

GAAGCAGGAC

C

nicht muskuläres Kofilin 1

cDNS

19

 

TCCCCGTACC

A

Linkerartefakt

 

19

9 zuverlässige Zuordnung gefunden

CCTTTAATCC

C

Beispiel: Mm. 1007: Proteasom (Prosom, Makropain) Subunit alpha Typ 3

cDNS

19

Mm. 30155

CGTCTGTGGA

G

lysosomale ATPase, H+ transportierend (vakuoläre Proton Pumpe) 16kD

cDNS

19

Mm. 13859

AGAGCGAAGT

G

RIKEN cDNS 1810055P16 Gen

cDNS

18,5

Mm. 13020

AGGTCGGGTG

G

Ribosomales Protein L13a

cDNS

18,5

Mm. 196396

GCTGCCCTAG

A

Alpha 1 Tubulin (M α 6)

cDNS

18

Mm. 297

CCCTGAGTCC

A

Melanom X-Actin

cDNS

17,5

 

TCCCCGTAAC

A

Linkerartefakt

 

17

Mm. 1240

AAGTGTCGCC

G

Wachstumshormon

cDNS

16,5

Mm. 29857

CAGCTCTGCC

T

Neurogranin (Protein- Kinase C Substrat, RC3)

cDNS

16

Mm. 43005

TGACCCCGGG

A

Fusionsprodukt 1 des Ubiquitin A-52 Rest ribosomalen Proteins

cDNS

16

 

TCCCCGTTAC

A

Linkerartefakt

 

15,5

Mm. 42829

TTTCCAGGTG

T

muskuläres Selenoprotein W

cDNS

15,5

Mm. 19605

Mm. 5290

GCCCGGGAAT

A

1. Hexokinase 1

2. ribosomales Protein L17

cDNS

15,5

Mm. 1008

GTGACCTGGC

C

zerebrale Prostaglandin D2 Synthase (21 kDa)

cDNS

15,5

 

TCCCTAATTA

A

Linkerartefakt

 

15

 

TCCCCGGTAC

A

Linkerartefakt

 

15

Mm. 3158

GGCTTCGGTC

T

ribosomales Protein P1

cDNS

15

Mm. 1147

ATCCGCACCC

T

murines Calmodulin III (3'UTR)

cDNS

15

Falls einer Tagsequenz mehr als 2 Gene zugeordnet werden konnten, wurde nur eines beispielhaft in die Tabelle aufgenommen. Die Spalte "Ursprung" verweist auf die Herkunft der Gensequenzen, wobei cDNS' am besten charakterisiert sind und ESTs in absteigender Rangordnung folgen: 1. 3'Orientierung mit Poly(A)-Kennzeichnung, 2. keine Orientierungsangabe, aber Poly(A)-Kennzeichnung, 3. 5'Orientierung mit Poly(A)-Kennzeichnung, 4. 3'Orientierung ohne Poly(A)-Kennzeichnung. In der Rubrik "Mittelwert" befinden sich die arithmetischen Mittel der Tags von K1 und K2. Da die Homologierecherche vor der sekundären Elimination verbliebener Linkerartefakt durchgeführt worden war, sind ebensolche enthalten.

4.1.4.18 Quantitatives Resultat

Insgesamt wurden nach Abzug von 890 replikativen Ditags (entspricht 5,33% von 33406 Tags) 31626 Tags lesbar und auswertbar sequenziert. Es befanden sich darunter nach Analyse mit der SAGE300 Software 3494 Sequenzen (11,05%), welche Linkern entsprachen und somit nicht gewertet werden konnte. Die sekundäre Analyse der Daten mit dem bereits erwähnten Programm zur Elimination von Linkerartefakten (Originalsequenzen und Sequenzen, die sich um eine Base unterscheiden) ergab zusätzlich in K1 364 Linkerartefakte und in K2 269. Insgesamt wurden folglich 14,39% Linkerartefakte gefunden. Somit konnten 13584 (K1) und 13915 (K2) Tags ausgewertet werden.

↓77

Es wurden insgesamt 14159 verschiedene Transkripte detektiert. Sie verteilten sich folgendermaßen auf die beiden Gruppen: K1 8302 und K2 8054 unterschiedliche Transkripte. Nur 269 dieser Tags traten öfters als oder genau zehnmal in beiden Gruppen zusammen auf (Mittelwert: 5). Tags, welche nur einmal gezählt wurden (Singletons), gab es insgesamt betrachtet 12846, wobei K1 6570 Singletons aufwies, was bei 8302 verschiedenen Transkripten 79,1% entsprach, und K2 6276 (75,6% von 8054 verschiedenen Transkripten). Das bedeutet, daß jeweils gut ³/4 der detektierten Gene in einem Expressionsbereich von 20 Kopien pro Zelle lag. Dabei wurde der Umrechnung der gezählten Tags in die Menge der in einer Zelle enthaltenen Transkripte eine Gesamtzahl von 300000 Transkripten pro Zelle zugrunde gelegt (Hastie und Bishop 1976).6 Fast 99% der detektierten Gene hatten ein Expressionsniveau von weniger als 200 Kopien pro Zelle (vergleiche Spalte "Gene" und Abb. 21). Tabelle 9 Spalte "Gene" und Abb. 21).

Tabelle 9. Verteilung der Häufigkeiten in Klassen (in Prozent).

Kopien pro Zelle

K 1

Gene

Menge

K 2

Gene

Menge

> 2000

0,04%

3,95%

0,05%

5,39%

2000 - 200

0,99%

11,97%

1,25%

14,11%

200 - 20

98,98%

84,08%

98,70%

80,50%

< 20

nicht beurteilbar

Unter der Rubrik "Gene" ist der Anteil der verschiedene Gene, welche in der jeweiligen Häufigkeitsklasse erscheinen, in Prozent aufgeführt, unter "Menge" der zugehörige Anteil, den diese Gene an der Gesamtmasse der gezählten Kopien haben. Bei einer Anzahl von pro Gruppe ungefähr 14000 sequenzierten Transkripten liegen Gene, welche weniger als 20 Kopien/Zelle aufweisen, außerhalb des Meßbereichs. Um beispielsweise Transkripte mit 1 Kopie/Zelle wiedergeben zu können, müßten 300000 Tags sequenziert werden.

Die Bandbreite der detektierten Transkripthäufigkeiten reichte bis zu 8200 Transkriptkopien pro Zelle. Bei Betrachtung von deren Verteilung ( Spalte "Menge"), zeigt sich, daß die geringste Expressionsklasse die Masse (80%) der gefundenen Transkripte ausmacht. Dieser Befund läßt sich auch dem ' Tabelle 9 Spalte "Menge"), zeigt sich, daß die geringste Expressionsklasse die Masse (80%) der gefundenen Transkripte ausmacht. Dieser Befund läßt sich auch dem 'Scatterblot' entnehmen (siehe Abb. 21). Im zweiten Abschnitt der Arbeit (ab S. 115) soll diese Graphik durch statistische Aufarbeitung verfeinert werden.

↓78

Abb. 21: Scatterblot von K1 gegen K2.

Auf beiden Achsen ist logarithmisch die Anzahl der gezählten Tags aufgetragen. Genen, welche in einer der beiden Gruppen nicht auftraten, wurde zur Darstellung der Wert 0,9 zugewiesen. Die Abbildung macht deutlich, daß die Masse der Gene geringe Tagzahlen aufweist.

4.2 Diskussion der Etablierung von SAGE

Die vorliegende Arbeit ist im Rahmen eines Projektes zur Untersuchung der Genexpression bei Tiermodellen neurologischer Erkrankungen entstanden. Mit herkömmlichen Kandidatenansätzen und den entsprechenden Methoden wie beispielsweise Northern Blotting ist eine Expressionsanalyse jedoch nur in beschränktem Umfang zu realisieren. Ziel war daher die Etablierung eines Verfahrens wie SAGE, das die Analyse des gesamten zerebralen Transkriptoms zuläßt. Die eingangs gestellte Frage, ob eine derart komplexe Methode, die bisher weltweit nur in einer begrenzten Anzahl von Laboren erfolgreich durchgeführt werden konnte (Yamamoto 2001), in einem molekularbiologischen Standardlabor etabliert werden kann, kann anhand der exemplarischen Durchführung von SAGE an gesunden Mäusegroßhirnen positiv beantwortet werden.

Im folgenden sollen methodische Probleme und Eigenheiten der Durchführung und Auswertung von SAGE sowie die durchgeführten Modifikationen der Originalmethode diskutiert werden.

4.2.1  Methodische Probleme der Durchführung von SAGE

4.2.1.1  Kontamination mit Linkersequenzen

↓79

Die Rate an Linkersequenzen, die sich nach Auswertung mit der SAGE300 Software unter den sequenzierten Tags befinden, lag in den vorliegenden Daten mit 11% deutlich höher als in der Literatur angegeben. Mit dem Ausschluß aller möglicher Linkerartefakte7 mittels des extra entwickelten Programms (siehe S. 75) stieg dieser Anteil in der Kontrollgruppe 1 auf 14,4% und in der Kontrollgruppe 2 auf 11,7% an. Velculescu et al. (1997) sprechen von einer Kontaminationsrate von 3,7% (bei 62965 Tags), Kal et al. (1999) geben eine Rate von 5,27% (bei 10943 Tags) und 6,08% (bei 3847 Tags) an und Welle et al. (1999) eine von 1,35% (bei 53875 Tags). Allerdings wird die Rate der Linker nicht in allen Publikationen angegeben, so daß in der oben zitierten Literatur ein gewisser Bias zugunsten geringer Kontaminationsraten vorliegen könnte. Zudem stellt sich die Frage nach den dort angewandten Eliminationskriterien (die in keiner Publikation genannt werden) und dem damit vorhandenen Einfluß auf die Zahl der als Linkerartefakt deklarierten und aussortierten Tags.

Ein hoher Anteil an Linkersequenzen in den Polytagketten wie in den vorliegenden Ergebnissen ist deswegen nachteilig, weil dadurch die Sensitivität von SAGE als Meßmethode absinkt. Wenn die Kosten eines Projekts, das heißt die sequenzierte Menge, konstant gehalten werden sollen, verringert sich durch die Kontamination mit Linkerartefakten die Anzahl der auswertbaren Tags und somit die Sensitivität. Zudem können inkorporierte angeschnittene Linker(teile) die Effizienz eines SAGE-Durchlaufes senken, indem sie zum Beispiel die Ligation der Ditags zu Polytags stören, da sie zu Kettenabbrüchen führen können (siehe S. 88).

Angesichts dieser relativ hohen Anzahl an unspezifisch inkorporierten Linkersequenzen wäre für einen erneuten Durchlauf von SAGE zu empfehlen, den Waschschritt, welcher sich an die Ligation der Linker an die immobilisierten cDNS Fragmente anschließt, durch mehrmalige Durchführung zu optimieren, um sämtliche ungebundenen und damit überzähligen Linker zu entfernen und auf diese Weise von der Weiterverarbeitung auszuschließen.

↓80

Ein weiterer Ansatz zur Lösung dieses Problems findet sich bei Angelastro et al. (2000a). Dort wird nur ein Fünftel der im Originalprotokoll angegebenen Menge an Linkern eingesetzt. Dies hat zur Folge, daß die Menge der nicht an cDNS Fragmente ligierten Linker geringer wird und damit die Kontaminationsrate sinkt.

4.2.1.2 Amplifikation der Ditags

Um die zu Weiterverarbeitung erforderliche Menge zu erhalten, wurden - anders als im Protokoll angegeben (100 parallele PCR Ansätze) - pro Kontrollgruppe 500PCRs durchgeführt. Die Notwendigkeit, diese Modifikation vorzunehmen, mag darin ihre Ursache haben, daß Amplifikation der Ditags nicht optimal eingestellt werden konnte. Dies ist daran zu sehen, daß die 80bp Fragmente (Linkerdimere) wesentlich effizienter amplifiziert wurden als die Linkerditagkomplexe (Abb. 13), während Velculescu et al. (1997b) fordern, daß diese Bande von höchstens gleicher Intensität wie die darüber laufende 102bp Bande sein soll.

Die Problematik dieses SAGE Schrittes liegt darin, eine maximale Ausbeute an spezifischen PCR Produkten bei möglichst großer Diversität der Tags zu erreichen. Kritische Parameter sind dabei die Konzentrationen der eingesetzten DNS Matrize und der Nukleotide sowie die Anzahl der Amplifikationsschritte.

↓81

Bei einer zu geringen Menge an Matrize ist die Ausbeute nicht maximal. Zu viel DNS pro Einzelansatz reduziert ebenfalls die maximal mögliche Endmenge, da insgesamt nur eine begrenzte Menge an cDNS, die als Matrize eingesetzt werden kann, zur Verfügung steht. Durch die Erprobung diverser Verdünnungsstufen wurde deshalb empirisch die optimale Konzentration ermittelt.

Das gleiche Prinzip zeigt sich bei der Anzahl der durchgeführten Zyklen: Zu wenig Zyklen führen zu einer mäßigen Ausbeute, während eine zu hohe Anzahl den PCR-induzierten Bias verschärft und die Diversifikation der beobachteten Transkripte verringert (siehe S. 90 und Datson et al. 1999), sowie den Verlust des spezifischen 102bp Fragmentes zur Folge hat. Auch dieses Problem wurde empirisch gelöst.

Die Menge des resultierenden PCR Produktes gestaltet sich bezüglich der Nukleotidmenge dosis-abhängig. Nach dem Erreichen eines Maximums bei einer mittleren Konzentration sinkt bei weiter erhöhter Nukleotidkonzentration die Produktmenge wieder, da die Nukleotide vermutlich Mg²+ binden und so die Enzymaktivität negativ beeinflussen (Velculescu et al. 2000). Aus diesem Grund wird empfohlen, die Menge der Nukleotide zu titrieren. Der Versuch, die von verwendete Standardkonzentration von 1,5mM durch 0,4mM zu ersetzen, ergab ein deutlich schwächeres Resultat der PCR, so daß die ursprüngliche Konzentration beibehalten wurde.

4.2.1.3 Verdau der 102bp Fragmente mit NlaIII

↓82

Nach dem Abtrennen der Linker von den amplifizierten Ditags mittels NlaIII Verdau blieb bei der sich anschließenden Elektrophorese ein unverdauter Rest der 102bp Bande (Ditag mit zwei Linkern) zu sehen, was dreierlei Ursachen haben könnte.

1. Das Restriktionsenzym NlaIII verliert schnell seine Aktivität. Diesem Problem sollte dadurch begegnet werden, daß frisch gelieferte Chargen des Enzyms eingesetzt wurden.

2. Des weiteren weisen Velculescu et al. (2000) darauf hin, daß die während der Synthese des zweiten cDNS Stranges verwendete DNS Polymerase I Exonukleaseaktivität besitzt und die Persistenz dieses Enzyms später zu einem Abschneiden der die Erkennungssequenz für NlaIII enthaltenden Überhänge der Linker sowie der komplementären Überhänge der cDNS Fragmente führen könnte. Dies hätte zur Folge, daß die Linker über stumpfe Enden an die cDNS ligiert werden würden und die Ditag-Linkerkomplexe keine Erkennungssequenz für den zweiten Verdau mit NlaIII enthielten. Dies könnte die Unvollständigkeit dieses zweiten Verdaus verursachen. Denkbar wäre, eine zweifache Phenol-Chloroform-Extraktion im Anschluß an die Synthese der cDNS anstelle der durchgeführten einmaligen einzuführen, um so die Polymerase effektiver zu entfernen und damit zu einer besseren Ausbeute an Ditags (26bp Fragment) zu gelangen.

↓83

3. Angelastro et al. (2000b) zeigen, daß die Abtrennung der Linker von den Ditags durch die Einführung eines zusätzlichen Reinigungsschrittes vor dem enzymatischen Verdau der 102bp Fragmente wesentlich effizienter gestaltet werden kann. Die Autoren vermuten, daß kontaminierende Substanzen, welche aus dem Polyacrylamidgel stammen, aus dem die Ditag-Linkerkomplexe aufgereinigt werden, die Aktivität von NlaIII verringern. Sie schlagen vor, zur entsprechend verbesserten Aufbereitung der 102bp Fragmente beispielsweise den QIAquick Kit (Qiagen) zu verwenden.

4.2.1.4 Behandlung der Ditag-Lösungen

Margulies et al. (2001) fanden in ihren SAGE Bibliotheken einen von der Behandlungsweise der Lösungen, welche freie Ditags enthielten, abhängigen Gehalt der Basen G und C. Dies hatte eine Verzerrung der Repräsentation der Tags entprechend ihrem Basengehalt zur Folge.

Um diesem Phänomen auf den Grund zu gehen, verglichen sie zwei SAGE Datenreihen, die von Material stammten, das bis zur PCR einem einzigen SAGE-Durchlauf angehörte, und das danach in zwei hinsichtlich der Behandlung der Lösungen mit freien Ditags unterschiedliche Gruppen geteilt wurde. Hierbei zeigte sich, daß bei Durchführung der Phenol-Chloroform-Extraktion der 26bp Fragmente bei Raumtemperatur der Anteil von G und C in den Tags durchschnittlich höher als 55% lag, während dieser in der Vergleichsgruppe, bei welcher die Extraktion auf Eis erfolgte, unter 50% war. Dieser zweite Wert entspricht Analysen der 3' 'untranslated regions' (UTR), welchen die SAGE Tags entstammen. Deswegen gehen die Autoren davon aus, daß bei Raumtemperatur und außerdem niedriger Salzkonzentration eine Dissoziation der AT-reichen Tags auftritt, die in den Dokumentationen der Elektrophoresen nicht zu sehen ist. Durch die heterogene Komplexität der Lösung wird ein Reassoziation verhindert, so daß anschließend AT-reiche Tags in den Sequenzdaten unterrepräsentiert sind. Um dies zu umgehen, wird empfohlen, alle Schritte, die Lösungen freier Ditags involvieren, auf Eis und die Zentrifugationen bei 4°C durchzuführen. Velculescu et al. (2000) empfehlen außerdem die Verwendung von TE anstelle von LoTE, um so eine höhere Stabilität der freien Ditags zu gewährleisten. Eine Weiterentwicklung von SAGE namens LongSAGE (Margulies et al. 2001), welche mittels Verwendung eines anderen 'tagging' Enzyms längere, das heißt stabilere, Tags synthetisiert, begegnet ebenfalls dieser Problematik.

↓84

Bei der Überprüfung der Daten der vorliegenden Arbeit fand sich in K1 ein durchschnittlicher GC-Gehalt pro Tag von 48%, in K2 von 53% (siehe auch Abb. 22). Diese Werte blieben nach der sekundären Elimination von Linkerartefakten konstant. Margulies et al. (2001) sehen SAGE Bibliotheken, die einen GC Anteil von mehr als 50% haben, als kritisch an. Bei einem Anteil von mehr als 55% soll eine eindeutige Verzerrung vorliegen. Es kann also davon ausgegangen werden, daß die der vorliegenden Arbeit zugrunde liegenden Daten akzeptabel sind. Dieses Ergebnis mag daran liegen, daß die Zentrifugationen der Lösungen mit freien Ditags bei 4°C durchgeführt wurden.8

Abb. 22: Verteilung der SAGE Tags gemäß ihres GC-Gehaltes.

Der Graph repräsentiert die Anteile der Tags der beiden Gruppen mit einem bestimmten GC-Gehalt (0-10 Basen). Um eine Verteilungskurve zu erhalten, wurde jeweils zwischen den einzelnen Punkten eine Linie gezogen. K2 weist im Vergleich zu K1 eine leichte Verschiebung nach rechts auf, was mit dem höheren Anteil an GC-reichen Tags in dieser Gruppe korrespondiert.

Tabelle 10. Vierfeldertafel zur Überprüfung des CG Gehaltes.

 

K1

K2

GC

65325

73649

AT

70151

65501

Angegeben ist die Anzahl der Basen.

↓85

Um festzustellen, ob der Unterschied im Basengehalt zwischen den beiden Gruppen statistisch signifikant ist, wurde ein Chi²-Test an der entsprechenden Vierfeldertafel (siehe Tab. 10) durchgeführt (H0: Der Anteil der Basen GC ist in beiden Gruppen gleich. H1: Der Anteil der Basen ist in beiden Gruppen verschieden; α = 0,05; zweiseitiger Test). Bei einer ermittelten Wahrscheinlichkeit p = 5,89*10-142 muß H1 angenommen werden. Das heißt, daß der Gehalt an G und C zwischen den beiden Gruppen nicht als gleich erachtet werden kann. Dies ließe sich durch zufällige Schwankungen der Salzkonzentration der verwendeten Puffer oder durch Unterschiede in der Umgebungstemperatur oder der Temperatur der Lösungen bei der Verarbeitung der beiden Gruppen vermutlich nur teilweise erklären. Eine andere Hypothese wäre folgende: Bei Betrachtung der beiden Linkersequenzen ergibt sich, daß diese eine sehr unterschiedliche Basenverteilung aufweisen: Einer der beiden Linker hat einen Anteil von 60% an G und C, während der andere einen von 30% besitzt. Dies führt zu der Hypothese, daß angesichts des hohen Anteils an Linkersequenzen Ditags, die als eine Tagkomponente eine GC-reiche Linkersequenz haben, dadurch stabilisiert werden und so einen höheren Anteil der Basen A und T zeigen. Eine Überprüfung der Linkerartefakte beider Gruppen ergab jedoch, daß K2, die Gruppe mit dem höheren GC-Gehalt, auch einen höheren Anteil an dem GC-reichen Linker besitzt (52,7% aller Linkerartefakte versus 43,7% in K1). Dies spiegelt sich leicht abgeschwächt in der Verteilung der Linkerbasen wider: die eliminierten Linkersequenzen von K2 haben einen GC-Gehalt von 46,9%, diejenigen von K1 von 45,0%, ohne jedoch diesbezüglich statistisch signifikant verschieden zu sein9. Dies bedeutet, daß die Hypothese, daß der Basengehalt der Linker den der Tags beeinflußt, nicht zutreffen kann.

Eine weiterer Erklärungsansatz für diesen Unterschied beruht auf der Tatsache, daß die Basen G und C im Vergleich zu den Basen A und T problematisch zu sequenzieren sind, weswegen sie sich tendenziell zu Beginn von Sequenzierungsläufen besser sequenzieren lassen, da hier die Qualität des Sequenzierungslaufes generell hochwertiger ist. Dies bedeutet, daß in einer Gruppe, in welcher die Sequenzierungsläufe tendenziell kürzer sind, mehr Gs und Cs enthalten sein müßten. Tatsächlich erwiesen sich in den Screening-PCRs die Inserts der Gruppe K2, welche den höheren Anteil an G und C besitzt, als kürzer im Vergleich zu Gruppe K1. Eine genauere Analyse dieser Hypothese müßte in weiteren SAGE Projekten untersucht werden.

4.2.1.5  Ligation der Ditags zu Polytags

Da die Anzahl der seriell hintereinandergeschalteten Tags wesentlich den Sequenzieraufwand und die Effizienz von SAGE bestimmt, trägt eine erfolgreiche Durchführung dieses Ligationsschritts entscheidend zur Senkung der Kosten pro SAGE-Tag bei. Die Länge der dabei entstehenden Ketten ist vor allem von zwei Parametern abhängig: der verwendeten Ditagmenge und deren Qualität.

↓86

Um die zur Klonierung erforderliche Menge an DNS zu synthetisieren, wird im Protokoll Version 1.0c (Velculescu et al. 1997) die Durchführung von hundert bis zweihundert PCR Reaktionen (50µl) zur Amplifikation der Ditags empfohlen. Im Rahmen der vorliegenden Arbeit hingegen wurden parallel pro Kontrollgruppe fünfhundert Reaktionen durchgeführt, um diese DNS Menge bei möglichst geringer Anzahl von PCR Zyklen zu erreichen. Diese nebeneinander in großem Umfang laufenden Amplifikationen sowie eine äußerst sorgfältige Arbeitsweise ergaben qualitativ hochwertige Dimere. Dies zeigte sich darin, daß bei der Synthese der Konkatemere anstelle der im Protokoll angegebenen Ligationszeit (dreißig Minuten bis zwei Stunden) eine Inkubation von zehn Minuten ausreichte.

Die Qualität der eingesetzten Ditags wird außerdem durch ihren Reinheitsgrad nach der Gelreinigung der 26bp Fragmente bestimmt. Das Vorhandensein von angeschnittenen Linkern - trotz Gelreinigung - könnte beim Einbau dieser Fragmente einen vorzeitigen Kettenabbruch herbeiführen. Um eine sichere Auftrennung zu gewährleisten, wurde die Elektrophorese mit einer geringen Voltzahl, also sehr langsam, und geringen Ladungsmengen pro Bahn durchgeführt.

In der Literatur findet sich zu diesem Thema noch der folgende Vorschlag:Powell (1998) führt nach der Gelreinigung der 26bp Bande einen weiteren Reinigungsschritt ein. Sie zeigt, daß die abgeschnittenen Linker anhand im Amplifikationsschritt verwendeter biotinylierter Primer A und B nach dem Verdau mit NlaIII über die Bindung an magnetische Streptavidinpartikel effektiver entfernt werden können. Durch diese Modifikation des Originalprotokolls konnte die durchschnittliche Länge der klonierten Inserts von 620bp auf 740bp erhöht werden, was im Schnitt sechs Tags mehr pro Klon entspricht.

↓87

Da im Rahmen der vorliegenden Arbeit keine Schwierigkeiten bei der Synthese langer Polytags zu beobachten waren, scheint eine derartige Modifikation des Originalprotokolls in zukünftigen SAGE Durchläufen jedoch nicht notwendig zu sein.

4.2.1.6 Länge der klonierten Inserts

Allerdings ergab sich nach der Klonierung der Polytags in den Vektor das Problem, daß trotz der sehr effizienten Ligation per PCR lediglich relativ kurze Konkatemere in den Vektoren nachgewiesen werden konnten. In der Gruppe K1 wurden Ditagketten der Längen 700bp bis 2000bp in den Vektor ligiert, die durchgeführten Screening-PCRs ergaben jedoch nur eine mittlere Länge (ohne Vektorsequenz) von 500bp (±70bp). Bei K2 wurden sowohl Längen von 400bp bis 800bp als auch von 800bp bis 4000bp zur Klonierung verwendet. Dies führte zu einer durchschnittlichen Länge von 400bp (±100bp). Um die Leselängen der Sequenzreaktionen (800bp) voll ausschöpfen zu können, wäre eine deutliche Verlängerung der Inserts wünschenswert. Auf diese Weise könnten nicht nur die hohen Sequenzierungskosten gesenkt, sondern auch den finanziellen Aufwand für die Reinigung der Plasmide halbiert werden.

Da es für kürzere DNS Fragmente wahrscheinlicher ist, daß sie in Vektoren ligiert werden, ist zu vermuten, daß vorrangig die jeweils kürzesten Ketten an erfolgreichen Reaktionen beteiligt waren. Es läge also nahe, in zukünftigen Experimenten schmalere Gelstreifen bei der Aufreinigung der Konkatemere zu schneiden, um so die Fragmente mechanisch in kleinere Längeneinheiten aufzutrennen, und diese dann separat in die Vektoren zu ligieren.

↓88

Ein weiterer Vorschlag zur Steigerung der Insertlänge findet sich bei Kenzelmann et al. (1999). Die Autoren weisen darauf hin, daß die während der Ligation der Ditags zu Polytags entstehenden kürzeren Ketten eventuell aggregieren und während der anschließenden präparativen Elektrophorese sozusagen versteckt mit längeren Fragmenten mitlaufen könnten. Diese Aggregation könnte durch Wasserstoffbrückenbildung zwischen den freien NlaIII Überhängen entstehen und durch die große Menge an Mg²+ aus dem Ligationspuffer stabilisiert werden (Kenzelmann et al. 1999). Diese Aggregate würden mit den langen Fragmenten zusammen aus dem Gel geschnitten und in den Vektor kloniert. Im Laufe dieses Geschehens würden die kurzen Fragmente desaggregieren und aufgrund ihrer Kürze bevorzugt in die Vektoren ligiert werden. Durch die Einführung eines Erhitzungsschrittes (65°C für 15 Minuten, dann für 10 Minuten auf Eis) vor der präparativen Gelelektrophorese der Polytags erreichte Kenzelmann eine Verlängerung der Ketten von durchschnittlich 22 Tags pro Klon auf 67. Die Autoren vermuten, daß durch die Erhitzung die Bindungen zwischen den Aggregaten aufgebrochen wurden und so keine Kontamination stattfinden konnte.

4.2.2  Probleme der Auswertung

4.2.2.1  Replikative Ditags und PCR Bias

Die mehrfach gezählten Ditagkombinationen resultieren - wenn Gründe wie fehlerhafte Eingabe in die Datenbank oder versehentliches mehrfaches Picken eines Klons ausgeschlossen werden - entweder aus einer nicht-repräsentativen Überamplifikation (Peters et al. 1999) und reflektieren somit einen PCR Bias (Velculescu et al. 1995) oder entstehen durch die Ligation sehr häufiger Tags (Welle et al. 1999), da diese eine hohe Wahrscheinlichkeit aufweisen, miteinander kombiniert zu werden. Um den PCR Bias nicht in die quantitative Auswertung von SAGE einfließen zu lassen, werden diese redundanten Dimere vor der Datenauswertung eliminiert. Allerdings wird damit zugleich das Risiko eingegangen, die Verbindungen von sehr häufig vorkommenden Tags aus der Wertung überproportional auszuschließen. Welle et al. (1999) finden zum Beispiel für ein in ihrem Projekt sehr häufiges Gen wie dem, das die Cytooxygenase 2 kodiert, durch die Elimination der sich wiederholenden Ditagkombinationen eine Minderung der entsprechenden Tagmenge um 34% (von 1348 Tags auf 890 bei insgesamt 14000 ausgewerteten Tags). Dieses Problem, auf diese Weise die Häufigkeiten oft auftretender Gene zu unterschätzen, vergrößert sich prozentual, je mehr Tags insgesamt sequenziert werden. Aus diesem Grund werten die Autoren ihre Sequenzen in zwei getrennten Datenbanken aus und vereinen die ermittelten Tags und deren Häufigkeiten anschließend. Dieses Vorgehen ergibt der gewählte Versuchsaufbau zwangsläufig, so daß bei Verwendung der Daten der vorliegenden Arbeit (K1 plus K2) in späteren Vergleichen mit anderen Expressionsprofilen davon ausgegangen werden kann, daß diesem Fehler nach den entsprechenden Empfehlungen begegnet worden ist.

Bertelsen und Velculescu (1998) behaupten, daß die Kürze und Uniformität der SAGE Tags eine gleichmäßige Amplifikation der Ditags gewährleistet und so der Entstehung verzerrter Ergebnisse vorgebeugt wird. Spinella et al. (1999) zeigen jedoch mit einem Experiment, das die Ditag-PCR nachstellt, daß die Amplifikationsmenge sehr wohl von der Sequenz der Tags abhängig ist. Ditags, in welchen eines der beiden Tags eine zufällige Sequenz und das andere eine AT-reiche aufweist, lassen sich besser amplifizieren als Ditags mit dem gleichen zufälligen Tag und einem palindromischen Monotag (Spinella et al. 1999) Dies bedeutet, daß die Amplifikation des Ditags von den beiden Einzelbestandteilen beeinflußt wird, und daß non-palindromische Sequenzen im PCR Bias überrepräsentiert wären. Ob hier eine signifikante Beeinflussung der Resultate von SAGE besteht oder es sich um einen zu vernachlässigenden Effekt handelt, bleibt nachzuweisen.

↓89

Mit 5,3% ist der in den vorliegenden Daten detektierte Prozentsatz an replikativen Ditags im Vergleich mit Angaben aus der Literatur (Velculescu et al. (1995) 8,7% bei 1000 Tags, Velculescu et al. (1997) 8,34% von 68691 Tags) relativ niedrig. Dies könnte seine Ursache in der hohen Anzahl an parallel mit einer geringen Zyklenzahl durchgeführten PCRs - 500 gegenüber den 100 bis 200 im Protokoll angegebenen - haben. Der Vorteil einer solch niedrigen Rate an mehrfachen Ditags liegt darin, daß, um die angestrebte Menge an auswertbaren Tags zu erreichen, insgesamt weniger sequenziert werden muß und die Anzahl an verschiedenen Transkripten steigt (Datson et al. 1999), also die Diversität der erfaßten Stichprobe zunimmt.

4.2.2.2 Elimination der Linkersequenzen

Im Rahmen der Auswertung der Sequenzdaten mit der SAGE300 Software Version 3.00 ergab sich ein Anteil an Linkersequenzen von 11,05%. Bei genauerer Betrachtung dieser Artefakte zeigte sich, daß nicht nur diejenigen entfernt worden waren, die zu 100% den originalen Linkersequenzen entsprechen, sondern auch Tags, die um eine Base davon abweichen (siehe Tabelle 6). Allerdings waren hierbei nur Sequenzfehler im Sinne von Deletionen und Substitutionen beachtet worden. Um auch Linkertags, die Insertionsfehler aufweisen, berücksichtigen zu können, wurde im Rahmen der vorliegenden Arbeit ein Programm in der Programmiersprache C/C++ entwickelt. Dies durchsucht den gesamten Datensatz auf Sequenzen, die den Linkersequenzen unverfälscht entsprechen oder aber sich um eine Base davon unterscheiden. Dieser Ansatz ergab eine Linkerartefaktrate von 13,05%.

Problematisch an einer solchen Entfernung der Linkersequenzen ist die Tatsache, daß durch die Einbeziehung von Sequenzlesefehlern ein gewisser Unsicherheitsfaktor entsteht, bei welchen Tags es sich tatsächlich um Linkerartefakte handelt. Der hier (wie auch in der SAGE300 Software) gewählte Ansatz birgt einerseits die Gefahr, Transkripte zu entfernen, die den Linkern stark gleichen, so daß diese nie gemessen werden können, andererseits werden Linkerartefakte im Datensatz belassen, die um mehr als eine Base vom Original abweichen. Eine Klärung könnte nur ein (praktisch nicht umsetzbarer) Vergleich mit den Expressionsdaten anderer Methoden als externe Kontrolle erbringen. Aus diesem Grund sollte der methodisch-praktischen Bewältigung des Linkerproblems eine hohe Priorität zugewiesen werden (siehe S. 82).

4.2.2.3 Sequenzfehler

↓90

Fehler, welche die ursprüngliche Sequenz der Tags verändern, können das Ergebnis von SAGE nicht nur hinsichtlich der Entfernung von Linkerartefakten beeinflussen. Während die Häufigkeit eines Transkriptes durch einen Fehler bei der Sequenzierung des entsprechenden Tags verringert wird, wird diejenige des Trankriptes, welchem das Tag nun fälschlicherweise zugeordnet wird, erhöht. Bei Tags, welche oft vorkommen, spielt dieser zufällige Fehler nur eine geringe Rolle, wohingegen in dem Extremfall, daß ein Tag nur einmal vorhanden ist, dieses fälschlicherweise gar nicht detektiert wird. Es kann auch ein Tag etabliert werden, welches eigentlich gar nicht vorhanden ist. Aus diesem Grund wird auf der SAGE Internetseite (www. ncbi.nlm.nih.gov/SAGE, 5.12.2000) als Kompromißlösung vorgeschlagen, bei einer sequenzierten Tagmenge bis 250000 sämtliche Singletons zu eliminieren, bei Gesamttagmengen von mehr als einer Million auch Transkripte, welche zwei- bis dreimal auftreten. Dieser radikale Ansatz wird von den Autoren selbst als nicht optimal bezeichnet.

Zhang et al. (1997) begegnen diesem Problem etwas differenzierter. Durch den Vergleich des bereits vollständig sequenzierten Hefegenoms mit einem SAGE Projekt, das das Expressions-profil von Hefe untersuchte (Velculescu et al. 1995), wurde ein Sequenzierfehler von 0,7% pro Base ermittelt. Dies ergibt bei einer Taglänge von 10bp eine Fehlerrate von 6,8% (0,068 = 1 - 0,99310) je Tag10. Das heißt, daß die Wahrscheinlichkeit von 6,8% besteht, mindestens einen Fehler (bis zu zehn) in jedem Tag zu finden. Zur Korrektur wurde dieser Anteil an der Gesamtmenge der sequenzierten Tags von der Anzahl der detektierten unterschiedlichen Tags abgezogen, so daß sich die Anzahl der verschiedenen Transkripte reduzierte. Zhang et al. (1997) berechneten also 6,8% von 303.706 insgesamt sequenzierten Tags (entspricht 20652 Tags). Um diese Tagmenge wurden die 69393 verschiedenen Transkripte reduziert, so daß letztendlich lediglich 48741 unterschiedliche Tags ausgewertet wurden. Das Problem ist, daß auch hierbei die Auswahl der zu eliminierenden Gene sich nicht daran orientieren kann, wo der Sequenzfehler wirklich stattgefunden haben könnte.

Üblicherweise wird von einem Sequenzierfehler von 1% pro Base ausgegangen (Lal et al. 1999, Lash et al. 2000). Allerdings soll die Verwendung von Phred - einer Software zur Beurteilung der Sequenzierungsqualität - bei der Auswertung der Sequenzrohdaten die Fehlerrate um 40 bis 50% senken (Ewing et al. 1998), so daß ein 10bp langes Tag ungefähr eine Fehlerwahrscheinlichkeit (Summe über die Wahrscheinlichkeiten für genau einen Fehler bis genau zehn Fehler) von 5 bis 6% (1 - 0,99510 und 1 – 0,99410) aufweisen würde. An Zhangs Vorgehensweise orientiert, hieße das, daß in K1 bei 329 bis 394 und in K2 bei 314 bis 377 Singletons mindestens ein Sequenzfehler vermutet werden kann. Angesichts der Tatsache, daß die Häufigkeitskombination 1/1 oder 0/1 beziehungsweise 1/0 in dem vorliegenden Datensatz 11389-mal auftritt, erscheint es äußerst willkürlich, davon einen Bruchteil zu entfernen. Daraus läßt sich ablesen, daß es sinnvoll wäre, Kriterien zur systematischen Elimination und Sequenzfehlerkorrektur zu entwickeln. So wurde das bereits erwähnte Programm in C/C++ dazu verwendet, anhand der sequenzierten Linkerartefakte den in den Daten der vorliegenden Arbeit konkret vorhandenen Sequenzfehler abzuschätzen. Dazu wurden aus dem gesamten Datensatz diejenigen Tags ermittelt, welche sich in genau einer Base von den beiden Linkersequenzen unterscheiden. Die Anzahl wurde auf die Menge der insgesamt eliminierten Linkerartefakte, das heißt die exakt sequenzierten plus die um genau eine Base abweichenden Tags, bezogen. Dies ergab eine Rate von 26,1%.11 Dieser Wert gibt die Wahrscheinlichkeit wieder, daß sich in Tags genau ein Fehler befindet. Aus diesem empirisch ermittelten Schätzwert wurde basierend auf der Annahme, daß die Wahrscheinlichkeiten für n Fehler binomial verteilt sind, die Fehlerwahrscheinlichtkeit pro Base und anschließend für 0 bis 10 Fehler (siehe Tab. 11) errechnet.

↓91

Nach der Binomialverteilung ergibt sich für p(a) = mit a Wahrscheinlichkeit für den Fehler/Base, L der Taglänge und n Anzahl der Fehler im Tag. Es resultiert eine Fehlerrate pro Base von 3,65%. Auf dieser Basis listet Tabelle 11 sämtliche Wahrscheinlichkeiten für sämtliche mögliche Fehlerhäufigkeiten auf.

Tabelle 11. Wahrscheinlichkeiten für genau n Fehler.

Fehler im Tag

0

1

2

3

4

5

6

7

8

9

10

Wahrscheinlichkeit p(a) [%]

69,0

26,1

4,44

0,45

0,03

1,35 * 10-3

4,25 * 10-5

9,18 * 10-7

1,30 * 10-9

1,09 * 10-11

4,14 * 10-13

Ausgegangen wird von einem 10er Tag und einem Fehler pro Base von 3,65%. Bei dem hervorgehobenen Wert handelt es sich um den aus dem Datensatz ermittelten Wert für genau einen Fehler/ Tag.

Die Wahrscheinlichkeit für Tags mit mindestens einem Fehler summiert sich zu 31,0% auf (Summer aller 10 Wahrscheinlichkeitswerte, n = 1 bis 10) - eine im Vergleich zu 5 bis 10% sehr hohe Fehlerwahrscheinlichkeit.

↓92

Um ergänzend eine Idee der Größe der Fehlerfortpflanzung zu vermitteln, sei folgendes betrachtet. Bei einer Änderung des empirischen Ausgangswertes (26,1% bei n =1) um 2 Prozentpunkte nach oben beziehungsweise unten ergibt sich für die summierte Fehlerwahrscheinlichkeit 34% beziehungsweise 28%, also keine wesentliche Größenänderung. Es ist wichtig zu beachten, daß es sich bei der Bestimmung des Sequenzierfehlers aus den aufgefundenen Linkerartefakten nicht um eine exakte Ermittlung des Fehlers handelt, sondern um eine annähernde Schätzung. Wie schon im Rahmen der Linkerelimination diskutiert, können zudem Transkripte, die den Linkern sehr ähnlich sind, die Fehlerrate fälschlicherweise erhöhen12. Auch beinhalten die Linkersequenzen Abfolgen der Basen G und C, welche beim Sequenzieren besonders fehleranfällig sind. Es handelt sich bei diesem Schätzwert folglich um eine Obergrenze. Die Daten der auszuwertenden Tags liegen somit vermutlich unter dieser Fehlerangabe.

Vermieden werden derartige Probleme wie G oder C Abfolgen bei einer anderen Methode der Sequenzfehlerabschätzung. Piquemal et al. (2002) filtern aus den Sequenzdaten sämtliche Ditags heraus, die doppelt so lang sind, als es den Erwartungen entsprechen würde. Hierbei wird angenommen, daß der Verlust der Erkennungssequenz für NlaIII das Resultat eines Sequenzfehlers ist. Anhand der Anzahl dieser überlangen Ditags und der Fehler in der Nukleotidabfolge CATG läßt sich der Sequenzfehler abschätzen. Ein weiterer Ansatz zur Beurteilung des Sequenzfehlers findet sich bei Chen et al. (2002). Die Arbeitsgruppe setzt zwei künstlich generierte Oligonukleotide ein, welche im Aufbau SAGE Tags (inklusive Linker) entsprechen. In einem seperaten Experiment wird ein SAGE-Durchlauf vom Zeitpunkt der Ditagformierung imitiert. Die resultierenden Tagsequenzen werden im Vergleich mit den Originalsequenzen zu verwendet, um die Fehlerrate zu berrechnen. Dieser Ansatz hat den Nachteil, daß es sich nicht um eine interne Kontrolle handelt, sondern um ein weiteres Experiment, dessen Parameter möglicherweise nicht dem eigentlichen SAGE-Durchlauf entsprechen.

Um Sequenzfehler der in der vorliegenden Arbeit erstellten Expressionsprofilen näherungsweise, aber systematisch - im Gegensatz zu den bisher in der Literatur verwendeten unsystematischen Ansätzen (siehe oben) - zu korrigieren, wurde erneut das Programm in C/C++ eingesetzt. Diesmal wurden alle Singletons, die sich um eine Base von häufiger auftretenden Tags unterschieden, diesen zugeordnet, so daß deren Häufigkeit sich um ein Tag erhöhte, während das als fehlerhaft interpretierte Singleton aus dem Datensatz verschwand. Im Gegensatz zu den oben vorgestellten Ansätzen der Literatur versucht diese Vorgehensweise nicht nur durch Elimination die Anwesenheit potentiell nicht existenter Tags zu korrigieren, sondern auch den zweiten Effekt eines Sequenzfehlers - den Verlust von Tags - durch Zuordnung wieder wett zu machen.

↓93

Dennoch ist zu bedenken, daß dieser Ansatz nur solche Fehler zu korrigieren versuchen kann, die durch einen Irrtum in der Sequenz ein neues einzelnes Tag haben entstehen lassen. Tags dagegen, die aufgrund einer fehlerhaften Sequenz zufällig einem bereits vorhandenen Tag entsprechen und so diesem zugeordnet wurden, werden unkenntlich und damit einer Korrektur nicht zugänglich. Tags mit mehr als einer falsch gelesenen Base (laut Schätzung 5%, vergleiche Tabelle 11), entgehen dem hier gewählten Ansatz ebenfalls. Allerdings wurden bewußt lediglich Singletons zugeordnet, da andernfalls das Risiko zu sehr ansteigt, seltene Transkripte, die häufigen sehr ähneln (zum Beispiel durch Einzelnukleotidpolymorphismen), fälschlicherweise als Sequenzfehler aufzufassen. Zusammenfassend ist zu sagen, daß mit der hier vorgestellten Methode nur einem Bruchteil der möglicherweise vorhandenen Sequenzfehler begegnet werden konnte (8,4% versus maximal 31,0%).

Da es sich also bei allen vorgestellten Korrekturversuchen lediglich um Hilfskonstruktionen handelt, ist zu fordern, den Sequenzfehler, der die Ergebnisse von SAGE so deutlich beeinflußt (siehe S.175), möglichst gering zu halten. Zur Minimierung des Fehlers wäre für weiteren SAGE Projekten zu empfehlen, jedes Konkatemer doppelt, das heißt in zwei Richtungen zu sequenzieren. Allerdings müßte in einem solchen Fall eine Verdopplung der Kosten beziehungsweise eine Reduktion der sequenzierten Menge in Kauf genommen werden.

4.2.2.4 Homologierecherche

Mit einem 10bp langem SAGE Tag können über eine Million (410) verschiedener Transkripte unterschieden werden. Dennoch stellt eine 10bp lange Sequenz keineswegs eine perfekte Repräsentation eines Genproduktes dar (http://www.ncbi.nlm. nih.gov/SAGE, 5.12.00), so daß sich bei der Zuordnung der Tags zu bereits vorhandenen Gensequenzen trotz der Verwendung von UniGene Clustern, die speziell auf die Bedürfnisse von SAGE zugeschnitten worden sind (Lal et al. 1999, Lash et al. 2000, siehe auch S. 77), Uneindeutigkeiten ergeben können. Diese äußern sich darin, daß einem Tag mehrere Gene zugewiesen werden und umgekehrt.

↓94

Tabelle 12. Gründe für uneindeutige oder möglicherweise falsche Resultate der Homologierecherche unter Verwendung der speziell auf SAGE zugeschnittenen Datenbank.

Konstellation

Ursachen

ein SAGE Tag - mehrere Gene

Sequenzfehler der Datenbanksequenzen

'splitting' von Sequenzen bei der Herstellung der UniGene Cluster

zufällige Übereinstimmung von Transkripten verschiedener Gene beziehungsweise deren Varianten an der StelleSAGE-Tags

Verunreinigung der Datenbanksequenzen mit Vektorensequenzen

ein Gen -

mehrere

SAGE Tags

Spleißvarianten, die das 3' terminale Exon betreffen

Einzelnukleotidpolymorphismen (SNPs)

Auftreten multipler Polyadenylierungsstellen eines primären Transkriptes, die in einem Cluster zusammengefaßt werden

'lumping' von Genen bei der UniGene Cluster Zusammenstellung

Tags

ohne

Zuordnung

Gen noch nicht bekannt oder sequenziert

bisher unbekannte Spleißvarianten, die das 3' terminale Exon betreffen

nicht im entsprechenden Cluster enthaltene SNPs

Auftreten multipler Polyadenylierungsstellen eines primären Transkriptes, die in dem entsprechenden Cluster nicht enthalten sind

inneres Oligo (dT) Priming bei der SAGE cDNS Synthese (innere Tags)

unvollständiger zweiter Verdau mit NlaIII (innere Tags)

Sequenzfehler des Tags

SNP in der NLAIII Erkennungssequenz

inneres Oligo (dT) Priming bei der cDNS Synthese der Datenbanksequenzen (3'Ende fehlt)

Fehler der Datenbanksequenzen

Verunreinigung der Datenbanksequenzen mit Vektorensequenzen

falsche Ausrichtung klonierter Datenbanksequenzen

vorzeitige Beendigung der Datenbanksequenz innerhalb des Transkriptes durch Endonukleaseverdau während des Klonierens

potentiell falsche Zuordnung

Sequenzfehler des Tags

unvollständiger zweiter Verdau mit NlaIII (innere Tags)

inneres Oligo (dT) Priming bei der SAGE cDNS Synthese (innere Tags)

inneres Oligo (dT) Priming bei der cDNS Synthese der Datenbanksequenzen (falsches 3'Ende)

Fehler der Datenbanksequenzen

Verunreinigung der Datenbanksequenzen mit Vektorensequenzen

falsche Ausrichtung klonierter Datenbanksequenzen

vorzeitige Beendigung der Datenbanksequenz innerhalb des Transkriptes durch Endonukleaseverdau während des Klonierens

(vergleiche www.ncbi.nlm.nih.gov /SAGE)

In den vorliegenden Daten trat das Problem, daß einem Tag mehrere Gene zugeordnet werden, bei der exemplarischen Auswertung der fünfzig häufigsten Tags in 12% der Fälle auf. Umgekehrt ergab sich bei der Analyse der zuverlässig und eindeutig zugeordneten Gene (25 der 50) hinsichtlich weiterer Tags eine Tag-Cluster-Ratio von 2,64. Das heißt, daß im Mittel jedem dieser 25 Gene 2,64 Tags aus der Internetdatenbank zugeordnet werden konnte. Einige dieser zusätzlichen Tags fanden sich in den vorliegenden Daten wieder, so daß bei einer vollständigen Homologierecherche zum Beispiel Tubulin α (Mm. 196396) ein weiteres Tag (K1 und K2 je 10 mal) aufweisen würde.

↓95

Außerdem kann es Tags geben, für welche kein passendes Gen gefunden werden kann. Dies trat in 2% der betrachteten fünfzig Fälle auf.

Mögliche Ursachen für Probleme bei der Homologierecherche können Tabelle 12 entnommen werden. In den nachfolgenden Abschnitten werden einige dieser Problemfelder und die zugehörigen Lösungsansätze genauer betrachtet werden.

Fehler der Datenbanksequenzen

Um Sequenzfehlern in den veröffentlichten Sequenzen zu begegnen, wurde eine speziell entwickelte Datenbank ("SAGEmap") zur Homologiesuche verwendet, in welcher - wie unter 3.17.3 beschrieben - entsprechend dem erwarteten Sequenzfehler die untersten 10% der nach Rängen geordneten Tag-Cluster-Paare verworfen worden waren. Dennoch bleibt nach Angaben von Lash et al. (2000) ein Anteil von 13% unter allen möglichen Tags, die "SAGEmap" enthält, welchen mehr als ein Cluster zugeordnet wird. Dies hat seine Ursache darin, daß bisher nur ein geringer Anteil der in den Clustern vorhandenen Sequenzen von gut charakterisierten cDNS' abstammt (Mensch im Jahr 2000: 0,1%; Lash et al. 2000).

↓96

Um diese uneindeutigen Zuordnungen (ein SAGE-Tag: viele Gen-Cluster) zu untersuchen, könnte eine um ein oder zwei Basen erweiterte Analyse durchgeführt werden - so diese Basen überhaupt vorhanden sind, da dazu 11 oder 12bp lange Tags benötigt werden. Im Kontext der vorliegenden Arbeit erwies sich dieser Ansatz (für die beispielhaft betrachteten häufigen Transkripte) leider als wenig erfolgreich, da auch die weiter 3' liegenden Basen der in Frage kommenden Gene große Übereinstimmung aufwiesen. Dem Tag "CCTTTAATCC" beispielsweise ließen sich neun Gene zuordnen, die elfte Base C grenzte diese auf sieben ein. Um sämtliche Gene 100 % zu unterscheiden, wären in diesem Fall die Kenntnis von 35 Basen 3' der NlaIII Schnittstelle notwendig gewesen (Abb. 23), was den Rahmen von SAGE übersteigt.

Abb. 23: 3' der 10. Base liegende Sequenzen der 9 reliablen Zuordnungen für "CCTTTAATCC".

In einem solchen Fall müssen alternative Möglichkeiten zur Identitätsbestimmung herangezogen werden. Eskönnte zum Beispiel eine unabhängige Methode der Genexpressionsanalyse (zum Beispiel Northern Blot) angewendet werden, wie Lash et al. (2000) vorschlagen. Allerdings ist der erforderliche Arbeitsaufwand, Sonden und Hybridisierungen für sämtlich zur Diskussion stehende Gene anzufertigen, nur zu rechtfertigen, wenn es sich um eine geringe Anzahl von in Frage kommenden Genen handelt und das Tag aufgrund eines Vergleichprofils signifikant reguliert erscheint und somit ohnehin einer Validierung bedarf. Weitere Möglichkeiten der Identitätsbestimmung bestehen darin, eine PCR mit Tag spezifischen Primern durchzuführen ['3' rapid amplification of cDNA ends' (RACE) - PCR, welche die Sequenz des SAGE Tags als 'forward' Primer benutzt, Michiels et al. 1999] oder das SAGE Tag als Oligonukleotidprobe zum Screening von cDNS Bibliotheken zu verwenden. Auf diese Weise kann diejenige cDNS gefunden werden, von welcher es abstammt. Diese kann dann weiter charakterisiert werden. Lee et al. (2002) entwarfen einen Ansatz, der die üblichen SAGE Tags in längere 3' ESTs umwandelt und so die Identitätsbestimmung erleichtert.

↓97

Tags, welchen kein Cluster zugeordnet werden konnte, können auf die gleiche Weise weiter untersucht werden. So können potentiell neue Gene schnell identifiziert werden beziehungsweise von solchen mit mangelnder Zuordnung aufgrund methodischer Schwächen (siehe Tabelle 12) unterschieden werden.

Fälschliche Zusammenstellung der UniGene - Cluster

Ein dem UniGene Projekt inhärentes Problem sind Fehler bei der Bildung der Cluster. Das heißt, daß Sequenzen, welche eigentlich zu verschiedenen Genen gehören, versehentlich in einem Cluster zusammengefaßt werden ('lumping') oder umgekehrt Sequenzen, die einem Gen zuzuordnen sind, auf verschiedene Cluster verteilt werden ('splitting'). Ersteres erhöht die Tag - Cluster - Ratio, das heißt, daß einem Cluster verschiedene Tags zugeordnet werden, während zweiteres dafür verantwortlich sein kann, daß einem Tag mehrere Gene zugeschrieben werden. Laut Lash et al. (2000) liegt dieser Fehler jeweils unter 5%.Eine Kontrollmöglichkeit auf SAGE Ebene bietet sich hier nicht.

Variierende Transkriptsequenzen

Außerdem tragen, wie aus Tabelle 12 hervorgeht, variierende Sequenzen der Transkripte zu den Schwierigkeiten bei der Homologiesuche bei.

↓98

Einerseits können Variabilitäten in der Transkriptsequenz eines Gens Artefakte der Bibliothekssynthese darstellen. Dies ist der Fall bei Verunreinigungen der Datenbanksequenzen mit Vektorensequenzen, bei innerem Oligo(dT)-Priming während der cDNS Synthese der Datenbanksequenzen, bei falscher Ausrichtung der Inserts in Vektoren oder bei vorzeitiger Beendigung der Datenbanksequenz innerhalb des Transkriptes durch Endonukleaseverdau während des Klonierens. Lash et al. (2000) schätzen die Fehlerrate, die durch derartige Artefakte entsteht, auf 5 - 10%. Im Rahmen eines SAGE Projektes kann hierauf kein Einfluß genommen werden.

Andererseits können diese Variationen auch biologische Ursachen haben. Dies ist der Fall beim Auftreten von Spleißvarianten, die das terminale Exon eines Transkriptes betreffen, beim Auftreten von Einzelnukleotidpolymorphismen und von multiplen Polyadenylierungsstellen eines primären Transkriptes. Letzt genanntes Phänomen soll in 25% der UniGene Cluster vertreten sein (Lash et al. 2000).

Auf die Auswirkungen von Spleißvarianten und Einzelnukleotidpolymorphismen soll im folgenden genauer eingegangen werden.

a) Spleißvarianten

↓99

Dieser Aspekt ist nicht zu unterschätzen: Nach Mercante et al. (2001) sollen bis zu 35% der humanen Gene Spleißvarianten aufweisen.

Madden et al. (1997) detektieren beispielsweise für Cyclin G ein zusätzliches Tag, welches einer weiter 5' liegenden NlaIII Schnittstelle zuzuordnen ist. Dies führen sie darauf zurück, daß es von diesem Transkript eine noch unbekannte Spleißvariante gibt, da sich sonst keine Hinweise auf einen unvollständigen NlaIII Verdau (siehe unten) oder auf andere Ursachen für das Auftreten derartiger Tags ergeben hatten. Welle et al. (1999) fanden mittels BLAST Genbank Suche für eine mitochondriale 12S rRNS Tags von drei verschiedenen NlaIII Erkennungssequenzen, was sie auf Längenunterschiede der Transkriptvarianten zurückführten.

Einen Hinweis auf das Vorhandensein von Spleißvarianten kann das Auftreten von inneren Tags darstellen, das heißt von Tags, die weiter 5' liegenden NlaIII Erkennungssequenzen entstammen. Um exemplarisch zu überprüfen, ob derartige Tags in den Daten der vorliegenden Arbeit vorhanden sein könnten, wurden fünf der häufigen und eindeutig zugeordneten Transkriptsequenzen untersucht. Dazu wurden sämtliche 3' aller NlaIII Erkennungssequenzen eines Transkriptes liegenden Nukleotidabfolgen (10bp) mit den Daten der vorliegenden Arbeit verglichen. Auf diese Weise fanden sich für das Myelinbasisprotein (GenBank Accession Nr. BC004704) und GAPDH (GenBank Accession Nr. NM_008084) jeweils ein potentielles inneres Tag (MBP: CCTTCTGTAG, GAPDH: TTTGTGATGG) von sehr geringer Häufigkeit (MBP: K1-0, K2-2; GAPDH: K1-0, K2-1). Im Gegensatz zu GAPDH sind in der Literatur für MBP verschiedene murine Spleißvarianten bekannt (de Ferra et al. 1985, Boccaccio et al. 1999), die unter anderem das terminale Exon involvieren, so daß bei dieser Boten - RNS die Detektion einer solchen Variante gut möglich sein kann. Im Fall von GAPDH sind andere Erklärungsversuche heranzuziehen (siehe unten). Interessanter Weise werden beide Tags eindeutig den jeweiligen Genen zugeordnet, was beim MBP bedeutet, daß die Spleißvariante in dem UniGene Cluster enthalten ist (als EST mit Poly(A)-Kennzeichnung und 3' Orientierungsangabe). Die Zuordnung im Falle von GAPDH bezieht sich dagegen auf ein EST ohne Poly(A)-Kennzeichnung, allerdings mit 3' Orientierungsangabe, so daß bei dieser Zuordnung von einer verkürzten Sequenz in der Datenbank ausgegangen werden kann. Zur sicheren Verifizierung solcher Spleißvarianten bleibt nur die Möglichkeit, zum Beispiel Northern Blots mit Sonden, welche alle Varianten detektieren können, durchzuführen und die Quantitäten zu vergleichen.

b) Einzelnukleotidpolymorphismen

↓100

Da Einzelnukleotidpolymorphismen ('single nucleotid polymorphisms', abgekürzt SNPs: Insertion, Deletion oder Substitution) sehr häufig sind, kann dieses Phänomen zum Beispiel dazu führen, daß - wenn wie im Fall der vorliegenden Arbeit die verwendete RNS von mehreren Individuen abstammt - für ein bestimmtes Gen unterschiedliche Tags entstehen, die unter Umständen nicht in den UniGene Clustern enthalten sind und somit nicht zugeordnet werden können. Wang et al. (1998)fanden bei einer Untersuchung von sieben Individuen alle 757bp einen solchen Polymorphismus.Umgerechnet13 auf die verwendeten vier Mäuse gilt für ein 14bp langes SAGE Tag (inklusive NlaIII Schnittstelle), daß darin ein oder mehrere SNPs mit einer Wahrscheinlichkeit von circa 0,2% auftreten können. Eine derartige Variante könnte entweder den Austausch einer einzelnen Base in der Tagsequenz bewirken oder eine Änderung der gesamten Sequenz des Tags, wenn durch den Austausch der einen Base eine NlaIII Erkennungssequenz eliminiert oder neu eingeführt wird. Dies hätte zur Folge, daß das Tag nicht oder falsch zugeordnet werden würde.

Da ein bestimmter Polymorphismus in den meisten Fällen vermutlich nur bei einem der gepoolten Individuen auftreten würde, würde das betroffene Tag nur selten detektiert werden, so daß der auf diese Weise entstehende Fehler gering einzuschätzen ist. So entdeckten Welle et al. (1999) unter den 295 Genen, deren Tags sie mindestens 20 mal zählten, nur 4, die einen SNP aufwiesen (bei einem untersuchten Pool von 8 Individuen). Daraus ergibt sich eine Rate von 1,35%, die niedriger liegt als die von ihnen errechneten 2%. Die empirisch ermittelte Anzahl an Polymorphismen würde mit dieser erwarteten Rate vermutlich erst übereinstimmen, wenn auch die seltenen Tags in die Analyse einbezogen würden, da hier anteilmäßig mehr Tags mit SNPs zu finden wären.

Um derartige Sequenzvariation sicher von einem Sequenz- oder PCR-Fehler unterscheiden zu können, müßte jedoch die DNS der einzelnen Individuen untersucht werden - ein Aufwand, der dem möglichen Erkenntnisgewinn nicht entspricht. Es sei denn, alle gesicherten Polymorphismen, die für die Auswertung von SAGE Projekten von Relevanz wären, würden - wie von Baas und Tabak (1999) vorgeschlagen - in einer speziellen Datenbank gesammelt und somit die weitere Auswertung von SAGE Projekten erleichtern.

Unvollständiger erster NlaIII Verdau

↓101

Im Falle einer ineffizienten Durchführung des ersten NlaIII Verdaus oder bei unvollständiger Entfernung 'upstream' liegender cDNS Fragmente nach diesem Verdau kann es dazu kommen, daß Tags nicht von der am meisten 3' liegenden Schnittstelle abstammen, sondern von einer weiter 5' liegenden Sequenz und somit inneren Tags entsprechen. Ein Problem der Verwendung der speziell auf die Bedürfnisse von SAGE zugeschnittenen Datenbank liegt in diesem Fall darin, daß derartige Tags meistens entweder falsch oder fälschlicherweise gar nicht zugeordnet werden, da in der Datenbank UniGene Cluster ausschließlich aufgrund ihrer Sequenz 3' der am meisten 3' liegenden NlaIII Schnittstelle mit Tags gepaart werden. Da das Schneiden mit NlaIII - wie bei dem zweiten Verdau zu sehen ist - einen kritischen Punkt von SAGE darstellt, kann davon ausgegangen werden, daß dieses Problem nicht nur theoretischer Natur ist. Welle et al. (1999) finden unter den von ihnen detektierten Tags 5%, die von weiter 5' liegenden Schnittstellen abstammen. Allerdings können derartige Tags, wie bereits gesagt, auch dadurch entstehen, daß ein Transkript biologisch bedingt variable Längen aufweist.

Wenn ein auf diese Weise entstandenes inneres Tag zufälligerweise einem anderen Cluster zugeordnet werden kann, entgeht dieser Fehler der Aufmerksamkeit, solange keine erweiterte Analyse mit einer Datenbank durchführt wird, welche zusätzlich Tag-Cluster-Paarungen, die weiter 5' liegen, beinhaltet. In der vorliegenden Arbeit wurde eine derartige Untersuchung exemplarisch an fünf häufigen Genen durchgeführt (siehe oben: Spleißvarianten, S. 100). Dies ergab für zwei Gene potentielle innere Tags von sehr geringer Häufigkeit (nur in K2 detektiert, Gesamtmenge: 3 Tags).

Eine ebensolche beispielhafte Vorgehensweise wählen auch Chrast et al. (2000), um zumindest eine Idee von der Effizienz des Verdaus zu erhalten. Sie fanden im Vergleich zu den 3' liegenden SAGE Tags nur eine sehr geringe Anzahl an potentiellen inneren Tags: 1 bis 4 versus 68 bis 490. Daraus schließen die Autoren, daß von einem nahezu kompletten NlaIII Verdau ausgegangen werden kann. Auch die hier durchgeführte Analyse läßt mit der Einschränkung, daß es sich um keine vollständige Überprüfung handelt, diesen Schluß zu - zumal im Falle von MBP das innere Tag vermutlich einer Spleißvariante zuzuordnen ist (siehe oben). Ein singulär auftretendes Tag wie dasjenige, das GAPDH zugehörig zu sein scheint, ist außerdem verdächtig, nur aufgrund eines Sequenzfehlers existent zu sein. Es läßt sich allerdings keinem häufigerem Tag (größer oder gleich 2) - mit dem Unterschied von einer Base - zuordnen.

↓102

Eine punktuelle interne Untersuchung, wie sie hier geleistet wurde, sollte im Rahmen der Auswertung eines SAGE Projektes als minimale Kontrolle des Nla Verdaus erfolgen.

4.2.3 Implikationen für SAGE bei Sonderfällen der Boten-RNS

4.2.3.1  Transkripte ohne Erkennungssequenz für das Verankerungsenzym

Nicht von SAGE erfaßt werden können Boten-RNS Sequenzen, welche dem Verdau durch das verwendete Verankerungsenzym entgehen, da sie keine Schnittstelle dafür besitzen. Ein Enzym wie NlaIII mit einer 4bp langen Erkennungssequenz schneidet durchschnittlich alle 256bp (44), wobei die Mehrzahl der Boten-RNS' beträchtlich länger sind (Velculescu et al. 1995). Kürzere Transkripte haben dennoch generell eine höhere Wahrscheinlichkeit dafür keine Erkennungssequenz zu besitzen: Wenn Sequenzen gänzlich per Zufall erstellt werden würden, hätte ein 2kb langes Transkript eine Chance von größer 99,9% mindestens eine NlaIII Schnittstelle aufzuweisen, ein 1kb langes eine 98%ige Chance, ein 0,5kb langes eine 85%ige Chance und ein 0,25kb langes eine Chance von 62% (Welle et al. 1999). Beispiele für Transkripte ohne Schnittstelle finden sich in der Literatur einige. Welle et al. (1999) können mit SAGE drei der in anderen - ihrem Projekt entsprechenden - cDNS Bibliotheken häufigsten Transkripte nicht detektieren, was sich bei zwei Transkripten (Cytochrom C Oxidase 7a, 341bp lang, und ribosomales Protein S21, 343bp lang) auf die fehlende NlaIII Schnittstelle zurückführen läßt. Kal et al. (1999) berichten von einem Transkript in der Hefe (TPI 1 Gen), auf welches dies ebenso zutrifft. Um dieses Phänomen exemplarisch für die vorliegende Arbeit zu überprüfen, wurden Sequenzen einiger häufiger Transkripte in murinen UniGene Gehirnbibliotheken aus EST Sequenzierungsprojekten (Lib. 16, 200, 205, 230, 483, 264, 280 und 161 - www.ncbi.nlm.nih.gov/ UniGene, 10.10.01), deren potentielle Tags in den hier vorliegenden Daten nicht wiederzufinden waren, hinsichtlich der NlaIII Erkennungssequenz analysiert. Diese war jedoch in sämtlichen Sequenzen vorhanden.

Die Voraussetzung um fehlende Schnittstellen zu erkennen, ist also, daß zu dem untersuchten Gewebe externe Kontrollmöglichkeiten existieren. Das heißt, daß (quantitative) Expressionsdaten, welche mit einer anderen Methode erstellt wurden, vorhanden sein müssen. Dies ist eine Bedingung, die nicht immer gegeben ist. Eine interne Kontrolle wäre, weitere SAGE Durchläufe mit anderen Verankerungsenzymen durchzuführen - ein Ansatz, bei dem jedoch die hohen Kosten, der dafür notwendige Zeitaufwand und unter Umständen die erforderliche doppelte Menge an Ausgangsmaterial zu berücksichtigen ist.

4.2.3.2 Besondere Lage der Erkennungssequenz für NlaIII (5')

↓103

Theoretisch könnten Boten-RNS Moleküle, deren am meisten 3' liegende Schnittstelle für NlaIII sich überdurchschnittlich weit 5' befindet, unterrepräsentiert sein, da während der cDNS Synthese der erste Strang unter Umständen nur ungenügend verlängert wird. Das würde bedeuten, daß in solchen Fällen die cDNS Synthese zu früh abgebrochen wird, um die NlaIII Erkennungssequenz zu erreichen, und es in der Folge dem cDNS Fragment an dieser mangelt. Welle et al. (2000) schätzen, daß dieses Problem ab einem Abstand der Erkennungssequenz vom Poly(A)-Schwanz von mehr als 500bp relevant sein könnte. Die Wahrscheinlichkeit, daß über eine solche Länge keine NlaIII Schnittstelle zu finden ist, liegt bei 15%.

Beim Vergleich zweier SAGE-Expressionsprofile fanden Welle et al. (2000) ein sachlich unlogisches Expressionsmuster eines Gens, welches sich nach Überprüfung anhand einer RT-PCR als quantitativ falsch herausstellte. Als Erklärung wird von den Autoren angeführt, daß die cDNS Synthesen der beiden SAGE Durchläufe, welche miteinander verglichen wurden, im Gegensatz zu denjenigen der RT-PCR nicht parallel durchgeführt wurden. Sie könnten folglich eine unterschiedliche Effizienz aufweisen, was unterschiedliche Längen der cDNS Fragmente zur Folge hätte. Ein Vergleich der Quantitäten des 5' und des 3' Endes des cDNS Fragmentes für das betroffene Transkript aus einer nicht weiterverarbeiteten Charge der SAGE cDNS Synthese bestätigte die Vermutung.

Dies zeigt, daß auch hier nur externe oder interne mit einem zweiten Verankerungsenzym (siehe oben) Kontrollen eventuell vorhandene Probleme aufzeigen können. So ergab für die vorliegende Arbeit eine erneute Untersuchung der in anderen murinen zerebralen cDNS- Bibliotheken (siehe vorherigen Abschnitt) häufigen und in den hier vorliegenden Daten nicht oder nur in sehr geringem Maße vorhandenen Transkripte beim "CUG RNA bindenden Protein 2" (GenBank Accession Nr. NM_010160), daß die Erkennungssequenz für NlaIII mehr als 500bp 5' des Poly(A)-Schwanzes liegt. Dies könnte eine Ursache dafür sein, daß dieses Transkript in den vorliegenden Daten nicht vorhanden ist. Allerdings ließ sich ein Kontrollgen (AKAP) mit einer Länge von 4,2kb ohne Degenerationszeichen im cDNS Southern Blot nachweisen. Dies spricht gegen eine derartige Ineffizienz der cDNS Synthese.

4.2.3.3  Besondere Lage der Erkennungssequenz für NlaIII (3')

↓104

Die Wahrscheinlichkeit, daß sich eine NlaIII Schnittstelle innerhalb von 10bp 5' des Poly(A)-Schwanzes befindet, liegt bei 4%. Daraus resultierende SAGE Tags hätten 3' mindestens 4 As. Diese Konstellation trifft bei den Daten der vorliegenden Arbeit auf 281 Tags zu (Masse: 716), was knapp 2% aller Tags des Projektes entspricht und somit unterhalb des erwarteten Rahmens liegt. Wenn die Schnittstelle des Verankerungsenzym unmittelbar an den Poly(A)-Schwanz grenzt, besteht das korrespondierende Tag sogar nur aus der Base A und ist nicht mehr eindeutig zuzuordnen. In Fall der vorliegenden Arbeit ergaben sich für dieses Poly-A-Tag, das hier 0,42% der Masse aller Tags ausmacht, 27 mögliche Genzuschreibungen. Das Problem hierbei ist, daß diese Vielzahl nur schwierig weiter eingegrenzt werden kann, da weder eine erweiterte Recherche mit einem 11 oder 12bp langen Tag durchgeführt werden kann - es kämen nur weitere As hinzu - noch dieses Tag als Probe zur Druchführung eines Screenings einer cDNS Bibliothek oder als Vorwärtsprimer in einer PCR sinnvoll einsetzen kann. Es bliebe die Möglichkeit, anhand einer anderen Methode zur quantitativen Messung der Genexpression das Expressionsmuster aller in Frage kommenden Gene mit dem per SAGE ermittelten zu vergleichen - bei fast dreißig Genen ein großer Aufwand, der ökonomisch nur tragbar wäre, wenn es sich nach Vergleich zweier Profile um ein sehr interessantes Transkript handeln würde.Einige Autoren (zum Beispiel Welle et al. 1999) verwerfen dieses Tag deswegen und schließen es von der Auswertung damit vollständig aus. In der Analyse der vorliegenden Arbeit wurde es beibehalten, da es hier vorrangig um die exemplarische Etablierung von SAGE ging und nicht um eine exakte Identifizierung der Zugehörigkeit aller Transkripte.

4.2.3.4  Transkripte, deren komplementärer Strang die Enzymerkennungssequenz für BsmFI enthält

Wenn der dem SAGE Tag komplementäre Strang nach dem ersten NlaIII Verdau innerhalb von circa 20bp 3' des Linkers in Gegenrichtung eine Erkennungssequenz für BsmFI enthält (entspricht der Sequenz GTCCC im eigentlichen Strang), könnte eine Unterrepräsentation dieses Transkriptes resultieren, da der Verdau mit der Typ II S Endonuklease das Tag verkürzen oder von dem Linker abschneiden könnte. Welle et al. (1999) schätzen, daß dieses Problem 2% der cDNS' betreffen könnte. Madden et al. (1997) berichten von einem murinen Transkript (p21WAF1/CIP1), das aus diesem Grund um 80% weniger, als nach Literaturangaben zu erwarten gewesen wäre, detektiert wurde.

Die Überprüfung der verlängerten Sequenzen der eindeutig zugeordneten unter den fünfzig häufigsten Tags der vorliegenden Daten ergab ein Transkript (Uba52, GenBank Accession Nr. NM_019883), dessen Messung auf diese Weise beeinflußt worden sein könnte Jedoch erst eine unabhängige Quantifizierung dieser Boten-RNS oder ein zweiter - ökonomisch nicht vertretbarer - SAGE-Durchlauf, in welchem eine andere Typ IIS Endonuklease verwendet werden würde, könnte diese Hypothese bestätigen oder widerlegen.

↓105

Bei der Kontrolle der Sequenzen sämtlicher Tags zeigte sich, daß 82 Tags (entspricht 0,58% von 14159 verschiedenen Transkripten) die potentiell problematische Nukleotidabfolge gtccc enthielten. Dies korrelierte mit einer Menge von 211 Tags (0,77% von 27499 Tags insgesamt). Auch hier läßt sich nur vermuten, daß die Messung des Expressionsniveaus der zugehörigen Gene nicht korrekt ist. Eine Klärung der Verhältnisse ließe sich nur durch oben genannte Vorgehensweisen vollbringen.

Um auf der anderen Seite exemplarisch festzustellen, ob es Transkripte gibt, die in den hier vorliegenden Daten aufgrund dieser Problematik nicht oder kaum detektiert wurden, wurden die bereits erwähnten Sequenzen anderer Bibliotheken darauf überprüft, ob sie die Sequenz gtccc innerhalb von ungefähr 20bp 3' der ersten NlaIII Erkennungssequenz enthalten. Dies ergab bei einem Transkript (Enolase 2) einen entsprechenden Hinweis darauf, weshalb es im Rahmen der vorliegenden Arbeit möglicherweise nicht (K1) beziehungsweise kaum (K2: einmal) detektiert worden war . Auch hier gilt, daß eine zweite Methode oder eine Methodenänderung zur Veri- oder Falsifizierung dieser Hypothese notwendig wäre.

Des weiteren wäre es sinnvoll, wenn Software, welche SAGE Daten inhaltlich analysiert, Tagsequenzen, welche selbst schon derartige problematische Sequenzen enthalten, mit einer Warnung versehen würde. Das gleiche gilt für die Zuordnung von Datenbanksequenzen zu den detektierten Tags. Auch hier wären automatische Hinweise auf Sequenzanteile, welche gtccc entsprechen, zweckmäßig.

4.2.4  Beurteilung des quantitativen Resultats

4.2.4.1  Verteilung der Häufigkeiten

↓106

Abb. 24: Vergleich der Häufigkeiten und der Anzahl der verschiedenen Tags in den verschiedenen Expressionsklassen.

Die Bezeichnung "Tagmenge" bezieht sich auf die Gesamt-anzahl der jeweils detektierten Tags, "versch. Tags" auf die Anzahl der verschiedenen Tags. Über die kleinste Expressionsklasse (null bis zwanzig Transkripte) ist keine Aussage möglich (siehe S. 81), da im vorliegendem Datensatz 1 Tag circa 20 Kopien/Zelle entspricht, so daß hier eine Leerstelle bleiben muß.

Wie unter Punkt 4.1.4.18 dargestellt befinden sich 99% der detektierten unterschiedlichen Tags in der niedrigsten Expressionsklasse (kleiner 200 Kopien/Zelle, entsprechend kleiner 10 Tags). Die Umrechnung der Taghäufigkeiten in Anzahl der Transkripte pro Zelle basiert auf der Annahme, daß 300000 Transkripte in jeder Zelle existieren (Hastie und Bishop 1976). Wenn die Häufigkeit der Tags der niedrigsten Expressionsklasse betrachtet wird, entsprechen sie 82% der Menge aller auswertbaren Tags (siehe auch Abb. 24, "Anzahl" logarithmisch aufgetragen).

Dieser Befund steht im Gegensatz zu dem, was zum Beispiel Zhang et al. (1997) über Untersuchungen an kolorektalem Gewebe berichten. Dort synthetisiert zwar ebenso die Mehrzahl der Gene nur wenige Transkripte, die Menge dieser Transkripte stellt jedoch lediglich 25% der gesamten Boten-RNS Masse dar. Das in den in dieser Arbeit vorliegenden Daten beobachtete Verteilungsmuster spiegelt also die Komplexität der zerebralen Genexpression wieder. Dies deckt sich mit den Ergebnissen von Velculescu et al. (1999b), welche in einer Metaanalyse von 84 humanen SAGE Bibliotheken die Transkriptverteilung des Gehirns als die komplexeste aller Gewebe bezeichnen.

4.2.4.2 Repräsentativität

↓107

Da SAGE zum Ziel hat, Transkriptome umfassend zu untersuchen, ist die Repräsentativität der Ergebnisse ein wichtiger Aspekt dieser Methode. SAGE quantifiziert Genexpression zwar absolut, führt dies jedoch an Zufallsstichproben durch. Die Frage nach der Repräsentativität der Resultate eines SAGE-Durchlaufes ist demnach nur durch die Berechnung von Wahrscheinlichkeiten zu beantworten. Im Folgenden soll dieser Frage in bezug auf die beiden Profile der vorliegenden Arbeit nachgegangen werden.

Den Berechnungen, wie wahrscheilich es ist, eine Boten-RNS eines bestimmten Expressionsniveaus mindestens einmal zu detektieren, wurde eine Grundpopulation N von 300000 Boten-RNS Molekülen pro Zelle (Hastie und Bishop 1976) und die Binomialverteilung für die Gegenwahrscheinlichkeit, die entsprechende RNS nicht zu ziehen, zugrunde gelegt:

↓108

Die Ergebnisse sind Tabelle 13 zu entnehmen.

Tabelle 13. Wahrscheinlichkeiten, ein Transkript mindestens einmal zu detektieren.

Expressionsniveau m [Kopien/Zelle]

Wahrscheinlichkeit p, ein Transkript mindestens einmal zu detektieren bei einer Stichprobe n von:

14000 (K1 oder K2) 28000 (K1 + K2)

1

4,7%

9,3%

10

37,9%

62,5%

25

69,7%

91,4%

50

90,8%

99,3%

100

99,2%

99,9%

1000

100%

100%

Es sind für verschiedene Expressionsniveaus beispielhaft die gerundeten Wahrscheinlichkeiten der beiden Expressionsprofile einzeln beziehungsweise zusammengenommen dargestellt.

Es ist zu beachten, daß im Gehirn bei der Mehrzahl der Gene die Expression relativ niedrig ist. Das heißt, daß diese Gene, welche sehr wenig, kurz oder nur in einem Bruchteil der untersuchten Zellpopulation exprimiert werden, in der vorliegenden Untersuchung nur mit einer geringen Wahrscheinlichkeit detektiert werden. Daraus folgt, daß die Abwesenheit eines Gens in den vorgestellten Expressionsprofilen nicht zwangsläufig bedeutet, daß dieses Gen in dem untersuchten Gewebe nicht exprimiert wird, oder daß es aufgrund der oben diskutierten möglichen Einschränkungen nicht erfaßt werden kann. Die dargestellten Wahrscheinlichkeitswerte weisen auf die Begrenzungen der Repräsentativität der vorliegenden Untersuchung hin. Wie bereits in der Einleitung (siehe S. 21) dargestellt, ist die Frage nach der Reliabilität von SAGE eng mit dem Thema Repräsentativität verknüpft, weswegen weiter unten nochmals auf dieses Thema eingegangen wird (S. 144ff).

4.3  Fazit der Praxis von SAGE

↓109

SAGE hat als digitales und offenes Verfahren ein großes Potential. Dies zeigt sich auch in der wachsenden Anzahl an Publikationen von SAGE Projekten (Patino et al. 2002). Es benötigt vor der Durchführung der Genexpressionsanalyse keinerlei Information über die Sequenzen der Transkripte und ihren biologischen Hintergrund und nimmt eine direkte Quantifizierung der Genexpression vor. Durch das serielle Koppeln der SAGE-Tags wird ein hoher Durchlauf gewährleistet, was die Methode sehr effizient macht. Um dieses Leistungsvermögen optimal zu entfalten, wird SAGE ständig weiterentwickelt. Im Folgenden sollen die bei der Etablierung der Methode im Kontext der vorliegenden Arbeit deutlich gewordenen Probleme und deren Lösungsmöglichkeit zusammengefaßt und gewinnbringende Modifikationen herausgestellt werden.

Auf der Seite der molekular-biologischen Durchführung stehen dabei im Vordergrund:

↓110

Im Rahmen der Auswertung der Sequenzdaten sind folgende Punkte zu beachten:

Des weiteren wird SAGE durch Sonderfälle der Boten-RNS Gestalt beeinflußt:

↓111

Um diese Sonderfälle zu erfassen, wäre es notwendig, eine aufwendige interne Kontrolle durchzuführen - nämlich einen zweiten SAGE-Durchlauf mit einem anderen Verankerungsenzym beziehungsweise 'tagging' Enzym.

Diese Zusammenfassung macht ersichtlich, daß SAGE als hoch sensibles Verfahren für diverse Störfaktoren anfällig ist, und es von eminenter Bedeutung ist, in zukünftigen Projekten einige Modifikationen umzusetzen beziehungsweise die Ursachen dieser Probleme weiter zu untersuchen.

↓112

Darüber hinaus existieren Unklarheiten im Vorgehen bei der Erstellung der endgültigen Taglisten und deren inhaltlicher Auswertung, was den Vergleich verschiedener Publikationen beziehungsweise von Transkriptomen verschiedener Arbeitsgruppen erschweren kann. Hier wäre eine genauere Darstellung in den Publikationen wünschenswert.

Mit der Umsetzung der in der vorliegenden Analyse genannten Aspekte und der ständigen Weiterentwicklung von SAGE (beispielsweise Lee et al. 2002, Saha et al. 2002) kann diese Methode ihr Potential noch weiter entfalten und dem Ziel, die (differentielle) Genexpression umfassend, digital und absolut an Stichproben zu messen, gerecht werden.


Fußnoten und Endnoten

4  Nach Angabe des Herstellers (GibcoBRL) liefert das zur Isolation von Boten-RNS verwendete System mindestens eine Ausbeute von 2%.

5  Institut für Mathematik und Informatik, Universität Greifswald, Friedrich-Ludwig-Jahn-Str. 15A, 17487 Greifswald.

6  x Kopien pro Zelle / 300000 = Anzahl der spezifischen Tags / Tagsgesamtzahl der Gruppe.

7  Dies beinhaltet die originalen Linkersequenzen sowie Sequenzen, die sich um eine Base von diesen unterscheiden.

8  Eine SAGE Bibliothek, welche von adultem männlichen Gehirn (Maus) abstammt (Charst et al. 2000), hat einen GC-Gehalt von 54,5%, während zwei gekühlt erstellte Bibliotheken von Margulies et al. (2001) aus dem gleichen Gewebe eine Anteil von 48,3% beziehungsweise von 48,7% aufweisen.

9  Um festzustellen, ob dieser Unterschied statistisch signifikant ist, wurde analog zum Gesamtvergleich ein Chi²-Test an der entsprechenden Vierfeldertafel (analog Tabelle 10) durchgeführt (Ho: Der Anteil der Basen GC ist in beiden Gruppen gleich. H1: Der Anteil der Basen ist in beiden Gruppen verschieden; α = 0,05). Bei einer ermittelten Wahrscheinlichkeit p = 0,653 kann die Alternativhypothese auf dem 5% Niveau nicht angenommen werden.

10  0,99310 ist dabei die Wahrscheinlichkeit keinen Fehler zu finden.

11  Hierbei handelt es sich um einen geschätzten Wert, der den wahren Wert vermutlich übersteigt, da beispielsweise nicht alle um eine Base abweichenden Sequenzen Linkerartefakte sein müssen (siehe nächste Fußnote).

12  Die Homologierecherche der Tags, die sich in einer Base von den Linkersequenzen unterscheiden (14.9.2002) ergibt 5 Tags (Masse: 14), die Genen zugeordnet werden können. Diese fünf Tags könnten also durchaus realen Transkripten entsprechen und würden nicht aus einem Sequenzierfehler resultieren. Dadurch verändert sich der geschätzte Sequenzfehler auf 3,59%/Base. Die summierte Wahrscheinlichkeit für Tags, mindestens eine fehlerhafte Base aufzuweisen, ist dann 30,7%. Dies wäre gegenüber 31% nur eine minimale Reduktion.

13  Nach der klassischen Populationsgenetik ist der Anteil der Polymorphismen proportional zu (1-1 + 2-1 + 3-1 + ... + [n-1]-1), wobei n die Anzahl der untersuchten Genome darstellt. Demzufolge ergibt sich, wenn man von einer Rate von 1 SNP pro 757bp bei 7 untersuchten Individuen beziehungsweise einer Rate von 1/1159 bei 3 untersuchten Individuen ausgeht (Wang et al. 1998), für unseren Fall (4 Mäuse) eine Rate von 1/889 bis 1/903. Dies resultiert in eine Fehlerwahrscheinlichkeit von 0, 014% pro Base und damit für eine 14bp langes Tag von 0,2%.



© Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme.
DiML DTD Version 4.0Zertifizierter Dokumentenserver
der Humboldt-Universität zu Berlin
HTML-Version erstellt am:
23.08.2006