Calibration of a probabilistic model of DNA evolution
Wirtschaftswissenschaftliche Fakultät
Den Kern dieser Arbeit bilden zwei Resultate: Es wird ein Evolutionsmodell beschrieben, bei welchem die DNS durch Gene dargestellt wird; weiterhin wird gezeigt, wie optimale Parameter für dieses Modell gefunden werden können. Der Schwerpunkt liegt hierbei auf der Schätzung der Anzahl chromosomaler Ereignisse, wobei genbasierte Ereignisse als Störfaktor in das Modell integriert werden. Es werden verschiedene Methoden verglichen, um die Modellparameter statistisch zu schätzen. Im Anschluss werden ausgewählte Schätzmethoden auf die Daten angewandt und Schätzungen für die Anzahl an reziproken Translokationen und Inversionen über einem 21-Amniota-umfassenden phylogenetischen Baum erzeugt. Um die theoretischen Resultate zu testen und Fehlergrenzen zu bestimmen, wird das Modell in der Gen-Abfolge-Simulationssoftware MagSimus, entwickelt von der Forschungsgruppe von H. Roest Crollius der ENS Paris, implementiert. Zusammen mit einer im Zuge dieser Arbeit erstellten Optimierungssoftware, der Genomanalysesoftware PhylDiag, sowie des Programms ChromEvol2 zur Schätzung von chromosomalen Ereignissen, werden numerische Schätzungen für eine Stichprobe von 5 Spezies berechnet. Danach wird die Qualität der simulierten Genome analysiert. Neben dem wissenschaftlichen Interesse an verlässlichen Schätzungen zu historischen Mutationsraten, ist das Ziel einer realistischen Evolutionssimulation die Überprüfung von Programmen zur Rekonstruktion von Gen-Abfolgen. Die Daten stammen vom Ensembl-Genome-Projekt (Cunningham et al. (2015)), der Genome Size - Datenbank (Gregory (2015)) und der Time Tree - Datenbank (Hedges et al. (2015)). This thesis has two main results: it describes a model of evolution where the DNA is represented by genes, and it describes how optimal parameters for this model can be found. The main focus lies on the estimation of the number of chromosomal events, though gene events are included as a noise factor. Different methods to statistically estimate the parameters of the model are compared. The adapted estimation methods are applied and estimates for reciprocal translocation and inversion numbers on a phylogenetic tree of 21 Amniota species are provided. To test theoretical results and calculate error margins, the model was implemented in the gene order simulation software MagSimus, created by the group of H. Roest Crollius at the ENS Paris. Together with an implemented optimization framework, the genome analysing software PhylDiag and the chromosomal event estimation software ChromEvol 2, numerical estimates of the model are calculated for a sub-sample of 5 species. Afterwards, the quality of the simulated genomes is assessed. Besides the interest in reliable estimates in historic mutation rates alone, the goal of a realistic simulation is the benchmarking of genome order reconstruction programmes. The data was taken from from the Ensembl genome project (Cunningham et al. (2015)), the Genome Size database (Gregory (2015)) and the Time Tree database (Hedges et al. (2015)).
Files in this item