Show simple item record

2018-08-07Dissertation DOI: 10.18452/19321
Scientific Workflows for Hadoop
dc.contributor.authorBux, Marc Nicolas
dc.date.accessioned2018-08-07T07:07:38Z
dc.date.available2018-08-07T07:07:38Z
dc.date.issued2018-08-07
dc.identifier.urihttp://edoc.hu-berlin.de/18452/20082
dc.description.abstractScientific Workflows bieten flexible Möglichkeiten für die Modellierung und den Austausch komplexer Arbeitsabläufe zur Analyse wissenschaftlicher Daten. In den letzten Jahrzehnten sind verschiedene Systeme entstanden, die den Entwurf, die Ausführung und die Verwaltung solcher Scientific Workflows unterstützen und erleichtern. In mehreren wissenschaftlichen Disziplinen wachsen die Mengen zu verarbeitender Daten inzwischen jedoch schneller als die Rechenleistung und der Speicherplatz verfügbarer Rechner. Parallelisierung und verteilte Ausführung werden häufig angewendet, um mit wachsenden Datenmengen Schritt zu halten. Allerdings sind die durch verteilte Infrastrukturen bereitgestellten Ressourcen häufig heterogen, instabil und unzuverlässig. Um die Skalierbarkeit solcher Infrastrukturen nutzen zu können, müssen daher mehrere Anforderungen erfüllt sein: Scientific Workflows müssen parallelisiert werden. Simulations-Frameworks zur Evaluation von Planungsalgorithmen müssen die Instabilität verteilter Infrastrukturen berücksichtigen. Adaptive Planungsalgorithmen müssen eingesetzt werden, um die Nutzung instabiler Ressourcen zu optimieren. Hadoop oder ähnliche Systeme zur skalierbaren Verwaltung verteilter Ressourcen müssen verwendet werden. Diese Dissertation präsentiert neue Lösungen für diese Anforderungen. Zunächst stellen wir DynamicCloudSim vor, ein Simulations-Framework für Cloud-Infrastrukturen, welches verschiedene Aspekte der Variabilität adäquat modelliert. Im Anschluss beschreiben wir ERA, einen adaptiven Planungsalgorithmus, der die Ausführungszeit eines Scientific Workflows optimiert, indem er Heterogenität ausnutzt, kritische Teile des Workflows repliziert und sich an Veränderungen in der Infrastruktur anpasst. Schließlich präsentieren wir Hi-WAY, eine Ausführungsumgebung die ERA integriert und die hochgradig skalierbare Ausführungen in verschiedenen Sprachen beschriebener Scientific Workflows auf Hadoop ermöglicht.ger
dc.description.abstractScientific workflows provide a means to model, execute, and exchange the increasingly complex analysis pipelines necessary for today's data-driven science. Over the last decades, scientific workflow management systems have emerged to facilitate the design, execution, and monitoring of such workflows. At the same time, the amounts of data generated in various areas of science outpaced hardware advancements. Parallelization and distributed execution are generally proposed to deal with increasing amounts of data. However, the resources provided by distributed infrastructures are subject to heterogeneity, dynamic performance changes at runtime, and occasional failures. To leverage the scalability provided by these infrastructures despite the observed aspects of performance variability, workflow management systems have to progress: Parallelization potentials in scientific workflows have to be detected and exploited. Simulation frameworks, which are commonly employed for the evaluation of scheduling mechanisms, have to consider the instability encountered on the infrastructures they emulate. Adaptive scheduling mechanisms have to be employed to optimize resource utilization in the face of instability. State-of-the-art systems for scalable distributed resource management and storage, such as Apache Hadoop, have to be supported. This dissertation presents novel solutions for these aspirations. First, we introduce DynamicCloudSim, a cloud computing simulation framework that is able to adequately model the various aspects of variability encountered in computational clouds. Secondly, we outline ERA, an adaptive scheduling policy that optimizes workflow makespan by exploiting heterogeneity, replicating bottlenecks in workflow execution, and adapting to changes in the underlying infrastructure. Finally, we present Hi-WAY, an execution engine that integrates ERA and enables the highly scalable execution of scientific workflows written in a number of languages on Hadoop.eng
dc.language.isoeng
dc.publisherHumboldt-Universität zu Berlin
dc.rights(CC BY-NC 3.0 DE) Namensnennung - Nicht kommerziell 3.0 Deutschlandger
dc.rights.urihttp://creativecommons.org/licenses/by-nc/3.0/de/
dc.subjectScientific Workflowsger
dc.subjectWorkflow-Management-Systemger
dc.subjectCloud Computingger
dc.subjectSimulationger
dc.subjectWorkflow-Planungsalgorithmenger
dc.subjectAdaptive Planungsalgorithmenger
dc.subjectBrownsche Bewegungger
dc.subjectWiener-Prozessger
dc.subjectApache Hadoopger
dc.subjectHadoop YARNger
dc.subjectScientific Workflowseng
dc.subjectWorkflow Management Systemseng
dc.subjectCloud Computingeng
dc.subjectSimulationeng
dc.subjectWorkflow Schedulingeng
dc.subjectAdaptive Schedulingeng
dc.subjectBrownian Motioneng
dc.subjectWiener Processeng
dc.subjectApache Hadoopeng
dc.subjectHadoop YARNeng
dc.subject.ddc004 Informatik
dc.titleScientific Workflows for Hadoop
dc.typedoctoralThesis
dc.identifier.urnurn:nbn:de:kobv:11-110-18452/20082-7
dc.identifier.doihttp://dx.doi.org/10.18452/19321
dc.date.accepted2018-07-18
dc.contributor.refereeLeser, Ulf
dc.contributor.refereeScheuermann, Björn
dc.contributor.refereeMitschang, Bernhard
dc.subject.rvkST 201 H03
dc.subject.rvkST 201
local.edoc.pages163
local.edoc.type-nameDissertation
local.edoc.institutionMathematisch-Naturwissenschaftliche Fakultät

Show simple item record