Show simple item record

2020-07-21Dissertation DOI: 10.18452/21608
Predictive Resource Management for Scientific Workflows
dc.contributor.authorWitt, Carl Philipp
dc.date.accessioned2020-07-21T11:58:00Z
dc.date.available2020-07-21T11:58:00Z
dc.date.issued2020-07-21none
dc.identifier.urihttp://edoc.hu-berlin.de/18452/22342
dc.description.abstractUm Erkenntnisse aus großen Mengen wissenschaftlicher Rohdaten zu gewinnen, sind komplexe Datenanalysen erforderlich. Scientific Workflows sind ein Ansatz zur Umsetzung solcher Datenanalysen. Um Skalierbarkeit zu erreichen, setzen die meisten Workflow-Management-Systeme auf bereits existierende Lösungen zur Verwaltung verteilter Ressourcen, etwa Batch-Scheduling-Systeme. Die Abschätzung der Ressourcen, die zur Ausführung einzelner Arbeitsschritte benötigt werden, wird dabei immer noch an die Nutzer:innen delegiert. Dies schränkt die Leistung und Benutzerfreundlichkeit von Workflow-Management-Systemen ein, da den Nutzer:innen oft die Zeit, das Fachwissen oder die Anreize fehlen, den Ressourcenverbrauch genau abzuschätzen. Diese Arbeit untersucht, wie die Ressourcennutzung während der Ausführung von Workflows automatisch erlernt werden kann. Im Gegensatz zu früheren Arbeiten werden Scheduling und Vorhersage von Ressourcenverbrauch in einem engeren Zusammenhang betrachtet. Dies bringt verschiedene Herausforderungen mit sich, wie die Quantifizierung der Auswirkungen von Vorhersagefehlern auf die Systemleistung. Die wichtigsten Beiträge dieser Arbeit sind: 1. Eine Literaturübersicht aktueller Ansätze zur Vorhersage von Spitzenspeicherverbrauch mittels maschinellen Lernens im Kontext von Batch-Scheduling-Systemen. 2. Ein Scheduling-Verfahren, das statistische Methoden verwendet, um vorherzusagen, welche Scheduling-Entscheidungen verbessert werden können. 3. Ein Ansatz zur Nutzung von zur Laufzeit gemessenem Spitzenspeicherverbrauch in Vorhersagemodellen, die die fortwährende Optimierung der Ressourcenallokation erlauben. Umfangreiche Simulationsexperimente geben Einblicke in Schlüsseleigenschaften von Scheduling-Heuristiken und Vorhersagemodellen. 4. Ein Vorhersagemodell, das die asymmetrischen Kosten überschätzten und unterschätzten Speicherverbrauchs berücksichtigt, sowie die Folgekosten von Vorhersagefehlern einbezieht.ger
dc.description.abstractScientific experiments produce data at unprecedented volumes and resolutions. For the extraction of insights from large sets of raw data, complex analysis workflows are necessary. Scientific workflows enable such data analyses at scale. To achieve scalability, most workflow management systems are designed as an additional layer on top of distributed resource managers, such as batch schedulers or distributed data processing frameworks. However, like distributed resource managers, they do not automatically determine the amount of resources required for executing individual tasks in a workflow. The status quo is that workflow management systems delegate the challenge of estimating resource usage to the user. This limits the performance and ease-of-use of scientific workflow management systems, as users often lack the time, expertise, or incentives to estimate resource usage accurately. This thesis is an investigation of how to learn and predict resource usage during workflow execution. In contrast to prior work, an integrated perspective on prediction and scheduling is taken, which introduces various challenges, such as quantifying the effects of prediction errors on system performance. The main contributions are: 1. A survey of peak memory usage prediction in batch processing environments. It provides an overview of prior machine learning approaches, commonly used features, evaluation metrics, and data sets. 2. A static workflow scheduling method that uses statistical methods to predict which scheduling decisions can be improved. 3. A feedback-based approach to scheduling and predictive resource allocation, which is extensively evaluated using simulation. The results provide insights into the desirable characteristics of scheduling heuristics and prediction models. 4. A prediction model that reduces memory wastage. The design takes into account the asymmetric costs of overestimation and underestimation, as well as follow up costs of prediction errors.eng
dc.language.isoengnone
dc.publisherHumboldt-Universität zu Berlin
dc.rights(CC BY-NC-ND 4.0) Attribution-NonCommercial-NoDerivatives 4.0 Internationalger
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectScientific Workflowger
dc.subjectStapelverarbeitungger
dc.subjectTask Graph Schedulingger
dc.subjectGerichteter Azyklischer Graphger
dc.subjectVorhersage des Bedarfs an Rechenressourcenger
dc.subjectscientific workfloweng
dc.subjectbatch schedulingeng
dc.subjectstatic task graph schedulingeng
dc.subjectdirected acyclic grapheng
dc.subjectresource consumption predictioneng
dc.subject.ddc004 Informatiknone
dc.titlePredictive Resource Management for Scientific Workflowsnone
dc.typedoctoralThesis
dc.identifier.urnurn:nbn:de:kobv:11-110-18452/22342-2
dc.identifier.doihttp://dx.doi.org/10.18452/21608
dc.date.accepted2020-06-05
dc.contributor.refereeLeser, Ulf
dc.contributor.refereeKao, Odej
dc.contributor.refereeDeelman, Ewa
dc.subject.rvkST 265
local.edoc.pages159none
local.edoc.type-nameDissertation
dc.relation.referenceshttp://dx.doi.org/10.1016/j.is.2019.01.006
bua.departmentMathematisch-Naturwissenschaftliche Fakultätnone

Show simple item record