Predictive Resource Management for Scientific Workflows
dc.contributor.author | Witt, Carl Philipp | |
dc.date.accessioned | 2020-07-21T11:58:00Z | |
dc.date.available | 2020-07-21T11:58:00Z | |
dc.date.issued | 2020-07-21 | none |
dc.identifier.uri | http://edoc.hu-berlin.de/18452/22342 | |
dc.description.abstract | Um Erkenntnisse aus großen Mengen wissenschaftlicher Rohdaten zu gewinnen, sind komplexe Datenanalysen erforderlich. Scientific Workflows sind ein Ansatz zur Umsetzung solcher Datenanalysen. Um Skalierbarkeit zu erreichen, setzen die meisten Workflow-Management-Systeme auf bereits existierende Lösungen zur Verwaltung verteilter Ressourcen, etwa Batch-Scheduling-Systeme. Die Abschätzung der Ressourcen, die zur Ausführung einzelner Arbeitsschritte benötigt werden, wird dabei immer noch an die Nutzer:innen delegiert. Dies schränkt die Leistung und Benutzerfreundlichkeit von Workflow-Management-Systemen ein, da den Nutzer:innen oft die Zeit, das Fachwissen oder die Anreize fehlen, den Ressourcenverbrauch genau abzuschätzen. Diese Arbeit untersucht, wie die Ressourcennutzung während der Ausführung von Workflows automatisch erlernt werden kann. Im Gegensatz zu früheren Arbeiten werden Scheduling und Vorhersage von Ressourcenverbrauch in einem engeren Zusammenhang betrachtet. Dies bringt verschiedene Herausforderungen mit sich, wie die Quantifizierung der Auswirkungen von Vorhersagefehlern auf die Systemleistung. Die wichtigsten Beiträge dieser Arbeit sind: 1. Eine Literaturübersicht aktueller Ansätze zur Vorhersage von Spitzenspeicherverbrauch mittels maschinellen Lernens im Kontext von Batch-Scheduling-Systemen. 2. Ein Scheduling-Verfahren, das statistische Methoden verwendet, um vorherzusagen, welche Scheduling-Entscheidungen verbessert werden können. 3. Ein Ansatz zur Nutzung von zur Laufzeit gemessenem Spitzenspeicherverbrauch in Vorhersagemodellen, die die fortwährende Optimierung der Ressourcenallokation erlauben. Umfangreiche Simulationsexperimente geben Einblicke in Schlüsseleigenschaften von Scheduling-Heuristiken und Vorhersagemodellen. 4. Ein Vorhersagemodell, das die asymmetrischen Kosten überschätzten und unterschätzten Speicherverbrauchs berücksichtigt, sowie die Folgekosten von Vorhersagefehlern einbezieht. | ger |
dc.description.abstract | Scientific experiments produce data at unprecedented volumes and resolutions. For the extraction of insights from large sets of raw data, complex analysis workflows are necessary. Scientific workflows enable such data analyses at scale. To achieve scalability, most workflow management systems are designed as an additional layer on top of distributed resource managers, such as batch schedulers or distributed data processing frameworks. However, like distributed resource managers, they do not automatically determine the amount of resources required for executing individual tasks in a workflow. The status quo is that workflow management systems delegate the challenge of estimating resource usage to the user. This limits the performance and ease-of-use of scientific workflow management systems, as users often lack the time, expertise, or incentives to estimate resource usage accurately. This thesis is an investigation of how to learn and predict resource usage during workflow execution. In contrast to prior work, an integrated perspective on prediction and scheduling is taken, which introduces various challenges, such as quantifying the effects of prediction errors on system performance. The main contributions are: 1. A survey of peak memory usage prediction in batch processing environments. It provides an overview of prior machine learning approaches, commonly used features, evaluation metrics, and data sets. 2. A static workflow scheduling method that uses statistical methods to predict which scheduling decisions can be improved. 3. A feedback-based approach to scheduling and predictive resource allocation, which is extensively evaluated using simulation. The results provide insights into the desirable characteristics of scheduling heuristics and prediction models. 4. A prediction model that reduces memory wastage. The design takes into account the asymmetric costs of overestimation and underestimation, as well as follow up costs of prediction errors. | eng |
dc.language.iso | eng | none |
dc.publisher | Humboldt-Universität zu Berlin | |
dc.rights | (CC BY-NC-ND 4.0) Attribution-NonCommercial-NoDerivatives 4.0 International | ger |
dc.rights.uri | https://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | Scientific Workflow | ger |
dc.subject | Stapelverarbeitung | ger |
dc.subject | Task Graph Scheduling | ger |
dc.subject | Gerichteter Azyklischer Graph | ger |
dc.subject | Vorhersage des Bedarfs an Rechenressourcen | ger |
dc.subject | scientific workflow | eng |
dc.subject | batch scheduling | eng |
dc.subject | static task graph scheduling | eng |
dc.subject | directed acyclic graph | eng |
dc.subject | resource consumption prediction | eng |
dc.subject.ddc | 004 Informatik | none |
dc.title | Predictive Resource Management for Scientific Workflows | none |
dc.type | doctoralThesis | |
dc.identifier.urn | urn:nbn:de:kobv:11-110-18452/22342-2 | |
dc.identifier.doi | http://dx.doi.org/10.18452/21608 | |
dc.date.accepted | 2020-06-05 | |
dc.contributor.referee | Leser, Ulf | |
dc.contributor.referee | Kao, Odej | |
dc.contributor.referee | Deelman, Ewa | |
dc.subject.rvk | ST 265 | |
local.edoc.pages | 159 | none |
local.edoc.type-name | Dissertation | |
dc.relation.references | http://dx.doi.org/10.1016/j.is.2019.01.006 | |
bua.department | Mathematisch-Naturwissenschaftliche Fakultät | none |