edoc-Server der Humboldt-Universität zu Berlin

Masterarbeit

Autor(en): Alena Churakova
Titel: Automating exploratory data analysis for use in predictive modeling (classification)
Gutachter: Wolfgang Karl Härdle; Marlene Müller
Erscheinungsdatum: 13.04.2017
Volltext: pdf (urn:nbn:de:kobv:11-100246181)
Fachgebiet(e): Statistik ; Wirtschaft
Schlagwörter (ger): Software, R, Vorhersagemodellierung, explorative Datenanalyse, Klassifikationsverfahren
Schlagwörter (eng): software, classification, R, predictive modeling, exploratory data analysis
Einrichtung: Humboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät
Zitationshinweis: Churakova, Alena: Automating exploratory data analysis for use in predictive modeling (classification); Masterarbeit, Humboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät , publiziert am 13.04.2017, urn:nbn:de:kobv:11-100246181
Metadatenexport: Um den gesamten Metadatensatz im Endnote- oder Bibtex-Format zu speichern, klicken Sie bitte auf den entsprechenden Link. Endnote   Bibtex  
print on demand: Wenn Sie auf dieses Icon klicken, können Sie ein Druckexemplar dieser Publikation bestellen.

Abstract (ger):
Für diese Masterarbeit wurde ein Datenanalyse-Tool mit R entwickelt, um schnell und effizient ein erstes Verständnis für die Struktur und die Vorhersagekraft eines (beliebigen) Datensatzes gewinnen zu können. Dieses Tool wurde für die SHS VIVEON AG, einen Business- und IT-Dienstleister für Kundenmanagement, entwickelt und soll das Data Science-Team der Firma dabei unterstützen, eine erste explorative Datenanalyse eines Kunden-Datensatzes durchzuführen. Die wesentlichen Ansprüche an die Software waren einerseits funktionale Vielseitigkeit (Visualisierung, Clustering, Klassifikationsverfahren, usw.) und andererseits eine intuitiven Benutzeroberfläche. Folgende Punkte werden in dieser Arbeit besprochen: Zunächst werden die Bedürfnisse des Data Science-Teams während der Einarbeitung in einen neuen Datensatz dargestellt. Anschließend wird ein Überblick über die statistischen und analytischen Methoden im Umgang mit Daten in einem Unternehmenskontext gegeben und über die einzelnen Schritte der Softwareentwicklung (einschließlich der Anforderungen der SHS VIVEON AG und der Ergebnisse der Usability-Tests) berichtet. Abschließend wird der Leser durch eine Beispielanalyse eines nicht-proprietären Datensatzes geführt. Zusammengefasst zeigt diese Masterarbeit den Hintergrund, das Design und die Implementierung der Software und erklärt sowohl ihre technischen als auch ihre interaktiven Funktionen. Schließlich beschreibt sie, wie die Benutzer die Software ändern und verbessern können, wenn zukünftige weitere Anforderungen an die Software identifiziert werden sollten.
Abstract (eng):
A data analysis tool was developed using R in order to quickly and efficiently gain an initial understanding of the structure and predictive power of a dataset. This tool was developed for SHS VIVEON AG, a business and IT solution provider for customer management, and is meant to enable the firm’s Data Science team to perform initial exploratory data analysis of a client’s dataset. The two key drivers in the design of the software were versatility in the functions (visualization, clustering, classification, etc.) and an intuitive interface. This work will do the following: outline the needs of the firm’s Data Science team when faced with a new dataset, review the statistical and analytic methods for engaging with data in a business setting, recount the steps taken to create the tool in question (including the full considerations of SHS VIVEON AG and the results of usability testing), and take the reader through a step-by-step mock analysis of a non-proprietary dataset. Overall, the current work shows the background, design, and implementation of this software, explaining both its technical and interactive features. Finally, it points to ways that users can modify and improve upon the software if other requirements are identified in the future.
 
Generiert am 23.04.2017, 12:19:30