Logo of Humboldt-Universität zu BerlinLogo of Humboldt-Universität zu Berlin
edoc-Server
Open-Access-Publikationsserver der Humboldt-Universität
de|en
Header image: facade of Humboldt-Universität zu Berlin
View Item 
  • edoc-Server Home
  • Qualifikationsarbeiten
  • Abschlussarbeiten
  • View Item
  • edoc-Server Home
  • Qualifikationsarbeiten
  • Abschlussarbeiten
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.
All of edoc-ServerCommunity & CollectionTitleAuthorSubjectThis CollectionTitleAuthorSubject
PublishLoginRegisterHelp
StatisticsView Usage Statistics
All of edoc-ServerCommunity & CollectionTitleAuthorSubjectThis CollectionTitleAuthorSubject
PublishLoginRegisterHelp
StatisticsView Usage Statistics
View Item 
  • edoc-Server Home
  • Qualifikationsarbeiten
  • Abschlussarbeiten
  • View Item
  • edoc-Server Home
  • Qualifikationsarbeiten
  • Abschlussarbeiten
  • View Item
2017-04-13Masterarbeit DOI: 10.18452/14293
Automating exploratory data analysis for use in predictive modeling (classification)
Churakova, Alena
Wirtschaftswissenschaftliche Fakultät
Für diese Masterarbeit wurde ein Datenanalyse-Tool mit R entwickelt, um schnell und effizient ein erstes Verständnis für die Struktur und die Vorhersagekraft eines (beliebigen) Datensatzes gewinnen zu können. Dieses Tool wurde für die SHS VIVEON AG, einen Business- und IT-Dienstleister für Kundenmanagement, entwickelt und soll das Data Science-Team der Firma dabei unterstützen, eine erste explorative Datenanalyse eines Kunden-Datensatzes durchzuführen. Die wesentlichen Ansprüche an die Software waren einerseits funktionale Vielseitigkeit (Visualisierung, Clustering, Klassifikationsverfahren, usw.) und andererseits eine intuitiven Benutzeroberfläche. Folgende Punkte werden in dieser Arbeit besprochen: Zunächst werden die Bedürfnisse des Data Science-Teams während der Einarbeitung in einen neuen Datensatz dargestellt. Anschließend wird ein Überblick über die statistischen und analytischen Methoden im Umgang mit Daten in einem Unternehmenskontext gegeben und über die einzelnen Schritte der Softwareentwicklung (einschließlich der Anforderungen der SHS VIVEON AG und der Ergebnisse der Usability-Tests) berichtet. Abschließend wird der Leser durch eine Beispielanalyse eines nicht-proprietären Datensatzes geführt. Zusammengefasst zeigt diese Masterarbeit den Hintergrund, das Design und die Implementierung der Software und erklärt sowohl ihre technischen als auch ihre interaktiven Funktionen. Schließlich beschreibt sie, wie die Benutzer die Software ändern und verbessern können, wenn zukünftige weitere Anforderungen an die Software identifiziert werden sollten.
 
A data analysis tool was developed using R in order to quickly and efficiently gain an initial understanding of the structure and predictive power of a dataset. This tool was developed for SHS VIVEON AG, a business and IT solution provider for customer management, and is meant to enable the firm’s Data Science team to perform initial exploratory data analysis of a client’s dataset. The two key drivers in the design of the software were versatility in the functions (visualization, clustering, classification, etc.) and an intuitive interface. This work will do the following: outline the needs of the firm’s Data Science team when faced with a new dataset, review the statistical and analytic methods for engaging with data in a business setting, recount the steps taken to create the tool in question (including the full considerations of SHS VIVEON AG and the results of usability testing), and take the reader through a step-by-step mock analysis of a non-proprietary dataset. Overall, the current work shows the background, design, and implementation of this software, explaining both its technical and interactive features. Finally, it points to ways that users can modify and improve upon the software if other requirements are identified in the future.
 
Files in this item
Thumbnail
churakova.pdf — Adobe PDF — 6.236 Mb
MD5: e6c90a47b42737598ba0e0e844a5641c
Cite
BibTeX
EndNote
RIS
InCopyright
Details
DINI-Zertifikat 2019OpenAIRE validatedORCID Consortium
Imprint Policy Contact Data Privacy Statement
A service of University Library and Computer and Media Service
© Humboldt-Universität zu Berlin
 
DOI
10.18452/14293
Permanent URL
https://doi.org/10.18452/14293
HTML
<a href="https://doi.org/10.18452/14293">https://doi.org/10.18452/14293</a>