Show simple item record

2019-08-13Masterarbeit DOI: 10.18452/20347
Searching for a Unicorn: A Machine Learning Approach Towards Startup Success Prediction
dc.contributor.authorÜnal, Cemre
dc.date.accessioned2019-08-13T08:52:39Z
dc.date.available2019-08-13T08:52:39Z
dc.date.issued2019-08-13none
dc.identifier.urihttp://edoc.hu-berlin.de/18452/21141
dc.description.abstractDie Bedeutung von Startups für die wirtschaftliche Dynamik, Innovation und den Wettbewerb wurde bereits in der bestehenden Literatur anerkannt. Die höchst unsichere und volatile Natur des Startup-Ökosystems erschwert es, Informationen zu analysieren und zu interpretieren, um die Erfolgsquote eines Startups zu beurteilen. Die zeit- und rechenintensive Natur dieses Vorhersageproblems verdeutlicht die Notwendigkeit eines quantifizierten Modells, das einen objektiven Ansatz für die Vorhersage von erfolgreichen Startups ermöglicht. Das Ziel dieser Masterarbeit ist es, reproduzierbare Modelle für die Erfolgsvorhersage von Start-ups basierend auf maschinellen Lernverfahren zu erhalten. Frühere Literatur, die sich mit dem Vorhersageproblem befasst, greift fast ausschließlich auf Umfragedaten von Unternehmen zurück. Aufgrund der subjektiven Datenerhebung ist die wiederholbare und automatisierte Anwendung dieser Analysen und Schätzungen für zukünftige Erfolgsprognosen nicht möglich. Aus diesem Grund wird in dieser Masterarbeit auf öffentlich zugängliche und groß angelegte Daten der Online-Investor-Plattform crunchbase.com zurückgegriffen. Durch die Verwendung des Oversampling-Ansatzs ADASYN wird die Datenmenge vorverarbeitet, um eine Stichprobenverzerrung und -ungleichgewicht zu vermeiden. Insgesamt werden sechs verschiedene Modelle implementiert, um die Erfolgsquote von Start-ups vorherzusagen. Dabei handelt es sich um logistische Regressionen (voll und reduziert), Recursive Partitioning Tree, Conditional Inference Tree, Random Forest und Extreme Gradient Boosting. Mit einer Testsatz-Vorhersagegenauigkeiten von 94,1% bzw. 94,5%, sowie einer AUC von 92,22% bzw. 92,91% werden die Ensemble-Modelle, Random Forest und Extreme Gradient Boosting als leistungsstärkste Modelle ausgewählt. Die wichtigsten Variablen in diesen Modellen sind dabei Last Funding to Date, First Funding Lag und Company Age.ger
dc.description.abstractThe importance of startups for economic dynamism, innovation and competition has been acknowledged in literature. The highly uncertain and volatile nature of the startup ecosys- tem makes it difficult to analyze and interpret information to evaluate if a startup will be successful. The time and computationally intensive nature of this prediction problem induces the need for a quantified model, which enables an objective approach to startup success pre- diction. In this paper, the objective is to obtain reproducible models for startup success prediction, using machine learning methods. Earlier literature predicting startup success almost exclusively relies on survey data collected from firms analyzed in those studies and estimation. Hence, it is almost impossible to apply them in a repeatable, automated way to future startup success prediction. In this paper publicly available, large scale data from online investor platform, crunchbase.com is used. The data is pre-processed for sampling bias and imbalance by using oversampling approach, ADASYN. A total of six different models are implemented to predict startup success, which are logistic regression (full and reduced); recursive partitioning tree; conditional inference tree; random forest and extreme gradient boosting. Using goodness-of-fit measures, applicable to each model case, the best models selected are the ensemble methods, random forest and extreme gradient boosting with a test set prediction accuracy of 94.1% and 94.5% and AUC of 92.22% and 92.91% respectively. Top variables in these models are last funding to date, first funding lag and company age. Models estimated in this study can be used to predict success rate for future new firms/ventures in a repeatable way, using publicly available large scale data.eng
dc.language.isoengnone
dc.publisherHumboldt-Universität zu Berlin
dc.rights(CC BY-NC-ND 3.0 DE) Namensnennung - Nicht-kommerziell - Keine Bearbeitung 3.0 Deutschlandger
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/de/
dc.subjectErfolgsprognoseger
dc.subjectstartup erfolgger
dc.subjectEnsemble-Modelleger
dc.subjectStartup-überlebenger
dc.subjectsuccess predictioneng
dc.subjectstartup successeng
dc.subjectensemble modelseng
dc.subjectstartup survivaleng
dc.subject.ddc330 Wirtschaftnone
dc.titleSearching for a Unicorn: A Machine Learning Approach Towards Startup Success Predictionnone
dc.typemasterThesis
dc.identifier.urnurn:nbn:de:kobv:11-110-18452/21141-0
dc.identifier.doihttp://dx.doi.org/10.18452/20347
dc.date.accepted2019-07-22
dc.contributor.refereeHärdle, Wolfgang Karl
dc.contributor.refereeWeining, Wang
local.edoc.pages57none
local.edoc.type-nameMasterarbeit
local.edoc.institutionWirtschaftswissenschaftliche Fakultätnone

Show simple item record