GitHub-API-driven clustering with 5-level text mining validation pipeline: R based approach
Wirtschaftswissenschaftliche Fakultät
Heutzutage ist die wissenschaftliche Welt ohne Big Data nicht mehr vorstellbar. Obwohl diese Technologie viele Möglichkeiten bietet, um Muster und Strukturen in einer bestimmten Datenmenge zu erkennen, wirft sie auch das Problem auf, die riesigen Mengen von Rohdaten zu verarbeiten. Es entstehen auch statistische Herausforderungen, das beste Modell zu bestimmen, optimale Algorithmen zu entwerfen und die Konsistenz der angewandten Methoden zu beweisen. Clustering spielt eine wichtige Rolle im Umgang mit hochdimensionalen Daten. Das Ziel dieser Masterarbeit ist es, die anfängliche Vorverarbeitung einer umfangreichen Textdatenstichprobe zu implementieren, einige Ergebnisse von Text Mining zu präsentieren, das LSA Modell zur Dimensionsreduktion genauer zu untersuchen, verschiedene Clustering- und Validierungsmethoden in der R-Software-Umgebung zu testen und diese Techniken auf eine Software-Sammlung von numerischen Methoden, namens Quantlets, anzuwenden. We can not imagine the scientific world today without Big Data. Although it offers wide possibilities for finding patterns of a given matter, it also poses a problem to process huge amounts of raw data and statistical challenges of defining the best model, introducing optimal algorithms and proving the consistency of applied methods. Clustering plays a major role in dealing with high-dimensional data. The aim of this research is to implement initial processing of a massive text sample, to present some results of text mining, to consider the LSA model of dimensionality reduction more precisely, to try different clustering and validation methods in R software environment and to apply these techniques to a collection of numerical methods, called Quantlets.
Notes