Zur Kurzanzeige

2016-06-29Masterarbeit DOI: 10.18452/14274
GitHub-API-driven clustering with 5-level text mining validation pipeline: R based approach
dc.contributor.authorStepanchenko, Anastasia
dc.date.accessioned2017-06-18T02:55:24Z
dc.date.available2017-06-18T02:55:24Z
dc.date.created2016-09-07
dc.date.issued2016-06-29none
dc.identifier.urihttp://edoc.hu-berlin.de/18452/14926
dc.description.abstractHeutzutage ist die wissenschaftliche Welt ohne Big Data nicht mehr vorstellbar. Obwohl diese Technologie viele Möglichkeiten bietet, um Muster und Strukturen in einer bestimmten Datenmenge zu erkennen, wirft sie auch das Problem auf, die riesigen Mengen von Rohdaten zu verarbeiten. Es entstehen auch statistische Herausforderungen, das beste Modell zu bestimmen, optimale Algorithmen zu entwerfen und die Konsistenz der angewandten Methoden zu beweisen. Clustering spielt eine wichtige Rolle im Umgang mit hochdimensionalen Daten. Das Ziel dieser Masterarbeit ist es, die anfängliche Vorverarbeitung einer umfangreichen Textdatenstichprobe zu implementieren, einige Ergebnisse von Text Mining zu präsentieren, das LSA Modell zur Dimensionsreduktion genauer zu untersuchen, verschiedene Clustering- und Validierungsmethoden in der R-Software-Umgebung zu testen und diese Techniken auf eine Software-Sammlung von numerischen Methoden, namens Quantlets, anzuwenden.ger
dc.description.abstractWe can not imagine the scientific world today without Big Data. Although it offers wide possibilities for finding patterns of a given matter, it also poses a problem to process huge amounts of raw data and statistical challenges of defining the best model, introducing optimal algorithms and proving the consistency of applied methods. Clustering plays a major role in dealing with high-dimensional data. The aim of this research is to implement initial processing of a massive text sample, to present some results of text mining, to consider the LSA model of dimensionality reduction more precisely, to try different clustering and validation methods in R software environment and to apply these techniques to a collection of numerical methods, called Quantlets.eng
dc.language.isoeng
dc.publisherHumboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät
dc.rightsNamensnennung - Keine kommerzielle Nutzung - Keine Bearbeitung
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/de/
dc.subjectClusteranalyseger
dc.subjectBig Datager
dc.subjectSVDger
dc.subjectText Miningger
dc.subjectDimensionsreduktionger
dc.subjectClustering-Validierungger
dc.subjecthohe Dimensionalitätger
dc.subjectLSAger
dc.subjectSVDeng
dc.subjectLSAeng
dc.subjectbig dataeng
dc.subjecttext miningeng
dc.subjectclusteringeng
dc.subjectclustering validationeng
dc.subjecthigh dimensionalityeng
dc.subjectdimensionality reductioneng
dc.subject.ddc310 Statistik
dc.subject.ddc330 Wirtschaft
dc.titleGitHub-API-driven clustering with 5-level text mining validation pipeline: R based approach
dc.typemasterThesis
dc.identifier.urnurn:nbn:de:kobv:11-100239706
dc.identifier.doihttp://dx.doi.org/10.18452/14274
dc.identifier.alephidBV043755173
dc.contributor.refereeHärdle, Wolfgang
dc.contributor.refereeBorke, Lukas
local.edoc.pages45
local.edoc.type-nameMasterarbeit
local.edoc.institutionWirtschaftswissenschaftliche Fakultät

Zur Kurzanzeige