Show simple item record

2019-05-17Bachelorarbeit DOI: 10.18452/19951
Comparing applicability of prevalent Clustering Algorithms for Document Clustering
dc.contributor.authorKrawczyk, Luisa
dc.date.accessioned2019-05-17T12:52:32Z
dc.date.available2019-05-17T12:52:32Z
dc.date.issued2019-05-17none
dc.identifier.urihttp://edoc.hu-berlin.de/18452/20764
dc.description.abstractClustering Algorithmen befassen sich mit dem Identifizieren von Gruppen ähnlicher Objekte in einem Datensatz. Ich präsentiere zwei solche Algorithmen, k-means und Hierarchical Clustering, und vergleiche ihre Anwendbarkeit für das Clustern von hochdimensionalen dünn besetzten Daten, wie sie oft im Document Clustering anzutreffen sind. Als Anwendungsbeispiel wende ich beide Algorithmen auf einen keyword-Datensatz an (den Quantlet-Datensatz des Statistik-Lehrstuhls der HU) und stelle den dazugehörigen Python-Code bereit.ger
dc.description.abstractIn statistical data analysis, Clustering Algorithms are supposed to nd groups of similar points in a set of objects. I present two algorithms, k-means and hierarchical clustering, and compare their applicability for clustering high-dimensional sparse data as often dealt with when clustering documents. To demonstrate possible cases of application, I provide clustering applications on an example data set (the Quantlet data set) in programming language Python. This paper's objective is to guide the reader from a casual understanding of basic statistical concepts, such as those typically acquired in undergraduate studies, to a general understanding of Clustering Algorithms, while focusing on Document Clustering applicability.eng
dc.language.isoengnone
dc.publisherHumboldt-Universität zu Berlin
dc.rights(CC BY 3.0 DE) Namensnennung 3.0 Deutschlandger
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/de/
dc.subjectClustering Algorithmenger
dc.subjectk-meansger
dc.subjectHierarchical Clusteringger
dc.subjectDocument Clusteringger
dc.subjectkeyword-Datensatzger
dc.subjectClustering Algorithmseng
dc.subjectk-meanseng
dc.subjectHierarchical Clusteringeng
dc.subjectDocument Clusteringeng
dc.subjectVector Space Modeleng
dc.subjectClustering Evaluationeng
dc.subject.ddc330 Wirtschaftnone
dc.titleComparing applicability of prevalent Clustering Algorithms for Document Clusteringnone
dc.typebachelorThesis
dc.identifier.urnurn:nbn:de:kobv:11-110-18452/20764-7
dc.identifier.doihttp://dx.doi.org/10.18452/19951
dc.date.accepted2019-04-26
dc.contributor.refereeHärdle, Wolfgang Karl
dc.contributor.refereeKlein, Nadja
local.edoc.pages25none
local.edoc.type-nameBachelorarbeit
local.edoc.institutionWirtschaftswissenschaftliche Fakultätnone

Show simple item record