Comparing applicability of prevalent Clustering Algorithms for Document Clustering
Wirtschaftswissenschaftliche Fakultät
Clustering Algorithmen befassen sich mit dem Identifizieren von Gruppen ähnlicher Objekte in einem Datensatz. Ich präsentiere zwei solche Algorithmen, k-means und Hierarchical Clustering, und vergleiche ihre Anwendbarkeit für das Clustern von hochdimensionalen dünn besetzten Daten, wie sie oft im Document Clustering anzutreffen sind. Als Anwendungsbeispiel wende ich beide Algorithmen auf einen keyword-Datensatz an (den Quantlet-Datensatz des Statistik-Lehrstuhls der HU) und stelle den dazugehörigen Python-Code bereit. In statistical data analysis, Clustering Algorithms are supposed to nd groups of similar points in a set of objects. I present two algorithms, k-means and hierarchical clustering, and compare their applicability for clustering high-dimensional sparse data as often dealt with when clustering documents. To demonstrate possible cases of application, I provide clustering applications on an example data set (the Quantlet data set) in programming language Python. This paper's objective is to guide the reader from a casual understanding of basic statistical concepts, such as those typically acquired in undergraduate studies, to a general understanding of Clustering Algorithms, while focusing on Document Clustering applicability.
Files in this item
Related Items
Show related Items with similar Title, Author, Creator or Subject.
-
2018-08-24DissertationCoupled-Cluster in Real Space CC2 Correlation and Excitation Energies using Multiresolution AnalysisKottmann, Jakob SiegfriedIn dieser Arbeit werden Algorithmen für die Berechnung elektronischer Korrelations- und Anregungsenergien mittels der Coupled-Cluster Methode auf adaptiven Gittern entwickelt und implementiert. Die jeweiligen Funktionen ...
-
2016-01-04DissertationVisual analytics for detection and assessment of process-related patterns in geoscientific spatiotemporal data Köthur, PatrickDiese Arbeit untersucht, inwiefern Visual Analytics die Analyse von Prozessen in geowissenschaftlichen raum-zeitlichen Daten unterstützen kann. Hierzu wurden drei neuartige Visual Analytics Ansätze entwickelt. Jeder Ansatz ...
-
2015-04-22DissertationCluster formation in supersonic beams of dense fluids a surface scattering studyChen, Bo-GaunMit zeitaufgelöster Massenspektrometrie untersuchen wir die Winkelverteilung von Kohlendioxid-Monomeren bei der Streuung von Kohlendioxid-Clustern an einer Si(111)/Siliciumdioxid-Oberfläche unter Ultrahochvakuum-Bedingungen. ...