Comparing applicability of prevalent Clustering Algorithms for Document Clustering
Wirtschaftswissenschaftliche Fakultät
Clustering Algorithmen befassen sich mit dem Identifizieren von Gruppen ähnlicher Objekte in einem Datensatz. Ich präsentiere zwei solche Algorithmen, k-means und Hierarchical Clustering, und vergleiche ihre Anwendbarkeit für das Clustern von hochdimensionalen dünn besetzten Daten, wie sie oft im Document Clustering anzutreffen sind. Als Anwendungsbeispiel wende ich beide Algorithmen auf einen keyword-Datensatz an (den Quantlet-Datensatz des Statistik-Lehrstuhls der HU) und stelle den dazugehörigen Python-Code bereit. In statistical data analysis, Clustering Algorithms are supposed to nd groups of similar points in a set of objects. I present two algorithms, k-means and hierarchical clustering, and compare their applicability for clustering high-dimensional sparse data as often dealt with when clustering documents. To demonstrate possible cases of application, I provide clustering applications on an example data set (the Quantlet data set) in programming language Python. This paper's objective is to guide the reader from a casual understanding of basic statistical concepts, such as those typically acquired in undergraduate studies, to a general understanding of Clustering Algorithms, while focusing on Document Clustering applicability.
Files in this item
Related Items
Show related Items with similar Title, Author, Creator or Subject.
-
2018-08-24DissertationCoupled-Cluster in Real Space Kottmann, Jakob SiegfriedIn dieser Arbeit werden Algorithmen für die Berechnung elektronischer Korrelations- und Anregungsenergien mittels der Coupled-Cluster Methode auf adaptiven Gittern entwickelt und implementiert. Die jeweiligen Funktionen ...
-
2014-10-13DissertationBiochemical and structural studies of 4-hydroxyphenylacetate decarboxylase and its activating enzyme Selvaraj, BrindaStrikt anaerobe Bakterien wie Clostridium difficile und C. scatologenes verwenden GRE, um die chemisch ungünstige Decarboxylierung von 4-Hydroxyphenylacetat zu p-Cresol zu katalysieren. Das Enzymsystem besteht aus einer ...
-
2001-03-02DissertationAb initio study of the chemical reactivity of metal clusters and metal oxide clusters Bienati, MassimilianoMit der vorliegenden Arbeit wurden neue Erkenntnisse bei der Aufklärung der Mechanismen, die für die Reaktivität von Übergangsmetall- und Metalloxid-Clustern verantwortlich sind, gewonnen. Dies ist aus zwei Gründen gelungen: ...