Logo of Humboldt-Universität zu BerlinLogo of Humboldt-Universität zu Berlin
edoc-Server
Open-Access-Publikationsserver der Humboldt-Universität
de|en
Header image: facade of Humboldt-Universität zu Berlin
View Item 
  • edoc-Server Home
  • Qualifikationsarbeiten
  • Abschlussarbeiten
  • View Item
  • edoc-Server Home
  • Qualifikationsarbeiten
  • Abschlussarbeiten
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.
All of edoc-ServerCommunity & CollectionTitleAuthorSubjectThis CollectionTitleAuthorSubject
PublishLoginRegisterHelp
StatisticsView Usage Statistics
All of edoc-ServerCommunity & CollectionTitleAuthorSubjectThis CollectionTitleAuthorSubject
PublishLoginRegisterHelp
StatisticsView Usage Statistics
View Item 
  • edoc-Server Home
  • Qualifikationsarbeiten
  • Abschlussarbeiten
  • View Item
  • edoc-Server Home
  • Qualifikationsarbeiten
  • Abschlussarbeiten
  • View Item
2019-05-17Bachelorarbeit DOI: 10.18452/19951
Comparing applicability of prevalent Clustering Algorithms for Document Clustering
Krawczyk, Luisa
Wirtschaftswissenschaftliche Fakultät
Clustering Algorithmen befassen sich mit dem Identifizieren von Gruppen ähnlicher Objekte in einem Datensatz. Ich präsentiere zwei solche Algorithmen, k-means und Hierarchical Clustering, und vergleiche ihre Anwendbarkeit für das Clustern von hochdimensionalen dünn besetzten Daten, wie sie oft im Document Clustering anzutreffen sind. Als Anwendungsbeispiel wende ich beide Algorithmen auf einen keyword-Datensatz an (den Quantlet-Datensatz des Statistik-Lehrstuhls der HU) und stelle den dazugehörigen Python-Code bereit.
 
In statistical data analysis, Clustering Algorithms are supposed to nd groups of similar points in a set of objects. I present two algorithms, k-means and hierarchical clustering, and compare their applicability for clustering high-dimensional sparse data as often dealt with when clustering documents. To demonstrate possible cases of application, I provide clustering applications on an example data set (the Quantlet data set) in programming language Python. This paper's objective is to guide the reader from a casual understanding of basic statistical concepts, such as those typically acquired in undergraduate studies, to a general understanding of Clustering Algorithms, while focusing on Document Clustering applicability.
 
Files in this item
Thumbnail
bachelor_krawczyk_luisa.pdf — Adobe PDF — 1.738 Mb
MD5: dcdeab7e1b23ba8554c1246dbb3fc613
Cite
BibTeX
EndNote
RIS
(CC BY 3.0 DE) Namensnennung 3.0 Deutschland(CC BY 3.0 DE) Namensnennung 3.0 Deutschland
Details

Related Items

Show related Items with similar Title, Author, Creator or Subject.

  • 2018-08-24Dissertation
    Coupled-Cluster in Real Space 
    Kottmann, Jakob Siegfried
    In dieser Arbeit werden Algorithmen für die Berechnung elektronischer Korrelations- und Anregungsenergien mittels der Coupled-Cluster Methode auf adaptiven Gittern entwickelt und implementiert. Die jeweiligen Funktionen ...
  • 2014-10-13Dissertation
    Biochemical and structural studies of 4-hydroxyphenylacetate decarboxylase and its activating enzyme 
    Selvaraj, Brinda
    Strikt anaerobe Bakterien wie Clostridium difficile und C. scatologenes verwenden GRE, um die chemisch ungünstige Decarboxylierung von 4-Hydroxyphenylacetat zu p-Cresol zu katalysieren. Das Enzymsystem besteht aus einer ...
  • 2001-03-02Dissertation
    Ab initio study of the chemical reactivity of metal clusters and metal oxide clusters 
    Bienati, Massimiliano
    Mit der vorliegenden Arbeit wurden neue Erkenntnisse bei der Aufklärung der Mechanismen, die für die Reaktivität von Übergangsmetall- und Metalloxid-Clustern verantwortlich sind, gewonnen. Dies ist aus zwei Gründen gelungen: ...
DINI-Zertifikat 2019OpenAIRE validatedORCID Consortium
Imprint Policy Contact Data Privacy Statement
A service of University Library and Computer and Media Service
© Humboldt-Universität zu Berlin
 
DOI
10.18452/19951
Permanent URL
https://doi.org/10.18452/19951
HTML
<a href="https://doi.org/10.18452/19951">https://doi.org/10.18452/19951</a>