Logo of Humboldt-Universität zu BerlinLogo of Humboldt-Universität zu Berlin
edoc-Server
Open-Access-Publikationsserver der Humboldt-Universität
de|en
Header image: facade of Humboldt-Universität zu Berlin
View Item 
  • edoc-Server Home
  • Qualifikationsarbeiten
  • Abschlussarbeiten
  • View Item
  • edoc-Server Home
  • Qualifikationsarbeiten
  • Abschlussarbeiten
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.
All of edoc-ServerCommunity & CollectionTitleAuthorSubjectThis CollectionTitleAuthorSubject
PublishLoginRegisterHelp
StatisticsView Usage Statistics
All of edoc-ServerCommunity & CollectionTitleAuthorSubjectThis CollectionTitleAuthorSubject
PublishLoginRegisterHelp
StatisticsView Usage Statistics
View Item 
  • edoc-Server Home
  • Qualifikationsarbeiten
  • Abschlussarbeiten
  • View Item
  • edoc-Server Home
  • Qualifikationsarbeiten
  • Abschlussarbeiten
  • View Item
2019-05-17Bachelorarbeit DOI: 10.18452/19951
Comparing applicability of prevalent Clustering Algorithms for Document Clustering
Krawczyk, Luisa
Wirtschaftswissenschaftliche Fakultät
Clustering Algorithmen befassen sich mit dem Identifizieren von Gruppen ähnlicher Objekte in einem Datensatz. Ich präsentiere zwei solche Algorithmen, k-means und Hierarchical Clustering, und vergleiche ihre Anwendbarkeit für das Clustern von hochdimensionalen dünn besetzten Daten, wie sie oft im Document Clustering anzutreffen sind. Als Anwendungsbeispiel wende ich beide Algorithmen auf einen keyword-Datensatz an (den Quantlet-Datensatz des Statistik-Lehrstuhls der HU) und stelle den dazugehörigen Python-Code bereit.
 
In statistical data analysis, Clustering Algorithms are supposed to nd groups of similar points in a set of objects. I present two algorithms, k-means and hierarchical clustering, and compare their applicability for clustering high-dimensional sparse data as often dealt with when clustering documents. To demonstrate possible cases of application, I provide clustering applications on an example data set (the Quantlet data set) in programming language Python. This paper's objective is to guide the reader from a casual understanding of basic statistical concepts, such as those typically acquired in undergraduate studies, to a general understanding of Clustering Algorithms, while focusing on Document Clustering applicability.
 
Files in this item
Thumbnail
bachelor_krawczyk_luisa.pdf — Adobe PDF — 1.738 Mb
MD5: dcdeab7e1b23ba8554c1246dbb3fc613
Cite
BibTeX
EndNote
RIS
(CC BY 3.0 DE) Namensnennung 3.0 Deutschland(CC BY 3.0 DE) Namensnennung 3.0 Deutschland
Details

Related Items

Show related Items with similar Title, Author, Creator or Subject.

  • 2018-08-24Dissertation
    Coupled-Cluster in Real Space 
    CC2 Correlation and Excitation Energies using Multiresolution Analysis
    Kottmann, Jakob Siegfried
    In dieser Arbeit werden Algorithmen für die Berechnung elektronischer Korrelations- und Anregungsenergien mittels der Coupled-Cluster Methode auf adaptiven Gittern entwickelt und implementiert. Die jeweiligen Funktionen ...
  • 2016-01-04Dissertation
    Visual analytics for detection and assessment of process-related patterns in geoscientific spatiotemporal data 
    Köthur, Patrick
    Diese Arbeit untersucht, inwiefern Visual Analytics die Analyse von Prozessen in geowissenschaftlichen raum-zeitlichen Daten unterstützen kann. Hierzu wurden drei neuartige Visual Analytics Ansätze entwickelt. Jeder Ansatz ...
  • 2015-04-22Dissertation
    Cluster formation in supersonic beams of dense fluids 
    a surface scattering study
    Chen, Bo-Gaun
    Mit zeitaufgelöster Massenspektrometrie untersuchen wir die Winkelverteilung von Kohlendioxid-Monomeren bei der Streuung von Kohlendioxid-Clustern an einer Si(111)/Siliciumdioxid-Oberfläche unter Ultrahochvakuum-Bedingungen. ...
DINI-Zertifikat 2019OpenAIRE validatedORCID Consortium
Imprint Policy Contact Data Privacy Statement
A service of University Library and Computer and Media Service
© Humboldt-Universität zu Berlin
 
DOI
10.18452/19951
Permanent URL
https://doi.org/10.18452/19951
HTML
<a href="https://doi.org/10.18452/19951">https://doi.org/10.18452/19951</a>