An Image Classification Tool of Wikimedia Commons
dc.contributor.author | Huang, Sisi | |
dc.date.accessioned | 2020-07-13T12:35:24Z | |
dc.date.available | 2020-07-13T12:35:24Z | |
dc.date.issued | 2020-07-13 | none |
dc.identifier.uri | http://edoc.hu-berlin.de/18452/22325 | |
dc.description.abstract | Es ist sehr zeitaufwendig und auch anstrengend, riesige Datensätze, die aus Bildern von Webseiten bestehen, manuell zu beschriften. Wenn es ein Tool gäbe, mit dem wir diese unbeschrifteten Bilder automatisch klassifizieren können, dann würde es uns enorm nutzen. Das Ziel dieser Arbeit ist es, deutliche Eigenschaften von Bildern zu extrahieren, und die Klassifizierung der Bilder auf diese Weise zu automatisieren. Wir konzentrieren uns auf die Problemlösung im Bereich statistischer Grafiken. Statistische Grafiken tauchen häufig in Dokumenten auf und werden als allgemeines Werkzeug zur Visualisierung von Beziehungen innerhalb der Daten verwendet. Sie unterscheiden sich inbesondere anhand ihrer Muster und Formen. Wir schlagen Machine-Learning-Modelle vor, die automatisch Merkmale aus Bildern extrahieren und die Gattung der statistischen Grafik voraussagen können. Convolutional Neural Networks sind populäre Modelle um Bilder zu klassifizieren. In dieser Arbeit untersuchen wir zwei Varianten, um Convolutional Neural Networks zu implementieren: transferiertes Lernen und Selbst-Schulungsmodelle. Das Genauigkeitsmaß des Modells auf der Grundlage von VGG-16 ist bereits 0.65. Im Gegenteil, die Leistungen von den selbst-Schulungsmodellen sind schlechter als Modelle mit transferiertem Lernen, das beste Genauigkeitsmaß liegt nur bei 0.47. | ger |
dc.description.abstract | Labelling massive datasets consisting of images from webpages manually is quite time-consuming and also exhausting. If there was a tool which can help us to classify those unlabeled images automatically, it would not overwhelm us nearly as much. In this thesis we aim to extract significant features from images and to automate the annotation of unlabeled images. Due to the variety of images, we focus our attention on solving the problem of chart image classification. Chart images are frequently presented in documents and used as a common tool for visualizing relationships within the data. Especially, they are able to distinguish themselves by their patterns or shapes. To deal with this problem we propose machine learning models that can extract the images' features automatically, and predict their labels. Convolutional neural networks are the popular models for solving such problem of image classification. Thus, it is our goal to bridge the relationship between chart images and neural networks. In this thesis we attempt two directions to implement convolutional neural networks: transfer learning and self-training models. On a set of testing data a model using transfer learning based on the VGG-16 pre-trained model, achieves a test accuracy of up to 0.65. Self-training models are LeNet-5, Alex blocks and VGG blocks, which are grounded by AlexNet and VGG. However, performances of self-training models are sightly worse than transfer learning, the highest prediction accuracy of the self-training models is only 0.47. | eng |
dc.language.iso | eng | none |
dc.publisher | Humboldt-Universität zu Berlin | |
dc.rights | (CC BY-NC 4.0) Attribution-NonCommercial 4.0 International | ger |
dc.rights.uri | https://creativecommons.org/licenses/by-nc/4.0/ | |
dc.subject | Bildbeschriftung | ger |
dc.subject | Convolutional Neural Network | ger |
dc.subject | transferiertes Lernen | ger |
dc.subject | Machine Learning | ger |
dc.subject | Image Labelling | eng |
dc.subject | Convolutional Neural Network | eng |
dc.subject | Transfer learning | eng |
dc.subject | Machine Learning | eng |
dc.subject.ddc | 000 Informatik, Informationswissenschaft, allgemeine Werke | none |
dc.title | An Image Classification Tool of Wikimedia Commons | none |
dc.type | masterThesis | |
dc.identifier.urn | urn:nbn:de:kobv:11-110-18452/22325-8 | |
dc.identifier.doi | http://dx.doi.org/10.18452/21576 | |
dc.date.accepted | 2020-06-10 | |
dc.contributor.referee | Greven, Sonja | |
dc.contributor.referee | Wang, Weining | |
local.edoc.pages | 59 | none |
local.edoc.type-name | Masterarbeit | |
local.edoc.institution | Wirtschaftswissenschaftliche Fakultät | none |