Hierarchical Multiclass Topic Modelling with Prior Knowledge
Wirtschaftswissenschaftliche Fakultät
Eine neue Multi-Label-Dokument-Klassifizierungstechnik namens CascadeLDA wird in dieser Arbeit eingeführt. Statt sich auf diskriminierende Modellierungstechniken zu konzentrieren, erweitert CascadeLDA ein generatives Basismodell durch die Einbeziehung von zwei Arten von Vorinformationen.
Erstens wird das Wissen aus einem gekennzeichneten Trainingsdatensatz verwendet, um das generative Modell zu steuern. Zweitens wird die implizite Baumstruktur der Labels ausgenutzt, um diskriminierende Eigenschaften zwischen eng verwandten Labels hervorzuheben. Durch die Transformation des Klassifizierungsproblems in einem
Ensemble von kleineren Problemen, werden vergleichbare out-of-sample Resultate circa 25 mal schneller erreicht als im Basismodell. In diesem Paper wird CascadeLDA auf Datensätzen mit akademischen Abstracts und vollständige wissenschaftliche angewendet. Das Modell wird eingesetzt, um Autoren beim Klassifizieren ihrer Publikationen automatisch zu unterstützen. A new multi-label document classification technique called CascadeLDA is introduced
in this thesis. Rather than focusing on discriminative modelling techniques, CascadeLDA
extends a baseline generative model by incorporating two types of prior information.
Firstly, knowledge from a labeled training dataset is used to direct the generative model.
Secondly, the implicit tree structure of the labels is exploited to emphasise discriminative
features between closely related labels. By segregating the classification problem in an
ensemble of smaller problems, out-of-sample results are achieved at about 25 times the
speed of the baseline model. In this thesis, CascadeLDA is performed on datasets with
academic abstracts and full academic papers. The model is employed to assist authors in
tagging their newly published articles.
Dateien zu dieser Publikation