Show simple item record

2017-01-20Bachelorarbeit DOI: 10.18452/14288
Probabilistic Topic Models in Natural Language Processing
dc.contributor.authorBau, Jérôme
dc.date.accessioned2017-06-18T02:58:04Z
dc.date.available2017-06-18T02:58:04Z
dc.date.created2017-01-20
dc.date.issued2017-01-20
dc.identifier.urihttp://edoc.hu-berlin.de/18452/14940
dc.description.abstractIn Machine Learning dienen topic models der Entdeckung abstrakter Strukturen in großen Textsammlungen. Ich präsentiere eine zugeschnittene Auswahl von Konzepten aus den Gebieten Informationstheorie und Statistik, um ein solides Fundament für das Verständnis von topic models zu schaffen. Die präsentierten Konzepte beinhalten Theoreme, sowie Beispiele und Visualisierungen. Ich konzentriere mich auf zwei Modelle im Besonderen: Die Latent Dirichlet Allocation und das Dynamic Topic Model. Beispiele, programmiert in der Programmiersprache Python, veranschaulichen mögliche Anwendungsfälle, unter anderem die Zuordnung inhaltlich ähnlicher Nachrichtenartikel und die Analyse der Themenentwicklung von Nachrichten über die Zeit. Das Ziel dieser Arbeit ist es, den Leser von einem grundlegenden Statistikverständnis, wie es oft im Bachelorstudium erworben wird, zu einem Verständnis des Themenbereiches topic models zu führen.ger
dc.description.abstractIn machine learning, topic models serve to discover abstract structures in large document collections. I present a tailored selection of concepts both from information theory and from statistics to build a solid foundation for understanding topic models. The concepts presented include theorems as well as examples and visualizations. I focus on two models in particular: The Latent Dirichlet Allocation and the Dynamic Topic Model. Applications, built in the Python programming language, demonstrate possible cases of application, such as matching news articles similar in content and exploring the topic evolution of news articles over time. This paper’s objective is to guide the reader from a casual understanding of basic statistical concepts, such as those typically acquired in undergraduate studies, to an understanding of topic models.eng
dc.language.isoeng
dc.publisherHumboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät
dc.rightsNamensnennung - Keine kommerzielle Nutzung - Keine Bearbeitung
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/de/
dc.subjectTopic modelsger
dc.subjecttext miningger
dc.subjectLatent Dirichlet Allocationger
dc.subjectDynamic Topic Modelger
dc.subjectVektorraum-Retrievalger
dc.subjecttext miningeng
dc.subjectTopic modelseng
dc.subjectLatent Dirichlet Allocationeng
dc.subjectDynamic Topic Modeleng
dc.subjectVector Space Modeleng
dc.subject.ddc330 Wirtschaft
dc.titleProbabilistic Topic Models in Natural Language Processing
dc.typebachelorThesis
dc.identifier.urnurn:nbn:de:kobv:11-100242955
dc.identifier.doihttp://dx.doi.org/10.18452/14288
dc.contributor.refereeHärdle, Wolfgang Karl
dc.contributor.refereeChen, Cathy Y.
local.edoc.pages43
local.edoc.type-nameBachelorarbeit
local.edoc.institutionWirtschaftswissenschaftliche Fakultät

Show simple item record