Probabilistic Topic Models in Natural Language Processing
dc.contributor.author | Bau, Jérôme | |
dc.date.accessioned | 2017-06-18T02:58:04Z | |
dc.date.available | 2017-06-18T02:58:04Z | |
dc.date.created | 2017-01-20 | |
dc.date.issued | 2017-01-20 | |
dc.identifier.uri | http://edoc.hu-berlin.de/18452/14940 | |
dc.description.abstract | In Machine Learning dienen topic models der Entdeckung abstrakter Strukturen in großen Textsammlungen. Ich präsentiere eine zugeschnittene Auswahl von Konzepten aus den Gebieten Informationstheorie und Statistik, um ein solides Fundament für das Verständnis von topic models zu schaffen. Die präsentierten Konzepte beinhalten Theoreme, sowie Beispiele und Visualisierungen. Ich konzentriere mich auf zwei Modelle im Besonderen: Die Latent Dirichlet Allocation und das Dynamic Topic Model. Beispiele, programmiert in der Programmiersprache Python, veranschaulichen mögliche Anwendungsfälle, unter anderem die Zuordnung inhaltlich ähnlicher Nachrichtenartikel und die Analyse der Themenentwicklung von Nachrichten über die Zeit. Das Ziel dieser Arbeit ist es, den Leser von einem grundlegenden Statistikverständnis, wie es oft im Bachelorstudium erworben wird, zu einem Verständnis des Themenbereiches topic models zu führen. | ger |
dc.description.abstract | In machine learning, topic models serve to discover abstract structures in large document collections. I present a tailored selection of concepts both from information theory and from statistics to build a solid foundation for understanding topic models. The concepts presented include theorems as well as examples and visualizations. I focus on two models in particular: The Latent Dirichlet Allocation and the Dynamic Topic Model. Applications, built in the Python programming language, demonstrate possible cases of application, such as matching news articles similar in content and exploring the topic evolution of news articles over time. This paper’s objective is to guide the reader from a casual understanding of basic statistical concepts, such as those typically acquired in undergraduate studies, to an understanding of topic models. | eng |
dc.language.iso | eng | |
dc.publisher | Humboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät | |
dc.rights | Namensnennung - Keine kommerzielle Nutzung - Keine Bearbeitung | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/de/ | |
dc.subject | Topic models | ger |
dc.subject | text mining | ger |
dc.subject | Latent Dirichlet Allocation | ger |
dc.subject | Dynamic Topic Model | ger |
dc.subject | Vektorraum-Retrieval | ger |
dc.subject | text mining | eng |
dc.subject | Topic models | eng |
dc.subject | Latent Dirichlet Allocation | eng |
dc.subject | Dynamic Topic Model | eng |
dc.subject | Vector Space Model | eng |
dc.subject.ddc | 330 Wirtschaft | |
dc.title | Probabilistic Topic Models in Natural Language Processing | |
dc.type | bachelorThesis | |
dc.identifier.urn | urn:nbn:de:kobv:11-100242955 | |
dc.identifier.doi | http://dx.doi.org/10.18452/14288 | |
dc.contributor.referee | Härdle, Wolfgang Karl | |
dc.contributor.referee | Chen, Cathy Y. | |
local.edoc.pages | 43 | |
local.edoc.type-name | Bachelorarbeit | |
bua.department | Wirtschaftswissenschaftliche Fakultät |