Logo of Humboldt-Universität zu BerlinLogo of Humboldt-Universität zu Berlin
edoc-Server
Open-Access-Publikationsserver der Humboldt-Universität
de|en
Header image: facade of Humboldt-Universität zu Berlin
View Item 
  • edoc-Server Home
  • Qualifikationsarbeiten
  • Abschlussarbeiten
  • View Item
  • edoc-Server Home
  • Qualifikationsarbeiten
  • Abschlussarbeiten
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.
All of edoc-ServerCommunity & CollectionTitleAuthorSubjectThis CollectionTitleAuthorSubject
PublishLoginRegisterHelp
StatisticsView Usage Statistics
All of edoc-ServerCommunity & CollectionTitleAuthorSubjectThis CollectionTitleAuthorSubject
PublishLoginRegisterHelp
StatisticsView Usage Statistics
View Item 
  • edoc-Server Home
  • Qualifikationsarbeiten
  • Abschlussarbeiten
  • View Item
  • edoc-Server Home
  • Qualifikationsarbeiten
  • Abschlussarbeiten
  • View Item
2013-07-25Bachelorarbeit DOI: 10.18452/14211
Eigennamenerkenung in Web-Korpora des Deutschen
eine Herausforderung für die (Computer)linguistik
Helmers, Lea Arianna
Philosophische Fakultät II
Eigennamenerkennung ist ein wichtiger Bestandteil der maschinellen Aufbereitung von Texten. Sowohl für die theoretische Linguistik als auch für weiterführende automatische Sprachverarbeitungsschritte stellt sie eine wesentliche Voraussetzung dar. Besonders für die morphologisch komplexe Sprache Deutsch ist dies eine Herausforderung, nicht zuletzt, da es sich um eine der wenigen Sprachen handelt, in der zusätzlich zu Eigennamen (EN) auch alle anderen Substantive groß geschrieben werden. Somit fällt die Kapitalisierung von Wörtern als grundlegender Hinweis für das Vorliegen eines EN weg. Dies führt zu einer wesentlich schlechteren Performanz von EN-Erkennern auf deutschen Texten im Vergleich zu englischen beispielsweise. Dieser Performanzunterschied lässt sich bereits für meist stark editiertes Zeitungsmaterial beobachten. Unter dem Aspekt der wachsenden Bedeutung von Internetdaten als Grundlage für linguistische Forschung ist es nun besonders relevant zu überprüfen, wie verlässlich EN-Erkenner auf den meist sehr heterogenen Web-Korpora funktionieren, in denen auch eher spontansprachliches Material, wie beispielsweise Forentexte, enthalten ist. In Rahmen dieser Arbeit habe ich daher drei frei zugängliche state-of-the-art Software-Tools auf einem aus dem webgecrawlten DECOW2012-Korpus abgeleiteten, manuell erstellten Goldstandard evaluiert, die speziell für die EN-Erkennung in deutschen Texten entworfen wurden. Der für den Goldstandard genutzte Teil des DECOW2012 wurde zuvor nach Genres klassifiziert, sodass genaue Aussagen über den Performanzunterschied der Tools auf stärker editierten und weniger editierten Textsorten möglich ist. Zusätzlich wird eine detaillierte statistische Fehleranalyse durchgeführt, woraus abschließend Möglichkeiten zur Verbesserung der Performanz von automatischen EN-Erkennungsprogrammen abgeleitet werden.
 
Named Entity Recognition (NER) is an important preprocessing step for a wide range of NLP-tasks as well as for certain research purposes in theoretical linguistics. The performance of named entity annotation is usually considerably worse for text data in the morphologically complex German language than for English text data for example. This is also due to the fact that in German texts all nouns are capitalized and not only named entities (NE). The discrepancy in performance between German and other languages can already be observed testing NE-tools on usually highly edited newspaper texts. Considering the rising attention that web as a huge resource of natural language data receives, it seems important to know how NER-tools perform on web data which by nature contains also rather spontaneous language material. Therefore, I systematically evaluated three open source state-of-the-art NER-tools that were designed for German language data. For that purpose, I used a manually created gold standard derived from a German web corpus, namely the web-crawled DECOW2012. Before the evaluation, the used section of the DECOW2012 has been classified according to text genres which made it possible to compare the tools' performance on rather edited data such as newspaper or company pages to the performance on rather spontaneous and unedited language material as it might be contained in forum posts for example. In addition to the evaluation, a statistical error analysis has been done which made it possible to derive possibilities to further improve the performance of NER-tools in the last chapter.
 
Files in this item
Thumbnail
helmers.pdf — Adobe PDF — 528.9 Kb
MD5: a7f30b0b5425a9d4e28a71c7046f7c18
Cite
BibTeX
EndNote
RIS
Namensnennung - Keine kommerzielle Nutzung - Keine BearbeitungNamensnennung - Keine kommerzielle Nutzung - Keine BearbeitungNamensnennung - Keine kommerzielle Nutzung - Keine BearbeitungNamensnennung - Keine kommerzielle Nutzung - Keine Bearbeitung
Details
DINI-Zertifikat 2019OpenAIRE validatedORCID Consortium
Imprint Policy Contact Data Privacy Statement
A service of University Library and Computer and Media Service
© Humboldt-Universität zu Berlin
 
DOI
10.18452/14211
Permanent URL
https://doi.org/10.18452/14211
HTML
<a href="https://doi.org/10.18452/14211">https://doi.org/10.18452/14211</a>