Show simple item record

2013-07-25Bachelorarbeit DOI: 10.18452/14211
Eigennamenerkenung in Web-Korpora des Deutschen
dc.contributor.authorHelmers, Lea Arianna
dc.date.accessioned2017-06-18T02:42:03Z
dc.date.available2017-06-18T02:42:03Z
dc.date.created2014-06-30
dc.date.issued2013-07-25
dc.identifier.urihttp://edoc.hu-berlin.de/18452/14863
dc.description.abstractEigennamenerkennung ist ein wichtiger Bestandteil der maschinellen Aufbereitung von Texten. Sowohl für die theoretische Linguistik als auch für weiterführende automatische Sprachverarbeitungsschritte stellt sie eine wesentliche Voraussetzung dar. Besonders für die morphologisch komplexe Sprache Deutsch ist dies eine Herausforderung, nicht zuletzt, da es sich um eine der wenigen Sprachen handelt, in der zusätzlich zu Eigennamen (EN) auch alle anderen Substantive groß geschrieben werden. Somit fällt die Kapitalisierung von Wörtern als grundlegender Hinweis für das Vorliegen eines EN weg. Dies führt zu einer wesentlich schlechteren Performanz von EN-Erkennern auf deutschen Texten im Vergleich zu englischen beispielsweise. Dieser Performanzunterschied lässt sich bereits für meist stark editiertes Zeitungsmaterial beobachten. Unter dem Aspekt der wachsenden Bedeutung von Internetdaten als Grundlage für linguistische Forschung ist es nun besonders relevant zu überprüfen, wie verlässlich EN-Erkenner auf den meist sehr heterogenen Web-Korpora funktionieren, in denen auch eher spontansprachliches Material, wie beispielsweise Forentexte, enthalten ist. In Rahmen dieser Arbeit habe ich daher drei frei zugängliche state-of-the-art Software-Tools auf einem aus dem webgecrawlten DECOW2012-Korpus abgeleiteten, manuell erstellten Goldstandard evaluiert, die speziell für die EN-Erkennung in deutschen Texten entworfen wurden. Der für den Goldstandard genutzte Teil des DECOW2012 wurde zuvor nach Genres klassifiziert, sodass genaue Aussagen über den Performanzunterschied der Tools auf stärker editierten und weniger editierten Textsorten möglich ist. Zusätzlich wird eine detaillierte statistische Fehleranalyse durchgeführt, woraus abschließend Möglichkeiten zur Verbesserung der Performanz von automatischen EN-Erkennungsprogrammen abgeleitet werden.ger
dc.description.abstractNamed Entity Recognition (NER) is an important preprocessing step for a wide range of NLP-tasks as well as for certain research purposes in theoretical linguistics. The performance of named entity annotation is usually considerably worse for text data in the morphologically complex German language than for English text data for example. This is also due to the fact that in German texts all nouns are capitalized and not only named entities (NE). The discrepancy in performance between German and other languages can already be observed testing NE-tools on usually highly edited newspaper texts. Considering the rising attention that web as a huge resource of natural language data receives, it seems important to know how NER-tools perform on web data which by nature contains also rather spontaneous language material. Therefore, I systematically evaluated three open source state-of-the-art NER-tools that were designed for German language data. For that purpose, I used a manually created gold standard derived from a German web corpus, namely the web-crawled DECOW2012. Before the evaluation, the used section of the DECOW2012 has been classified according to text genres which made it possible to compare the tools' performance on rather edited data such as newspaper or company pages to the performance on rather spontaneous and unedited language material as it might be contained in forum posts for example. In addition to the evaluation, a statistical error analysis has been done which made it possible to derive possibilities to further improve the performance of NER-tools in the last chapter.eng
dc.language.isoger
dc.publisherHumboldt-Universität zu Berlin, Philosophische Fakultät II
dc.rightsNamensnennung - Keine kommerzielle Nutzung - Keine Bearbeitung
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/de/
dc.subjectLinguistikger
dc.subjectEigennamenerkennungger
dc.subjectNERger
dc.subjectstatistische Evalutaionger
dc.subjectKorporager
dc.subjectstatistische Fehleranalyseger
dc.subjectlinguisticseng
dc.subjectGermaneng
dc.subjectnamed entity recognitioneng
dc.subjectNEReng
dc.subjectstatistic evaluationeng
dc.subjectcorporaeng
dc.subjectstatistic error analysiseng
dc.subject.ddc400 Sprache
dc.titleEigennamenerkenung in Web-Korpora des Deutschen
dc.typebachelorThesis
dc.subtitleeine Herausforderung für die (Computer)linguistik
dc.identifier.urnurn:nbn:de:kobv:11-100218834
dc.identifier.doihttp://dx.doi.org/10.18452/14211
dc.identifier.alephidBV041945090
dc.contributor.refereeLüdeling, Anke
dc.contributor.refereeSchäfer, Roland
local.edoc.pages37
local.edoc.type-nameBachelorarbeit
local.edoc.institutionPhilosophische Fakultät II

Show simple item record