Data-Based Methods for Historical Grammar and Lexicon Extraction in a Diachronic Corpus
Philosophische Fakultät II
Diese Arbeit untersucht automatische und halbautomatische Methoden der Extrahierung, Klassifizierung und Quantifizierung von historischen Grammatik- und Lexikkorrespondenzen. Zwei digitalisierte Versionen des Matthäusevangeliums auf Polnisch, zum einen aus der Danziger Bibel (zum ersten Mal 1606 gedruckt) und zum anderen aus der Warschauer Bibel (erschienen 1975), bilden die Grunddaten für diese Fallstudie. Parallele Distributionen und Kookkurrenzen von morphologischen, lexikalischen sowie grammatischen Elementen in einem aus diesen Daten aufbereiteten annotierten Korpus werden vorgestellt und im Hinblick auf traditionelle, historische Grammatiken der polnischen Sprache analysiert. This work examines automatic and semi-automatic methods for the extraction, classification and quantification of historical grammar and lexis correspondences from a parallel diachronic corpus. Two digitized versions of the Polish Gospel of Matthew taken from the Gdansk Bible, originally printed in 1606, and Warsaw Bible, first published in 1975, are used as the database for this case study. Parallel distributions and cooccurrences of morphological, lexical and grammatical elements in an annotated electronic corpus created from these materials are presented and analyzed in light of traditional accounts of Polish historical grammar.
Files in this item