edoc-Server der Humboldt-Universität zu Berlin

Dissertation

Autor(en): Tobias Kalledat
Titel: Tracking domain knowledge based on segmented textual sources
Gutachter: Bernd Viehweger; Myra Spiliopoulou; Anke Lüdeling
Erscheinungsdatum: 11.05.2009
Volltext: pdf (urn:nbn:de:kobv:11-10098785)
Fachgebiet(e): Wirtschaft
Schlagwörter (ger): Datenvorverarbeitung, Text Data Mining, Korpuskennzahlen, Korpuslinguistik, Computerlinguistik, Vorverarbeitungsqualität, Wissensextraktion
Schlagwörter (eng): Text Data Mining, Corpus Measures, Corpus Linguistics, Computational Linguistics, Data Pre-processing, Pre-processing Quality, Knowledge Extraction
Einrichtung: Humboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät
Lizenz: Namensnennung - Keine kommerzielle Nutzung - Keine Bearbeitung (CC BY NC ND)
Zitationshinweis: Kalledat, Tobias: Tracking domain knowledge based on segmented textual sources; Dissertation, Humboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät , publiziert am 11.05.2009, urn:nbn:de:kobv:11-10098785
Metadatenexport: Um den gesamten Metadatensatz im Endnote- oder Bibtex-Format zu speichern, klicken Sie bitte auf den entsprechenden Link. Endnote   Bibtex  
print on demand: Wenn Sie auf dieses Icon klicken, können Sie ein Druckexemplar dieser Publikation bestellen.
Diese Seite taggen: Diese Icons führen auf so genannte Social-Bookmark-Systeme, auf denen Sie Lesezeichen anlegen, persönliche Tags vergeben und Lesezeichen anderer Nutzer ansehen können.
  • connotea
  • del.icio.us
  • Furl
  • RawSugar

Abstract (ger):
Die hier vorliegende Forschungsarbeit hat zum Ziel, Erkenntnisse über den Einfluss der Vorverarbeitung auf die Ergebnisse der Wissensgenerierung zu gewinnen und konkrete Handlungsempfehlungen für die geeignete Vorverarbeitung von Textkorpora in Text Data Mining (TDM) Vorhaben zu geben. Der Fokus liegt dabei auf der Extraktion und der Verfolgung von Konzepten innerhalb bestimmter Wissensdomänen mit Hilfe eines methodischen Ansatzes, der auf der waagerechten und senkrechten Segmentierung von Korpora basiert. Ergebnis sind zeitlich segmentierte Teilkorpora, welche die Persistenzeigenschaft der enthaltenen Terme widerspiegeln. Innerhalb jedes zeitlich segmentierten Teilkorpus können jeweils Cluster von Termen gebildet werden, wobei eines diejenigen Terme enthält, die bezogen auf das Gesamtkorpus nicht persistent sind und das andere Cluster diejenigen, die in allen zeitlichen Segmenten vorkommen. Auf Grundlage einfacher Häufigkeitsmaße kann gezeigt werden, dass allein die statistische Qualität eines einzelnen Korpus es erlaubt, die Vorverarbeitungsqualität zu messen. Vergleichskorpora sind nicht notwendig. Die Zeitreihen der Häufigkeitsmaße zeigen signifikante negative Korrelationen zwischen dem Cluster von Termen, die permanent auftreten, und demjenigen das die Terme enthält, die nicht persistent in allen zeitlichen Segmenten des Korpus vorkommen. Dies trifft ausschließlich auf das optimal vorverarbeitete Korpus zu und findet sich nicht in den anderen Test Sets, deren Vorverarbeitungsqualität gering war. Werden die häufigsten Terme unter Verwendung domänenspezifischer Taxonomien zu Konzepten gruppiert, zeigt sich eine signifikante negative Korrelation zwischen der Anzahl unterschiedlicher Terme pro Zeitsegment und den einer Taxonomie zugeordneten Termen. Dies trifft wiederum nur für das Korpus mit hoher Vorverarbeitungsqualität zu. Eine semantische Analyse auf einem mit Hilfe einer Schwellenwert basierenden TDM Methode aufbereiteten Datenbestand ergab signifikant unterschiedliche Resultate an generiertem Wissen, abhängig von der Qualität der Datenvorverarbeitung. Mit den in dieser Forschungsarbeit vorgestellten Methoden und Maßzahlen ist sowohl die Qualität der verwendeten Quellkorpora, als auch die Qualität der angewandten Taxonomien messbar. Basierend auf diesen Erkenntnissen werden Indikatoren für die Messung und Bewertung von Korpora und Taxonomien entwickelt sowie Empfehlungen für eine dem Ziel des nachfolgenden Analyseprozesses adäquate Vorverarbeitung gegeben.
Abstract (eng):
The research work available here has the goal of analysing the influence of pre-processing on the results of the generation of knowledge and of giving concrete recommendations for action for suitable pre-processing of text corpora in TDM. The research introduced here focuses on the extraction and tracking of concepts within certain knowledge domains using an approach of horizontally (timeline) and vertically (persistence of terms) segmenting of corpora. The result is a set of segmented corpora according to the timeline. Within each timeline segment clusters of concepts can be built according to their persistence quality in relation to each single time-based corpus segment and to the whole corpus. Based on a simple frequency measure it can be shown that only the statistical quality of a single corpus allows measuring the pre-processing quality. It is not necessary to use comparison corpora. The time series of the frequency measure have significant negative correlations between the two clusters of concepts that occur permanently and others that vary within an optimal pre-processed corpus. This was found to be the opposite in every other test set that was pre-processed with lower quality. The most frequent terms were grouped into concepts by the use of domain-specific taxonomies. A significant negative correlation was found between the time series of different terms per yearly corpus segments and the terms assigned to taxonomy for corpora with high quality level of pre-processing. A semantic analysis based on a simple TDM method with significant frequency threshold measures resulted in significant different knowledge extracted from corpora with different qualities of pre-processing. With measures introduced in this research it is possible to measure the quality of applied taxonomy. Rules for the measuring of corpus as well as taxonomy quality were derived from these results and advice suggested for the appropriate level of pre-processing.
Zugriffsstatistik: Die Daten für die Zugriffsstatistik der einzelnen Dokumente wurden aus den durch AWStats aggregierten Webserver-Logs erstellt. Sie beziehen sich auf den monatlichen Zugriff auf den Volltext sowie auf die Startseite. Die Zugriffsstatistik wird nicht standardisiert erfasst und kann maschinelle Zugriffe enthalten.
 
Bei Formatversionen eines Dokuments, die aus mehreren Dateien bestehen (insbesondere HTML), wird jeweils der monatlich höchste Zugriffswert auf eine der Dateien (Kapitel) des Dokuments angezeigt.
 
Um die detaillierten Zugriffszahlen zu sehen, fahren Sie bitte mit dem Mauszeiger über die einzelnen Balken des Diagramms.
Startseite: 4 Zugriffe PDF: 11 Zugriffe Startseite: 3 Zugriffe PDF: 10 Zugriffe Startseite: 4 Zugriffe PDF: 8 Zugriffe PDF: 10 Zugriffe Startseite: 2 Zugriffe PDF: 12 Zugriffe Startseite: 1 Zugriffe PDF: 14 Zugriffe Startseite: 2 Zugriffe PDF: 10 Zugriffe PDF: 10 Zugriffe PDF: 11 Zugriffe Startseite: 1 Zugriffe PDF: 7 Zugriffe Startseite: 3 Zugriffe PDF: 12 Zugriffe PDF: 12 Zugriffe PDF: 11 Zugriffe PDF: 21 Zugriffe PDF: 46 Zugriffe PDF: 33 Zugriffe Startseite: 1 Zugriffe PDF: 27 Zugriffe Startseite: 1 Zugriffe PDF: 24 Zugriffe Startseite: 3 Zugriffe PDF: 23 Zugriffe PDF: 24 Zugriffe PDF: 20 Zugriffe Startseite: 1 Zugriffe PDF: 23 Zugriffe Startseite: 2 Zugriffe PDF: 40 Zugriffe Startseite: 1 Zugriffe PDF: 28 Zugriffe Startseite: 1 Zugriffe PDF: 22 Zugriffe Startseite: 3 Zugriffe PDF: 44 Zugriffe Startseite: 2 Zugriffe PDF: 44 Zugriffe PDF: 11 Zugriffe Startseite: 1 Zugriffe PDF: 51 Zugriffe Startseite: 1 Zugriffe PDF: 74 Zugriffe Startseite: 2 Zugriffe PDF: 134 Zugriffe PDF: 124 Zugriffe PDF: 177 Zugriffe PDF: 145 Zugriffe PDF: 91 Zugriffe
Jul
11
Aug
11
Sep
11
Oct
11
Nov
11
Dec
11
Feb
12
Apr
12
May
12
Jun
12
Jul
12
Aug
12
Sep
12
Oct
12
Nov
12
Dec
12
Jan
13
Feb
13
Mar
13
Apr
13
May
13
Jun
13
Jul
13
Aug
13
Sep
13
Oct
13
Nov
13
Dec
13
Jan
14
Feb
14
Mar
14
Apr
14
May
14
Jun
14
Jul
14
Monat Jul
11
Aug
11
Sep
11
Oct
11
Nov
11
Dec
11
Feb
12
Apr
12
May
12
Jun
12
Jul
12
Aug
12
Sep
12
Oct
12
Nov
12
Dec
12
Jan
13
Feb
13
Mar
13
Apr
13
May
13
Jun
13
Jul
13
Aug
13
Sep
13
Oct
13
Nov
13
Dec
13
Jan
14
Feb
14
Mar
14
Apr
14
May
14
Jun
14
Jul
14
Startseite 4 3 4   2 1 2     1 3           1 1 3     1 2 1 1 3 2   1 1 2        
PDF 11 10 8 10 12 14 10 10 11 7 12 12 11 21 46 33 27 24 23 24 20 23 40 28 22 44 44 11 51 74 134 124 177 145 91

Gesamtzahl der Zugriffe seit Jul 2011:

  • Startseite – 39 (1.11 pro Monat)
  • PDF – 1364 (38.97 pro Monat)
 
 
Generiert am 23.08.2014, 15:33:09