| Autor(en): |
Tobias Kalledat |
Titel: |
Tracking domain knowledge based on segmented textual sources |
| Gutachter: |
Bernd Viehweger; Myra Spiliopoulou; Anke Lüdeling |
| Erscheinungsdatum: |
11.05.2009 |
| Volltext: |
pdf
(urn:nbn:de:kobv:11-10098785)
|
| Fachgebiet(e): |
Wirtschaft |
| Schlagwörter (ger): |
Datenvorverarbeitung, Text Data Mining, Korpuskennzahlen, Korpuslinguistik, Computerlinguistik, Vorverarbeitungsqualität, Wissensextraktion |
| Schlagwörter (eng): |
Text Data Mining, Corpus Measures, Corpus Linguistics, Computational Linguistics, Data Pre-processing, Pre-processing Quality, Knowledge Extraction |
| Einrichtung: |
Humboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät |
| Lizenz: |

|
| Zitationshinweis: |
Kalledat, Tobias:
Tracking domain knowledge based on segmented textual sources;
Dissertation,
Humboldt-Universität zu Berlin, Wirtschaftswissenschaftliche Fakultät , publiziert am 11.05.2009, urn:nbn:de:kobv:11-10098785
|
Metadatenexport:
Um
den gesamten Metadatensatz im Endnote- oder
Bibtex-Format zu speichern,
klicken Sie bitte auf den entsprechenden Link.
|
Endnote
Bibtex
|
print on demand:
Wenn
Sie auf dieses Icon klicken, können Sie
ein Druckexemplar dieser Publikation bestellen.
|
|
Diese Seite taggen:
Diese
Icons führen auf so genannte Social-Bookmark-Systeme, auf denen Sie
Lesezeichen anlegen, persönliche Tags vergeben und Lesezeichen anderer Nutzer
ansehen können.
|
|
| Abstract (ger): |
| Die hier vorliegende Forschungsarbeit hat zum Ziel, Erkenntnisse über den Einfluss der Vorverarbeitung auf die Ergebnisse der Wissensgenerierung zu gewinnen und konkrete Handlungsempfehlungen für die geeignete Vorverarbeitung von Textkorpora in Text Data Mining (TDM) Vorhaben zu geben.
Der Fokus liegt dabei auf der Extraktion und der Verfolgung von Konzepten innerhalb bestimmter Wissensdomänen mit Hilfe eines methodischen Ansatzes, der auf der waagerechten und senkrechten Segmentierung von Korpora basiert. Ergebnis sind zeitlich segmentierte Teilkorpora, welche die Persistenzeigenschaft der enthaltenen Terme widerspiegeln. Innerhalb jedes zeitlich segmentierten Teilkorpus können jeweils Cluster von Termen gebildet werden, wobei eines diejenigen Terme enthält, die bezogen auf das Gesamtkorpus nicht persistent sind und das andere Cluster diejenigen, die in allen zeitlichen Segmenten vorkommen.
Auf Grundlage einfacher Häufigkeitsmaße kann gezeigt werden, dass allein die statistische Qualität eines einzelnen Korpus es erlaubt, die Vorverarbeitungsqualität zu messen. Vergleichskorpora sind nicht notwendig. Die Zeitreihen der Häufigkeitsmaße zeigen signifikante negative Korrelationen zwischen dem Cluster von Termen, die permanent auftreten, und demjenigen das die Terme enthält, die nicht persistent in allen zeitlichen Segmenten des Korpus vorkommen. Dies trifft ausschließlich auf das optimal vorverarbeitete Korpus zu und findet sich nicht in den anderen Test Sets, deren Vorverarbeitungsqualität gering war. Werden die häufigsten Terme unter Verwendung domänenspezifischer Taxonomien zu Konzepten gruppiert, zeigt sich eine signifikante negative Korrelation zwischen der Anzahl unterschiedlicher Terme pro Zeitsegment und den einer Taxonomie zugeordneten Termen. Dies trifft wiederum nur für das Korpus mit hoher Vorverarbeitungsqualität zu. Eine semantische Analyse auf einem mit Hilfe einer Schwellenwert basierenden TDM Methode aufbereiteten Datenbestand ergab signifikant unterschiedliche Resultate an generiertem Wissen, abhängig von der Qualität der Datenvorverarbeitung.
Mit den in dieser Forschungsarbeit vorgestellten Methoden und Maßzahlen ist sowohl die Qualität der verwendeten Quellkorpora, als auch die Qualität der angewandten Taxonomien messbar. Basierend auf diesen Erkenntnissen werden Indikatoren für die Messung und Bewertung von Korpora und Taxonomien entwickelt sowie Empfehlungen für eine dem Ziel des nachfolgenden Analyseprozesses adäquate Vorverarbeitung gegeben.
|
| Abstract (eng): |
| The research work available here has the goal of analysing the influence of pre-processing on the results of the generation of knowledge and of giving concrete recommendations for action for suitable pre-processing of text corpora in TDM.
The research introduced here focuses on the extraction and tracking of concepts within certain knowledge domains using an approach of horizontally (timeline) and vertically (persistence of terms) segmenting of corpora. The result is a set of segmented corpora according to the timeline. Within each timeline segment clusters of concepts can be built according to their persistence quality in relation to each single time-based corpus segment and to the whole corpus.
Based on a simple frequency measure it can be shown that only the statistical quality of a single corpus allows measuring the pre-processing quality. It is not necessary to use comparison corpora. The time series of the frequency measure have significant negative correlations between the two clusters of concepts that occur permanently and others that vary within an optimal pre-processed corpus. This was found to be the opposite in every other test set that was pre-processed with lower quality. The most frequent terms were grouped into concepts by the use of domain-specific taxonomies. A significant negative correlation was found between the time series of different terms per yearly corpus segments and the terms assigned to taxonomy for corpora with high quality level of pre-processing. A semantic analysis based on a simple TDM method with significant frequency threshold measures resulted in significant different knowledge extracted from corpora with different qualities of pre-processing. With measures introduced in this research it is possible to measure the quality of applied taxonomy. Rules for the measuring of corpus as well as taxonomy quality were derived from these results and advice suggested for the appropriate level of pre-processing.
|
Zugriffsstatistik:
Die Daten für die Zugriffsstatistik der einzelnen Dokumente
wurden aus den durch AWStats aggregierten Webserver-Logs erstellt.
Sie beziehen sich auf den monatlichen Zugriff auf den Volltext sowie
auf die Startseite. Die Zugriffsstatistik wird nicht standardisiert erfasst und kann maschinelle Zugriffe enthalten.
Bei Formatversionen eines Dokuments, die aus mehreren Dateien bestehen
(insbesondere HTML), wird jeweils der monatlich höchste Zugriffswert
auf eine der Dateien (Kapitel) des Dokuments angezeigt.
Um die detaillierten Zugriffszahlen zu sehen,
fahren Sie bitte mit dem Mauszeiger
über die einzelnen Balken des Diagramms.
|
  |   |   |   |  |   |   |   |  |  |   |   |  |  |  |  |  |   |  | Jun 11 | Jul 11 | Aug 11 | Sep 11 | Oct 11 | Nov 11 | Dec 11 | Feb 12 | Apr 12 | May 12 | Jun 12 | Jul 12 | Aug 12 | Sep 12 | Oct 12 | Nov 12 | Dec 12 | Jan 13 | Apr 13 |
| Monat | Jun 11 | Jul 11 | Aug 11 | Sep 11 | Oct 11 | Nov 11 | Dec 11 | Feb 12 | Apr 12 | May 12 | Jun 12 | Jul 12 | Aug 12 | Sep 12 | Oct 12 | Nov 12 | Dec 12 | Jan 13 | Apr 13 | | Startseite | 3 | 4 | 3 | 4 | | 2 | 1 | 2 | | | 1 | 3 | | | | | | 1 | | | PDF | 8 | 11 | 10 | 8 | 10 | 12 | 14 | 10 | 10 | 11 | 7 | 12 | 12 | 11 | 21 | 46 | 33 | 27 | 24 |
Gesamtzahl der Zugriffe seit Jun 2011: - Startseite – 24 (1.26 pro Monat)
- PDF – 297 (15.63 pro Monat)
|