edoc-Server der Humboldt-Universität zu Berlin

Dissertation

Autor(en): Thomas Kabisch
Titel: Extraction and integration of Web query interfaces
Gutachter: Ulf Leser; Felix Naumann; Eberhard Rahm
Erscheinungsdatum: 20.10.2011
Volltext: pdf (urn:nbn:de:kobv:11-100196435)
Fachgebiet(e): Informatik
Schlagwörter (ger): Informationsextraktion, Informationsintegration, Schema Matching, Web Formulare
Schlagwörter (eng): Information Extraction, Information Integration, Schema Matching, Web Query Interfaces
Einrichtung: Humboldt-Universität zu Berlin, Mathematisch-Naturwissenschaftliche Fakultät II
Lizenz: Namensnennung - Keine kommerzielle Nutzung (CC BY NC)
Zitationshinweis: Kabisch, Thomas: Extraction and integration of Web query interfaces; Dissertation, Humboldt-Universität zu Berlin, Mathematisch-Naturwissenschaftliche Fakultät II , publiziert am 20.10.2011, urn:nbn:de:kobv:11-100196435
Metadatenexport: Um den gesamten Metadatensatz im Endnote- oder Bibtex-Format zu speichern, klicken Sie bitte auf den entsprechenden Link. Endnote   Bibtex  
print on demand: Wenn Sie auf dieses Icon klicken, können Sie ein Druckexemplar dieser Publikation bestellen.

Abstract (ger):
Diese Arbeit fokussiert auf die Integration von Web Anfrageschnittstellen (Web Formularen). Wir identifizieren mehrere Schritte für den Integrationsprozess: Im ersten Schritt werden unbekannte Anfrageschnittstellen auf ihre Anwendungsdomäne hin analysiert. Im zweiten Schritt werden die Anfrageschnittstellen in ein maschinenlesbares Format transformiert (Extraktion). Im dritten Schritt werden Paare semantisch gleicher Elemente zwischen den verschiedenen zu integrierenden Anfragesschnittstellen identifiziert (Matching). Diese Schritte bilden die Grundlage, um Systeme, die eine integrierte Sicht auf die verschiedenen Datenquellen bieten, aufsetzen zu können. Diese Arbeit beschreibt neuartige Lösungen für alle drei der genannten Schritte. Der erste zentrale Beitrag ist ein Exktraktionsalgorithmus, der eine kleine Zahl von Designregeln dazu benutzt, um Schemabäume abzuleiten. Gegenüber früheren Lösungen, welche in der Regel lediglich eine flache Schemarepräsentation anbieten, ist der Schemabaum semantisch reichhaltiger, da er zusätzlich zu den Elementen auch Strukturinformationen abbildet. Der Extraktionsalgorithmus erreicht eine verbesserte Qualität der Element-Extraktion verglichen mit Vergängermethoden. Der zweite Beitrag der Arbeit ist die Entwicklung einer neuen Matching-Methode. Hierbei ermöglicht die Repräsentation der Schnittstellen als Schemabäume eine Verbesserung vorheriger Methoden, indem auch strukturelle Aspekte in den Matching-Algorithmus einfließen. Zusätzlich wird eine globale Optimierung durchgeführt, welche auf der Theorie der bipartiten Graphen aufbaut. Als dritten Beitrag entwickelt die Arbeit einen Algorithms für eine Klassifikation von Schnittstellen nach Anwendungsdomänen auf Basis der Schemabäume und den abgeleiteten Matches. Zusätzlich wird das System VisQI vorgestellt, welches die entwickelten Algorithmen implementiert und eine komfortable graphische Oberfläche für die Unterstützung des Integrationsprozesses bietet.
Abstract (eng):
This thesis focuses on the integration of Web query interfaces. We model the integration process in several steps: First, unknown interfaces have to be classified with respect to their application domain (classification); only then a domain-wise treatment is possible. Second, interfaces must be transformed into a machine readable format (extraction) to allow their automated analysis. Third, as a pre-requisite to integration across databases, pairs of semantically similar elements among multiple interfaces need to be identified (matching). Only if all these tasks have been solved, systems that provide an integrated view to several data sources can be set up. This thesis presents new algorithms for each of these steps. We developed a novel extraction algorithm that exploits a small set of commonsense design rules to derive a hierarchical schema for query interfaces. In contrast to prior solutions that use mainly flat schema representations, the hierarchical schema better represents the structure of the interfaces, leading to better accuracy of the integration step. Next, we describe a multi-step matching method for query interfaces which builds on the hierarchical schema representation. It uses methods from the theory of bipartite graphs to globally optimize the matching result. As a third contribution, we present a new method for the domain classification problem of unknown interfaces that, for the first time, combines lexical and structural properties of schemas. All our new methods have been evaluated on real-life datasets and perform superior to previous works in their respective fields. Additionally, we present the system VisQI that implements all introduced algorithmic steps and provides a comfortable graphical user interface to support the integration process.
Zugriffsstatistik: Die Daten für die Zugriffsstatistik der einzelnen Dokumente wurden aus den durch AWStats aggregierten Webserver-Logs erstellt. Sie beziehen sich auf den monatlichen Zugriff auf den Volltext sowie auf die Startseite. Die Zugriffsstatistik wird nicht standardisiert erfasst und kann maschinelle Zugriffe enthalten.
 
Bei Formatversionen eines Dokuments, die aus mehreren Dateien bestehen (insbesondere HTML), wird jeweils der monatlich höchste Zugriffswert auf eine der Dateien (Kapitel) des Dokuments angezeigt.
 
Um die detaillierten Zugriffszahlen zu sehen, fahren Sie bitte mit dem Mauszeiger über die einzelnen Balken des Diagramms.
Startseite: 4 Zugriffe PDF: 11 Zugriffe Startseite: 7 Zugriffe PDF: 18 Zugriffe PDF: 18 Zugriffe PDF: 32 Zugriffe Startseite: 8 Zugriffe PDF: 32 Zugriffe Startseite: 7 Zugriffe PDF: 34 Zugriffe Startseite: 9 Zugriffe PDF: 18 Zugriffe PDF: 44 Zugriffe PDF: 27 Zugriffe PDF: 35 Zugriffe PDF: 27 Zugriffe Startseite: 1 Zugriffe PDF: 43 Zugriffe PDF: 43 Zugriffe Startseite: 2 Zugriffe PDF: 24 Zugriffe Startseite: 2 Zugriffe PDF: 29 Zugriffe Startseite: 4 Zugriffe PDF: 46 Zugriffe Startseite: 5 Zugriffe PDF: 26 Zugriffe Startseite: 5 Zugriffe PDF: 36 Zugriffe Startseite: 5 Zugriffe PDF: 51 Zugriffe Startseite: 4 Zugriffe PDF: 50 Zugriffe Startseite: 10 Zugriffe PDF: 54 Zugriffe Startseite: 4 Zugriffe PDF: 40 Zugriffe Startseite: 4 Zugriffe PDF: 43 Zugriffe Startseite: 2 Zugriffe PDF: 64 Zugriffe Startseite: 4 Zugriffe PDF: 56 Zugriffe Startseite: 3 Zugriffe PDF: 56 Zugriffe Startseite: 7 Zugriffe PDF: 63 Zugriffe PDF: 84 Zugriffe Startseite: 1 Zugriffe PDF: 60 Zugriffe Startseite: 5 Zugriffe PDF: 51 Zugriffe PDF: 35 Zugriffe Startseite: 1 Zugriffe PDF: 63 Zugriffe Startseite: 5 Zugriffe PDF: 106 Zugriffe
Dec
11
Feb
12
Apr
12
May
12
Jun
12
Jul
12
Aug
12
Sep
12
Oct
12
Nov
12
Dec
12
Jan
13
Feb
13
Mar
13
Apr
13
May
13
Jun
13
Jul
13
Aug
13
Sep
13
Oct
13
Nov
13
Dec
13
Jan
14
Feb
14
Mar
14
Apr
14
May
14
Jun
14
Jul
14
Aug
14
Sep
14
Oct
14
Monat Dec
11
Feb
12
Apr
12
May
12
Jun
12
Jul
12
Aug
12
Sep
12
Oct
12
Nov
12
Dec
12
Jan
13
Feb
13
Mar
13
Apr
13
May
13
Jun
13
Jul
13
Aug
13
Sep
13
Oct
13
Nov
13
Dec
13
Jan
14
Feb
14
Mar
14
Apr
14
May
14
Jun
14
Jul
14
Aug
14
Sep
14
Oct
14
Startseite 4 7     8 7 9         1   2 2 4 5 5 5 4 10 4 4 2 4 3 7   1 5   1 5
PDF 11 18 18 32 32 34 18 44 27 35 27 43 43 24 29 46 26 36 51 50 54 40 43 64 56 56 63 84 60 51 35 63 106

Gesamtzahl der Zugriffe seit Dec 2011:

  • Startseite – 109 (3.3 pro Monat)
  • PDF – 1419 (43 pro Monat)
 
 
Generiert am 26.11.2014, 03:45:36