| edoc-Server der Humboldt-Universität zu Berlin |
| Publikationsart: | Workshop- oder Konferenzbeitrag |
| Autor(en): | Alexander Bilke; Felix Naumann |
| Titel: | Schema Matching using Duplicates |
| Erschienen in: |
Proceedings of the 21st International Conference on Data Engineering, ICDE 2005, 5-8 April 2005, Tokyo, Japan 2005 S. 69-80 |
| Veranstaltung: |
21. ICDE 2005 Tokyo, Japan 05.04.2005 - 08.04.2005 |
| Verlag: |
IEEE Computer Society http://www.computer.org |
| Erscheinungsort: | Tokyo |
| ISBN: | 0-7695-2285-8 |
| Erstveröffentlichung: | 01.04.2005 |
| Veröffentlichung auf edoc: | 29.06.2006 |
| Status: |
published peer_reviewed |
| Volltext: | pdf (urn:nbn:de:kobv:11-10065426) |
| URL der Erstveröffentlichung: | http://csdl.computer.org/dl/proceedings/icde/2005/2285/00/22850069.pdf |
| Fachgebiet(e): | Informatik |
| Schlagwörter (eng): | Data Integration, Schema Mapping, Schema Integration |
| Einrichtung: | Humboldt-Universität zu Berlin, Mathematisch-Naturwissenschaftliche Fakultät II |
| Metadatenexport:
|
Endnote Bibtex |
| print on demand:
|
|
| Diese Seite taggen:
|
| Abstract (eng): | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Most data integration applications require a matching between the schemas of the respective data sets. We show how the existence of duplicates within these data sets can be exploited to automatically identify matching attributes. We describe an algorithm that first discovers duplicates among data sets with unaligned schemas and then uses these duplicates to perform schema matching between schemas with opaque column names. Discovering duplicates among data sets with unaligned schemas is more difficult than in the usual setting, because it is not clear which fields in one object should be compared with which fields in the other. We have developed a new algorithm that efficiently finds the most likely duplicates in such a setting. Now, our schema matching algorithm is able to identify corresponding attributes by comparing data values within those duplicate records. An experimental study on real-world data shows the effectiveness of this approach. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Zugriffsstatistik:
Bei Formatversionen eines Dokuments, die aus mehreren Dateien bestehen (insbesondere HTML), wird jeweils der monatlich höchste Zugriffswert auf eine der Dateien (Kapitel) des Dokuments angezeigt. Um die detaillierten Zugriffszahlen zu sehen, fahren Sie bitte mit dem Mauszeiger über die einzelnen Balken des Diagramms. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Gesamtzahl der Zugriffe seit May 2011:
|
|
| |||