| edoc-Server der Humboldt-Universität zu Berlin |
| Publikationsart: | Workshop- oder Konferenzbeitrag |
| Autor(en): | Jana Bauckmann; Ulf Leser; Felix Naumann |
| Titel: | Efficiently Computing Inclusion Dependencies for Schema Discovery |
| Erschienen in: |
Proceedings of the 22nd International Conference on Data Engineering Workshops, ICDE 2006, 3-7 April 2006 2006 S. 2-2 |
| Veranstaltung: |
Second International Workshop on Database Interoperability (InterDB'06) Atlanta, Georgia, USA 03.04.2006 - 07.04.2006 |
| Verlag: |
IEEE Computer Society http://www.computer.org |
| Erscheinungsort: | Atlanta, Georgia, USA |
| DOI: | http://doi.ieeecomputersociety.org/10.1109/ICDEW.2006.54 |
| Erstveröffentlichung: | 01.04.2006 |
| Veröffentlichung auf edoc: | 05.07.2006 |
| Status: |
published peer_reviewed |
| Volltext: | pdf (urn:nbn:de:kobv:11-10065905) |
| Fachgebiet(e): | Informatik |
| Schlagwörter (eng): | Metadata, Data Integration, Schema Management, Profiling |
| Einrichtung: | Humboldt-Universität zu Berlin, Mathematisch-Naturwissenschaftliche Fakultät II |
| Metadatenexport:
|
Endnote Bibtex |
| print on demand:
|
|
| Diese Seite taggen:
|
| Abstract (eng): | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Large data integration projects must often cope with undocumented data sources. Schema discovery aims at automatically finding structures in such cases. An important class of relationships between attributes that can be detected automatically are inclusion dependencies (IND), which provide an excellent basis for guessing foreign key constraints. INDs can be discovered by comparing the sets of distinct values of pairs of attributes. In this paper we present efficient algorithms for finding unary INDs. We first show that (and why) SQL is not suitable for this task. We then develop two algorithms that compute inclusion dependencies outside of the database. Both are much faster than the SQL-based methods; in fact, for larger schemas they are the only feasible solution. Our experiments show that we can compute all unary INDs in a schema of 1, 680 attributes with a total database size of 3.2 GB in approximately 2.5 hours. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Zugriffsstatistik:
Bei Formatversionen eines Dokuments, die aus mehreren Dateien bestehen (insbesondere HTML), wird jeweils der monatlich höchste Zugriffswert auf eine der Dateien (Kapitel) des Dokuments angezeigt. Um die detaillierten Zugriffszahlen zu sehen, fahren Sie bitte mit dem Mauszeiger über die einzelnen Balken des Diagramms. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Gesamtzahl der Zugriffe seit May 2011:
|
|
| |||