| edoc-Server der Humboldt-Universität zu Berlin |
| Publikationsart: | Workshop- oder Konferenzbeitrag |
| Autor(en): | Melanie Weis; Felix Naumann |
| Titel: | DogmatiX Tracks down Duplicates in XML |
| Erschienen in: |
Proceedings of the ACM SIGMOD International Conference on Management of Data, Baltimore, Maryland, USA, June 14-16, 2005 2005 S. 431-442 |
| Veranstaltung: |
SIGMOD Conference 2005 Baltimore, Maryland, USA 14.06.2005 - 16.06.2005 |
| Verlag: |
ACM http://www.acm.org/ |
| Erscheinungsort: | Baltimore, Maryland, USA |
| ISBN: | 1-59593-060-4 |
| DOI: | 1066157.1066207 |
| Erstveröffentlichung: | 01.06.2005 |
| Veröffentlichung auf edoc: | 29.06.2006 |
| Status: |
published peer_reviewed |
| Volltext: | pdf (urn:nbn:de:kobv:11-10065394) |
| URL der Erstveröffentlichung: | http://doi.acm.org/10.1145/1066157.1066207 |
| Fachgebiet(e): | Informatik |
| Schlagwörter (eng): | ETL, Data Cleansing, Databases |
| Einrichtung: | Humboldt-Universität zu Berlin, Mathematisch-Naturwissenschaftliche Fakultät II |
| Metadatenexport:
|
Endnote Bibtex |
| print on demand:
|
|
| Diese Seite taggen:
|
| Abstract (eng): | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Duplicate detection is the problem of detecting different entries in a data source representing the same real-world entity. While research abounds in the realm of duplicate detection in relational data, there is yet little work for duplicates in other, more complex data models, such as XML. In this paper, we present a generalized framework for duplicate detection, dividing the problem into three components: candidate definition defining which objects are to be compared, duplicate definition defining when two duplicate candidates are in fact duplicates, and duplicate detection specifying how to efficiently find those duplicates. Using this framework, we propose an XML duplicate detection method, DogmatiX, which compares XML elements based not only on their direct data values, but also on the similarity of their parents, children, structure, etc. We propose heuristics to determine which of these to choose, as well as a similarity measure specifically geared towards the XML data model. An evaluation of our algorithm using several heuristics validates our approach. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Zugriffsstatistik:
Bei Formatversionen eines Dokuments, die aus mehreren Dateien bestehen (insbesondere HTML), wird jeweils der monatlich höchste Zugriffswert auf eine der Dateien (Kapitel) des Dokuments angezeigt. Um die detaillierten Zugriffszahlen zu sehen, fahren Sie bitte mit dem Mauszeiger über die einzelnen Balken des Diagramms. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Gesamtzahl der Zugriffe seit Jun 2011:
|
|
| |||