edoc-Server der Humboldt-Universität zu Berlin

Post- oder Preprint

Publikationsart: Workshop- oder Konferenzbeitrag
Autor(en): Melanie Weis; Felix Naumann
Titel: DogmatiX Tracks down Duplicates in XML
Erschienen in: Proceedings of the ACM SIGMOD International Conference on Management of Data, Baltimore, Maryland, USA, June 14-16, 2005 2005
S. 431-442
Veranstaltung: SIGMOD Conference 2005
Baltimore, Maryland, USA
14.06.2005 - 16.06.2005
Verlag: ACM
http://www.acm.org/
Erscheinungsort: Baltimore, Maryland, USA
ISBN: 1-59593-060-4
DOI: 1066157.1066207
Erstveröffentlichung: 01.06.2005
Veröffentlichung auf edoc: 29.06.2006
Status: published
peer_reviewed
Volltext: pdf (urn:nbn:de:kobv:11-10065394)
URL der Erstveröffentlichung: http://doi.acm.org/10.1145/1066157.1066207
Fachgebiet(e): Informatik
Schlagwörter (eng): ETL, Data Cleansing, Databases
Einrichtung: Humboldt-Universität zu Berlin, Mathematisch-Naturwissenschaftliche Fakultät II
Metadatenexport: Um den gesamten Metadatensatz im Endnote- oder Bibtex-Format zu speichern, klicken Sie bitte auf den entsprechenden Link. Endnote   Bibtex  
print on demand: Wenn Sie auf dieses Icon klicken, können Sie ein Druckexemplar dieser Publikation bestellen. Bestellung als gedruckte und gebundene Version bei epubli.de, Ausführung der Bestellung erst nach Bestätigung auf den epubli.de-Seiten
Diese Seite taggen: Diese Icons führen auf so genannte Social-Bookmark-Systeme, auf denen Sie Lesezeichen anlegen, persönliche Tags vergeben und Lesezeichen anderer Nutzer ansehen können.
  • connotea
  • del.icio.us
  • Furl
  • RawSugar

Abstract (eng):
Duplicate detection is the problem of detecting different entries in a data source representing the same real-world entity. While research abounds in the realm of duplicate detection in relational data, there is yet little work for duplicates in other, more complex data models, such as XML. In this paper, we present a generalized framework for duplicate detection, dividing the problem into three components: candidate definition defining which objects are to be compared, duplicate definition defining when two duplicate candidates are in fact duplicates, and duplicate detection specifying how to efficiently find those duplicates. Using this framework, we propose an XML duplicate detection method, DogmatiX, which compares XML elements based not only on their direct data values, but also on the similarity of their parents, children, structure, etc. We propose heuristics to determine which of these to choose, as well as a similarity measure specifically geared towards the XML data model. An evaluation of our algorithm using several heuristics validates our approach.
Zugriffsstatistik: Die Daten für die Zugriffsstatistik der einzelnen Dokumente wurden aus den durch AWSTATS aggregierten Webserver-Logs erstellt. Sie beziehen sich auf den monatlichen Zugriff auf den Volltext sowie auf die Startseite.
 
Bei Formatversionen eines Dokuments, die aus mehreren Dateien bestehen (insbesondere HTML), wird jeweils der monatlich höchste Zugriffswert auf eine der Dateien (Kapitel) des Dokuments angezeigt.
 
Um die detaillierten Zugriffszahlen zu sehen, fahren Sie bitte mit dem Mauszeiger über die einzelnen Balken des Diagramms.
PDF: 1 Zugriffe PDF: 1 Zugriffe Startseite: 3 Zugriffe PDF: 1 Zugriffe Startseite: 1 Zugriffe PDF: 3 Zugriffe Startseite: 5 Zugriffe PDF: 1 Zugriffe Startseite: 5 Zugriffe PDF: 19 Zugriffe Startseite: 5 Zugriffe PDF: 5 Zugriffe Startseite: 6 Zugriffe PDF: 10 Zugriffe Startseite: 3 Zugriffe PDF: 8 Zugriffe Startseite: 1 Zugriffe PDF: 8 Zugriffe Startseite: 5 Zugriffe PDF: 6 Zugriffe Startseite: 4 Zugriffe PDF: 1 Zugriffe Startseite: 5 Zugriffe Startseite: 1 Zugriffe PDF: 6 Zugriffe PDF: 2 Zugriffe PDF: 1 Zugriffe Startseite: 1 Zugriffe PDF: 5 Zugriffe PDF: 12 Zugriffe PDF: 11 Zugriffe Startseite: 1 Zugriffe PDF: 9 Zugriffe PDF: 11 Zugriffe Startseite: 3 Zugriffe PDF: 9 Zugriffe Startseite: 2 Zugriffe PDF: 21 Zugriffe Startseite: 1 Zugriffe PDF: 31 Zugriffe Startseite: 1 Zugriffe PDF: 35 Zugriffe Startseite: 1 Zugriffe PDF: 28 Zugriffe PDF: 26 Zugriffe PDF: 2 Zugriffe Startseite: 1 Zugriffe PDF: 4 Zugriffe Startseite: 3 Zugriffe PDF: 30 Zugriffe Startseite: 4 Zugriffe PDF: 48 Zugriffe PDF: 40 Zugriffe Startseite: 3 Zugriffe PDF: 36 Zugriffe Startseite: 1 Zugriffe PDF: 34 Zugriffe
Jul
11
Aug
11
Oct
11
Nov
11
Dec
11
Jan
12
Feb
12
Apr
12
May
12
Jun
12
Jul
12
Aug
12
Sep
12
Oct
12
Nov
12
Dec
12
Jan
13
Feb
13
Mar
13
Apr
13
May
13
Jun
13
Jul
13
Aug
13
Sep
13
Oct
13
Nov
13
Dec
13
Jan
14
Feb
14
Mar
14
Apr
14
May
14
Jun
14
Monat Jul
11
Aug
11
Oct
11
Nov
11
Dec
11
Jan
12
Feb
12
Apr
12
May
12
Jun
12
Jul
12
Aug
12
Sep
12
Oct
12
Nov
12
Dec
12
Jan
13
Feb
13
Mar
13
Apr
13
May
13
Jun
13
Jul
13
Aug
13
Sep
13
Oct
13
Nov
13
Dec
13
Jan
14
Feb
14
Mar
14
Apr
14
May
14
Jun
14
Startseite     3 1 5 5 5 6 3 1 5 4 5 1     1     1   3 2 1 1 1     1 3 4   3 1
PDF 1 1 1 3 1 19 5 10 8 8 6 1   6 2 1 5 12 11 9 11 9 21 31 35 28 26 2 4 30 48 40 36 34

Gesamtzahl der Zugriffe seit Jul 2011:

  • Startseite – 66 (2.06 pro Monat)
  • PDF – 465 (13.68 pro Monat)
 
 
Generiert am 23.07.2014, 13:58:55