edoc-Server der Humboldt-Universität zu Berlin

Dissertation

Autor(en): Heiko Müller
Titel: Describing differences between overlapping databases
Gutachter: Johann-Christoph Freytag; Ulf Leser; Bertram Ludäscher
Erscheinungsdatum: 12.08.2009
Volltext: pdf (urn:nbn:de:kobv:11-100100285)
Fachgebiet(e): Informatik
Schlagwörter (ger): Datenbereinigung, Genomdaten, Widerspruchsmuster, Distanz von Datenbanken
Schlagwörter (eng): Data cleansing, Genome data, Contradiction pattern, Update distance
Einrichtung: Humboldt-Universität zu Berlin, Mathematisch-Naturwissenschaftliche Fakultät II
Zitationshinweis: Müller, Heiko: Describing differences between overlapping databases; Dissertation, Humboldt-Universität zu Berlin, Mathematisch-Naturwissenschaftliche Fakultät II , publiziert am 12.08.2009, urn:nbn:de:kobv:11-100100285
Metadatenexport: Um den gesamten Metadatensatz im Endnote- oder Bibtex-Format zu speichern, klicken Sie bitte auf den entsprechenden Link. Endnote   Bibtex  
print on demand: Wenn Sie auf dieses Icon klicken, können Sie ein Druckexemplar dieser Publikation bestellen.
Diese Seite taggen: Diese Icons führen auf so genannte Social-Bookmark-Systeme, auf denen Sie Lesezeichen anlegen, persönliche Tags vergeben und Lesezeichen anderer Nutzer ansehen können.
  • connotea
  • del.icio.us
  • Furl
  • RawSugar

Abstract (ger):
Die Analyse existierender Daten ist wichtiger Bestandteil moderner Forschung. Das Thema Datenqualität gewinnt deshalb im Bereich der wissenschaftlichen Forschung zunehmend an Bedeutung. Existierende Verfahren zur Datenbereinigung sind für wissenschaftliche Daten jedoch nur bedingt einsetzbar. Dies liegt zum einen an der höheren Komplexität der Daten und zum anderen an unserer oftmals noch unvollständigen Kenntnis der Regularien in den entsprechenden Domänen. Die vorliegende Arbeit ist leistet folgende Beiträge im Hinblick auf Datenqualität und Datenbereinigung wissenschaftlicher Daten: Im ersten Teil der Arbeit geben wir einen Überblick über existierende Verfahren zur Datenbereinigung und diskutieren deren Stärken und Schwächen. Aus unseren Ergebnissen folgern wir, daß überlappende Datenquellen großes Potential zur Verbesserung der Korrektheit und Genauigkeit wissenschaftlicher Daten haben. Überlappende Datenquellen decken Bereiche potentiell minderer Datenqualität in Form von (Daten-)konflikten auf und bieten gleichzeitig eine Möglichkeit zur Qualitätsverbesserung durch Datenintegration. Eine wichtige Voraussetzung für die Integration überlappender Datenquellen ist das Auflösen existierender Konflikte. In vielen Fällen treten die Konflikte nicht zufällig auf sondern folgen einer systematischen Ursache. Im zweiten Teil dieser Arbeit entwickeln wir Algorithmen, die das Auffinden systematischer Konflikte unterstützen. Wir klassifizieren Konflikte dabei anhand charakteristischer Muster in den überlappenden Daten. Diese Widerspruchsmuster unterstützen einen Experten bei der Festlegung von Konfliktlösungsstrategien zur der Datenintegration. Im dritten Teil dieser Arbeit verwenden wir ein prozeßbezogenes Model zur Beschreibung systematischer Konflikte, um Abhängigkeiten zwischen Konfliktgruppen aufzeigen zu können. Wir verwenden hierzu Sequenzen mengenorientierter Modifikationsoperationen die eine Datenquelle in die andere überführen. Wir präsentieren Algorithmen zur Bestimmung minimaler Modifikationssequenzen für ein gegebenes Paar von Datenquellen. Die Komplexität des Problems bedingt die Verwendung von Heuristiken. In unseren Experimenten zeigen wir die vielversprechende Qualität der Ergebnisse unserer Heuristiken.
Abstract (eng):
Data quality has become an issue in scientific research. Cleaning scientific data, however, is hampered by incomplete or fuzzy knowledge of regularities in the examined domain. A common approach to enhance the overall quality of scientific data is to merge overlapping sources by eliminating conflicts that exist between them. The main objective of this thesis is to provide methods to aid the developer of an integrated system over contradicting databases in the task of resolving value conflicts. We contribute by developing a set of algorithms to identify regularities in overlapping databases that occur in conjunction with conflicts between them. These regularities highlight systematic differences between the databases. Evaluated by an expert user the discovered regularities provide insights on possible conflict reasons and help assess the quality of inconsistent values. Instead of inspecting individual conflicts, the expert user is now enabled to specify a conflict resolution strategy based on known groups of conflicts that share the same conflict reason. The thesis has three main parts. Part I gives a comprehensive review of existing data cleansing methods. We show why existing data cleansing techniques fall short for the domain of genome data and argue that merging overlapping data has outstanding ability to increase data accuracy; a quality criteria ignored by most of the existing cleansing approaches. Part II introduces the concept of contradiction patterns. We present a model for systematic conflicts and describe algorithms for efficiently detecting patterns that summarize characteristic data properties for conflict occurrence. These patterns help in providing answers to questions like “Which are the conflict-causing attributes, or values?” and “What kind of dependencies exists between the occurrences of contradictions in different attributes?”. In Part III, we define a model for systematic conflicts based on sequences of set-oriented update operations. Even though we only consider a restricted form of updates, our algorithms for computing minimal update sequences for pairs of databases require exponential space and time. We show that the problem is NP-hard for a restricted set of operations. However, we also present heuristics that lead to convincing results in all examples we considered.
Zugriffsstatistik: Die Daten für die Zugriffsstatistik der einzelnen Dokumente wurden aus den durch AWStats aggregierten Webserver-Logs erstellt. Sie beziehen sich auf den monatlichen Zugriff auf den Volltext sowie auf die Startseite. Die Zugriffsstatistik wird nicht standardisiert erfasst und kann maschinelle Zugriffe enthalten.
 
Bei Formatversionen eines Dokuments, die aus mehreren Dateien bestehen (insbesondere HTML), wird jeweils der monatlich höchste Zugriffswert auf eine der Dateien (Kapitel) des Dokuments angezeigt.
 
Um die detaillierten Zugriffszahlen zu sehen, fahren Sie bitte mit dem Mauszeiger über die einzelnen Balken des Diagramms.
Startseite: 6 Zugriffe PDF: 3 Zugriffe PDF: 5 Zugriffe Startseite: 5 Zugriffe PDF: 5 Zugriffe Startseite: 1 Zugriffe PDF: 10 Zugriffe Startseite: 2 Zugriffe PDF: 8 Zugriffe PDF: 7 Zugriffe PDF: 9 Zugriffe PDF: 16 Zugriffe PDF: 10 Zugriffe Startseite: 5 Zugriffe PDF: 9 Zugriffe Startseite: 6 Zugriffe PDF: 3 Zugriffe Startseite: 2 Zugriffe PDF: 18 Zugriffe PDF: 12 Zugriffe PDF: 8 Zugriffe PDF: 16 Zugriffe PDF: 13 Zugriffe Startseite: 3 Zugriffe PDF: 18 Zugriffe Startseite: 24 Zugriffe PDF: 22 Zugriffe Startseite: 21 Zugriffe PDF: 28 Zugriffe Startseite: 18 Zugriffe PDF: 28 Zugriffe Startseite: 14 Zugriffe PDF: 28 Zugriffe Startseite: 17 Zugriffe PDF: 29 Zugriffe Startseite: 15 Zugriffe PDF: 21 Zugriffe Startseite: 12 Zugriffe PDF: 25 Zugriffe Startseite: 9 Zugriffe PDF: 13 Zugriffe Startseite: 24 Zugriffe PDF: 20 Zugriffe Startseite: 14 Zugriffe PDF: 19 Zugriffe Startseite: 18 Zugriffe PDF: 29 Zugriffe Startseite: 23 Zugriffe PDF: 36 Zugriffe Startseite: 11 Zugriffe PDF: 64 Zugriffe Startseite: 16 Zugriffe PDF: 56 Zugriffe Startseite: 15 Zugriffe PDF: 49 Zugriffe Startseite: 6 Zugriffe PDF: 106 Zugriffe Startseite: 8 Zugriffe PDF: 41 Zugriffe Startseite: 12 Zugriffe PDF: 48 Zugriffe Startseite: 5 Zugriffe PDF: 62 Zugriffe Startseite: 3 Zugriffe PDF: 36 Zugriffe
Jul
11
Aug
11
Sep
11
Oct
11
Nov
11
Dec
11
Feb
12
Apr
12
May
12
Jun
12
Jul
12
Aug
12
Sep
12
Oct
12
Nov
12
Dec
12
Jan
13
Feb
13
Mar
13
Apr
13
May
13
Jun
13
Jul
13
Aug
13
Sep
13
Oct
13
Nov
13
Dec
13
Jan
14
Feb
14
Mar
14
Apr
14
May
14
Jun
14
Jul
14
Aug
14
Sep
14
Monat Jul
11
Aug
11
Sep
11
Oct
11
Nov
11
Dec
11
Feb
12
Apr
12
May
12
Jun
12
Jul
12
Aug
12
Sep
12
Oct
12
Nov
12
Dec
12
Jan
13
Feb
13
Mar
13
Apr
13
May
13
Jun
13
Jul
13
Aug
13
Sep
13
Oct
13
Nov
13
Dec
13
Jan
14
Feb
14
Mar
14
Apr
14
May
14
Jun
14
Jul
14
Aug
14
Sep
14
Startseite 6   5 1 2         5 6 2         3 24 21 18 14 17 15 12 9 24 14 18 23 11 16 15 6 8 12 5 3
PDF 3 5 5 10 8 7 9 16 10 9 3 18 12 8 16 13 18 22 28 28 28 29 21 25 13 20 19 29 36 64 56 49 106 41 48 62 36

Gesamtzahl der Zugriffe seit Jul 2011:

  • Startseite – 315 (8.51 pro Monat)
  • PDF – 930 (25.14 pro Monat)
 
 
Generiert am 26.10.2014, 00:58:03