edoc-Server der Humboldt-Universität zu Berlin

Dissertation

Autor(en): Jörg Hakenberg
Titel: Mining relations from the biomedical literature
Gutachter: Ulf Leser; Hans-Dieter Burkhard; Udo Hahn
Erscheinungsdatum: 05.02.2010
Volltext: pdf (urn:nbn:de:kobv:11-100106202)
Fachgebiet(e): Informatik
Schlagwörter (ger): Mustererkennung, Textmining, Bioinformatik, Relationsextraktion
Schlagwörter (eng): pattern recognition, Text mining, bioinformatics, relation extraction
Einrichtung: Humboldt-Universität zu Berlin, Mathematisch-Naturwissenschaftliche Fakultät II
Lizenz: Namensnennung - Keine Bearbeitung (CC BY ND)
Zitationshinweis: Hakenberg, Jörg: Mining relations from the biomedical literature; Dissertation, Humboldt-Universität zu Berlin, Mathematisch-Naturwissenschaftliche Fakultät II , publiziert am 05.02.2010, urn:nbn:de:kobv:11-100106202
Metadatenexport: Um den gesamten Metadatensatz im Endnote- oder Bibtex-Format zu speichern, klicken Sie bitte auf den entsprechenden Link. Endnote   Bibtex  
print on demand: Wenn Sie auf dieses Icon klicken, können Sie ein Druckexemplar dieser Publikation bestellen.
Diese Seite taggen: Diese Icons führen auf so genannte Social-Bookmark-Systeme, auf denen Sie Lesezeichen anlegen, persönliche Tags vergeben und Lesezeichen anderer Nutzer ansehen können.
  • connotea
  • del.icio.us
  • Furl
  • RawSugar

Abstract (ger):
Textmining beschäftigt sich mit der automatisierten Annotierung von Texten und der Extraktion einzelner Informationen aus Texten, die dann für die Weiterverarbeitung zur Verfügung stehen. Texte können dabei kurze Zusammenfassungen oder komplette Artikel sein, zum Beispiel Webseiten und wissenschaftliche Artikel, umfassen aber auch textuelle Einträge in sonst strukturierten Datenbanken. Diese Dissertationsschrift bespricht zwei wesentliche Themen des biomedizinischen Textmining: die Extraktion von Zusammenhängen zwischen biologischen Entitäten ---das Hauptaugenmerk liegt dabei auf der Erkennung von Protein-Protein-Interaktionen---, und einen notwendigen Vorverarbeitungsschritt, die Erkennung von Proteinnamen. Diese Schrift beschreibt Ziele, Herausforderungen, sowie typische Herangehensweisen für alle wesentlichen Komponenten des biomedizinischen Textmining. Wir stellen eigene Methoden zur Erkennung von Proteinnamen sowie der Extraktion von Protein-Protein-Interaktionen vor. Zwei eigene Verfahren zur Erkennung von Proteinnamen werden besprochen, eines basierend auf einem Klassifikationsproblem, das andere basierend auf Suche in Wörterbüchern. Für die Extraktion von Interaktionen entwickeln wir eine Methode zur automatischen Annotierung großer Mengen von Text im Bezug auf Relationen; diese Annotationen werden dann zur Mustererkennung verwendet, um anschließend die gefundenen Muster auf neuen Text anwenden zu können. Um Muster zu erkennen, berechnen wir Ähnlichkeiten zwischen zuvor gefundenen Sätzen, die denselben Typ von Relation/Interaktion beschreiben. Diese Ähnlichkeiten speichern wir als sogenannte `consensus patterns''. Wir entwickeln eine Alignmentstrategie, die mehrschichtige Annotationen pro Position im Muster erlaubt. In Versuchen auf bekannten Benchmarks zeigen wir empirisch, dass unser vollautomatisches Verfahren Resultate erzielt, die vergleichbar sind mit existierenden Methoden, welche umfangreiche Eingriffe von Experten voraussetzen.
Abstract (eng):
Text mining deals with the automated annotation of texts and the extraction of facts from textual data for subsequent analysis. Such texts range from short articles and abstracts to large documents, for instance web pages and scientific articles, but also include textual descriptions in otherwise structured databases. This thesis focuses on two key problems in biomedical text mining: relationship extraction from biomedical abstracts ---in particular, protein--protein interactions---, and a pre-requisite step, named entity recognition ---again focusing on proteins. This thesis presents goals, challenges, and typical approaches for each of the main building blocks in biomedical text mining. We present out own approaches for named entity recognition of proteins and relationship extraction of protein-protein interactions. For the first, we describe two methods, one set up as a classification task, the other based on dictionary-matching. For relationship extraction, we develop a methodology to automatically annotate large amounts of unlabeled data for relations, and make use of such annotations in a pattern matching strategy. This strategy first extracts similarities between sentences that describe relations, storing them as consensus patterns. We develop a sentence alignment approach that introduces multi-layer alignment, making use of multiple annotations per word. For the task of extracting protein-protein interactions, empirical results show that our methodology performs comparable to existing approaches that require a large amount of human intervention, either for annotation of data or creation of models.
Zugriffsstatistik: Die Daten für die Zugriffsstatistik der einzelnen Dokumente wurden aus den durch AWStats aggregierten Webserver-Logs erstellt. Sie beziehen sich auf den monatlichen Zugriff auf den Volltext sowie auf die Startseite. Die Zugriffsstatistik wird nicht standardisiert erfasst und kann maschinelle Zugriffe enthalten.
 
Bei Formatversionen eines Dokuments, die aus mehreren Dateien bestehen (insbesondere HTML), wird jeweils der monatlich höchste Zugriffswert auf eine der Dateien (Kapitel) des Dokuments angezeigt.
 
Um die detaillierten Zugriffszahlen zu sehen, fahren Sie bitte mit dem Mauszeiger über die einzelnen Balken des Diagramms.
Startseite: 4 Zugriffe PDF: 11 Zugriffe Startseite: 4 Zugriffe PDF: 23 Zugriffe Startseite: 6 Zugriffe PDF: 13 Zugriffe Startseite: 8 Zugriffe PDF: 15 Zugriffe Startseite: 3 Zugriffe PDF: 10 Zugriffe PDF: 17 Zugriffe Startseite: 9 Zugriffe PDF: 12 Zugriffe PDF: 33 Zugriffe PDF: 45 Zugriffe Startseite: 4 Zugriffe PDF: 45 Zugriffe Startseite: 2 Zugriffe PDF: 70 Zugriffe Startseite: 1 Zugriffe PDF: 37 Zugriffe PDF: 43 Zugriffe PDF: 55 Zugriffe PDF: 51 Zugriffe PDF: 50 Zugriffe Startseite: 1 Zugriffe PDF: 36 Zugriffe PDF: 40 Zugriffe Startseite: 2 Zugriffe PDF: 47 Zugriffe Startseite: 2 Zugriffe PDF: 59 Zugriffe Startseite: 2 Zugriffe PDF: 77 Zugriffe Startseite: 1 Zugriffe PDF: 96 Zugriffe Startseite: 4 Zugriffe PDF: 77 Zugriffe Startseite: 5 Zugriffe PDF: 97 Zugriffe Startseite: 1 Zugriffe PDF: 57 Zugriffe Startseite: 6 Zugriffe PDF: 65 Zugriffe Startseite: 5 Zugriffe PDF: 96 Zugriffe Startseite: 2 Zugriffe PDF: 131 Zugriffe Startseite: 1 Zugriffe PDF: 131 Zugriffe Startseite: 4 Zugriffe PDF: 170 Zugriffe PDF: 152 Zugriffe Startseite: 3 Zugriffe PDF: 183 Zugriffe Startseite: 2 Zugriffe PDF: 204 Zugriffe PDF: 154 Zugriffe Startseite: 4 Zugriffe PDF: 107 Zugriffe Startseite: 3 Zugriffe PDF: 68 Zugriffe Startseite: 1 Zugriffe
Jul
11
Aug
11
Sep
11
Oct
11
Nov
11
Dec
11
Feb
12
Apr
12
May
12
Jun
12
Jul
12
Aug
12
Sep
12
Oct
12
Nov
12
Dec
12
Jan
13
Feb
13
Mar
13
Apr
13
May
13
Jun
13
Jul
13
Aug
13
Sep
13
Oct
13
Nov
13
Dec
13
Jan
14
Feb
14
Mar
14
Apr
14
May
14
Jun
14
Jul
14
Aug
14
Sep
14
Monat Jul
11
Aug
11
Sep
11
Oct
11
Nov
11
Dec
11
Feb
12
Apr
12
May
12
Jun
12
Jul
12
Aug
12
Sep
12
Oct
12
Nov
12
Dec
12
Jan
13
Feb
13
Mar
13
Apr
13
May
13
Jun
13
Jul
13
Aug
13
Sep
13
Oct
13
Nov
13
Dec
13
Jan
14
Feb
14
Mar
14
Apr
14
May
14
Jun
14
Jul
14
Aug
14
Sep
14
Startseite 4 4 6 8 3   9     4 2 1         1   2 2 2 1 4 5 1 6 5 2 1 4   3 2   4 3 1
PDF 11 23 13 15 10 17 12 33 45 45 70 37 43 55 51 50 36 40 47 59 77 96 77 97 57 65 96 131 131 170 152 183 204 154 107 68  

Gesamtzahl der Zugriffe seit Jul 2011:

  • Startseite – 90 (2.43 pro Monat)
  • PDF – 2577 (69.65 pro Monat)
 
 
Generiert am 01.10.2014, 07:48:26