Zur Kurzanzeige

2015-11-25Dissertation DOI: 10.18452/17372
Robust relationship extraction in the biomedical domain
dc.contributor.authorThomas, Philippe
dc.date.accessioned2017-06-18T14:31:59Z
dc.date.available2017-06-18T14:31:59Z
dc.date.created2015-12-07
dc.date.issued2015-11-25
dc.identifier.urihttp://edoc.hu-berlin.de/18452/18024
dc.description.abstractSeit Jahrhunderten wird menschliches Wissen in Form von natürlicher Sprache ausgetauscht und in Dokumenten schriftlich aufgezeichnet. In den letzten Jahren konnte man auf dem Gebiet der Lebenswissenschaften eine exponentielle Zunahme wissenschaftlicher Publikationen beobachten. Diese Dissertation untersucht die automatische Extraktion von Beziehungen zwischen Eigennamen. Innerhalb dieses Gebietes beschäftigt sich die Arbeit mit der Steigerung der Robustheit für die Relationsextraktion. Zunächst wird der Einsatz von Ensemble-Methoden anhand von Daten aus der "Drug-drug-interaction challenge 2013" evaluiert. Ensemble-Methoden erhöhen die Robustheit durch Aggregation unterschiedlicher Klassifikationssysteme zu einem Modell. Weiterhin wird in dieser Arbeit das Problem der Relationsextraktion auf Dokumenten mit unbekannten Texteigenschaften beschrieben. Es wird gezeigt, dass die Verwendung des halb-überwachten Lernverfahrens self training in solchen Fällen eine höhere Robustheit erzielt als die Nutzung eines Klassifikators, der lediglich auf einem manuell annotierten Korpus trainiert wurde. Zur Ermittlung der Robustheit wird das Verfahren des cross-learnings verwendet. Zuletzt wird die Verwendung von distant-supervision untersucht. Korpora, welche mit der distant-supervision-Methode erzeugt wurden, weisen ein inhärentes Rauschen auf und profitieren daher von robusten Relationsextraktionsverfahren. Es werden zwei verschiedene Methoden untersucht, die auf solchen Korpora trainiert werden. Beide Ansätze zeigen eine vergleichbare Leistung wie vollständig überwachte Klassifikatoren, welche mit dem cross-learning-Verfahren evaluiert wurden. Um die Nutzung von Ergebnissen der Informationsextraktion zu erleichtern, wurde die semantische Suchmaschine GeneView entwickelt. Anforderungen an die Rechenkapazität beim Erstellen von GeneView werden diskutiert und Anwendungen auf den von verschiedenen Text-Mining-Komponenten extrahierten Daten präsentiert.ger
dc.description.abstractFor several centuries, a great wealth of human knowledge has been communicated by natural language, often recorded in written documents. In the life sciences, an exponential increase of scientific articles has been observed, hindering the effective and fast reconciliation of previous finding into current research projects. This thesis studies the automatic extraction of relationships between named entities. Within this topic, it focuses on increasing robustness for relationship extraction. First, we evaluate the use of ensemble methods to improve performance using data provided by the drug-drug-interaction challenge 2013. Ensemble methods aggregate several classifiers into one model, increasing robustness by reducing the risk of choosing an inappropriate single classifier. Second, this work discusses the problem of applying relationship extraction to documents with unknown text characteristics. Robustness of a text mining component is assessed by cross-learning, where a model is evaluated on a corpus different from the training corpus. We apply self-training, a semi-supervised learning technique, in order to increase cross-learning performance and show that it is more robust in comparison to a classifier trained on manually annotated text only. Third, we investigate the use of distant supervision to overcome the need of manually annotated training instances. Corpora derived by distant supervision are inherently noisy, thus benefiting from robust relationship extraction methods. We compare two different methods and show that both approaches achieve similar performance as fully supervised classifiers, evaluated in the cross-learning scenario. To facilitate the usage of information extraction results, including those developed within this thesis, we develop the semantic search engine GeneView. We discuss computational requirements to build this resource and present some applications utilizing the data extracted by different text-mining components.eng
dc.language.isoeng
dc.publisherHumboldt-Universität zu Berlin, Mathematisch-Naturwissenschaftliche Fakultät
dc.rightsNamensnennung - Keine kommerzielle Nutzung - Keine Bearbeitung
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/de/
dc.subjectRelationsextraktionger
dc.subjectInformationsextraktionger
dc.subjectProtein-Protein Interaktionenger
dc.subjectMaschinelles Lernenger
dc.subjectVerarbeitung natürlicher Spracheger
dc.subjectText Miningger
dc.subjectInformation Extractioneng
dc.subjectNatural Language Processingeng
dc.subjectText Miningeng
dc.subjectRelation Extractioneng
dc.subjectProtein Protein Interactionseng
dc.subjectMachine Learningeng
dc.subject.ddc004 Informatik
dc.titleRobust relationship extraction in the biomedical domain
dc.typedoctoralThesis
dc.identifier.urnurn:nbn:de:kobv:11-100234005
dc.identifier.doihttp://dx.doi.org/10.18452/17372
dc.identifier.alephidBV043191299
dc.date.accepted2015-07-13
dc.contributor.refereeLeser, Ulf
dc.contributor.refereeCohen, Kevin Bretonnel
dc.contributor.refereeZweigenbaum, Pierre
dc.subject.dnb28 Informatik, Datenverarbeitung
dc.subject.rvkWC 7700
local.edoc.pages191
local.edoc.type-nameDissertation
bua.departmentMathematisch-Naturwissenschaftliche Fakultät

Zur Kurzanzeige