edoc-Server der Humboldt-Universität zu Berlin

Dissertation

Autor(en): Ulf Brefeld
Titel: Semi-supervised structured prediction models
Gutachter: Tobias Scheffer; Hans-Dieter Burkhard; Thorsten Joachims
Erscheinungsdatum: 14.03.2008
Volltext: pdf (urn:nbn:de:kobv:11-10088157)
Fachgebiet(e): Informatik
Schlagwörter (ger): Lernen mit strukturierten Daten, halbüberwachtes Lernen, Kernverfahren, natürliche Sprachverarbeitung
Schlagwörter (eng): Learning with structured data, semi-supervised learning, kernel machines, natural language processing
Einrichtung: Humboldt-Universität zu Berlin, Mathematisch-Naturwissenschaftliche Fakultät II
Zitationshinweis: Brefeld, Ulf: Semi-supervised structured prediction models; Dissertation, Humboldt-Universität zu Berlin, Mathematisch-Naturwissenschaftliche Fakultät II , publiziert am 14.03.2008, urn:nbn:de:kobv:11-10088157
Metadatenexport: Um den gesamten Metadatensatz im Endnote- oder Bibtex-Format zu speichern, klicken Sie bitte auf den entsprechenden Link. Endnote   Bibtex  
print on demand: Wenn Sie auf dieses Icon klicken, können Sie ein Druckexemplar dieser Publikation bestellen.
Diese Seite taggen: Diese Icons führen auf so genannte Social-Bookmark-Systeme, auf denen Sie Lesezeichen anlegen, persönliche Tags vergeben und Lesezeichen anderer Nutzer ansehen können.
  • connotea
  • del.icio.us
  • Furl
  • RawSugar

Abstract (ger):
Das Lernen aus strukturierten Eingabe- und Ausgabebeispielen ist die Grundlage für die automatisierte Verarbeitung natürlich auftretender Problemstellungen und eine Herausforderung für das Maschinelle Lernen. Die Einordnung von Objekten in eine Klassentaxonomie, die Eigennamenerkennung und das Parsen natürlicher Sprache sind mögliche Anwendungen. Klassische Verfahren scheitern an der komplexen Natur der Daten, da sie die multiplen Abhängigkeiten und Strukturen nicht erfassen können. Zudem ist die Erhebung von klassifizierten Beispielen in strukturierten Anwendungsgebieten aufwändig und ressourcenintensiv, während unklassifizierte Beispiele günstig und frei verfügbar sind. Diese Arbeit thematisiert halbüberwachte, diskriminative Vorhersagemodelle für strukturierte Daten. Ausgehend von klassischen halbüberwachten Verfahren werden die zugrundeliegenden analytischen Techniken und Algorithmen auf das Lernen mit strukturierten Variablen übertragen. Die untersuchten Verfahren basieren auf unterschiedlichen Prinzipien und Annahmen, wie zum Beispiel der Konsensmaximierung mehrerer Hypothesen im Lernen aus mehreren Sichten, oder der räumlichen Struktur der Daten im transduktiven Lernen. Desweiteren wird in einer Fallstudie zur Email-Batcherkennung die räumliche Struktur der Daten ausgenutzt und eine Lösung präsentiert, die der sequenziellen Natur der Daten gerecht wird. Aus den theoretischen Überlegungen werden halbüberwachte, strukturierte Vorhersagemodelle und effiziente Optmierungsstrategien abgeleitet. Die empirische Evaluierung umfasst Klassifikationsprobleme, Eigennamenerkennung und das Parsen natürlicher Sprache. Es zeigt sich, dass die halbüberwachten Methoden in vielen Anwendungen zu signifikant kleineren Fehlerraten führen als vollständig überwachte Baselineverfahren.
Abstract (eng):
Learning mappings between arbitrary structured input and output variables is a fundamental problem in machine learning. It covers many natural learning tasks and challenges the standard model of learning a mapping from independently drawn instances to a small set of labels. Potential applications include classification with a class taxonomy, named entity recognition, and natural language parsing. In these structured domains, labeled training instances are generally expensive to obtain while unlabeled inputs are readily available and inexpensive. This thesis deals with semi-supervised learning of discriminative models for structured output variables. The analytical techniques and algorithms of classical semi-supervised learning are lifted to the structured setting. Several approaches based on different assumptions of the data are presented. Co-learning, for instance, maximizes the agreement among multiple hypotheses while transductive approaches rely on an implicit cluster assumption. Furthermore, in the framework of this dissertation, a case study on email batch detection in message streams is presented. The involved tasks exhibit an inherent cluster structure and the presented solution exploits the streaming nature of the data. The different approaches are developed into semi-supervised structured prediction models and efficient optimization strategies thereof are presented. The novel algorithms generalize state-of-the-art approaches in structural learning such as structural support vector machines. Empirical results show that the semi-supervised algorithms lead to significantly lower error rates than their fully supervised counterparts in many application areas, including multi-class classification, named entity recognition, and natural language parsing.
Zugriffsstatistik: Die Daten für die Zugriffsstatistik der einzelnen Dokumente wurden aus den durch AWStats aggregierten Webserver-Logs erstellt. Sie beziehen sich auf den monatlichen Zugriff auf den Volltext sowie auf die Startseite. Die Zugriffsstatistik wird nicht standardisiert erfasst und kann maschinelle Zugriffe enthalten.
 
Bei Formatversionen eines Dokuments, die aus mehreren Dateien bestehen (insbesondere HTML), wird jeweils der monatlich höchste Zugriffswert auf eine der Dateien (Kapitel) des Dokuments angezeigt.
 
Um die detaillierten Zugriffszahlen zu sehen, fahren Sie bitte mit dem Mauszeiger über die einzelnen Balken des Diagramms.
Startseite: 6 Zugriffe PDF: 17 Zugriffe Startseite: 4 Zugriffe PDF: 11 Zugriffe Startseite: 5 Zugriffe PDF: 9 Zugriffe Startseite: 2 Zugriffe PDF: 10 Zugriffe Startseite: 3 Zugriffe PDF: 10 Zugriffe PDF: 10 Zugriffe Startseite: 2 Zugriffe PDF: 14 Zugriffe PDF: 17 Zugriffe PDF: 21 Zugriffe Startseite: 3 Zugriffe PDF: 20 Zugriffe Startseite: 8 Zugriffe PDF: 26 Zugriffe Startseite: 9 Zugriffe PDF: 13 Zugriffe PDF: 20 Zugriffe PDF: 20 Zugriffe PDF: 20 Zugriffe PDF: 16 Zugriffe Startseite: 6 Zugriffe PDF: 36 Zugriffe Startseite: 1 Zugriffe PDF: 23 Zugriffe Startseite: 1 Zugriffe PDF: 31 Zugriffe Startseite: 2 Zugriffe PDF: 33 Zugriffe Startseite: 1 Zugriffe PDF: 43 Zugriffe Startseite: 4 Zugriffe PDF: 35 Zugriffe Startseite: 6 Zugriffe PDF: 28 Zugriffe Startseite: 3 Zugriffe PDF: 32 Zugriffe Startseite: 1 Zugriffe PDF: 19 Zugriffe Startseite: 6 Zugriffe PDF: 39 Zugriffe Startseite: 6 Zugriffe PDF: 22 Zugriffe Startseite: 3 Zugriffe PDF: 40 Zugriffe Startseite: 4 Zugriffe PDF: 57 Zugriffe Startseite: 2 Zugriffe PDF: 68 Zugriffe Startseite: 2 Zugriffe PDF: 58 Zugriffe Startseite: 3 Zugriffe PDF: 54 Zugriffe Startseite: 1 Zugriffe PDF: 59 Zugriffe PDF: 54 Zugriffe Startseite: 3 Zugriffe PDF: 33 Zugriffe PDF: 18 Zugriffe PDF: 35 Zugriffe
Jul
11
Aug
11
Sep
11
Oct
11
Nov
11
Dec
11
Feb
12
Apr
12
May
12
Jun
12
Jul
12
Aug
12
Sep
12
Oct
12
Nov
12
Dec
12
Jan
13
Feb
13
Mar
13
Apr
13
May
13
Jun
13
Jul
13
Aug
13
Sep
13
Oct
13
Nov
13
Dec
13
Jan
14
Feb
14
Mar
14
Apr
14
May
14
Jun
14
Jul
14
Aug
14
Sep
14
Monat Jul
11
Aug
11
Sep
11
Oct
11
Nov
11
Dec
11
Feb
12
Apr
12
May
12
Jun
12
Jul
12
Aug
12
Sep
12
Oct
12
Nov
12
Dec
12
Jan
13
Feb
13
Mar
13
Apr
13
May
13
Jun
13
Jul
13
Aug
13
Sep
13
Oct
13
Nov
13
Dec
13
Jan
14
Feb
14
Mar
14
Apr
14
May
14
Jun
14
Jul
14
Aug
14
Sep
14
Startseite 6 4 5 2 3   2     3 8 9         6 1 1 2 1 4 6 3 1 6 6 3 4 2 2 3 1   3    
PDF 17 11 9 10 10 10 14 17 21 20 26 13 20 20 20 16 36 23 31 33 43 35 28 32 19 39 22 40 57 68 58 54 59 54 33 18 35

Gesamtzahl der Zugriffe seit Jul 2011:

  • Startseite – 97 (2.62 pro Monat)
  • PDF – 1071 (28.95 pro Monat)
 
 
Generiert am 30.10.2014, 19:12:46