edoc-Server der Humboldt-Universität zu Berlin

Konferenzbeitrag

Autor(en): P. Bryan Heidorn; Qin Wei
Titel: Automatic Metadata Extraction from Museum Specimen Labels
Erscheinungsdatum: 08.08.2008
Erschienen in: International Conference on Dublin Core and Metadata Applications – Metadata for Semantic and Social Applications 22 - 26 September 2008, Berlin (DC-2008)
22.09.2008 - 26.09.2008
Humboldt-Universität zu Berlin

S. 57-68
Herausgeber: Jane Greenberg
Volltext: pdf (urn:nbn:de:kobv:11-10092676)
Schlagwörter (eng): automatic metadata extraction, machine learning, Hidden Markov Model, Naïve Bayes, Darwin Core
Einrichtung: Humboldt-Universität zu Berlin
Metadatenexport: Um den gesamten Metadatensatz im Endnote- oder Bibtex-Format zu speichern, klicken Sie bitte auf den entsprechenden Link. Endnote   Bibtex  
print on demand: Wenn Sie auf dieses Icon klicken, können Sie ein Druckexemplar dieser Publikation bestellen.
Diese Seite taggen: Diese Icons führen auf so genannte Social-Bookmark-Systeme, auf denen Sie Lesezeichen anlegen, persönliche Tags vergeben und Lesezeichen anderer Nutzer ansehen können.
  • connotea
  • del.icio.us
  • Furl
  • RawSugar

Abstract (eng):
This paper describes the information properties of museum specimen labels and machine learning tools to automatically extract Darwin Core (DwC) and other metadata from these labels processed through Optical Character Recognition (OCR). The DwC is a metadata profile describing the core set of access points for search and retrieval of natural history collections and observation databases. Using the HERBIS Learning System (HLS) we extract 74 independent elements from these labels. The automated text extraction tools are provided as a web service so that users can reference digital images of specimens and receive back an extended Darwin Core XML representation of the content of the label. This automated extraction task is made more difficult by the high variability of museum label formats, OCR errors and the open class nature of some elements. In this paper we introduce our overall system architecture, and variability robust solutions including, the application of Hidden Markov and Naïve Bayes machine learning models, data cleaning, use of field element identifiers, and specialist learning models. The techniques developed here could be adapted to any metadata extraction situation with noisy text and weakly ordered elements.
Zugriffsstatistik: Die Daten für die Zugriffsstatistik der einzelnen Dokumente wurden aus den durch AWStats aggregierten Webserver-Logs erstellt. Sie beziehen sich auf den monatlichen Zugriff auf den Volltext sowie auf die Startseite. Die Zugriffsstatistik wird nicht standardisiert erfasst und kann maschinelle Zugriffe enthalten.
 
Bei Formatversionen eines Dokuments, die aus mehreren Dateien bestehen (insbesondere HTML), wird jeweils der monatlich höchste Zugriffswert auf eine der Dateien (Kapitel) des Dokuments angezeigt.
 
Um die detaillierten Zugriffszahlen zu sehen, fahren Sie bitte mit dem Mauszeiger über die einzelnen Balken des Diagramms.
Startseite: 1 ZugriffePDF: 1 ZugriffeStartseite: 2 ZugriffePDF: 4 ZugriffePDF: 1 ZugriffeStartseite: 1 ZugriffeStartseite: 2 ZugriffePDF: 5 ZugriffeStartseite: 4 ZugriffePDF: 5 ZugriffePDF: 1 ZugriffeStartseite: 2 ZugriffePDF: 2 ZugriffeStartseite: 1 ZugriffePDF: 1 ZugriffeStartseite: 2 ZugriffePDF: 7 ZugriffeStartseite: 5 ZugriffePDF: 2 ZugriffeStartseite: 2 ZugriffePDF: 5 ZugriffePDF: 3 ZugriffeStartseite: 4 ZugriffePDF: 4 ZugriffePDF: 2 ZugriffePDF: 21 ZugriffePDF: 8 ZugriffeStartseite: 1 ZugriffePDF: 15 ZugriffePDF: 13 ZugriffePDF: 18 Zugriffe
Jun
11
Jul
11
Aug
11
Oct
11
Dec
11
Jan
12
Feb
12
Apr
12
May
12
Jun
12
Jul
12
Aug
12
Sep
12
Oct
12
Nov
12
Dec
12
Jan
13
Feb
13
Mar
13
Apr
13
May
13

MonatJun
11
Jul
11
Aug
11
Oct
11
Dec
11
Jan
12
Feb
12
May
12
Jun
12
Jul
12
Aug
12
Sep
12
Oct
12
Nov
12
Dec
12
Jan
13
Feb
13
Mar
13
Apr
13
May
13
Startseite12 124 21252 4   1  
PDF141 55121725342218151318

Gesamtzahl der Zugriffe seit Jun 2011:

  • Startseite – 27 (1.29 pro Monat)
  • PDF – 118 (5.62 pro Monat)
  •  
 
Generiert am 19.06.2013, 22:50:14