<XML-Portal>

Ein Projekt an der Humboldt-Universität zu Berlin
gefördert durch die Deutsche Forschungsgemeinschaft

  Logo der Humboldt-Universität
 
Start Projektinhalt Ergebnisse Kontakt Kooperationen Infos & Links
 
         
 

 
Arbeitsbericht Juni 2002
 

Auf dieser Seite wird eine gekürzte Fassung des ersten Berichts wiedergegeben, der der Deutschen Forschungsgemeinschaft im Juni 2002 vorgelegt wurde. Er orientiert sich an den im Antragstext formulierten Arbeitspaketen.
 

Arbeitspaket 1: Untersuchung und Darstellung von XML-Standards als Dokumentenformate für Multimediainhalte
Arbeitspaket 2: Entwurf eines Dokumentenmodells zur Beschreibung komplexer digitaler Dokumente mit Multimediainhalten
Arbeitspaket 3: Erarbeitung von Vorgaben, Empfehlungen und Richtlinien für Autoren
Arbeitspaket 4: Exemplarischer Aufbau eines Bibliotheksportals mit fachspezifischen Sichten
Arbeitspaket 5: Schaffung eines Zugangs und einer Rechercheschnittstelle zur Suche in unterschiedlich strukturierten XML-Objekten
Arbeitspaket 6: Schaffung einer neuen Qualität der Sicherung von digitalen Dokumenten

 

Arbeitspaket 1: 

Untersuchung und Darstellung von XML-Standards als Dokumentenformate für Multimediainhalte

Es wurde begonnen, einen Überblick über bestehende XML-Sprachen zur Darstellung und Ergänzung von Ton, Bild, Video, Animation zu erstellen. Dabei wurden insbesondere die Standards: SVG (Scalable Vector Graphics für Vektorgrafiken), X3D (eXtensible 3D) für 3-dimensionale Animationen, MusicML (Music Markup Language) für die Darstellung von Noten, SMIL (Synchronized Multimedia Integration Language) für zeitsynchronisierte Präsentationen sowie Math-ML (Mathematical Markup Language) für die Darstellung mathematischer Formeln untersucht und Beispiele erstellt.

Als Ergebnis der bisherigen Untersuchungen kam das Projekt zu der Erkenntnis, dass sich die Nutzung des SVG-Standards für neu entstehende Vektorgrafiken anbietet, da die gängigen Grafikprogramme wie Corel Draw oder Adobe Photoshop dieses Format bereits exportieren können und auch ein kostenfreies Browser-Plugin der Firma Adobe existiert, welches die browserseitige Darstellung derartiger Grafiken ermöglicht.

Nach Rücksprache mit den Kollegen der Kunstgeschichte und der Sammlungsprojekte des Helmholtz-Zentrums für Kulturtechnik (http://www2.hu-berlin.de/kulturtechnik/) und des BMBF- Projektes Prometheus (http://www.prometheus-bildarchiv.de/) besteht dort vor allem ein Interesse daran, digitalisierte bzw. mit der Digitalkamera aufgezeichnete Objekte dauerhaft zu erfassen. Besonders wichtig ist den Kollegen die Abbildung von Beziehungen der Objekte zu anderen Objekten, wie dies z. B. mit dem Imago-Thesaurus möglich ist. Nach eingehenden Tests stellte sich heraus, dass sich der SVG-Standard für diese Art von Objekten nicht eignet. Im weiteren Projektverlauf überprüfen wir, ob andere auf XML basierende Standards an dieser Stelle anwendbar sind.

Für SVG, Math-ML und SMIL wurde begonnen, Beispieldokumente zu erstellen und zu testen. Dazu gehörte auch die Installation des serverseitigen Aufsatzes auf den Apache-Webserver, Cocoon 1 und 2 (http://xml.apache.org/). Diese ermöglichen zum Teil eine serverseitige Generierung einer layoutorientierten Darstellung der XML-basierten Grafikformate wie SVG.

Für Math-ML wurden verschiedene Erstellungswerkzeuge, wie das vom W3C herausgegeben Amaya (Browser und Editor), sowie Exporte aus dem MathType, Mathematica untersucht. Die Untersuchungen bezüglich der Qualität und Nutzbarkeit sind noch nicht abgeschlossen.

Für die Darstellung eines multimedialen Objektes als semantisches Netz war es vorgesehen, eine auf RDF (Ressource Description Framework) beruhende Spezifikation für diesen speziellen Anwendungsbereich (Mediendokumente) zu erstellen. Es hat bisher eine Einarbeitung in RDF stattgefunden, ein Datenmodell wurde jedoch noch nicht begonnen.

Ziel ist es, in diesem Arbeitspaket weitere Standards der XML-Kodierung von Medienelementen zu testen und je ein Beispiel einschließlich einer Dokumentation zu erstellen.

Arbeitsprogramm ... /  Projektübersicht ...

nach oben
 

Arbeitspaket 2: 

Entwurf eines Dokumentenmodells zur Beschreibung komplexer digitaler Dokumente mit Multimediainhalten

Bisher wurde die existierende SGML-Version der DiML-DTD (Dissertation Markup Language) auf eine XML-Version umgearbeitet . Dazu wurde die DTD weiter modularisiert und in verschiedenen Entwicklungsstufen validiert und getestet. Die aktuelle Version kann unter http://edoc.hu-berlin.de/diml/download-dtd.php  heruntergeladen werden.

 

Abbildung 1: Erste Version der WWW-Seite zur modularisierten xDiML.dtd

Gleichzeitig wurde für die DTD ein DTD-Dokumentationsstandard (die DocBook- DTD) genutzt, um eine variable Erzeugung der WWW-Dokumentation der DTD zu erhalten. Somit kann auch während der Weiterentwicklung der jeweils aktuelle Stand unter http://www.edoc.hu-berlin.de/diml abgerufen werden. Darin wurden die einzelnen Elemente und Module zunächst in englischer Sprache erläutert. Eine deutsche Version ist ebenfalls vorgesehen, sobald die englische Version fertig gestellt wurde. Da wir bei der Gestaltung der DTD international mit Partnern aus dem Bereich der NDLTD (Networked Digital Library of Theses and Dissertations) zusammenarbeiten, war es wichtiger, zuerst eine englische Dokumentation für die Kommunikation mit den Partnern zu erstellen. Diese Partner sind vor allem die Virginia Polytechnic Institute and State University (Prof. Edward Fox, Department of Computer Science), Université de Montreal (Mrs. Gyulaine Beaudry, Electronic Publishing Unit, University Libraries), Université de Lyon 2 (Mrs. Viviane Beauletreau, University Libraries), Technische Universität Helsinki (Mrs. Tuija Sonkkila, Information Technology Unit), University of Oslo (Mrs. Astrid Jenssen, Centre for Information Technology Services)

Die Basis-DTD, wie im Projektantrag beschrieben, ist bereits fertig gestellt und lässt offene Schnittstellen für den Einbau weiterer sich noch herausbildender Standard-DTDs zu, so dass mit dem Fortschreiten der Arbeiten im AP 1 auch hier im Projektverlauf bei zunehmendem Erkenntnisstand Erweiterungen vorgenommen werden können.

 

Abbildung 2: Modularer Aufbau der neuen xDiML.dtd

Als Ergebnis des gesamten Arbeitspaketes wird eine Software vorhanden sein, mit der der Benutzer auf der WWW-Seite eine individualisierte DTD erstellen kann, indem er die für ihn relevanten Module auswählt und die DTD dann automatisch "auf Knopfdruck" auf dem Server zusammengestellt wird.

Als weitere Aufgabe in diesem Arbeitspaket steht unter anderem noch die Untersuchung von bereits existierenden Konzepten wie RDF, Topic Maps, DTDs, XML-Schemata auf ihre Verwendbarkeit für ein allgemeines Dokumentenmodell an. Wir haben zunächst mit einer DTD begonnen, damit auch die aus früheren Projekten noch zur Verfügung stehenden Dokumente in die neue DTD relativ problemlos und automatisiert migriert werden können. In Zukunft kann es jedoch sein, dass bei mehr datenbankorientierten Dokumenten ein XML- Schema aufgrund seiner erweiterten Möglichkeiten, Wertebereiche vorzudefinieren, zum Einsatz kommen sollte.

Sobald die DTD eine Stufe erreicht hat, die anwendbar ist, wird eine Erstellungsmöglichkeit für Dokumente mit dieser DTD erarbeitet. Dabei werden wir uns auf die Nutzung existierender XML-Editoren wie emacs, Staroffice, XMetal etc. stützen.

Arbeitsprogramm ... / Projektübersicht ...

nach oben
 

Arbeitspaket 3: 

Erarbeitung von Vorgaben, Empfehlungen und Richtlinien für Autoren

Ziel des Arbeitspaketes war es, zum Projektende ein bereits erprobtes Schulungskonzept sowie Online und Offline (Papier und CD-ROM) Schulungsunterlagen für Autoren vorzulegen. Dazu ist es notwendig, die in  Arbeitspaket 1 als Standards identifizierten XML-DTDs für die Autoren aufzubereiten und die Erfahrungen bei der Nutzung entsprechender Erstellungssysteme für Schulungen aufzubereiten. Die Aufgabe kann demnach auch erst nach Abschluss der Arbeiten an den Arbeitspaketen 1 und 2 in Angriff genommen werden.

Arbeitsprogramm ... / Projektübersicht ...

nach oben
 

Arbeitspaket 4: 

Exemplarischer Aufbau eines Bibliotheksportals mit fachspezifischen Sichten

Als Ergebnis soll eine Softwarelösung für eine Beispielsicht des Portals vorliegen, die aufgrund ihrer offenen Programmierung für andere Bibliotheken nutzbar ist. Daher wurde konzeptuell eine Lösung erarbeitet, die verschiedene voneinander unabhängige Server mit Medienobjekten über standardisierte Schnittstellen miteinander virtuell zu einer Datenbank verbindet. Auf diese virtuelle Sammlung sind die fachspezifischen Sichten anwendbar.

Die Entwicklung des technischen Frameworks der Open Archives Initiative bildet dazu den erforderlichen Rahmen. Hier werden auf der einen Seite die digitalen Sammlungen erfasst, das sind so genannte Data Provider. Auf der anderen Seite verbinden so genannte Service Provider (Suchmaschinen) verschiedene Data Provider und bieten zum Beispiel als Dienstleistung eine Recherche in diesem virtuellen Server und damit über einem verteilten Datenbestand an.

So wurde die seit 1999 für den Dokumentenserver entwickelte OAI-Schnittstelle erweitert. Dazu nahm die Humboldt-Universität im April/Mai 2002 am Alpha-Test der Version 2.0 der Entwicklung des OAI-PMH teil, die im Juni 2002 offiziell veröffentlicht wurde.

Es wurde ein PHP-Script entwickelt, welches eine Sybase-Datenbank, die die Metadaten (auf Dublin Core basierend) der Dokumente des Dokumenten- und Publikationsservers enthält, abfragt und über eine OAI-Schnittstelle zur Verfügung stellt. Das Script ist für weitere Anwender einer datenbankbasierten Metadatenlösung einfach an die lokalen Bedürfnisse anpassbar und kann unter http://edoc.hu-berlin.de/oai2.0/oai-huberlin-2.0.tar heruntergeladen werden.

Gleichzeitig wurde am bestehenden Service Provider weiter gearbeitet, so dass dieser voraussichtlich Ende August auch mit der neuen Version2.0 des OAI Protokolls arbeiten kann. Auch der Service Provider wird für interessierte Nachnutzer als Paket zum Download  zur Verfügung gestellt. Er ist momentan als Suchinstrument über die OAI-Schnittstelle des Dokumentenservers der Humboldt-Universität im Einsatz (http://edoc.hu-berlin.de/e_suche/) und als etwas erweiterte Suchmaschine unter http://edoc.hu-berlin.de/e_suche/oai.php in der Entwicklung zu beobachten.

 

Abbildung 3: OAI-Suchinterface für den Dokumentenserver der Humboldt-Universität zu Berlin

Abbildung 4: Suchergebnisse der OAI Suche

Abbildung 5: Detailanzeige der OAI Dublin Core Metadaten für ein Suchergebnis

Im Rahmen der DINI-Arbeitsgruppe zu OAI wurden Empfehlungen zum Aufbau und zur Gliederung von Data Providern erarbeitet, über die die Generierung fachspezifischer Sichten möglich ist, siehe http://www.dini.de/dinioai/dinioai.php.

Diese Empfehlungen sind beim Aufbau des Medienservers der Humboldt-Universität, der derzeit in der Entwicklung ist, berücksichtigt worden. Damit wird der Aufbau fachspezifischer Recherchemasken (auf OAI- Basis) mit einer zielgruppenorientierten Nutzerführung möglich.

Da beabsichtigt ist, eine zusätzliche über die Metadatensuche hinausgehende Recherchemöglichkeit in den in XML vorliegenden digitalen Dokumenten anzubieten, wurden verschiedene XML- Datenbanken bzw. Dokumentenmanagementsysteme getestet. Dabei spielten folgende Kriterien eine Rolle:

  1. die Eignung von Datenbanken für die Speicherung der zielgruppenorientierten Sichten und deren Einstellungen
  2. die Handhabbarkeit der Datenbanksoftware für die Wartung des Portals durch einen Bibliotheks- bzw. Rechenzentrumsmitarbeiter

Es wurde untersucht, welche Software serverseitig eingesetzt werden kann, um das Portal darzustellen. Produkte wie der Verity Information Server, Fulcrum Search Server, BRS Search, Tamino (Software AG), Sörmann CMS wurden auf ihre Verwendbarkeit hin überprüft.

Durch die verschiedenen Tests stellte sich das Produkt Sörmann CMS als dasjenige heraus, welches die Anforderungen an ein SGML/XML-Dokumentenmanagement am besten erfüllt. Es unterstützt verschiedene DTDs, Versionierung, getrennte Publikationsreihen durch unterschiedliche Rechtevergabe und die Anbindung an bestehende Workflowsysteme und Datenbanken. Dies war besonders wichtig, da im Bereich "Elektronisches Publizieren" an der Humboldt-Universität bereits ein selbst programmiertes Workflowsystem im Einsatz ist. Die Metadaten der bisherigen Dokumente werden in einer relationalen Datenbank (Sybase) gehalten. Auch die Tatsache, dass bereits eine WWW-Schnittstelle existiert, die es ermöglicht, Dokumente on-the-fly über XSLT- Stylesheets anzuzeigen, ist ein Vorteil von Sörmann CMS. Die dort integrierte Suchmaschine Verity ist ein qualitativ sehr hochwertiges Produkt.

Im Anhang dieses Berichtes finden Sie eine Produktinformation der Firma Sörmann GmbH.

Da sich die Open Archives Initiative erst nach dem Stellen des Projektantrages zu einer international übergreifenden Initiative entwickelt hat, die ein Framework für den Austausch unterschiedlicher "Archive" über das HTTP- Protokoll, und damit das Internet, möglich macht, haben wir uns entschieden, eine OAI-Schnittstelle für das Sörmann CMS zu programmieren.

Arbeitsprogramm ... / Projektübersicht ...

nach oben
 

Arbeitspaket 5: 

Schaffung eines Zugangs und einer Rechercheschnittstelle zur Suche in unterschiedlich strukturierten XML-Objekten

Es sollte eine Softwarelösung bereitgestellt werden, die in der Lage ist, unterschiedliche Metadatenformate und Dokumentstrukturen für eine Recherche mit einer Standard-Retrievalsoftware aufzubereiten.

Im Rechenzentrum der Humboldt-Universität wird derzeit im Rahmen eines Multimedia-Lehr- und -lernzentrums ein Portal zum Management digitaler Medien aufgebaut. Dadurch standen finanzielle Mittel zur Verfügung, um eine Ausschreibung zum Erwerb eines kommerziellen Systems zum Medienmanagement durchzuführen. Dieses System soll als Dach für die verschiedenen Server, auf denen Medien gehalten werden (Cumulus- Server, Video-Streamingserver, Dokumentenserver etc.), dienen. Die Humboldt-Universität hat sich entschieden, das System Jadis.net der Firma Nionex (ein Bertelsmann-Tochterunternehmen) zu diesem Zweck zu nutzen. ähnliche Projekte werden an anderen Universitäten mit dem System MILESS (unter Zuhilfenahme des IBM Content Manager) durchgeführt.

Damit wird der Entwurf eines geeigneten Metadatenkonzeptes zur Integration dieser unterschiedlichen Medienserver umso wichtiger. Da es hierzu in anderen Projekten, zum Beispiel in Baden-Württemberg (BAM-Projekt) bereits weitere Erfahrungen gibt und ein in diesem Bundesland abgesprochener Metadatensatz DLMETA existiert, werden wir auf diese Entwicklungen zurückgreifen.

 

Abbildung 6: Die Grafik veranschaulicht das Konzept zum technischen Aufbau eines Medienservers an der Humboldt-Universität zu Berlin. Grundlegend ist die Tatsache, dass es sich bei multimedialen Lehrmaterialien um Hybriddokumente handelt, deren einzelne Teile auf verschiedenen Hardwareplattformen und Servern verwaltet und gespeichert werden.

Arbeitsprogramm ... / Projektübersicht ...

nach oben
 

Arbeitspaket 6: 

Schaffung einer neuen Qualität der Sicherung von digitalen Dokumenten

Als Ergebnis wird ein Beispielworkflow für die elektronische Sicherung der Integrität und Authentizität von Multimediadaten zur Nachnutzung bereitliegen. Dieser schließt einen dokumentierten Überblick über den Stand der Technik bezüglich digitaler Wasserzeichen und die Empfehlung einer Methode zur Sicherung von Bild, Ton und Video sowie zum Erstellen je eines Beispiels ein.

Arbeitsprogramm ... / Projektübersicht ...
 

 

Dokumenten-Server
ProPrint
OAI
OAForum
 
Humboldt-Universität
Computer- und Medienservice
Universitätsbibliothek
 
ETD 2003
6th International
Conference on
Electronic Theses
and Dissertations
 

Letzte Änderung: 04.10.2002, um 

 

 
 

Start   |   Projektinhalt   |   Ergebnisse   |   Kontakt   |   Kooperationen   |   Infos & Links  

 
Humboldt-Universität zu Berlin