<XML-Portal>

Ein Projekt an der Humboldt-Universität zu Berlin
gefördert durch die Deutsche Forschungsgemeinschaft

  Logo der Humboldt-Universität
 
Start Projektinhalt Ergebnisse Kontakt Kooperationen Infos & Links
 
         
 

 
Arbeitsprogramm
 

Arbeitspaket 1: Untersuchung und Darstellung von XML-Standards als Dokumentenformate für Multimediainhalte
Arbeitspaket 2: Entwurf eines Dokumentenmodells zur Beschreibung komplexer digitaler Dokumente mit Multimediainhalten
Arbeitspaket 3: Erarbeitung von Vorgaben, Empfehlungen und Richtlinien für Autoren
Arbeitspaket 4: Exemplarischer Aufbau eines Bibliotheksportals mit fachspezifischen Sichten
Arbeitspaket 5: Schaffung eines Zugangs und einer Rechercheschnittstelle zur Suche in unterschiedlich strukturierten XML-Objekten
Arbeitspaket 6: Schaffung einer neuen Qualität der Sicherung von digitalen Dokumenten

 

Arbeitspaket 1: 

Untersuchung und Darstellung von XML-Standards als Dokumentenformate für Multimediainhalte

Die Kodierung von Dokumenten in XML kann die Grundlage für eine Langzeitarchivierung elektronischer Dokumente bilden, da es sich bei diesem Format um einen offenen Standard handelt. Das heißt, es ist an keinen bestimmten Hersteller gebunden, und die Standardisierung durch das W3C (World Wide Web Consortium) sorgt für eine weite Verbreitung von XML als Austauschformat für Dokumente. Damit kann auch für die ferne Zukunft von der Lesbarkeit in XML kodierter Dokumente ausgegangen werden. Für auf proprietären Formaten basierende Dokumente kann diese Annahme nicht getroffen werden.

Die Entwicklungen im XML-Bereich in den letzten Jahren haben XML-basierte Beschreibungssprachen wie SVG (Scalable Vector Graphics), SMIL (Synchronized Multimedia Integration Language), MusicML (Music Markup Language), VoiceML (Voice Markup Language), MathML (Mathematical Markup Language), CML (Chemical Markup Language), CIMI-Profile, X3D (eXtensible 3D) als potentielle neue Normen entstehen lassen. Im ersten Arbeitspaket des Projektes werden diese inhaltsbasierten Dokumenttypdefinitionen, die der Beschreibung von mathematischen Formeln, chemischen Molekülen, Datentabellen, biologischen Gensequenzen, Tönen, Noten, 2- oder 3-dimensionalen Grafiken u.a. dienen, werden untersucht und anhand von Beispielen evaluiert. Es werden konkurrierende XML-DTDs verglichen. Dabei wird auf nationaler und internationaler Ebene mit den entsprechenden Nutzergruppen, dem W3C sowie mit Projekten zusammengearbeitet, die sich mit XML-DTDs beschäftigen. Dazu gehören das durch die DFG geförderte Projekt an der Universität München zur Entwicklung von Dokumenttypdefinitionen für den Server Frühe Neuzeit und die CIMI-Initiative zur Sammlung und Archivierung des kulturellen Erbes. Da die bisher an der Humboldt-Universität entwickelte DiML-DTD (Dissertation Markup Language) einem modularen Modell, ähnlich dem der Text Encoding Initiative (TEI) folgt, fließen die jeweiligen Standards für Medienobjekte in das übergeordnete Konzept ein.

Als Ergebnis dieses Arbeitspakets werden Vorschläge für wissenschaftliche Archive vorliegen, welche Vorgehensweisen und welche DTDs für eine Nutzung zu empfehlen sind. Die Empfehlungen beinhalten Beispiele sowie Angaben zu Erstellungs- und Veröffentlichungssystemen (z.B. Browsern).

Aktuelle Ergebnisse ... /  Projektübersicht ...

nach oben
 

Arbeitspaket 2: 

Entwurf eines Dokumentenmodells zur Beschreibung komplexer digitaler Dokumente mit Multimediainhalten

Für die Erschließung eines Dokuments reicht es nicht aus, lediglich die Metadaten in Form eines Dublin-Core-Metadatensatzes zu erfassen. Neue Technologien, wie sie sich mit der Herausbildung von XML zur Beschreibung des Aufbaus komplexer Dokumente aus verschiedenen Teilobjekten etabliert haben, werden auf ihre Anwendbarkeit hin überprüft. Insbesondere werden die folgenden drei Technologien untersucht:

  • RDF (Resource Description Framework)
  • Topic Maps mit XML
  • XML-Schemata.
  • Bei der Erstellung des Datenmodells werden bereits existierende Ansätze, wie das Konzept der DiML-DTD und das Containermodell der DDB berücksichtigt. Konzepte wie RDF oder Topic Maps bieten die Möglichkeit, Inhaltsmodelle über komplexe Dokumente zu definieren, die die Beziehung der einzelnen Teilobjekte bzw. Teildokumente berücksichtigen. So kann ein komplexer Metadatensatz für eine Recherche und die Archivierung erstellt werden, der beispielsweise genau angibt, an welcher Stelle des Dokumentes (z.B. unter welcher Überschrift) sich ein Textabschnitt befindet und mit welcher Bildunterschrift ein Bild referenziert wird. Befindet sich dieses Bild, das zum Beispiel das digitale Abbild einer historisch wertvollen Ikone sein kann, wiederum in einer der Objektdatenbanken, sind weitere Informationen in Form von Metadaten verfügbar, die in die Beschreibung des gesamten Dokumentes eingehen.

    Nach Fertigstellung des Datenmodells wird ein Verfahren entwickelt, das mit Hilfe einer automatischen Analyse eines Dokuments dessen Metadatensatz erstellen kann. Voraussetzung dafür ist das Vorliegen des Dokuments in XML unter Nutzung einer Standard-DTD.

    Als Ergebnis wird ein XML-Modell vorliegen, welches komplexe Dokumente mit Multimediainhalten beschreiben kann. Für dieses Modell wird eine Anwenderdokumentation sowie ein Beispieldokument zur Verfügung gestellt. Es wird eine Software vorhanden sein, mit der automatisch "auf Knopfdruck" eine RDF- oder eine ähnliche Repräsentation für komplexe Dokumente mit ihren dazugehörigen Teildokumenten erstellt werden kann.

    Aktuelle Ergebnisse ... /  Projektübersicht ...

    nach oben
     

    Arbeitspaket 3: 

    Erarbeitung von Vorgaben, Empfehlungen und Richtlinien für Autoren

    Der bereits an der Humboldt-Universität etablierte Workflow zur Erstellung und Konvertierung von XML aus proprietären Formaten anderer Textverarbeitungssysteme kommt bisher für textorientierte Dokumente zur Anwendung und hat sich dafür bewährt. Er wird im Zuge des Projekts <XML-Portal> auf die Bearbeitung von Dokumenten mit multimedialen Inhalten erweitert. Es wird ein Konzept für eine Beratungs- und Schulungskomponente erarbeitet, die den Autoren einen intuitiven Einstieg in die Arbeit mit der entwickelten Dokumenttypdefinition erlaubt. Die meisten Typen multimedialer XML-Objekte können aus herkömmlichen Multimediaobjekten erzeugt werden. Beispielsweise lassen sich Vektorgrafiken bereits aus zahlreichen Grafikprogrammen heraus als SVG und damit in einer Standard-DTD abspeichern. Ähnliches gilt für 3D-Visualisierungen und die X3D-DTD sowie mathematische Formeln und MathML.  Diese Anleitungen werden in das bestehende Schulungskonzept integriert. Da die Einbettung multimedialer Elemente in wissenschaftliche Dokumente rapide ansteigt, müssen Bibliothek, Rechen- und Medienzentrum in diesem Bereich Fachkompetenzen aufbauen, die sie in die Lage versetzen, Beratungen für Autoren durchzuführen und die Dokumente fachgerecht zu bearbeiten. Die Erprobung des Schulungskonzeptes wird auch an anderen Standorten, z. B. an der Staats- und Universitätsbibliothek Göttingen durchgeführt.

    Zum Ende des Projektes liegt ein bereits erprobtes Schulungskonzept sowie Schulungsunterlagen in Online- (CD-ROM etc.) und Offline-Versionen (Papierausgabe) für Autoren vor.

    Aktuelle Ergebnisse ... /  Projektübersicht ...

    nach oben
     

    Arbeitspaket 4: 

    Exemplarischer Aufbau eines Bibliotheksportals mit fachspezifischen Sichten

    Portale zeichnen sich vor allem durch eine auf bestimmte vordefinierte Nutzergruppen abgestimmte Zugangsstrategie aus. Geht man von Seiten einer Bibliothek davon aus, dass die Suche nach Informationen und Dokumenten fachspezifisch erfolgt, so müssen sowohl herkömmliche Objekte wie Bücher, Zeitschriften, Dias etc. als auch digitale Objekte wie die Digitalisate der anatomischen Sammlung Rudolph Virchows oder elektronische Hochschulpublikationen einer Fachrichtung über ein Portal angeboten werden. Da es nicht Ziel dieses Projekts ist, für alle Fächer gleichzeitig ein eigenes Portal anzubieten, wird am Beispiel der Sichtweise eines Kunst- oder Kulturwissenschaftlers eine fachspezifische Recherchemaske definiert. Die möglichen Suchkategorien und die entsprechenden Online-Hilfen werden dabei so weit verallgemeinerbar sein, dass das dahinter stehende Softwarepaket, wie ein Modul mit neuen Eigenschaften bzw. Datenbank-Kategorien bestückt, auf andere Fächer übertragbar ist. Dazu werden verschiedene eigene Datenbanken (der Bibliothekskatalog, der Dokumenten- und Publikationsserver als Angebot für Volltexte, die Datenbanken für die verschiedenen Sammlungen des Helmholtz-Zentrums für Kulturtechnik) und deren Suchmöglichkeiten erfasst und durch eine maschinell gesteuerte Vorauswahl auf kunstgeschichtlich relevante Kategorien (z.B. durch Einsatz der Schlagwortnormdatei (SWD) oder des MIDAS-Thesaurus) eingeschränkt. Die Recherchemaske selbst wird unter Nutzung von XML-Technologien und XML als Datenaustauschformat so flexibel sein, dass über bestimmte Steuerparameter die eigentliche Sicht (Maske) generisch erzeugt wird. Beim Betreten der WWW-Seite durch den Nutzer werden die für ihn relevanten fachspezifischen Kategorien herausgefiltert und seine Sicht erzeugt.

    Als Ergebnis wird eine Softwarelösung für eine Beispielsicht des Portals vorliegen, die aufgrund ihrer offenen Programmierung für andere Bibliotheken nutzbar ist.

    Aktuelle Ergebnisse ... /  Projektübersicht ...

    nach oben
     

    Arbeitspaket 5: 

    Schaffung eines Zugangs und einer Rechercheschnittstelle zur Suche in unterschiedlich strukturierten XML-Objekten

    Betrachtet man das Portal, so ist es nicht nur wichtig, die Menge der möglicherweise relevanten Informationen durch Thesauri etc. einzuschränken, sondern auch für die in verschiedenen angesprochenen Datenbanken unterschiedlich benannten Metadatenkategorien Konkordanzen zu finden und zu definieren. Dazu werden gängige Metadatenstandards betrachtet und "übereinander gelegt". So entspricht beispielsweise im Bereich der Kunstgeschichte zuweilen das im Standard von Dublin Core  mit Autor bezeichnete Feld dem Attribut Künstler in einem anderen fachspezifischen Metadatensatz. Sucht man unter Nutzung einer Recherchemaske etwa nach Rudolph Virchow als Autor, ist es natürlich wünschenswert, dass in der Trefferliste sowohl die von ihm geschriebenen Bücher als auch die von ihm angefertigten Präparate und Notizbücher (in digitalisierter Form) enthalten sind, nicht jedoch Sekundärliteratur über Rudolph Virchow oder Fotografien, auf denen er zu sehen ist. Diese sollten dagegen in einer inhaltlichen Kategorie enthalten sein, die wiederum in Dublin Core oder in RAK anders benannt ist als beispielsweise bei der Nutzung des CIMI-Profils, bei dem man u. U. mehrere Datenbankfelder abfragen muss.

    Zum Ende des Projekts wird eine Softwarelösung vorliegen, die in der Lage ist, unterschiedliche Metadatenformate und Dokumentstrukturen für eine Recherche mit einer Standard-Retrievalsoftware aufzubereiten.

    Aktuelle Ergebnisse ... /  Projektübersicht ...

    nach oben
     

    Arbeitspaket 6: 

    Schaffung einer neuen Qualität der Sicherung von digitalen Dokumenten

    Innerhalb des an der Humboldt-Universität bestehenden Workflows zur Verarbeitung digitaler Dokumente existiert ein Teilprozess, innerhalb dessen digitale Hochschulschriften mit einem Zeitstempel und einer digitalen Signatur versehen werden. Damit wird die Integrität und Authentizität der auf dem Dokumentenserver veröffentlichten und archivierten Dokumente sichergestellt und für den Benutzer sichtbar gemacht. Innerhalb des Projekts <XML-Portal> wird diese Lösung verallgemeinert und auf Multimediaobjekte anwendbar gemacht. Dabei wird eine Komponente "elektronische Wasserzeichen" für Multimediaobjekte geschaffen. Hierfür ist nicht voranging an Neuentwicklungen gedacht, vielmehr sollen bestehende Lösungen geprüft und Erfahrungen aus bestehenden Projekten und Anwendungen genutzt werden. Ziel ist es, diese Erfahrungen und Softwarewerkzeuge in einen Publikationsworkflow für die Universität zu integrieren. Es wird zum Beispiel auf die Erfahrungen mit Signaturen für Bilder und Videodaten, die am Institut für Integrierte Publikations- und Informationssysteme der GMD in Darmstadt (GMD-IPSI) gemacht wurden, zurückgegriffen.

    Als Ergebnis wird ein Beispielworkflow für die elektronische Sicherung der Integrität und Authentizität von Multimediadaten vorliegen, der zur Nachnutzung geeignet ist.

    Aktuelle Ergebnisse ... /  Projektübersicht ...
     

     

    Dokumenten-Server
    ProPrint
    OAI
    OAForum
     
    Humboldt-Universität
    Computer- und Medienservice
    Universitätsbibliothek
     
    ETD 2003
    6th International
    Conference on
    Electronic Theses
    and Dissertations
     

    Letzte Änderung: 07.07.2003, um 

     

     
     

    Start   |   Projektinhalt   |   Ergebnisse   |   Kontakt   |   Kooperationen   |   Infos & Links  

     
    Humboldt-Universität zu Berlin