Daniel Ohst (ohst@informatik.hu-berlin.de)
Institut für Informatik
Humboldt-Universität zu Berlin
betreut von Dr. Peter Schirmbacher
eingereicht am: 01.03.1998
2 Anforderungen an Dateiformate 6
2.1 Verfügbarkeit 7
2.2 Strukturierbarkeit 8
2.3 Konvertierbarkeit, Austauschbarkeit 9
2.4 Recherchierbarkeit 10
2.5 Präsentation 11
2.5.1 Sonderzeichen, Formeln, Multimedia, Hypertext 11
2.5.2 Zitierbarkeit 12
2.6 Standardisierung 12
2.7 Archivierbarkeit 13
3 Bewertung verschiedener Dateiformate 15
3.1 Microsoft Word 15
3.2 ASCII-Text 17
3.3 Postscript 19
3.4 Portable Document Format - PDF 21
3.5 Rich Text Format - RTF 23
3.6 TeX, LaTeX 25
3.7 Standard Generalized Markup Language - SGML 27
3.8 Hypertext Markup Language - HTML 30
3.9 Matrix zur Bewertung von Dateiformaten 33
4 Zusammenfassung 34
5 Thesen 37
6 Literaturverzeichnis 38
| ASCII | American Standard Code for Information Interchange |
| CSS | Cascading Style Sheets |
| DSSSL | Document Style Semantics and Specification Language |
| DTD | Document Type Definition |
| DVI | Device Independent Format |
| ISO | International Standards Organization |
| HTML | Hypertext Markup Language |
| MS | Microsoft |
| Portable Document Format1 | |
| RTF | Rich Text Format(1) |
| SGML | Standard Generalized Markup Language |
| XML | Extensible Markup Language |
| XSL | Extensible Style Language |
Als ein Ausweg erscheint es, den Begriff der Elektronischen Publikation nicht nur auf Unterstützung einer herkömmlichen Veröffentlichung anzuwenden, sondern maschinenlesbar vorliegende Texte zusätzlich zur Papierform dem Nutzer auch auf elektronischem Wege zur Verfügung zu stellen. Mit der explosionsartig zugenommenen Nutzung des Informationssystems WWW, das Anfang der 90er Jahre entwickelt wurde, steht ein Medium zur Verfügung, das Eigenschaften z.B. die Integration multimedialer Elemente unterstützt und Hypertextfähigkeit besitzt. Hinzu kommt die kostenfreie Verfügbarkeit von Client-Software. So ist es naheliegend, daß das WWW von Beginn an für die elektronische Publikation von Texten genutzt wurde. Mathematiker und Physiker haben hier die Vorreiterrolle übernommen, indem sie schon sehr früh Preprint-Server einrichteten.
Die elektronische Publikation vor allem wissenschaftlicher Dokumente hat gegenüber einer herkömmlichen Publikation in Papierform eine Reihe von Vorteilen aufzuweisen. Die meisten Dokumente werden schon heute mit Unterstützung von Computertechnik erzeugt und liegen damit bereits maschinenlesbar vor. So ist es nur konsequent, auch eine elektronisch verfügbare Veröffentlichung anzustreben, zumal diese auch in einer völlig neuen Qualität inhaltliche und gestalterische Möglichkeiten wie z.B. die Integration von Formeln, 3D-Modellen oder Videosequenzen bietet. Durch eine Veröffentlichung im Internet kann die Zeit von der Erstellung bis zur Publikation eines Dokuments wesentlich verkürzt und eine erhöhte Publizität erreicht werden. Die Recherchemöglichkeiten werden insbesondere durch die Zurverfügungstellung von Volltexten wesentlich erweitert. Die Kosten für die Beschaffung, Präsentation und Archivierung von Dokumenten können gesenkt werden, was insbesondere in Anbetracht der sinkenden Etats der Bibliotheken von Bedeutung ist. Die aufwendige und vor allem zeitintensive Beschaffung von relevanten Dokumenten durch Fernleihen kann vollständig entfallen.
Durch eine elektronische Publikation entsteht jedoch auch eine Reihe von Problemen. Ein im Internet im Volltext verfügbares Dokument läßt sich wesentlich einfacher kopieren als ein Papierexemplar. Auch Veränderungen am Inhalt sind wesentlich einfacher vorzunehmen. Deshalb sind Maßnahmen zur Sicherung des Urheberrechts zu treffen. Auch die Langzeitarchivierung digitaler Dokumente gestaltet sich wesentlich komplizierter als die von Papierexemplaren, die bei geeigneter Lagerung gut und gerne 500 Jahre überstehen. Die Wahl eines geeigneten Dateiformates ist für diese Frage aber auch für die Recherche und Präsentation von Bedeutung. Bei der Veröffentlichung von Büchern oder Artikeln in Fachzeitschriften gibt es Gutachter, die die eingereichten Texte auf Richtigkeit und Relevanz prüfen. Ebenso muß bei der wesentlich einfacheren Publikationsmöglichkeit eines digitalen Dokuments Sorge dafür getragen werden, daß keine inkorrekten Informationen veröffentlicht werden.
Diese Studienarbeit ist im Rahmen des Projekts „Elektronisches Publizieren von Dissertationen" entstanden, das gemeinsam von Rechenzentrum und Universitätsbibliothek durchgeführt wird. Anhand der Dissertationen der Humboldt-Universität sollen Lösungen für die Erfassung, Speicherung, Präsentation und Archivierung von digitalen Dokumenten erarbeitet werden. Schwerpunkte sind die Auswahl von geeigneten Dateiformaten und die Konvertierung von Dokumenten aus anderen Formaten, der Aufbau eines Dokumentenservers und Workflow in der Bibliothek. Weitere Teilthemen sind u.a. Sicherung der Authentizität digitaler Dokumente, Recherchemöglichkeiten in Volltexten, Langzeitarchivierung und Verwendung von Metadaten.
Ziel dieser Arbeit ist es, Kriterien für die
Auswahl von Dateiformaten(2) zur Erstellung,
Verbreitung und Archivierung von elektronischen Publikationen zu formulieren.
Die meisten heutzutage elektronisch erstellten Dokumente werden mit Textverarbeitungs-
oder Satzsystemen wie Word für Windows, WordPerfect, TeX, Quark-Xpress
und anderen mehr erstellt. Die wenigsten dieser Formate sind für eine
rechnerunabhängige Präsentation, umfangreiche Recherchemöglichkeiten
oder eine Langzeitarchivierung geeignet, z.B. sind viele Formate nicht
auf allen Rechnerplattformen verfügbar oder halten bibliothekarischen
Forderungen an eine Recherche nicht stand. Im zweiten Abschnitt werden
anhand der ermittelten Kriterien gängige Dateiformate auf ihre Eignung
für die entsprechenden Einsatzzwecke überprüft. Die abschließende
Zusammenfassung beschreibt einen Lösungsvorschlag für das obengenannte
Projekt.
Bibliothekarische Anforderungen:
· Langzeitarchivierung auf einem zertifizierten Dokumentenserver
· umfassende Recherchemöglichkeiten
· Sicherung der Authentizität, Integrität und Zitierbarkeit
· einfache Austauschbarkeit der Dokumente über das Internet
· Konvertierungsmöglichkeiten in ein zu archivierendes Zielformat
· effiziente Speicherung, Retrieval- und Präsentationsmöglichkeiten auf einem Dokumentenserver
· Vereinfachung der Veröffentlichung, Kostenverringerung
· Erhöhung der Publizität
· unproblematischer Zugriff auf die Volltexte
· einfache Nachprüfbarkeit von Authentizität und Integrität der Dokumente
· Zitierbarkeit (Seitenidentität von Papier- und digitalen Versionen)
Die einzelnen Kriterien werden im folgenden ohne
eine Sortierung nach ihrer Wertigkeit aufgeführt.
Der Aspekt der Verfügbarkeit ist aus Sicht der Autoren von großer Bedeutung, denn letztendlich müssen sie mit diesen Programmen die Dokumente erstellen. Jeder Autor stellt sicherlich unterschiedliche Anforderungen an den Funktionsumfang der Software, so daß sich die Anzahl der benutzten Text- oder Satzsysteme schlecht auf ein oder zwei gängige beschränken lassen wird. Andererseits erhebt sich aus rechentechnischer Sicht genau diese Forderung, da die gesamte Software installiert und gewartet werden muß. Autoren erwarten Unterstützung in der Bedienung der Systeme. Es ist einzusehen, daß eine kompetente Betreuung für eine Vielzahl unterschiedlicher Programme personell äußerst schwer zu realisieren ist. In dieser Frage ist deshalb ein vernünftiger Kompromiß zu finden, der auch wesentlich von den vorhandenen Konvertierungsmöglichkeiten abhängt.
Die Darstellungssoftware, z.B. ein Browser oder ein Plugin, für Dokumente dieses Formats sollte kostenfrei oder sehr kostengünstig für alle gängigen Rechnerplattformen zur Verfügung stehen. Dazu gehören sicherlich PC-Systeme unter Windows 3.x, 95 oder NT, aber auch Apple Macintosh und die verbreiteten UNIX-Varianten (z.B. Solaris, HP-UX, IRIX, AIX und Linux).
Selbstverständlich wäre es wünschenswert, daß auch für die Erstellung und Bearbeitung von Dokumenten kostengünstige Software zur Verfügung steht, leider ist dies jedoch nicht oft der Fall. So können z.B. professionelle Werkzeuge zur Bearbeitung des SGML-Formats durchaus 5-stellige Beträge kosten. Die Beschaffung einer Lizenz eines solchen Systems ist für eine Bibliothek oder ein Rechenzentrum vielleicht gerade noch möglich, kann jedoch einem Autor nicht zugemutet werden. Zur Erstellung und Bearbeitung sollte deshalb auf freie oder kostengünstige Software orientiert werden, die z.B. als OEM-Software beim Kauf eines Rechnersystems mit vertrieben wird.
Von einem strukturierten Dateiformat spricht man, wenn die einzelnen logischen Bestandteile als solche gekennzeichnet sind und zur Auswertung zur Verfügung stehen. So beinhalten Briefe meistens einen Absender, einen Adressaten, Anrede, Text und eine Grußformel. In einem strukturierten Brief würde man z.B. zusätzlich zum Adressaten diesen Text auch speziell als Bestandteil „Adressat" kennzeichnen und nicht, wie es vielfach geschieht, einfach fett formatieren o.ä. Ein Dateiformat sollte die Möglichkeit bieten, diese strukturellen Zusatzinformationen zu speichern. Bei einer logischen Strukturierung, die sich nur an den Bestandteilen des Dokuments orientiert, werden keinerlei Layoutinformationen integriert, wie es der Fall bei den weit verbreiteten Formatvorlagen ist, die einem Strukturelement immer auch ein Layout zuweisen. Dies ist vor allem von Bedeutung, wenn Dokumente für unterschiedliche Ausgabemedien aufbereitet werden müssen.
Weshalb spielt eine richtige Strukturierung nun so eine große Rolle, wo dieses z.B. doch recht wenig Einfluß auf das Aussehen eines Ausdrucks hat? Bei der exponentiell zunehmenden Menge von elektronisch verfügbaren Dokumenten wird es immer wichtiger, mittels computerunterstützter Recherchemethoden relevante Informationen zu finden. Als problematisch erweist sich hierbei oft der hohe recall und die geringe precision der Treffermenge, d.h. es werden sehr viele Dokumente gefunden, von denen jedoch nur wenige wirklich wichtig sind. Dies liegt vor allen Dingen darin begründet, daß ohne weitere Unterscheidung der gesamte Text nach den gesuchten Wörtern durchmustert wird. Dabei wäre es mitunter viel sinnvoller, nur in Überschriften, Ortsbezeichnungen oder Zitaten zu suchen. Falls ein Dokument strukturiert wurde, sind solche Anfragen möglich und haben damit eine wesentlich höhere precision. Wenn hingegen der Autor Überschriften einfach nur in einer größeren Schrift und fett formatiert hat, ist es bei einer Recherche unmöglich, nach diesen Informationen zu suchen.
Aus bibliothekarischer und Nutzersicht ist die Möglichkeit, in strukturierten Dokumenten zu suchen, äußerst wesentlich, um gute Rechercheergebnisse zu erzielen. Aus rechentechnischer Sicht ist eine eventuell nötige Konvertierung eines Dokumentes in einem strukturierten Dateiformat wesentlich einfacher zu bewerkstelligen, als in einem unstrukturierten, wenn letzteres überhaupt ohne großen Informationsverlust möglich ist. Allerdings kann eine detaillierte Strukturierung für den Autor einen Mehraufwand bedeuten, da dieser sich über den genauen Aufbau seines Textes Gedanken machen und alle Bestandteile gesondert kennzeichnen muß. Hier ist leistungsfähige Software gefragt, die diesen Prozeß umfassend unterstützt.
Konvertierbarkeit, Austauschbarkeit
Wie schon im Abschnitt Verfügbarkeit erwähnt, ist es schwer möglich und auch nicht wünschenswert oder praktikabel, die Autoren auf ein oder zwei Text- oder Satzsysteme mit einem bestimmten Dateiformat zu beschränken. Die stark differierenden Anforderungen, die persönlichen Vorlieben der Benutzer und nichtzuletzt auch die Interessen der Softwareindustrie sind die wesentlichen Gründe für die Vielzahl an existierenden Systemen. Allerdings sind z.B. für Recherchezwecke oder Archivierung nicht alle Dateiformate gleichermaßen geeignet. Es müssen deshalb Konvertierungsmöglichkeiten zur Verfügung gestellt werden, die möglichst informationsverlustfrei ein vom Autor in seinem präferierten System (und damit in einem bestimmten Dateiformat) erzeugtes Dokument in ein anderes, für bestimmte Zwecke geeigneteres, zu konvertieren. Dafür sind verständlicherweise nicht alle Dateiformate gleichermaßen geeignet. Es ist deshalb im konkreten Fall zu prüfen, in welchen Formaten Dokumente erstellt werden können und mit welchem Aufwand bzw. Informationsverlust sie zu konvertieren sind. Strikte Festlegungen auf eine gewisse Menge von zu verwendenden Formaten ist sicherlich unter Umständen nicht anwenderfreundlich, doch manchmal nicht zu vermeiden. Für eine problemlose Konvertierung ist es hilfreich, wenn das Ausgangsformat so stark wie möglich strukturiert ist, da diese dann weitgehend automatisch ablaufen kann, was bei einer größeren Anzahl von Dokumenten absolut unerläßlich ist. Eine manuelle Konvertierung oder größere Nacharbeiten nach einer automatischen Konvertierung sind nur unter hohem personellen Aufwand durchführbar.
Das Problem ist aus rechentechnischer Sicht von höchster Bedeutung, da hier Vorgaben zu Ausgangsformaten erarbeitet werden müssen und Konvertierungswerkzeuge zu erstellen sind. Der Autor eines Dokuments wird auch bei der Nutzung seines Text- oder Satzsystems einige Vorgaben beachten müssen, um eine automatisierte Konvertierung zu ermöglichen.
Es ist erforderlich, daß elektronische Dokumente ohne für den Anwender merklichen Aufwand im Internet verschickt werden können, z.B. per E-Mail. Nicht alle Mailserver können mit dem kompletten 8-Bit-ASCII Zeichensatz umgehen, so daß entweder das Dateiformat auf 7-Bit-ASCII zu beschränken ist oder eine weitere Konvertierung notwendig wird. Bekannte Verfahren dabei sind uuencode, binhex oder Base64. Inzwischen sind alle guten Mail-Clients in der Lage, automatisch unter Zuhilfenahme dieser Methoden Dateien vor dem eigentlichen Versenden zu konvertieren. Auch dem Empfänger eines Dokuments fällt mit einem modernen Mailprogramm das automatische Rückkonvertieren gar nicht mehr auf. Wer den MIME-Standard benutzt, kommt in den Genuß von automatischer Konvertierung. Damit ist es heutzutage nicht mehr unbedingt erforderlich, ein Dateiformat im 7-Bit-Code (z.B. RTF oder HTML) zu präferieren. Selbstverständlich spielt auch hier wieder der konkrete Anwendungsfall eine entscheidende Rolle.
Eine der wesentlichsten neuen Möglichkeiten, die elektronische Publikationen ermöglichen, ist die Recherchierbarkeit über eine große Menge von Dokumenten. Das Suchen im gesamten Text und nicht nur in Metadaten und einem kurzen Abstract ist eine enorme Erweiterung der bisherigen Praxis. Schon heute hat sich allerdings als problematisch erwiesen, daß einfache Volltextsuchen in unstrukturierten Texten eine viel zu hohe Anzahl von Dokumenten mit geringer Relevanz liefern. Wichtigste Aufgabe ist es deshalb, Voraussetzungen zu schaffen, die eine verbesserte precision bei einer Recherche erreichen.
Aus bibliothekarischer und Nutzersicht sind vor allen Dingen die umfangreichen Möglichkeiten und die hohe Qualität der Treffermenge einer Recherche von Bedeutung. Wesentliche Aufgabe aus rechentechnischer Sicht ist die Bereitstellung von Hard- und Software für Datenbanken und Recherchewerkzeuge, die in der Lage sind, die Forderungen zu realisieren. Hierbei sind z.B. kurze Antwortzeiten auch bei großen Mengen von zu durchsuchenden Dokumenten von Bedeutung.
Die folgende Aufzählung listet stichpunktartig inhaltliche Forderungen an eine Recherche auf:
· Suche im gesamten Text (Volltextrecherche)
· Suche nur in Metadaten (Titel, Schlagwörter usw.)
· Nutzung boolescher Ausdrücke (UND, ODER, NICHT) zur Verknüpfung mehrerer Suchbegriffe
· Trunkierung von Begriffen
· Toleranz von Schreibfehlern
· Nachbarschaftssuche
· Möglichkeit der Nutzung regulärer Ausdrücke
· strukturelle Suche in speziell ausgezeichneten Bestandteilen eines Dokuments (z.B. Überschriften, Autoren, Zitate, Orte, Tabellen usw.)
· Suche in mathematischen oder chemischen Formeln oder Noten
· Suche nach Bildteilen in Graphiken und Videos bzw. nach Audiosequenzen in Musikstücken (z.B. „Suche alle Bilder, die in der rechten oberen Ecke einen roten Kreis darstellen")
Sicherlich sind nicht alle dieser Forderungen einfach zu implementieren. Insbesondere die Suche nach nichttextuellen Bestandteilen ist kompliziert, und die Entwicklung entsprechender Werkzeuge ist noch im Anfangsstadium. Allerdings eröffnen sich mit diesen Möglichkeiten völlig neue Dimensionen der Recherche in Dokumente, die z.B. für Wissenschaftler der Kunstgeschichte oder Musikwissenschaft von großer Bedeutung sind.
Für das Erreichen der obengenannten Ziele ist die Verwendung eines Dateiformats mit starken Strukturierungsmöglichkeiten unerläßlich.
Neben der Option, nach Informationen in digitalen Dokumenten gezielt zu suchen, sollte dem Nutzer auch die Möglichkeit gegeben werden, durch thematisch sortierte Mengen von Dokumenten zu navigieren (Browsing). So könnten z.B. die Dissertationen einer Universität nach Fakultäten und Instituten, aber auch nach Wissenschaftszweigen aufbereitet sein. Damit eröffnet sich die Möglichkeit, durch eine fachliche Vorauswahl die Menge der zu durchsuchenden Dokumente einzuschränken bzw. einen Überblick zu vorhandenem Material eines bestimmten Themas zu erhalten.
Wesentlich für eine elektronische Publikation ist ihre adäquate Darstellung entsprechend des jeweiligen Verwendungszweckes. So müssen Rechercheergebnisse präsentiert werden, oder der Nutzer möchte das Dokumente am Bildschirm lesen oder ausdrucken. Die wichtigsten Forderungen sollen stichpunktartig aufgeführt werden:
· Bildschirmdarstellung des gesamten als auch von Teilen (z.B. Kapiteln) des Dokuments
· Ausdruckbarkeit des gesamten als auch von Teilen des Dokuments
· Identität zwischen Bildschirmdarstellung und Ausdruck
· Zitierbarkeit (Seitenidentität zwischen Papier- und verschiedenen digitalen Versionen)
· Integrierte und standardisierte Darstellung von Sonderzeichen, Strukturen, Multimediaelementen
· Nutzbarkeit von Hyperlinks
Sonderzeichen, Formeln, Multimedia, Hypertext
Die vier genannten Punkte stellen besondere Möglichkeiten bei der Erstellung elektronischer Publikationen dar, die bei Papierexemplaren schwer und zum Teil gar nicht zu realisieren sind.
Gerade im wissenschaftlichen Kontext spielt die Integration landessprachspezifischer oder fachspezifischer Sonderzeichen eine besondere Rolle. So können z.B. in der Theologie Dissertationen auch hebräische Zeichen enthalten. Das Dateiformat sollte in der Lage sein, diese Informationen zu speichern. Hierbei ist es sinnvoll, einen Standard zu verwenden, wie ihn beispielsweise Unicode darstellt. Problematisch ist jedoch vielfach nicht die Speicherung von Sonderzeichen im Format sondern die letztendliche Darstellung.
Die Erstellung und Speicherung von z.B. chemischen oder mathematischen Formeln sollte ebenfalls möglich sein. Die Darstellung innerhalb des Dateiformats sollte soweit strukturiert sein, daß eine Recherche auch in diesen Strukturen möglich ist.
Multimediaelemente wie Videos oder Audiosequenzen werden in eigenen Dateiformaten gespeichert, so daß die hier betrachteten Formate in der Lage sein sollten, diese Objekte zu referenzieren und zu integrieren.
Eine Erweiterung, die durch Papierexemplare nicht mehr zu realisieren ist, sind Hypertexte. Dateiformate sollten die Möglichkeit der Integration von Hyperllinks vorsehen.
Aus bibliothekarischer und Nutzersicht ist es erforderlich, die Zitierbarkeit einer elektronischen Publikation zu sichern. So kann es auch weiterhin Papierexemplare dieser digitalen Dokumente geben oder es existieren verschiedene digitale Versionen für unterschiedliche Anwendungszwecke, so daß hier konkret gesichert sein muß, daß die einzelnen Textseiten in beiden Publikationsformen übereinstimmen, um sie referenzieren zu können.
Digitale Dokumente werden in einer Datenbank auf einem Dokumentenserver gespeichert und werden dort z.B. über einen Uniform Resource Locator (URL) angesprochen. Es ist zu sichern, daß diese Links aus Zitierbarkeitsgründen über längere Zeit erhalten bleiben.
Bei Standards ist zwischen offenen Standards und Industriestandards zu unterscheiden. Erstere werden meist von einem internationalen Gremium unter Mitarbeit von Wissenschaftlern und Firmenvertretern definiert. Obwohl der Diskussionsprozeß mitunter recht lange dauern kann, weil unterschiedlichste Interessen unter einen Hut gebracht werden müssen, ist doch eine recht hohe Kontinuität in der Entwicklung gewahrt. Die Spezifikationen sind frei verfügbar. Industriestandards werden von Firmen für eigene Produkte entwickelt, sind jedoch aufgrund ihrer Relevanz weit verbreitet. Spezifikationen sind meist frei verfügbar, so daß man nicht unbedingt auf die vom Hersteller angebotene Software angewiesen ist, allerdings hat man wenig Einfluß auf die jeweilige Entwicklung. Weiterhin existiert noch eine große Menge an proprietären Dateiformaten. Diese sind meist dadurch gekennzeichnet, daß sie für spezielle Produkte, z.B eine Textverarbeitung, entworfen worden sind, die Spezifikation nicht offenliegt und sich recht schnell wesentliche Änderungen vollziehen können. Problematisch sind Ergänzungen und Änderungen an Dateiformaten, die Hersteller an Standards für ihre eigenen Produkte vornehmen, um die Möglichkeiten entsprechend ihren Anforderungen zu erweitern. Hierbei kann ein Wildwuchs entstehen, der schnell unüberschaubar wird. Hier hilft nur der konsequente „Rückzug" auf den ursprünglichen Standard.
Für Bibliotheken ist die Verwendung von anerkannten Standards von essentieller Bedeutung, da diese nicht nur Dokumente austauschen wollen, sondern vor allem ihrer Langzeitarchivierungspflicht gerecht werden müssen.
Die Verwendung von offenen Standards oder von Industriestandards ist zu präferieren. Hierbei sind am ehesten Veränderungen abzusehen, auf die dann relativ schnell reagiert werden kann, z.B. mit Konvertierungen. Weiterhin kann man in den meisten Fällen auf Produkte unterschiedlicher Softwareanbieter zurückgreifen. Die Erstellung von Dokumenten in proprietären Formaten sollte nur zugelassen werden, wenn das verwendete Text- oder Satzsystem eine Speicherung in einem besser geeigneten Format zuläßt.
Eine wesentliche Aufgabe von Bibliotheken ist die Langzeitarchivierung von Dokumenten. Dies ist für die Papierform bei geeigneten klimatischen Bedingungen problemlos über 500 Jahre möglich. Dieser Zeitraum ist aus heutiger Sicht für digitale Dokumente nicht zu sichern.
Günstige Voraussetzungen für eine längerfristige Archivierbarkeit sind eine hohe Strukturierung des Dokuments, die Verwendung offener Standards und gute Konvertierungsmöglichkeiten. Es ist zu sichern, daß Software und Hardware zur Verfügung steht, mit der das Dokument vollständig gelesen werden kann. Falls sich verwendete Dateiformate, Speichermedien oder Programme wesentlich ändern sollten, sind die Dokumente möglichst verlustfrei in ein neues Format zu konvertieren. Selbstverständlich muß auch hier der zukünftige Aufwand für solche Konvertierungen gering gehalten werden.
Speicherplatz auf Festplatten bzw. Bändern sind inzwischen zwar keine kostenkritischen Ressourcen mehr, trotzdem ist es sinnvoll, ein angemessenes Verhältnis von Dokumentinformation und Dokumentgröße zu fordern. Bei einem geschätzten Aufkommen von ca. 20.000 Dissertationen in der Bundesrepublik pro Jahr mit einer durchschnittlichen Seitenzahl von 200 ist schon bei der Speicherung reiner Texte (keine Bilder, Videos) trotz Komprimierung ein erheblicher Speicherplatz nötig.
Aus Sicherheitsgründen ist zumindest zum jetzigen Zeitpunkt die zusätzliche Archivierung eines korrespondierenden Papierexemplars der elektronischen Publikation zu empfehlen. Allerdings gehen hier viele Strukturinformationen verloren, Multimediainformationen wie z.B. Videos oder Hyperlinks lassen sich so gar nicht sichern.
Aufgrund der doch recht jungen Entwicklung auf dem
Gebiet der elektronischen Publikationen kann man zum derzeitigen Zeitpunkt
keine „Patentrezepte" für eine sichere Langzeitarchivierung angeben.
Nach dem Handelsgesetzbuch ist der Begriff Langzeitarchivierung elektronischen
Archivsystemen zugeordnet, die Dokumente mindestens 7 Jahre vorhalten müssen.
Obwohl dies für die bibliothekarischen Anforderungen sicherlich ein
kurzer Zeitraum ist, kann doch schon dieser nicht zweifelsfrei für
Dokumente in heute verfügbaren Dateiformaten garantiert werden. Dieser
Punkt wird zwangsläufig ein Schwerpunkt der Forschung sein müssen.
Bewertung verschiedener Dateiformate
Anhand der im vorangegangenen Abschnitt formulierten Kriterien sollen nun einige gängige Dateiformate bewertet werden. Der erste Abschnitt widmet sich zwar dem weitverbreiteten Format von Microsoft Word, soll jedoch als exemplarisch für eine Vielzahl von Standardformaten der unterschiedlichsten Textverarbeitungssysteme angesehen werden. Es wurde aufgrund seiner hohen Verbreitung ausgewählt.
Die meisten der heute gängigen Textverarbeitungssysteme,
ob für Windows, MAC-OS oder UNIX-Systeme, speichern die erzeugten
Dokumente in einem eigenen Format, das in seltensten Fällen unproblematisch
von anderen Systemen gelesen werden kann. So wurde z.B. bei fast jeder
neuen Version von MS Word ein neues Standardspeicherformat eingeführt,
wobei selbst diese neueren Versionen z.T. Probleme beim Einlesen von Dokumenten
in älteren Word-Formaten haben. Ein Grund dafür ist sicherlich
die Anforderung, daß das Speichern von Dokumenten schnell und an
die Funktionalität des Systems angepaßt zu erfolgen hat. Daraus
ergeben sich spezielle Anforderungen z.B. an interne Speicherstrukturen.
| Verfügbarkeit: | Microsoft Word und Word für Windows sind ausschließlich unter MS-Windows Betriebssystemen, meist auf PC-Basis, verfügbar (Emulationen, z.B. mit Hilfe von WABI, sind möglich). Die Software ist an sich nicht als preisgünstig zu betrachten, wird allerdings sehr häufig als OEM-Software im Bundle mit einem Rechnersystem ausgeliefert und ist damit sehr weit verbreitet. Es kann ohne Zweifel als die derzeit populärste Textverarbeitung angesehen werden. Sie zeichnet sich besonders dadurch aus, daß zumindest der Basis-Funktionsumfang auch für Laien intuitiv bedienbar ist. Software zum reinen Betrachten von MS-Word-Dokumenten ist nur wieder für Windows-Systeme verfügbar. Andere Systeme, insbesondere auf anderen Rechnerplattformen, sind maximal in der Lage, ältere Word-Dateiformate zu verstehen, und das auch nur, wenn das Dokument nicht sehr komplex ist. Dies gilt jedoch in vielen Fällen leider auch für Kompatibilität zwischen einzelnen Word-Versionen. Microsoft hat das Dateiformat mit fast jeder neuen Version geändert. Es kann deshalb nur von einer eingeschränkten Verfügbarkeit gesprochen werden. |
| Strukturierbarkeit: | Jedes moderne Textverarbeitungssystem bietet inzwischen die Möglichkeit der Strukturierung mittels sogenannter Formatvorlagen, so auch Word. Neben standardmäßig mitgelieferten Vorlagen können eigene erstellt oder vorhandene modifiziert werden. Zu beachten ist jedoch, daß im Unterschied zu einer reinen Strukturierung hier meist gleich das Layout implizit mit festgelegt wird, d.h. daß z.B. ein Strukturelement „Überschrift 2" gleichzeitig die Formatierung „Arial 14pt fett" erhält. |
| Konvertierbarkeit, Austauschbarkeit: | Wie schon unter dem Punkt Verfügbarkeit angedeutet, ist ein problemloser Austausch von Dokumenten im allgemeinen nur möglich, wenn beide Partner dieselbe Softwareversion und Hardwareplattform besitzen. Beim Austausch mit Fremdsystemen sind Konvertierungen in Austauschformate notwendig, die - zumindest bei komplizierteren Dokumenten - selten verlustlos ablaufen. Speziell als Austauschformat hat Microsoft selbst das RTF-Format entwickelt, das von den meisten Systemen gelesen werden kann. Allerdings gibt es inzwischen selbst hier Probleme, z.B. bei RTF-Versionen, die von Word 97 erzeugt werden. Beim Verschicken im Internet muß ein Dokument im Word-Format durch den Mailclient kodiert werden. Die Konvertierbarkeit von MS-Word-Dokumenten hängt damit stark von korrekter Verwendung und Implementation des RTF-Formates ab. |
| Recherchierbarkeit: | Obwohl inzwischen einige Index-Maschinen auch in der Lage sind, MS-Word zu verarbeiten, kann es doch kaum als sehr geeignetes Format für eine Indexierung angesehen werden. Zum einen ist das Format einem ständigen Wandel unterzogen, auf das nur schleppend reagiert werden kann, falls die komplette Spezifikation überhaupt offenliegt. Zum anderen ist das Format auf eine effiziente Speicherung hin optimiert. Es ist fraglich, inwiefern dieses Format alle Informationen so bereithält, daß die oben angeführten Forderungen an eine Recherche erfüllt werden können. Auch die Suche in Strukturen, wie z.B. Formeln, dürfte sich sehr schwierig gestalten. Hier ist es offensichtlich notwendig, durch Konvertierung ein Zwischenformat (RTF) zu erzeugen, was sich für diese Zwecke besser eignet. |
| Präsentation: | Das Betrachten von Word-Dokumenten erfolgt entweder im Bearbeitungswerkzeug selbst oder in einem Viewer, der von Microsoft aber nur für Windows-Plattformen verfügbar ist. Das Dokument läßt sich problemlos drucken. Die Bildschirm- und Druckdarstellung ist identisch. Zur Wahrung der Integrität auf anderen Systemen sind weitgehend gleiche Installationen (Druckertreiber, Fonts, Formatvorlagen) notwendig. |
| Sonderzeichen, Formeln, Multimedia, Hypertext: | Die Integration von Sonderzeichen ist möglich. Allerdings ist man hier von den auf dem jeweiligen System installierten Fonts abhängig. So wird z.B. bei der Konvertierung eines Sonderzeichens in das RTF-Format die Nummer des Symbols im jeweiligen Font abgespeichert, so daß auf dem Zielsystem dieselben Zeichensätze installiert sein müßten, was insbesondere für UNIX-Systeme schwer realisierbar ist. Formeln lassen sich mit Hilfe des Formeleditors erstellen und integrieren. Das Einbinden von Graphiken in ein Word-Dokument ist ebenso möglich wie die Erstellung von Verweisen auf beliebige andere Objekte. Hypertextlinks sind in neueren Word-Versionen verfügbar. |
| Standardisierung: | Das Dateiformat von Word ist ein proprietäres Format von Microsoft. Es ist nicht standardisiert und einem ständigen Wechsel unterworfen, der willkürlich vollzogen wird und z.T. sogar Inkompatibilitäten zur eigenen Software erzeugt. Fremdanbieter, die das Format verarbeiten wollen, sind auf die Informationen angewiesen, die Microsoft zur Verfügung stellt. Durch die hohe Verbreitung von Word ist Microsoft auch gar nicht darauf angewiesen, daß andere Systeme das Format lesen können. Damit ist die Zukunftssicherheit nicht gegeben. |
| Archivierbarkeit: | Obwohl sich ein Word-Dokument über Formatvorlagen strukturieren läßt, kann es nicht als geeignetes Archivierungsformat angesehen werden. Der Wechsel in den Softwareversionen und der benötigten Hardware- und Betriebssystemumgebung ist zu stark, als daß eine Langzeitarchivierung ohne immensen Aufwand möglich wäre. Word-Dokumente müssen vor einer Archivierung konvertiert werden. |
Die Einschätzung von Microsofts Word-Format läßt sich bis auf wenige Einzelheiten auf Standardformate anderer Systeme, wie z.B. WordPerfect, übertragen.
Ein Dokument, das nur aus Zeichen des ASCII-Codes
(American Standard Code for Information Interchange) und keinerlei weitere
Formatierungen als Zeilenumbrüche oder Tabulatoren kennt, wird im
allgemeinen als ASCII-Text bezeichnet, obwohl natürlich strenggenommen
ein RTF-Dokument auch solch ein Text ist, da es auch nur aus Zeichen des
ASCII-Codes besteht. Der ursprüngliche Code bestand nur aus 127 Zeichen,
was schnell als zu wenig erachtet wurde, und ASCII wurde auf 255 Zeichen
erweitert. Doch auch dies reicht für länderspezifische Anforderungen,
wie z.B. einen chinesischen Zeichensatz, nicht aus. Neue Entwicklungen
beziehen sich deshalb auf den auf 255*255 erweiterten Unicode.
| Verfügbarkeit: | Software zum Erstellen, Verändern und Betrachten ist auf der Rechnerplattform unter allen System verfügbar. Es reicht ein meist zur Grundinstallation gehöriger Editor. |
| Strukturierbarkeit: | Ein ASCII-Text ist bis auf Zeilenumbrüche nicht strukturierbar. Somit können einzelne Textbestandteile nicht besonders gekennzeichnet werden, weder als logisches Element noch mit Hilfe einer Layoutauszeichnung. Dies ist wohl als der größte Nachteil dieses Format zu betrachten. |
| Konvertierbarkeit, Austauschbarkeit: | ASCII-Texte sind aufgrund ihrer geringen Komplexität äußerst einfach in beliebige andere Formate zu konvertieren. Ein Transport im Internet ist bei Verwendung des eigentlichen 7-Bit-Codes unproblematisch. |
| Recherchierbarkeit: | Mit ASCII-Texten lassen sich Suchfunktionen wie Volltextsuche, Nutzung boolescher Ausdrücke, Trunkierung, Nutzung regulärer Ausdrücke und Nachbarschaftssuchen realisieren. Dies sind auf den ersten Blick relativ viele Funktionen, die von einer Suchmaschine auch recht einfach implementiert werden können. Allerdings kann man eben auch nur in unstrukturierten textuellen Bestandteilen suchen. ASCII ist damit für herkömmliche Dokumente als Rechercheformat sicherlich brauchbar, erfüllt jedoch keine der mit einer echten elektronischen Publikation verbundenen Forderungen, wie z.B. strukturelle Suchen. |
| Präsentation: | Dokumente im ASCII-Format lassen sich, auch in Teilen, problemlos am Bildschirm darstellen und drucken. Eine Identität zwischen Druckbild und Bildschirmdarstellung ist jedoch nicht gegeben, was eine Zitierbarkeit wesentlich erschwert. |
| Sonderzeichen, Formeln, Multimedia, Hypertext: | Eine Integration von Sonderzeichen ist ebensowenig möglich wie das Einbinden von Formeln oder multimedialen Bestandteilen. Hyperlinks sind nicht möglich. Auch das sind fehlende Eigenschaften, die jedoch für elektronische Publikationen essentiell sind. |
| Standardisierung: | Das Format ist in einem offenen Standard spezifiziert. Es ist seit geraumer Zeit in Anwendung und damit zumindest retrospektiv als zukunftssicher zu betrachten. Es wird jedoch schon recht bald aufgrund seines geringen Zeichenumfangs neuen Entwicklungen wie Unicode weichen müssen. |
| Archivierbarkeit: | ASCII-Texte sind aufgrund ihrer Standardisierung und der einfachen Konvertierungsmöglichkeiten gut zur Langzeitarchivierung geeignet. |
Im Jahre 1985 stellte die Fa. Adobe Systems das Format Postscript vor, das sich aufgrund seiner herausragenden Eigenschaften in kurzer Zeit zu einem Industriestandard entwickelte. In Postscript können textuelle und graphische Elemente geräte- und auflösungsunabhängig definiert werden, d.h. die Ausgabe eines Dokuments auf dem Bildschirm und auf dem Drucker ist identisch. Postscript ist eine Seitenbeschreibungssprache und somit stark layoutfixiert, d.h. von einer eventuell früher vorhandenen logischen Struktur eines Dokuments ist nach einer Konvertierung in Postscript nichts mehr zu entdecken.
Ein Postscript-Dokument wird meist durch eine Konvertierung
erzeugt, d.h. ein direktes Erstellen von Dateien ist aufgrund der Komplexität
und der Layoutorientierung in der Regel nicht möglich. Meist werden
Datei- oder Druckerfilter genutzt, die Postscript erzeugen. Viele Drucker
besitzen die Fähigkeit, Postscriptdateien direkt zu drucken. Für
alle gängigen Plattformen und Betriebssysteme sind gute Werkzeuge
zur Erstellung und Konvertierung von Dokumenten frei verfügbar (z.B.
Ghostscript). Postscript-Dokumente lassen sich im allgemeinen nicht bearbeiten
(eingeschränkte Editierbarkeit ist mit Spezialsoftware möglich).
| Verfügbarkeit: | Auf allen Plattformen und Systemen ist frei verfügbare als auch kommerzielle Software zur Erzeugung und Darstellung von Postscript-Dokumenten vorhanden. Eine direkte Erstellung ist nicht möglich, sondern die Dateien werden durch Konvertierung gewonnen. Auch von Postscript existieren mehrere Versionen, die aber jeweils klar definiert sind. |
| Strukturierbarkeit: | Postscript ist ein vollständig layoutorientiertes Format, so daß jegliche Strukturierung des Textes, die in dem Ausgangsformat eventuell vorhanden war, verloren geht. |
| Konvertierbarkeit, Austauschbarkeit: | Eine Konvertierung von Postscript ist allenfalls in ein wenig komplexes Dateiformat, wie z.B. ASCII, oder in ein anderes layoutorientiertes Format, wie z.B. PDF, möglich. Allerdings wird eine Konvertierung von Postscript nur selten eine reale Anforderung sein, da es selbst erst im Ergebnis eines Konvertierungsprozesses entsteht. Im allgemeinen bestehen die Dateien aus 7-Bit-ASCII-Code, der problemlos im Internet ausgetauscht werden kann. |
| Recherchierbarkeit: | In Postscript lassen sich aufgrund der fehlenden Strukturierung nur ähnlich umfangreiche Recherchemöglichkeiten wie beim ASCII-Format nutzen. Die Indexierung ist jedoch aufgrund der Layoutinformationen und der damit verbundenen Dokumentgrößen aufwendiger. Trotzdem unterstützen aufgrund der hohen Verbreitung des Formates die meisten Index-Maschinen Postscript. |
| Präsentation: | Postscript läßt sich mit Standard-Werkzeugen am Bildschirm betrachten und ausdrucken. Das Ergebnis ist dabei auf allen Ausgabegeräten identisch. Dokumente lassen sich auch seitenweise ausdrucken und qualitätserhaltend vergrößern wie verkleinern. Die gute Zitierbarkeit wird durch die Layoutorientierung und die Geräteunabhängigkeit erreicht. |
| Sonderzeichen, Formeln, Multimedia, Hypertext: | Sonderzeichen, Formeln und Graphiken lassen sich je nach Verfügbarkeit im Ausgangsformat problemlos in Postscript integrieren. Die Einbindung anderer multimedialer Bestandteile ist durch Objektreferenzen möglich. |
| Standardisierung: | Postscript ist ein Industriestandard, da trotz der Entwicklung durch einen Hersteller die Spezifikationen offenliegen und das Format sich in allen Gebieten durchgesetzt hat. Die Entwicklung ist jedoch weitgehend abgeschlossen, da die zukünftigen Bestrebungen sich auf andere Formate (PDF) richten. |
| Archivierbarkeit: | Postscript läßt sich aufgrund der fehlenden Strukturinformationen schlecht in andere Dateiformate konvertieren und ist somit als alleiniges Format für eine Langzeitarchivierung nicht geeignet. |
Portable Document Format - PDF
Dieses Format, das ebenfalls von Adobe entworfen wurde, ist als Weiterentwicklung von Postscript anzusehen. Gerade unter dem Einfluß des World Wide Web war es sinnvoll, ein Format zu entwickeln, das ebenso wie Postscript geräte- und auflösungsunabhängig Dokumente darstellt, andererseits aber auf neue Entwicklungen wie Hyperlinks usw. Rücksicht nimmt. So ist PDF weiterhin eine seitenorientierte Sprache, implementiert aber Features wie Links, Anmerkungen, Bookmarks, interaktive Elemente, sprachspezifische Zeichen und zahlreiche Präsentationsoptionen. Weiterhin wurde das Fonthandling wesentlich verbessert, so daß auch Nutzer, die den einen oder anderen Font nicht zur Verfügung haben, das Dokument ohne Layouteinbußen ansehen können. Durch eine interne Komprimierung konnte die Dateigröße reduziert werden.
PDF erfreut sich inzwischen wachsender Beliebtheit
bei der elektronischen Publikation von Dokumenten, nichtzuletzt durch die
Verfügbarkeit von Plugins für WWW-Browser, die damit PDF direkt
im Fenster darstellen können. Trotzdem wird auch bei diesem Format
die eventuell vorhandene Struktur des Ausgangstextes weitgehend vernichtet.
Eine interessante Weiterentwicklung, Encapsulated PDF, das Strukturinformationen
in für PDF-Dateien wieder verfügbar machen sollte, ist nach Wissen
des Autors nicht über einen technical report im Jahre 1995 hinausgekommen,
obwohl die Ziele des Projekts recht vielversprechend klangen.
| Verfügbarkeit: | Für das Betrachten von PDF-Dokumenten stellt Adobe kostenfrei das Programm Acrobat Reader auf fast allen Plattformen zur Verfügung. Er ist auch als Plugin für den Netscape Communicator und den Microsoft Internet Explorer erhältlich. Der Reader integriert dabei Funktionen wie Suche im Dokument, Seitennavigation und Druck. Auch die GNU-Software Ghostscript ist inzwischen in der Lage, PDF-Dateien zu verarbeiten, allerdings mit eingeschränktem Funktionsumfang. PDF-Dokumente werden durch Konvertierung aus einem Quellformat, wie z.B. MS-Word erzeugt. Dazu muß allerdings auf die nur kommerziell verfügbaren Produkte der Acrobat-Reihe, wie Distiller oder Exchange zurückgegriffen werden. Diese erlauben die Erstellung von PDF-Dokumenten direkt aus der eigenen Textverarbeitung heraus und das Einfügen von Bookmarks oder Hyperlinks. |
| Strukturierbarkeit: | Ebenso wie Postscript ist PDF ein layoutorientiertes Format und bietet prinzipiell keine Speicherung von beliebigen strukturellen Zusatzinformationen. Allerdings ist im Gegensatz zu Postscript die Erstellung eines Inhaltsverzeichnisses, das Anbringen von Anmerkungen und interaktiven Elementen und Hyperlinks möglich. Damit kann ein Dokument wenigstens in Grundzügen strukturiert werden. |
| Konvertierbarkeit, Austauschbarkeit: | Auch für diesen Punkt gilt ähnliches wie für das Postscript-Format. Eine Konvertierung ist nur in ein wenig komplexes oder ein layoutorientiertes Dateiformat sinnvoll. PDF kann eine interne Dateikomprimierung verwenden, so daß dann eine Kodierung vor dem Versand im Internet notwendig ist. |
| Recherchierbarkeit: | Für PDF-Dokumente lassen sich aufgrund der minimalen Strukturierungsmöglichkeiten nur ähnlich umfangreiche Recherchemethoden wie bei Postscript oder ASCII nutzen. Zumindest ist eine separate Indexierung von Links und Verzeichniseinträgen möglich. Da PDF schon heute, insbesondere als Dokumentenformat, auf Webservern etabliert ist, wird das Format auch von vielen Index-Maschinen unterstützt. |
| Präsentation: | PDF-Dokumente lassen sich seitenidentisch sowohl am Bildschirm betrachten als auch ausdrucken. Wie bei Postscript ist die Ausgabe dabei wegen der Layoutorientierung von hoher Qualität. Allerdings wird bei PDF die Navigierbarkeit innerhalb des Dokuments durch Inhaltsverzeichnisse oder die direkte Integration von Hyperlinks wesentlich erleichtert. |
| Sonderzeichen, Formeln, Multimedia, Hypertext: | Je nach Verfügbarkeit im Ausgangsformat sind Sonderzeichen, Formeln und multimediale Bestandteile in PDF integrierbar. Hyperlinks werden anklickbar eingebunden. |
| Standardisierung: | Das PDF-Format hat sich ähnlich wie Postscript trotz der Bindung an einen Hersteller aufgrund seiner hervorragenden Eigenschaften schnell verbreitet und kann dementsprechend als Industriestandard angesehen werden. Allerdings ist die Entwicklung zum derzeitigen Zeitpunkt noch lange nicht abgeschlossen, so daß mit einer Reihe von Änderungen am Format durch Adobe zu rechnen ist. |
| Archivierbarkeit: | Ähnlich wie bei Postscript ist die alleinige Archivierung von PDF-Dokumenten aufgrund der unzureichenden Strukturierung und den sich daraus ergebenden Konvertierungsproblemen nicht empfehlenswert. Auch die Festlegung auf das Format eines einzigen Herstellers ist trotz der hohen Verbreitung kritisch, da keine konkreten Aussagen über die Zukunft des Formats getroffen werden können. |
Das RTF-Format wurde von Microsoft entwickelt, um
den Dokumentenaustausch zwischen verschiedenen Rechnersystemen zu ermöglichen.
Primär war hier der Austausch zwischen MS-Word-Versionen auf PC und
Macintosh gemeint, jedoch wurde das Format nach und nach in fast alle gängigen
Textverarbeitungen integriert, so daß das Speichern und Lesen von
RTF-Dokumenten relativ unproblematisch ist. Doch obwohl eine detaillierte
Spezifikation des Formats von Microsoft verfügbar ist, existiert doch
eine Reihe von Dokumenten, die von diesem oder jenem Textverarbeitungsprogramm
nicht gelesen werden kann. Von einer 100%-igen Austauschbarkeit kann deshalb
nicht gesprochen werden.
| Verfügbarkeit: | RTF wurde von Microsoft als Austauschformat spezifiziert. Es wird nicht direkt erzeugt, sondern entsteht mittels Konvertierung oder Export aus einer Textverarbeitung. Durch die freie Verfügbarkeit der RTF-Spezifikation sind viele Textsysteme unterschiedlicher Plattformen in der Lage, diese Dateien zu lesen und auch zu schreiben. Damit hätte man theoretisch ein hervorragendes Austauschformat zwischen unterschiedlichsten Plattformen. Allerdings treten vor allem bei längeren oder komplizierteren Dokumenten (große Tabellen, viele Bilder, Formeln) des öfteren Probleme bei der Verarbeitung auf. Auch scheint sich Microsoft nicht in der Pflicht zu sehen, das RTF-Format zu sich kompatibel zu halten: RTF-Dateien, die von MS Word 97 erzeugt wurden, lassen sich im allgemeinen nicht von Textsystemen anderer Hersteller lesen, was für ein Austauschformat ein äußerst störender Fakt ist. |
| Strukturierbarkeit: | Das RTF-Format ist in der Lage, Dokumente, die unter Benutzung von Formatvorlagen erstellt wurden, adäquat zu repräsentieren. Zwar wird auch hier wieder die Strukturierung mit der Formatierung vermischt, allerdings wird die Formatvorlage am Anfang der Datei definiert, und im Text wird nur noch auf konkrete Elemente Bezug genommen. |
| Konvertierbarkeit, Austauschbarkeit: | RTF ist generell gut für die Konvertierung geeignet. Durch die offene Spezifikation existiert auch eine Reihe von frei verfügbarer Software, die RTF-Dokumente in andere Formate, wie z.B. HTML, konvertiert. Durch die Beschränkung auf einen 7-Bit-ASCII-Code und die hohe Verfügbarkeit, insbesondere auf anderen Rechnerplattformen, ist RTF für den Austausch von Dokumenten über das Internet gut geeignet. |
| Recherchierbarkeit: | Das RTF-Format ist relativ leicht zu parsen und kann Strukturen in Form von Formatvorlagen repräsentieren. Somit können die schon bei der Betrachtung des ASCII-Formates genannten Recherchemethoden angewandt und darüberhinaus, bei entsprechend aufgebauter Index-Software, auch Suchbegriffe in bestimmten Formatvorlagenelementen gesucht werden. Allerdings werden auch hier durch die Abhängigkeit vom Ausgangsformat bestimmte Funktionalitäten nicht realisierbar sein. RTF wird aufgrund seiner Verbreitung inzwischen von mehreren Index-Maschinen unterstützt. |
| Präsentation: | Die Darstellung von RTF-Dokumenten erfolgt meist durch Konvertierung in ein gut darstellbares Format oder Import in die gewünschte Textverarbeitung. So wird RTF häufig als Zwischenschritt bei der Konvertierung nach HTML genutzt, was dann mit einem WWW-Browser gelesen werden kann. Die Erfüllbarkeit der hier geforderten Kriterien hängt also immer vom Zielformat und der Qualität der Konvertierung ab. |
| Sonderzeichen, Formeln, Multimedia, Hypertext: | Die Integration von Sonderzeichen ist je nach Verfügbarkeit im Ausgangsformat möglich. Allerdings wird dabei auf systemabhängige Komponenten, wie z.B. installierte Fonts, Bezug genommen, was eine Konvertierung erschwert. Graphiken werden direkt in RTF gespeichert. Auch Formeln und Hyperlinks können in das Format übernommen werden. |
| Standardisierung: | RTF ist ein Dateiformat, das von Microsoft entwickelt wurde. Somit ist es, obwohl die Spezifikation frei und RTF auch als Austauschformat initiiert worden ist, an einen Hersteller gebunden. Obgleich das Format weit verbreitet ist, lassen insbesondere die mit der Einführung von MS-Word 97 aufgetretenen Inkompatibilitäten Zweifel an der Ernsthaftigkeit von Microsoft bei der weiteren Entwicklung in Richtung eines Austauschformats aufkommen. |
| Archivierbarkeit: | RTF ist ein proprietäres, von Microsoft für den Dateiaustausch definiertes Format, dessen Spezifikation zwar offenliegt, aber trotzdem einem Wandel unterzogen ist, der zu Inkompatibilitäten führen kann. Obwohl RTF strukturierbar ist und gute Voraussetzungen für eine Konvertierung bietet, kann es dennoch nicht für eine Archivierung empfohlen werden. Es ist nicht in der Lage, ein Layout auf hohem Niveau zu repräsentieren. Ebenso ist eine Strukturierung nur auf einer vergleichsweise geringen Ebene möglich. |
Wer mit mathematischen Formeln gespickte Arbeiten zu schreiben hat, die auch noch eine hohe Layoutqualität besitzen sollen, der ist mit einiger Sicherheit nicht an TeX vorbeigekommen. TeX ist keine Textverarbeitung, sondern ein Satzsystem, das sich besonders in naturwissenschaftlichen Kreisen durchgesetzt hat. Die Ausgabe eines TeX-Systems braucht sich im allgemeinen nicht hinter einer professionell layouteten zu verstecken. LaTeX ist ein weitverbreitetes Makropaket, das die Arbeit wesentlich vereinfacht und die logische Auszeichnung von Textbestandteilen ermöglicht. Nur wenige Anwender benutzen noch das reine TeX-System, da es für die tägliche Benutzung bei weitem zu kompliziert ist.
Das Eingangsformat für TeX ist ein 7-Bit-ASCII File, das mittels Befehlen den Inhalt und das Layout des Dokuments definiert. So ist es ohne weiteres möglich, komplizierte mathematische Formeln zu erzeugen oder landessprachspezifische Zeichen zu verwenden. So läßt sich die folgende Formel in TeX als \int_{0}^{2} \sqrt{\sin {x}} dx erzeugen:
Die TeX-Datei wird anschließend durch das System
kompiliert und standardmäßig eine Datei im DVI-Format erzeugt,
die meist nach Postscript gewandelt wird.
| Verfügbarkeit: | Das TeX-System ist auf allen Rechnerplattformen frei verfügbar. Eine komplette Installation beinhaltet nicht nur das Grundsystem, sondern z.B. auch eine Reihe von Makropaketen für unterschiedlichste Anwendungszwecke und Fontgeneratoren. TeX-Source-Files werden in das DVI-Format übersetzt und danach meist nach Postscript konvertiert. TeX ist ein äußerst leistungsfähiges System, in dem sich komplexe Dokumente in Layoutqualität erstellen lassen. Die Benutzung ist deshalb für Laien ungleich schwieriger zu erlernen als z.B. MS-Word. Die Verbreitung ist aus diesem Grunde außerhalb der Naturwissenschaften äußerst gering. |
| Strukturierbarkeit: | Im TeX-Source-File lassen sich Strukturierungen je nach dem verwendeten Makropaket ähnlich einer Formatvorlage in MS-Word anbringen, wobei auch hier die Strukturierung mit Formatierungsanweisungen zusammenfällt. Allerdings wird in ein TeX-Dokument im allgemeinen auch eine Vielzahl von reinen Layoutanweisungen integriert. |
| Konvertierbarkeit, Austauschbarkeit: | TeX läßt sich durch seine Strukturierungsmöglichkeiten gut in andere Formate konvertieren. So existieren z.B. Konverter, die TeX in HTML weitgehend automatisch transformieren. Einschränkungen müssen bei der Layoutqualität und der Darstellung von Sonderzeichen und Formeln hingenommen werden. Der Austausch von TeX-Dateien über das Internet ist problemlos möglich, allerdings müssen auf Empfängerseite die gleichen Makro- und Stylepakete installiert sein, um das Dokument erfolgreich kompilieren und darstellen zu können. |
| Recherchierbarkeit: | Eine Indexierung von TeX-Dokumenten ist prinzipiell aufgrund der Strukturierung möglich. In der Praxis existieren allerdings wenige Systeme, die dazu in der Lage sind. Einerseits ist die Anwendung fast ausschließlich auf den naturwissenschaftlichen Bereich beschränkt. Andererseits lassen sich durch die Indexierung des Ausgabeformats Postscript ähnliche Recherchemethoden wie dort implementieren. Eine zusätzliche Verarbeitung des TeX-Quelltextes wäre nur dann sinnvoll, wenn z.B. auch direkt in Formeln recherchiert werden könnte, was jedoch einen recht hohen Aufwand bedeutet. |
| Präsentation: | Das TeX-Format selbst ist für die Darstellung nicht geeignet, sondern wird in einem Kompilationsprozeß meist in das Postscript-Format gewandelt. Somit gilt das dort gesagte auch hier. |
| Sonderzeichen, Formeln, Multimedia, Hypertext: | Sonderzeichen und mathematische oder chemische Formeln lassen sich mit TeX hervorragend darstellen. Es existieren umfangreiche Sammlungen von Makropaketen und Fonts für diese Anwendungen. Die korrekte Darstellung ist jedoch nur dann gegeben, wenn ein layoutorientiertes Ausgabeformat wie Postscript verwendet wird. Die Einbindung multimedialer Bestandteile, insbesondere von Grafiken, ist über Include- oder Special-Befehle möglich, wobei die Darstellung auch hier von den Fähigkeiten des Präsentationsformats und der dazugehörigen Software abhängt. Dies gilt ebenso für die Integration von Hyperlinks (Projekt HyperTeX). |
| Standardisierung: | TeX ist nicht standardisiert. Die Mächtigkeit hängt weniger von den definierten Grundelementen, sondern vielmehr von den zahlreich verfügbaren Makro- und Stylepaketen ab. Diese sind jedoch im allgemeinen frei verfügbar. Die Weiterentwicklung von TeX selbst ist eingestellt. Mehrere Gruppen arbeiten langfristig an einer Neuimplementation, um auf die im Laufe der Jahre angewachsenen Ansprüche zu reagieren. Die Entwicklung liegt damit in den Händen von zahlreichen Einzelpersonen und Organisationen, d.h. den Anwendern selbst. |
| Archivierbarkeit: | TeX bietet scheinbar gute Voraussetzungen für eine Archivierung. Es ist mit Einschränkungen strukturierbar, das Ausgabeformat ist von hoher Layoutqualität und die Entwicklung ist nicht an einen Hersteller gebunden. Die Mächtigkeit von TeX beruht jedoch im wesentlichen auf der Verfügbarkeit von Zusatzpaketen, die jeweils alle in der aktuellen Version und dem TeX-System selbst archiviert werden müßten. Auch ist die TeX auf die Anwendung in den Naturwissenschaften ausgerichtet. Eine Konvertierung anderer Dateiformate nach TeX wäre ein unvertretbarer Aufwand. |
Standard Generalized Markup Language - SGML
Die Standard Generalized Markup Language wurde im Jahre 1986 als ISO-Standard verabschiedet (ISO 8879). Die eigentliche Entwicklung begann wesentlich früher, und zwar 1969 durch Charles Goldfarb, der die GML entwickelte. Ziel war es, ein Format für den Austausch von Informationen und Dokumenten zu entwerfen, das im Gegensatz zu allen anderen bisher besprochenen Formaten die Struktur eines Dokuments in den Vordergrund stellt und nicht die konkrete Erscheinungsform auf einem bestimmten Medium. Während die meisten Dateiformate mehr oder weniger die Formatierungsanweisungen integrieren, sind solche Informationen in einer SGML-Datei nicht vorhanden. Diese müssen vielmehr in einer separaten Styledefinition festgelegt werden. Die Vorteile liegen klar auf der Hand: Ein und dasselbe SGML-Dokument läßt sich durch die Angabe verschiedener Styles auf unterschiedlichen Medien ausgeben.
Streng genommen ist SGML aber kein Dateiformat wie
TeX oder auch HTML, vielmehr eine Metasprache, in der sogenannte Document
Type Definitions (DTD) beschrieben werden können. Eine DTD wird für
eine Klasse gleichartiger Dokumente (z.B. Geschäftsbriefe) definiert.
Wenn also von einem SGML-Dokument gesprochen wird, ist meist ein Dokument
gemeint, das mit einer durch die SGML-Metasprache definierten DTD strukturiert
wurde. Eine DTD besteht aus der Aufzählung und Verkettung logischer
Elemente, z.B. Überschriften, Absätze, Fußnoten usw. Dabei
wird genau festgelegt, in welchem Kontext, in welcher Reihenfolge und wie
oft diese Elemente im Dokument vorkommen können oder müssen.
Diese Elemente werden als Tags bezeichnet und werden üblicherweise
durch spitze Klammern begrenzt, z.B. <Heading1>. Ein SGML-Dokument wird
dann entsprechend einer anzugebenden DTD erstellt. Das Erscheinungsbild
wird wie erwähnt dabei nicht festgelegt - das ist Sache eines SGML-Browsers
oder eines anderen Konverters, der unter Zuhilfenahme eines Stylefiles
Überschriften der Größe 1 z.B. auf Arial 14pt festlegt.
| Verfügbarkeit: | Die Erstellung von SGML-Dokumenten kann mit einem normalen Editor erfolgen, was aber kompliziert ist, da ja die durch die DTD festgelegten und z.T. komplizierten Regeln beachtet werden müssen. Echte SGML-Editoren (z.B. Author/Editor oder Framemaker+SGML) sind da wesentlich komfortabler. Diese sind jedoch in der Regel nur kommerziell und auch nur für bestimmte Plattformen verfügbar. Die Preise für diese Systeme sind im allgemeinen sehr hoch und für einen Privatanwender derzeit nicht erschwinglich. Auch die Bedienung dieser Systeme erfordert weit mehr Erfahrung und Übung als beispielsweise das Schreiben eines Textes mit Word für Windows. Der Markt an public-domain-Editoren beschränkt sich auf einen SGML-Modus von Emacs. Zum Parsen und Konvertieren von Dokumenten stehen weit mehr Tools für unterschiedlichste Plattformen zur Verfügung. |
| Strukturierbarkeit: | Die Erstellung einer SGML-Datei nach einer bestimmten DTD bedeutet Strukturierung schlechthin. Durch die DTD wird genau festgelegt, welche Elemente das Dokument enthalten darf und an welcher Stelle sie auftreten dürfen. Eine Verknüpfung mit Layoutinformationen findet nicht statt. |
| Konvertierbarkeit, Austauschbarkeit: | SGML läßt sich aufgrund seiner Strukturierung und der darunterliegenden Definition in Form einer DTD sehr gut in andere Formate konvertieren. Für die Darstellung des Layouts ist jedoch eine korrespondierende Styledefinition notwendig. Die Konvertierung nach SGML ist schwieriger zu bewerkstelligen, da ja durch die Strukturierung mehr Informationen über den Text vorliegen müssen. So ist z.B. eine Konvertierung von Postscript nach SGML nur durch manuelles Einfügen der Tags zu erreichen. Gute Voraussetzungen bieten Dateiformate, die konsequent mit Formatvorlagen umgehen können. Hier ist nur die Struktur- von der Layoutinformation zu trennen und die Formatvorlagenelemente adäquat in die von der DTD vorgegebene Hierarchie einzuordnen. Ein SGML-Dokument ist normalerweise im 7-Bit-ASCII-Code geschrieben, was eine Austauschbarkeit per Email ermöglicht. Auch hier ist für eine vollständige Darstellung eine Styledefinition notwendig. |
| Recherchierbarkeit: | SGML ist sehr gut für Recherchezwecke geeignet. So lassen sich über die gängigen Suchverfahren hinaus vor allen Dingen strukturelle Suchen verwirklichen. Z.B. kann in der DTD ein Tag für Orte oder Länder vorgesehen werden, nach dem dann gezielt recherchiert werden kann. Ebenso lassen sich z.B. chemische oder mathematische Formeln nach bestimmen Bestandteilen durchsuchen. Problematisch ist die z.Z. noch mangelhafte Unterstützung von Index- und Suchmaschinen. Nur wenige, auch kommerzielle Anbieter sind in der Lage, einen angemessenen Funktionsumfang zur Unterstützung der Recherchepotentiale in SGML anzubieten. |
| Präsentation: | Die Darstellung von SGML-Dateien ist an das Vorhandensein eines Stylefiles geknüpft, der das Aussehen der einzelnen in der DTD definierten Tags beschreibt. Dabei kann entweder ein echter SGML-Browser (z.B. Softquads Panorama) zum Einsatz kommen, oder das SGML-Dokument wird in Kombination mit dem Style in ein anderes Format (z.B. HTML) konvertiert und mit den hier verfügbaren Viewern dargestellt. Hiervon ist auch die Darstellung von Sonderzeichen, Hyperlinks oder multimedialen Bestandteilen abhängig. Die Identität zwischen Bildschirm- und Druckausgabe ist im allgemeinen nicht gegeben. Daraus resultiert die Problematik der Zitierbarkeit, da für unterschiedliche Ausgabemedien verschiedene Styles existieren oder die Konvertierung in andere Formate erfolgt. Hier sind im allgemeinen Eingriffe am SGML-Quelltext selbst vorzunehmen. |
| Sonderzeichen, Formeln, Multimedia, Hypertext: | Sonderzeichen können mit beliebigen Standards, z.B. ISO 8859 oder Unicode, in SGML implementiert werden. Problematisch ist allerdings die letztendliche Darstellung des Dokuments, da die meisten Browser nicht in der Lage sind, die notwendige Vielzahl von Zeichenstandards zu unterstützen. Beliebige Objekte lassen sich über Referenzen in eine SGML-Datei einbinden. Auch hier ist es Aufgabe der Darstellungssoftware, diese Objekte adäquat darzustellen. Gleiches gilt für die Einbindung und Darstellung von Hyperlinks. |
| Standardisierung: | SGML wurde 1986 unter der Nummer 8879 als ISO-Standard verabschiedet. Es ist also nicht herstellerabhängig. |
| Archivierbarkeit: | SGML eignet sich hervorragend für die Archivierung von Dokumenten, da es ein Maximum an Zusatzinformationen zum Text speichert. Es ist ein offener, internationaler Standard und sehr gut in andere Dateiformate konvertierbar. Für die Layoutdarstellung ist eine Styledefinition in einem möglichst ebenfalls standardisierten Format notwendig. |
Hypertext Markup Language - HTML
Mit der Entwicklung des WWW als völlig neuartigem Medium für den Informationsaustausch im Internet wurde die Sprache bzw. das Dateiformat HTML kreiert, wobei nicht nur Texte, sondern auch Graphiken integriert werden sollten und vor allen Dingen auch Hyperlinks auf andere Dokumente gesetzt werden können. Mit der rasanten Verbreitung des WWW wurde eine Standardisierung notwendig, die durch das W3-Konsortium vorangetrieben wurde. Man orientierte sich dabei an SGML und beschrieb HTML als eine Dokumenttypdefinition (DTD), so daß beliebige Dokumente damit im Internet bzw. WWW publiziert werden konnten. Obwohl SGML die Trennung von Struktur und Layout vorsieht, konnte das bei HTML nicht durchgehalten werden, so daß viele Tags nicht nur eine logische, sondern auch physische Layoutdefinition vornehmen. Um dieses Problem zu beheben, wurden und werden Style-Standards, wie z.B. CSS - Cascading Style Sheets, entwickelt, die z.T. schon in aktuellen WWW-Browsern implementiert sind.
Je nach Unterstützung durch die Softwarehersteller
ist eine Migration nach XML abzusehen, die eine strenge Festlegung auf
ein wohldefiniertes Set von HTML-Tags überflüssig macht. XML
besitzt einen eingeschränkten Funktionsumfang gegenüber SGML,
jedoch lassen sich wie dort DTDs für beliebige Dokumentklassen entwickeln,
so daß man nicht wie bei HTML auf ein abgegrenztes Set von Tags angewiesen
ist. Der große Vorteil wird darin bestehen, daß die Browser-Hersteller
schon jetzt dabei sind, ihre Programme XML-fähig zu machen. Dazu muß
für jedes Dokument ein entsprechender Style verfügbar sein, da
die Browser dann nicht mehr eine eigenmächtige Formatierung durchführen.
Für HTML wurden in vielen Browsern schon erste Implementationen der
„Cascading Style Sheets" (CSS) vorgenommen, die z.T. jedoch untereinander
inkompatibel sind. Für XML scheint sich die „eXtended Style
Language" (XSL), eine Untermenge von DSSSL, durchzusetzen.
| Anforderung an das Dateiformat / Dateiformat | MS Word | ASCII-Text | Postscript | Portable Document Format | Rich Text Format | TeX, LaTeX | SGML | HTML | XML(4) |
| Verfügbarkeit
Erstellungswerkzeuge |
O | X | X | O | X | X | O | X | O |
| Verfügbarkeit
Bearbeitungswerkzeuge |
O | X | - | - | X | X | O | X | O |
| Strukturierbarkeit | O | - | - | - | O | O | X | O | X |
| Recherchierbarkeit | O | O | O | O | O | O | X | O | X |
| Konvertierbarkeit | O | X | - | - | X | X | X | X | X |
| Präsentation | O | X | X | X | O | X | O | X | O |
| Hypertextfähigkeit | O | - | - | X | O | O | X | X | X |
| Zitierbarkeit | X | - | X | X | X | O | O | O | O |
| Standardisierung | - | X | O | O | O | O | X | X | X |
| Archivierbarkeit | - | X | O | O | O | O | X | O | X |
Ziel dieser Arbeit war es allgemeine Anforderungen an Dateiformate für die elektronische Publikation von Dokumenten zu formulieren. Anhand dieser Kriterien wurden gängige Formate auf ihre Eignung überprüft. Diese Studienarbeit ist im Rahmen des durch das Hochschulsonderprogramm III geförderten Projekts „Elektronische Publikation von Dissertationen" von Bibliothek und Rechenzentrum der Humboldt-Universität zu Berlin entstanden. Aus diesem Grunde soll, die vorangegangenen Ergebnisse auf diesen Einsatzzweck beziehend, ein Vorschlag für den Umgang mit Dateiformaten im Rahmen des Projekts unterbreitet werden.
Jeder Promovend wird durch die jeweilige Promotionsordnung der Fakultät zur Veröffentlichung seiner Dissertation verpflichtet. Dies konnte bisher auf drei verschiedene Arten geschehen: Abgabe von Papierexemplaren in der Bibliothek (30-150), Abgabe von wenigen Papierexemplaren und Microfiches oder die Veröffentlichung in einem Verlag. Je nach gewählter Option war dies für den Promovenden mit erheblichen Kosten verbunden. Des weiteren werden Dissertationen auch heute noch als „graue Literatur" behandelt, d.h. sie werden recht selten ausgeliehen oder zitiert. Die genannten Nachteile können durch eine elektronische Publikation ausgeglichen werden. Durch eine Veröffentlichung auf einem Dokumentenserver kann das Kopieren von zahlreichen Papierexemplaren entfallen, die Arbeiten sind auf einfache Art und Weise einer großen Öffentlichkeit zugänglich, und es ergeben sich völlig neuartige Möglichkeiten der Recherche und der Integration multimedialer Bestandteile.
Bei der elektronischen Veröffentlichung einer Dissertation tritt jedoch auch eine Reihe von technischen(5) Problemen auf, die gelöst werden muß. Die Promovenden erstellen die Dokumente in unterschiedlichsten Textverarbeitungen inklusive deren zahlreichen Versionen. Ein einfaches Kopieren des Originaldokuments auf einen Dokumentenserver ist aus Software-Verfügbarkeitsgründen nicht akzeptabel. Die Dissertationen müssen konvertiert werden, was bei einer durchschnittlichen Zahl von 350 Promotionen an der HU und ca. 21.000 in der Bundesrepublik jährlich weitgehend automatisch geschehen muß. Dies setzt eine gewisse Strukturierung der Ausgangsdokumente voraus. Die Nutzer erwarten vielfältige Recherchemöglichekeiten, wie unter Punkt 2.4 aufgeführt. Die Arbeiten sollen im Volltext am Bildschirm lesbar und ausdruckbar sein. Die Bibliothek ist verpflichtet, die Dissertationen über einen langen Zeitraum zu archivieren. Die Zitierbarkeit auf Basis von Seitenzahlen der Papier- und der elektronischen Version ist zu sichern.
All diese Forderungen lassen sich durch die Anwendung nur eines Dateiformats derzeit nicht erfüllen. Es sind deshalb Formate für die einzelnen Einsatzzwecke auszuwählen und entsprechende Konvertierungsmöglichkeiten zu schaffen.
Für die Archivierung und Recherche wird SGML empfohlen. Es handelt sich um einen offenen Standard, der Strukturen von Dokumenten beschreibt. SGML ist deshalb einfach in zukünftige Formate zu konvertieren, was für die Langzeitarchivierung von großer Bedeutung ist. Weiterhin wird das größte Maß an Recherchemethoden unterstützt. Vor allen Dingen die Möglichkeit der strukturellen Suche in beliebigen Textbestandteilen und nicht nur einer kleinen Menge von Metainformationen stellt eine völlig neue Qualität dar. Es lassen sich so wesentlich gezieltere Suchanfragen formulieren (höhere precision).
Die Erstellung von Dokumenten direkt in einer durch SGML definierten DTD ist jedoch aus Verfügbarkeitsgründen (s. 1.1) nur selten möglich. Vielmehr werden die Promovenden die Dissertationen in den in ihrem jeweiligen Fachgebiet üblichen oder aus persönlichen Gründen präferierten Textsystem schreiben. Weit verbreitet sind Microsoft Word und TeX. Da SGML jedoch strukturierte Informationen voraussetzt, ist eine Konvertierung nur adäquat möglich, wenn Mittel wie Formatvorlagen (z.B. Word) oder Makros (z.B. TeX) konsequent eingesetzt werden. Dabei ist die Vorgabe für Dissertationen geeigneter Formatvorlagen empfehlenswert. Die Autoren sind bei der Anwendung zu unterstützen. Einige Formate eignen sich nicht als Ausgangsformat, wie z.B. HTML, da hier nur ein fest definiertes Set von Strukturierungen zur Verfügung steht und damit Recherchemöglichkeiten eingeschränkt werden. Es ist deshalb sinnvoll, sich auf einige Ausgangsformate zu beschränken.
Da SGML keine Layoutinformationen speichert, ist die Speicherung des Layouts in einer separaten Styledefinition, die einem entsprechenden Standard (z.B. DSSSL) folgt, notwendig. Der Style läßt sich aus einer vorgegebenen Formatvorlage ableiten, da diese meist implizit ein Layout vorgibt, was der Autor jedoch verändern kann.
Für die Präsentation der Dokumente werden zum jetzigen Zeitpunkt zwei Formate vorgeschlagen. Für den Download des Volltextes eines Dokuments eignet sich aufgrund seiner hohen Layoutqualität das PDF-Format. Damit besteht die Möglichkeit, die Datei komplett zu betrachten und zu drucken. Diese PDF-Datei läßt sich unter Verwendung von einheitlichen Postscript-Treibern und der Adobe-Software Acrobat Distiller aus den meisten Ausgangsformaten erzeugen. Für die gezielte Präsentation von Suchergebnissen ist es jedoch nicht sinnvoll, das gesamte Dokument zu übertragen. Hierfür eignet sich HTML, so daß z.B. für jedes Kapitel eine separate Datei erzeugt wird, die dann von einem WWW-Browser angezeigt werden kann. Eine andere Variante wäre die Online-Erzeugung von HTML-Dokumenten als Ergebnis einer individuellen Recherche.
Zusammengefaßt ergibt sich daraus folgende Verfahrensweise: mittels Formatvorlagen oder anderen Makros erzeugte Dokumente werden nach SGML in eine bestimmte DTD und ein Stylefile konvertiert. Gleichzeitig wird aus der Originaldatei ein PDF-Dokument und aus der SGML-Datei eine, am Inhaltsverzeichnis der Arbeit orientierte Menge von HTML-Dateien erzeugt. Das SGML-Dokument wird archiviert und im Recherchesystem indexiert. Die Präsentation von Suchergebnissen erfolgt dagegen in HTML. Der Download des PDF-Dokuments kann dann zum Lesen oder Drucken des kompletten Volltextes dienen.
Die Zitierbarkeit aus Seitenbasis sowohl der Papier-, der HTML- als auch der PDF-Version kann derzeit nur gesichert werden, wenn manuell Zusatzeinträge für Seitenzahlen in das SGML-Dokument eingefügt werden. Dies ist sehr aufwendig, resultiert aber daraus, daß sich durch notwendige Vorarbeiten zur Konvertierung nach SGML Seitenverschiebungen im Originaldokument ergeben.
Die vorgeschlagene Lösung erscheint auf den ersten Blick kompliziert, jedoch lassen sich unter Einhaltung gewisser Prämissen zahlreiche Abläufe weitgehend automatisieren. Dazu sind natürlich entsprechend umfangreiche Entwicklungsarbeiten zu leisten.
Weiter zu verfolgen ist die Entwicklung von XML.
Hier können die Strukturierungsmöglichkeiten von SGML genutzt
werden, und es zeichnet sich ab, daß die Browserhersteller XML und
einen entsprechenden Stylestandard unterstützen werden, so daß
der Konvertierungsschritt nach HTML und eventuell auch PDF entfallen könnte.
Adobe Systems: Portable Document Format Reference Manual. 1993
Feuerstein, R. : SGML - Einführung, Beispiele, Tools. Seminararbeit Uni Würzburg 1996
Grötschel, M.; Lügger, J. : Aufbau elektronischer Informations- und Kommunikationsstrukturen. Technical Report TR 95-10, Konrad-Zuse-Zentrum für Informationstechnik Berlin.
Grötschel, M.; Lügger, J. : Wissenschaftliche Kommunikation am Wendepunkt - Bibliotheken im Zeitalter globaler elektronischer Netze. Technical Report TR 95-1, Konrad-Zuse-Zentrum für Informationstechnik Berlin.
Martin, N. : Bibliothekarische Anforderungen betr. der elektronischen Publizierung von Dissertationen. Projektpapier "Digitale Dissertationen" , 1997.
Martin,N.; Schirmbacher,P. : Die elektronische Publikation von Dissertationen an der Humboldt-Universität zu Berlin. RZ-Mitteilungen Nr. 14, 1997.
Odlyzko, A. : Tragic Loss or good riddance? The impending demise of traditional scholarly journals. AT&T Bell Laboratories, 1994
Ohst, D. ; Schirmbacher, P. : Zur Wahl von Dateiformaten für die elektronische Publikation von Dissertationen an der Humboldt-Universität zu Berlin. Rechenzentrum der HU, 1996
Oßwald, A. : Elektronische Volltexte im Internet. Fachhochschule Köln, 1995.
Rieger, W. : SGML für die Praxis. Springer-Verlag, 1995.
Microsoft Corporation: RTF Specification v. 1.5
VOI Verband Optische Informationssysteme e.V.: Grundsätze der elektronischen Archivierung, 1997
Smith, P.: Block-Based Formatting with Encapsulated PDF. University of Nottingham, 1995
http://www.w3.org/XML/
http://www.microsoft.com/standards/xml/
http://medoc.informatik.tu-muenchen.de/
http://www.netzwelt.com/selfhtml/
http://www.educat.hu-berlin.de/diss_online/
http://xxx.lanl.gov/hypertex
1. Obwohl das Wort Format schon in der Abkürzung steckt wird dennoch aus sprachlichen Gründen auch vom RTF- bzw. PDF-Format gesprochen.
2. In dieser Arbeit werden ausschließlich Dateiformate für Texte untersucht. Bild-, Audio- oder Videoformate werden nicht betrachtet.
3. Die Matrix faßt in tabellarischer Form die Bewertungen zusammen. Die dreistufige Klassifikation ist jedoch nicht in der Lage, konkrete Eigenschaften eines Formates genau zu erfassen. Deshalb sollte die Tabelle nicht ohne die vorhergehenden verbalen Erläuterungen gelesen werden.
4. Obwohl XML in der Tabelle erwähnt wird, konnte aus zeitlichen Gründen keine ausführliche Behandlung im Text vorgenommen werden. Durch die recht junge Entwicklung sind hier Änderungen insbesondere bei der Verfügbarkeit von Werkzeugen und Darstellungssoftware zu erwarten.
5. Die vielfältigen Probleme rechtlicher Art, die beim elektronischen Publizieren auftreten sollen, in diesem Zusammenhang außer acht gelassen werden.