Studienarbeit
"Dateiformate für das elektronische Publizieren"
 
elektronische Version der Studienarbeit,
alle Rechte vorbehalten,
Zitierung nur mit voller Angabe von Autor und Titel
 
 
 
 
 
 

Daniel Ohst (ohst@informatik.hu-berlin.de)

Institut für Informatik

Humboldt-Universität zu Berlin

betreut von Dr. Peter Schirmbacher

eingereicht am: 01.03.1998


Inhaltsverzeichnis
1 Einleitung 4

2 Anforderungen an Dateiformate 6

2.1 Verfügbarkeit 7

2.2 Strukturierbarkeit 8

2.3 Konvertierbarkeit, Austauschbarkeit 9

2.4 Recherchierbarkeit 10

2.5 Präsentation 11

2.5.1 Sonderzeichen, Formeln, Multimedia, Hypertext 11

2.5.2 Zitierbarkeit 12

2.6 Standardisierung 12

2.7 Archivierbarkeit 13

3 Bewertung verschiedener Dateiformate 15

3.1 Microsoft Word 15

3.2 ASCII-Text 17

3.3 Postscript 19

3.4 Portable Document Format - PDF 21

3.5 Rich Text Format - RTF 23

3.6 TeX, LaTeX 25

3.7 Standard Generalized Markup Language - SGML 27

3.8 Hypertext Markup Language - HTML 30

3.9 Matrix zur Bewertung von Dateiformaten 33

4 Zusammenfassung 34

5 Thesen 37

6 Literaturverzeichnis 38



Abkürzungsverzeichnis
 
ASCII American Standard Code for Information Interchange 
CSS Cascading Style Sheets 
DSSSL Document Style Semantics and Specification Language 
DTD Document Type Definition 
DVI Device Independent Format 
ISO International Standards Organization 
HTML Hypertext Markup Language 
MS Microsoft 
PDF Portable Document Format1 
RTF Rich Text Format(1)
SGML Standard Generalized Markup Language 
XML Extensible Markup Language 
XSL Extensible Style Language


 

Einleitung

Elektronische Publikation ist sicherlich eines der häufigsten Schlagworte der heutigen Zeit, wenn man von Informationssystemen und Internet spricht. Doch was verbirgt sich eigentlich hinter diesem Begriff? Schon lange vor dem Beginn der massenhaften Internet- bzw. WWW-Nutzung wurde, vor allem im Verlagsumfeld, vom Elektronischen Publizieren gesprochen. Hierbei ist jedoch vor allem die Unterstützung des herkömmlichen Publikationsprozesses durch Rechentechnik und entsprechende Software gemeint. So konnten z.B. entweder bereits maschinenlesbar vorliegende Dokumente schneller verarbeitet werden oder der Layoutprozeß effizienter gestaltet werden, so daß sich vor allem die Zeit bis zur eigentlichen Veröffentlichung eines Artikels oder Buches verkürzte. In jüngster Zeit hat sich die Bedeutung des Begriffes stark erweitert. Schon vor der Entwicklung des WWW tauschten Wissenschaftler, vornehmlich aus naturwissenschaftlichen Fachgebieten, Texte zur aktuellen Forschung über das Internet, per E-Mail, ftp oder gopher, aus. Die Vorteile liegen auf der Hand: Ergebnisse der eigenen Forschung können in kürzester Zeit einer großen Zahl von Fachkollegen zugänglich gemacht werden. Doch diese bequeme Art der Kommunikation hat gewichtige Hintergründe: Die Zahl der publizierten mathematischen Artikel beträgt z.Z. ungefähr 50.000 pro Jahr. Die Verdopplungszeit dieser Literatur, d.h. die Zeit, in der sich die Menge an Dokumenten verdoppelt hat, beträgt ca. 10 Jahre. Das hat schwerwiegende Konsequenzen. Durch die Menge an publiziertem Material wird es immer schwieriger, relevante Artikel oder Aufsätze herauszufiltern. Zum anderen behindert die Langwierigkeit des traditionellen Publikationsprozesses u.U. die Verfügbarkeit von aktuellen Forschungsergebnissen. Bibliotheken sind gezwungen, diese ständig wachsende Informationsflut zu erschließen, um dem Nutzer ein schnelles Finden der gewünschten Publikationen zu ermöglichen und der Archivierungspflicht gerecht zu werden. Viele Bibliotheken sind jedoch aus finanziellen Gründen nicht mehr in der Lage, insbesondere die wachsende Zahl von Fachzeitschriften zu beschaffen.

Als ein Ausweg erscheint es, den Begriff der Elektronischen Publikation nicht nur auf Unterstützung einer herkömmlichen Veröffentlichung anzuwenden, sondern maschinenlesbar vorliegende Texte zusätzlich zur Papierform dem Nutzer auch auf elektronischem Wege zur Verfügung zu stellen. Mit der explosionsartig zugenommenen Nutzung des Informationssystems WWW, das Anfang der 90er Jahre entwickelt wurde, steht ein Medium zur Verfügung, das Eigenschaften z.B. die Integration multimedialer Elemente unterstützt und Hypertextfähigkeit besitzt. Hinzu kommt die kostenfreie Verfügbarkeit von Client-Software. So ist es naheliegend, daß das WWW von Beginn an für die elektronische Publikation von Texten genutzt wurde. Mathematiker und Physiker haben hier die Vorreiterrolle übernommen, indem sie schon sehr früh Preprint-Server einrichteten.

Die elektronische Publikation vor allem wissenschaftlicher Dokumente hat gegenüber einer herkömmlichen Publikation in Papierform eine Reihe von Vorteilen aufzuweisen. Die meisten Dokumente werden schon heute mit Unterstützung von Computertechnik erzeugt und liegen damit bereits maschinenlesbar vor. So ist es nur konsequent, auch eine elektronisch verfügbare Veröffentlichung anzustreben, zumal diese auch in einer völlig neuen Qualität inhaltliche und gestalterische Möglichkeiten wie z.B. die Integration von Formeln, 3D-Modellen oder Videosequenzen bietet. Durch eine Veröffentlichung im Internet kann die Zeit von der Erstellung bis zur Publikation eines Dokuments wesentlich verkürzt und eine erhöhte Publizität erreicht werden. Die Recherchemöglichkeiten werden insbesondere durch die Zurverfügungstellung von Volltexten wesentlich erweitert. Die Kosten für die Beschaffung, Präsentation und Archivierung von Dokumenten können gesenkt werden, was insbesondere in Anbetracht der sinkenden Etats der Bibliotheken von Bedeutung ist. Die aufwendige und vor allem zeitintensive Beschaffung von relevanten Dokumenten durch Fernleihen kann vollständig entfallen.

Durch eine elektronische Publikation entsteht jedoch auch eine Reihe von Problemen. Ein im Internet im Volltext verfügbares Dokument läßt sich wesentlich einfacher kopieren als ein Papierexemplar. Auch Veränderungen am Inhalt sind wesentlich einfacher vorzunehmen. Deshalb sind Maßnahmen zur Sicherung des Urheberrechts zu treffen. Auch die Langzeitarchivierung digitaler Dokumente gestaltet sich wesentlich komplizierter als die von Papierexemplaren, die bei geeigneter Lagerung gut und gerne 500 Jahre überstehen. Die Wahl eines geeigneten Dateiformates ist für diese Frage aber auch für die Recherche und Präsentation von Bedeutung. Bei der Veröffentlichung von Büchern oder Artikeln in Fachzeitschriften gibt es Gutachter, die die eingereichten Texte auf Richtigkeit und Relevanz prüfen. Ebenso muß bei der wesentlich einfacheren Publikationsmöglichkeit eines digitalen Dokuments Sorge dafür getragen werden, daß keine inkorrekten Informationen veröffentlicht werden.

Diese Studienarbeit ist im Rahmen des Projekts „Elektronisches Publizieren von Dissertationen" entstanden, das gemeinsam von Rechenzentrum und Universitätsbibliothek durchgeführt wird. Anhand der Dissertationen der Humboldt-Universität sollen Lösungen für die Erfassung, Speicherung, Präsentation und Archivierung von digitalen Dokumenten erarbeitet werden. Schwerpunkte sind die Auswahl von geeigneten Dateiformaten und die Konvertierung von Dokumenten aus anderen Formaten, der Aufbau eines Dokumentenservers und Workflow in der Bibliothek. Weitere Teilthemen sind u.a. Sicherung der Authentizität digitaler Dokumente, Recherchemöglichkeiten in Volltexten, Langzeitarchivierung und Verwendung von Metadaten.

Ziel dieser Arbeit ist es, Kriterien für die Auswahl von Dateiformaten(2) zur Erstellung, Verbreitung und Archivierung von elektronischen Publikationen zu formulieren. Die meisten heutzutage elektronisch erstellten Dokumente werden mit Textverarbeitungs- oder Satzsystemen wie Word für Windows, WordPerfect, TeX, Quark-Xpress und anderen mehr erstellt. Die wenigsten dieser Formate sind für eine rechnerunabhängige Präsentation, umfangreiche Recherchemöglichkeiten oder eine Langzeitarchivierung geeignet, z.B. sind viele Formate nicht auf allen Rechnerplattformen verfügbar oder halten bibliothekarischen Forderungen an eine Recherche nicht stand. Im zweiten Abschnitt werden anhand der ermittelten Kriterien gängige Dateiformate auf ihre Eignung für die entsprechenden Einsatzzwecke überprüft. Die abschließende Zusammenfassung beschreibt einen Lösungsvorschlag für das obengenannte Projekt.
 
 


Anforderungen an Dateiformate

Vom Autor eines Dokuments bis hin zur archivierenden Bibliothek oder dem recherchierenden Nutzer haben alle Beteiligten unterschiedliche Sichten auf diesen Publikationsprozeß und damit unterschiedliche Anforderungen. So möchte z.B. der Autor nach Möglichkeit sein präferiertes Textverarbeitungsprogramm weiter nutzen, allerdings wird sich eine Bibliothek sehr schwer mit der Archivierung von Dokumenten im Format MS-Word für Windows 2.0 tun. Aus diesen Gründen sollen zum Anfang dieses Abschnitts stichpunktartig wesentliche Forderungen aus bibliothekarischer, rechentechnischer und Nutzersicht an eine elektronische Publikation aufgeführt werden.

Bibliothekarische Anforderungen:
 

Rechentechnische Anforderungen:
  Anforderungen aus Autorensicht
  Anforderungen aus Nutzersicht:
  Die Erfüllbarkeit vieler dieser Forderungen hängt von der Wahl eines geeigneten Dateiformats ab. Für viele Bereiche ist es gar nicht erforderlich, daß ein Dateiformat jeder dieser Forderungen erfüllt. Je nach Zweck kann auch die Benutzung mehrerer Formate günstig sein, z.B. eines für die Präsentation am Bildschirm, eines für die Archivierung in der Bibliothek. Ziel soll es deshalb zunächst sein, Anforderungen an ein Dateiformat zu formulieren, anhand derer dann im folgenden Abschnitt konkrete Formate bewertet werden können.

Die einzelnen Kriterien werden im folgenden ohne eine Sortierung nach ihrer Wertigkeit aufgeführt.
 

Verfügbarkeit

Unter Verfügbarkeit von Software werden in diesem Zusammenhang Programme verstanden, die zur Erstellung, Bearbeitung und Darstellung von Dokumenten benötigt werden. Diese Unterscheidung ist notwendig, da sich z.B. nicht alle Formate zur Weiterbearbeitung eignen oder Werkzeuge zur Erstellung dieser Dateien kostenpflichtig sind, Betrachtungssoftware hingegen frei zur Verfügung gestellt wird.

Der Aspekt der Verfügbarkeit ist aus Sicht der Autoren von großer Bedeutung, denn letztendlich müssen sie mit diesen Programmen die Dokumente erstellen. Jeder Autor stellt sicherlich unterschiedliche Anforderungen an den Funktionsumfang der Software, so daß sich die Anzahl der benutzten Text- oder Satzsysteme schlecht auf ein oder zwei gängige beschränken lassen wird. Andererseits erhebt sich aus rechentechnischer Sicht genau diese Forderung, da die gesamte Software installiert und gewartet werden muß. Autoren erwarten Unterstützung in der Bedienung der Systeme. Es ist einzusehen, daß eine kompetente Betreuung für eine Vielzahl unterschiedlicher Programme personell äußerst schwer zu realisieren ist. In dieser Frage ist deshalb ein vernünftiger Kompromiß zu finden, der auch wesentlich von den vorhandenen Konvertierungsmöglichkeiten abhängt.

Die Darstellungssoftware, z.B. ein Browser oder ein Plugin, für Dokumente dieses Formats sollte kostenfrei oder sehr kostengünstig für alle gängigen Rechnerplattformen zur Verfügung stehen. Dazu gehören sicherlich PC-Systeme unter Windows 3.x, 95 oder NT, aber auch Apple Macintosh und die verbreiteten UNIX-Varianten (z.B. Solaris, HP-UX, IRIX, AIX und Linux).

Selbstverständlich wäre es wünschenswert, daß auch für die Erstellung und Bearbeitung von Dokumenten kostengünstige Software zur Verfügung steht, leider ist dies jedoch nicht oft der Fall. So können z.B. professionelle Werkzeuge zur Bearbeitung des SGML-Formats durchaus 5-stellige Beträge kosten. Die Beschaffung einer Lizenz eines solchen Systems ist für eine Bibliothek oder ein Rechenzentrum vielleicht gerade noch möglich, kann jedoch einem Autor nicht zugemutet werden. Zur Erstellung und Bearbeitung sollte deshalb auf freie oder kostengünstige Software orientiert werden, die z.B. als OEM-Software beim Kauf eines Rechnersystems mit vertrieben wird.

Strukturierbarkeit

Von einem strukturierten Dateiformat spricht man, wenn die einzelnen logischen Bestandteile als solche gekennzeichnet sind und zur Auswertung zur Verfügung stehen. So beinhalten Briefe meistens einen Absender, einen Adressaten, Anrede, Text und eine Grußformel. In einem strukturierten Brief würde man z.B. zusätzlich zum Adressaten diesen Text auch speziell als Bestandteil „Adressat" kennzeichnen und nicht, wie es vielfach geschieht, einfach fett formatieren o.ä. Ein Dateiformat sollte die Möglichkeit bieten, diese strukturellen Zusatzinformationen zu speichern. Bei einer logischen Strukturierung, die sich nur an den Bestandteilen des Dokuments orientiert, werden keinerlei Layoutinformationen integriert, wie es der Fall bei den weit verbreiteten Formatvorlagen ist, die einem Strukturelement immer auch ein Layout zuweisen. Dies ist vor allem von Bedeutung, wenn Dokumente für unterschiedliche Ausgabemedien aufbereitet werden müssen.

Weshalb spielt eine richtige Strukturierung nun so eine große Rolle, wo dieses z.B. doch recht wenig Einfluß auf das Aussehen eines Ausdrucks hat? Bei der exponentiell zunehmenden Menge von elektronisch verfügbaren Dokumenten wird es immer wichtiger, mittels computerunterstützter Recherchemethoden relevante Informationen zu finden. Als problematisch erweist sich hierbei oft der hohe recall und die geringe precision der Treffermenge, d.h. es werden sehr viele Dokumente gefunden, von denen jedoch nur wenige wirklich wichtig sind. Dies liegt vor allen Dingen darin begründet, daß ohne weitere Unterscheidung der gesamte Text nach den gesuchten Wörtern durchmustert wird. Dabei wäre es mitunter viel sinnvoller, nur in Überschriften, Ortsbezeichnungen oder Zitaten zu suchen. Falls ein Dokument strukturiert wurde, sind solche Anfragen möglich und haben damit eine wesentlich höhere precision. Wenn hingegen der Autor Überschriften einfach nur in einer größeren Schrift und fett formatiert hat, ist es bei einer Recherche unmöglich, nach diesen Informationen zu suchen.

Aus bibliothekarischer und Nutzersicht ist die Möglichkeit, in strukturierten Dokumenten zu suchen, äußerst wesentlich, um gute Rechercheergebnisse zu erzielen. Aus rechentechnischer Sicht ist eine eventuell nötige Konvertierung eines Dokumentes in einem strukturierten Dateiformat wesentlich einfacher zu bewerkstelligen, als in einem unstrukturierten, wenn letzteres überhaupt ohne großen Informationsverlust möglich ist. Allerdings kann eine detaillierte Strukturierung für den Autor einen Mehraufwand bedeuten, da dieser sich über den genauen Aufbau seines Textes Gedanken machen und alle Bestandteile gesondert kennzeichnen muß. Hier ist leistungsfähige Software gefragt, die diesen Prozeß umfassend unterstützt.

Konvertierbarkeit, Austauschbarkeit

Wie schon im Abschnitt Verfügbarkeit erwähnt, ist es schwer möglich und auch nicht wünschenswert oder praktikabel, die Autoren auf ein oder zwei Text- oder Satzsysteme mit einem bestimmten Dateiformat zu beschränken. Die stark differierenden Anforderungen, die persönlichen Vorlieben der Benutzer und nichtzuletzt auch die Interessen der Softwareindustrie sind die wesentlichen Gründe für die Vielzahl an existierenden Systemen. Allerdings sind z.B. für Recherchezwecke oder Archivierung nicht alle Dateiformate gleichermaßen geeignet. Es müssen deshalb Konvertierungsmöglichkeiten zur Verfügung gestellt werden, die möglichst informationsverlustfrei ein vom Autor in seinem präferierten System (und damit in einem bestimmten Dateiformat) erzeugtes Dokument in ein anderes, für bestimmte Zwecke geeigneteres, zu konvertieren. Dafür sind verständlicherweise nicht alle Dateiformate gleichermaßen geeignet. Es ist deshalb im konkreten Fall zu prüfen, in welchen Formaten Dokumente erstellt werden können und mit welchem Aufwand bzw. Informationsverlust sie zu konvertieren sind. Strikte Festlegungen auf eine gewisse Menge von zu verwendenden Formaten ist sicherlich unter Umständen nicht anwenderfreundlich, doch manchmal nicht zu vermeiden. Für eine problemlose Konvertierung ist es hilfreich, wenn das Ausgangsformat so stark wie möglich strukturiert ist, da diese dann weitgehend automatisch ablaufen kann, was bei einer größeren Anzahl von Dokumenten absolut unerläßlich ist. Eine manuelle Konvertierung oder größere Nacharbeiten nach einer automatischen Konvertierung sind nur unter hohem personellen Aufwand durchführbar.

Das Problem ist aus rechentechnischer Sicht von höchster Bedeutung, da hier Vorgaben zu Ausgangsformaten erarbeitet werden müssen und Konvertierungswerkzeuge zu erstellen sind. Der Autor eines Dokuments wird auch bei der Nutzung seines Text- oder Satzsystems einige Vorgaben beachten müssen, um eine automatisierte Konvertierung zu ermöglichen.

Es ist erforderlich, daß elektronische Dokumente ohne für den Anwender merklichen Aufwand im Internet verschickt werden können, z.B. per E-Mail. Nicht alle Mailserver können mit dem kompletten 8-Bit-ASCII Zeichensatz umgehen, so daß entweder das Dateiformat auf 7-Bit-ASCII zu beschränken ist oder eine weitere Konvertierung notwendig wird. Bekannte Verfahren dabei sind uuencode, binhex oder Base64. Inzwischen sind alle guten Mail-Clients in der Lage, automatisch unter Zuhilfenahme dieser Methoden Dateien vor dem eigentlichen Versenden zu konvertieren. Auch dem Empfänger eines Dokuments fällt mit einem modernen Mailprogramm das automatische Rückkonvertieren gar nicht mehr auf. Wer den MIME-Standard benutzt, kommt in den Genuß von automatischer Konvertierung. Damit ist es heutzutage nicht mehr unbedingt erforderlich, ein Dateiformat im 7-Bit-Code (z.B. RTF oder HTML) zu präferieren. Selbstverständlich spielt auch hier wieder der konkrete Anwendungsfall eine entscheidende Rolle.

Recherchierbarkeit

Eine der wesentlichsten neuen Möglichkeiten, die elektronische Publikationen ermöglichen, ist die Recherchierbarkeit über eine große Menge von Dokumenten. Das Suchen im gesamten Text und nicht nur in Metadaten und einem kurzen Abstract ist eine enorme Erweiterung der bisherigen Praxis. Schon heute hat sich allerdings als problematisch erwiesen, daß einfache Volltextsuchen in unstrukturierten Texten eine viel zu hohe Anzahl von Dokumenten mit geringer Relevanz liefern. Wichtigste Aufgabe ist es deshalb, Voraussetzungen zu schaffen, die eine verbesserte precision bei einer Recherche erreichen.

Aus bibliothekarischer und Nutzersicht sind vor allen Dingen die umfangreichen Möglichkeiten und die hohe Qualität der Treffermenge einer Recherche von Bedeutung. Wesentliche Aufgabe aus rechentechnischer Sicht ist die Bereitstellung von Hard- und Software für Datenbanken und Recherchewerkzeuge, die in der Lage sind, die Forderungen zu realisieren. Hierbei sind z.B. kurze Antwortzeiten auch bei großen Mengen von zu durchsuchenden Dokumenten von Bedeutung.

Die folgende Aufzählung listet stichpunktartig inhaltliche Forderungen an eine Recherche auf:

· Suche im gesamten Text (Volltextrecherche)

· Suche nur in Metadaten (Titel, Schlagwörter usw.)

· Nutzung boolescher Ausdrücke (UND, ODER, NICHT) zur Verknüpfung mehrerer Suchbegriffe

· Trunkierung von Begriffen

· Toleranz von Schreibfehlern

· Nachbarschaftssuche

· Möglichkeit der Nutzung regulärer Ausdrücke

· strukturelle Suche in speziell ausgezeichneten Bestandteilen eines Dokuments (z.B. Überschriften, Autoren, Zitate, Orte, Tabellen usw.)

· Suche in mathematischen oder chemischen Formeln oder Noten

· Suche nach Bildteilen in Graphiken und Videos bzw. nach Audiosequenzen in Musikstücken (z.B. „Suche alle Bilder, die in der rechten oberen Ecke einen roten Kreis darstellen")

Sicherlich sind nicht alle dieser Forderungen einfach zu implementieren. Insbesondere die Suche nach nichttextuellen Bestandteilen ist kompliziert, und die Entwicklung entsprechender Werkzeuge ist noch im Anfangsstadium. Allerdings eröffnen sich mit diesen Möglichkeiten völlig neue Dimensionen der Recherche in Dokumente, die z.B. für Wissenschaftler der Kunstgeschichte oder Musikwissenschaft von großer Bedeutung sind.

Für das Erreichen der obengenannten Ziele ist die Verwendung eines Dateiformats mit starken Strukturierungsmöglichkeiten unerläßlich.

Neben der Option, nach Informationen in digitalen Dokumenten gezielt zu suchen, sollte dem Nutzer auch die Möglichkeit gegeben werden, durch thematisch sortierte Mengen von Dokumenten zu navigieren (Browsing). So könnten z.B. die Dissertationen einer Universität nach Fakultäten und Instituten, aber auch nach Wissenschaftszweigen aufbereitet sein. Damit eröffnet sich die Möglichkeit, durch eine fachliche Vorauswahl die Menge der zu durchsuchenden Dokumente einzuschränken bzw. einen Überblick zu vorhandenem Material eines bestimmten Themas zu erhalten.

Präsentation

Wesentlich für eine elektronische Publikation ist ihre adäquate Darstellung entsprechend des jeweiligen Verwendungszweckes. So müssen Rechercheergebnisse präsentiert werden, oder der Nutzer möchte das Dokumente am Bildschirm lesen oder ausdrucken. Die wichtigsten Forderungen sollen stichpunktartig aufgeführt werden:

· Bildschirmdarstellung des gesamten als auch von Teilen (z.B. Kapiteln) des Dokuments

· Ausdruckbarkeit des gesamten als auch von Teilen des Dokuments

· Identität zwischen Bildschirmdarstellung und Ausdruck

· Zitierbarkeit (Seitenidentität zwischen Papier- und verschiedenen digitalen Versionen)

· Integrierte und standardisierte Darstellung von Sonderzeichen, Strukturen, Multimediaelementen

· Nutzbarkeit von Hyperlinks

Sonderzeichen, Formeln, Multimedia, Hypertext

Die vier genannten Punkte stellen besondere Möglichkeiten bei der Erstellung elektronischer Publikationen dar, die bei Papierexemplaren schwer und zum Teil gar nicht zu realisieren sind.

Gerade im wissenschaftlichen Kontext spielt die Integration landessprachspezifischer oder fachspezifischer Sonderzeichen eine besondere Rolle. So können z.B. in der Theologie Dissertationen auch hebräische Zeichen enthalten. Das Dateiformat sollte in der Lage sein, diese Informationen zu speichern. Hierbei ist es sinnvoll, einen Standard zu verwenden, wie ihn beispielsweise Unicode darstellt. Problematisch ist jedoch vielfach nicht die Speicherung von Sonderzeichen im Format sondern die letztendliche Darstellung.

Die Erstellung und Speicherung von z.B. chemischen oder mathematischen Formeln sollte ebenfalls möglich sein. Die Darstellung innerhalb des Dateiformats sollte soweit strukturiert sein, daß eine Recherche auch in diesen Strukturen möglich ist.

Multimediaelemente wie Videos oder Audiosequenzen werden in eigenen Dateiformaten gespeichert, so daß die hier betrachteten Formate in der Lage sein sollten, diese Objekte zu referenzieren und zu integrieren.

Eine Erweiterung, die durch Papierexemplare nicht mehr zu realisieren ist, sind Hypertexte. Dateiformate sollten die Möglichkeit der Integration von Hyperllinks vorsehen.

Zitierbarkeit

Aus bibliothekarischer und Nutzersicht ist es erforderlich, die Zitierbarkeit einer elektronischen Publikation zu sichern. So kann es auch weiterhin Papierexemplare dieser digitalen Dokumente geben oder es existieren verschiedene digitale Versionen für unterschiedliche Anwendungszwecke, so daß hier konkret gesichert sein muß, daß die einzelnen Textseiten in beiden Publikationsformen übereinstimmen, um sie referenzieren zu können.

Digitale Dokumente werden in einer Datenbank auf einem Dokumentenserver gespeichert und werden dort z.B. über einen Uniform Resource Locator (URL) angesprochen. Es ist zu sichern, daß diese Links aus Zitierbarkeitsgründen über längere Zeit erhalten bleiben.

Standardisierung

Bei Standards ist zwischen offenen Standards und Industriestandards zu unterscheiden. Erstere werden meist von einem internationalen Gremium unter Mitarbeit von Wissenschaftlern und Firmenvertretern definiert. Obwohl der Diskussionsprozeß mitunter recht lange dauern kann, weil unterschiedlichste Interessen unter einen Hut gebracht werden müssen, ist doch eine recht hohe Kontinuität in der Entwicklung gewahrt. Die Spezifikationen sind frei verfügbar. Industriestandards werden von Firmen für eigene Produkte entwickelt, sind jedoch aufgrund ihrer Relevanz weit verbreitet. Spezifikationen sind meist frei verfügbar, so daß man nicht unbedingt auf die vom Hersteller angebotene Software angewiesen ist, allerdings hat man wenig Einfluß auf die jeweilige Entwicklung. Weiterhin existiert noch eine große Menge an proprietären Dateiformaten. Diese sind meist dadurch gekennzeichnet, daß sie für spezielle Produkte, z.B eine Textverarbeitung, entworfen worden sind, die Spezifikation nicht offenliegt und sich recht schnell wesentliche Änderungen vollziehen können. Problematisch sind Ergänzungen und Änderungen an Dateiformaten, die Hersteller an Standards für ihre eigenen Produkte vornehmen, um die Möglichkeiten entsprechend ihren Anforderungen zu erweitern. Hierbei kann ein Wildwuchs entstehen, der schnell unüberschaubar wird. Hier hilft nur der konsequente „Rückzug" auf den ursprünglichen Standard.

Für Bibliotheken ist die Verwendung von anerkannten Standards von essentieller Bedeutung, da diese nicht nur Dokumente austauschen wollen, sondern vor allem ihrer Langzeitarchivierungspflicht gerecht werden müssen.

Die Verwendung von offenen Standards oder von Industriestandards ist zu präferieren. Hierbei sind am ehesten Veränderungen abzusehen, auf die dann relativ schnell reagiert werden kann, z.B. mit Konvertierungen. Weiterhin kann man in den meisten Fällen auf Produkte unterschiedlicher Softwareanbieter zurückgreifen. Die Erstellung von Dokumenten in proprietären Formaten sollte nur zugelassen werden, wenn das verwendete Text- oder Satzsystem eine Speicherung in einem besser geeigneten Format zuläßt.

Archivierbarkeit

Eine wesentliche Aufgabe von Bibliotheken ist die Langzeitarchivierung von Dokumenten. Dies ist für die Papierform bei geeigneten klimatischen Bedingungen problemlos über 500 Jahre möglich. Dieser Zeitraum ist aus heutiger Sicht für digitale Dokumente nicht zu sichern.

Günstige Voraussetzungen für eine längerfristige Archivierbarkeit sind eine hohe Strukturierung des Dokuments, die Verwendung offener Standards und gute Konvertierungsmöglichkeiten. Es ist zu sichern, daß Software und Hardware zur Verfügung steht, mit der das Dokument vollständig gelesen werden kann. Falls sich verwendete Dateiformate, Speichermedien oder Programme wesentlich ändern sollten, sind die Dokumente möglichst verlustfrei in ein neues Format zu konvertieren. Selbstverständlich muß auch hier der zukünftige Aufwand für solche Konvertierungen gering gehalten werden.

Speicherplatz auf Festplatten bzw. Bändern sind inzwischen zwar keine kostenkritischen Ressourcen mehr, trotzdem ist es sinnvoll, ein angemessenes Verhältnis von Dokumentinformation und Dokumentgröße zu fordern. Bei einem geschätzten Aufkommen von ca. 20.000 Dissertationen in der Bundesrepublik pro Jahr mit einer durchschnittlichen Seitenzahl von 200 ist schon bei der Speicherung reiner Texte (keine Bilder, Videos) trotz Komprimierung ein erheblicher Speicherplatz nötig.

Aus Sicherheitsgründen ist zumindest zum jetzigen Zeitpunkt die zusätzliche Archivierung eines korrespondierenden Papierexemplars der elektronischen Publikation zu empfehlen. Allerdings gehen hier viele Strukturinformationen verloren, Multimediainformationen wie z.B. Videos oder Hyperlinks lassen sich so gar nicht sichern.

Aufgrund der doch recht jungen Entwicklung auf dem Gebiet der elektronischen Publikationen kann man zum derzeitigen Zeitpunkt keine „Patentrezepte" für eine sichere Langzeitarchivierung angeben. Nach dem Handelsgesetzbuch ist der Begriff Langzeitarchivierung elektronischen Archivsystemen zugeordnet, die Dokumente mindestens 7 Jahre vorhalten müssen. Obwohl dies für die bibliothekarischen Anforderungen sicherlich ein kurzer Zeitraum ist, kann doch schon dieser nicht zweifelsfrei für Dokumente in heute verfügbaren Dateiformaten garantiert werden. Dieser Punkt wird zwangsläufig ein Schwerpunkt der Forschung sein müssen.
 


Bewertung verschiedener Dateiformate

Anhand der im vorangegangenen Abschnitt formulierten Kriterien sollen nun einige gängige Dateiformate bewertet werden. Der erste Abschnitt widmet sich zwar dem weitverbreiteten Format von Microsoft Word, soll jedoch als exemplarisch für eine Vielzahl von Standardformaten der unterschiedlichsten Textverarbeitungssysteme angesehen werden. Es wurde aufgrund seiner hohen Verbreitung ausgewählt.

Microsoft Word

Die meisten der heute gängigen Textverarbeitungssysteme, ob für Windows, MAC-OS oder UNIX-Systeme, speichern die erzeugten Dokumente in einem eigenen Format, das in seltensten Fällen unproblematisch von anderen Systemen gelesen werden kann. So wurde z.B. bei fast jeder neuen Version von MS Word ein neues Standardspeicherformat eingeführt, wobei selbst diese neueren Versionen z.T. Probleme beim Einlesen von Dokumenten in älteren Word-Formaten haben. Ein Grund dafür ist sicherlich die Anforderung, daß das Speichern von Dokumenten schnell und an die Funktionalität des Systems angepaßt zu erfolgen hat. Daraus ergeben sich spezielle Anforderungen z.B. an interne Speicherstrukturen.
 
Verfügbarkeit:  Microsoft Word und Word für Windows sind ausschließlich unter MS-Windows Betriebssystemen, meist auf PC-Basis, verfügbar (Emulationen, z.B. mit Hilfe von WABI, sind möglich). Die Software ist an sich nicht als preisgünstig zu betrachten, wird allerdings sehr häufig als OEM-Software im Bundle mit einem Rechnersystem ausgeliefert und ist damit sehr weit verbreitet. Es kann ohne Zweifel als die derzeit populärste Textverarbeitung angesehen werden. Sie zeichnet sich besonders dadurch aus, daß zumindest der Basis-Funktionsumfang auch für Laien intuitiv bedienbar ist. Software zum reinen Betrachten von MS-Word-Dokumenten ist nur wieder für Windows-Systeme verfügbar. Andere Systeme, insbesondere auf anderen Rechnerplattformen, sind maximal in der Lage, ältere Word-Dateiformate zu verstehen, und das auch nur, wenn das Dokument nicht sehr komplex ist. Dies gilt jedoch in vielen Fällen leider auch für Kompatibilität zwischen einzelnen Word-Versionen. Microsoft hat das Dateiformat mit fast jeder neuen Version geändert. Es kann deshalb nur von einer eingeschränkten Verfügbarkeit gesprochen werden.
Strukturierbarkeit: Jedes moderne Textverarbeitungssystem bietet inzwischen die Möglichkeit der Strukturierung mittels sogenannter Formatvorlagen, so auch Word. Neben standardmäßig mitgelieferten Vorlagen können eigene erstellt oder vorhandene modifiziert werden. Zu beachten ist jedoch, daß im Unterschied zu einer reinen Strukturierung hier meist gleich das Layout implizit mit festgelegt wird, d.h. daß z.B. ein Strukturelement „Überschrift 2" gleichzeitig die Formatierung „Arial 14pt fett" erhält.
Konvertierbarkeit, Austauschbarkeit:  Wie schon unter dem Punkt Verfügbarkeit angedeutet, ist ein problemloser Austausch von Dokumenten im allgemeinen nur möglich, wenn beide Partner dieselbe Softwareversion und Hardwareplattform besitzen. Beim Austausch mit Fremdsystemen sind Konvertierungen in Austauschformate notwendig, die - zumindest bei komplizierteren Dokumenten - selten verlustlos ablaufen. Speziell als Austauschformat hat Microsoft selbst das RTF-Format entwickelt, das von den meisten Systemen gelesen werden kann. Allerdings gibt es inzwischen selbst hier Probleme, z.B. bei RTF-Versionen, die von Word 97 erzeugt werden. Beim Verschicken im Internet muß ein Dokument im Word-Format durch den Mailclient kodiert werden. Die Konvertierbarkeit von MS-Word-Dokumenten hängt damit stark von korrekter Verwendung und Implementation des RTF-Formates ab.
Recherchierbarkeit:  Obwohl inzwischen einige Index-Maschinen auch in der Lage sind, MS-Word zu verarbeiten, kann es doch kaum als sehr geeignetes Format für eine Indexierung angesehen werden. Zum einen ist das Format einem ständigen Wandel unterzogen, auf das nur schleppend reagiert werden kann, falls die komplette Spezifikation überhaupt offenliegt. Zum anderen ist das Format auf eine effiziente Speicherung hin optimiert. Es ist fraglich, inwiefern dieses Format alle Informationen so bereithält, daß die oben angeführten Forderungen an eine Recherche erfüllt werden können. Auch die Suche in Strukturen, wie z.B. Formeln, dürfte sich sehr schwierig gestalten. Hier ist es offensichtlich notwendig, durch Konvertierung ein Zwischenformat (RTF) zu erzeugen, was sich für diese Zwecke besser eignet.
Präsentation:  Das Betrachten von Word-Dokumenten erfolgt entweder im Bearbeitungswerkzeug selbst oder in einem Viewer, der von Microsoft aber nur für Windows-Plattformen verfügbar ist. Das Dokument läßt sich problemlos drucken. Die Bildschirm- und Druckdarstellung ist identisch. Zur Wahrung der Integrität auf anderen Systemen sind weitgehend gleiche Installationen (Druckertreiber, Fonts, Formatvorlagen) notwendig. 
Sonderzeichen, Formeln, Multimedia, Hypertext:  Die Integration von Sonderzeichen ist möglich. Allerdings ist man hier von den auf dem jeweiligen System installierten Fonts abhängig. So wird z.B. bei der Konvertierung eines Sonderzeichens in das RTF-Format die Nummer des Symbols im jeweiligen Font abgespeichert, so daß auf dem Zielsystem dieselben Zeichensätze installiert sein müßten, was insbesondere für UNIX-Systeme schwer realisierbar ist. Formeln lassen sich mit Hilfe des Formeleditors erstellen und integrieren. Das Einbinden von Graphiken in ein Word-Dokument ist ebenso möglich wie die Erstellung von Verweisen auf beliebige andere Objekte. Hypertextlinks sind in neueren Word-Versionen verfügbar.
Standardisierung:  Das Dateiformat von Word ist ein proprietäres Format von Microsoft. Es ist nicht standardisiert und einem ständigen Wechsel unterworfen, der willkürlich vollzogen wird und z.T. sogar Inkompatibilitäten zur eigenen Software erzeugt. Fremdanbieter, die das Format verarbeiten wollen, sind auf die Informationen angewiesen, die Microsoft zur Verfügung stellt. Durch die hohe Verbreitung von Word ist Microsoft auch gar nicht darauf angewiesen, daß andere Systeme das Format lesen können. Damit ist die Zukunftssicherheit nicht gegeben.
Archivierbarkeit:  Obwohl sich ein Word-Dokument über Formatvorlagen strukturieren läßt, kann es nicht als geeignetes Archivierungsformat angesehen werden. Der Wechsel in den Softwareversionen und der benötigten Hardware- und Betriebssystemumgebung ist zu stark, als daß eine Langzeitarchivierung ohne immensen Aufwand möglich wäre. Word-Dokumente müssen vor einer Archivierung konvertiert werden.
Microsoft Word, mit seinem von der jeweiligen Version abhängigen Dateiformat, stellt eine weitverbreitete, einfach zu bedienende und mit einem hohen Funktionsumfang ausgestattete Textverarbeitungssoftware dar, die jedoch nur auf MS-Windows und MAC-OS verfügbar ist. Viele Autoren wissen die Vorteile zu schätzen, und Word ist damit das sicherlich verbreiteteste Textsystem weltweit. Das Dateiformat ist nicht standardisiert und einem ständigen Wandel unterworfen. Es ist für die Recherche nur sehr eingeschränkt nutzbar und für eine Langzeitarchivierung ungeeignet. Eine effiziente Indexierung und Archivierung hängt von der Verfügbarkeit und offenen Spezifikation von Zwischenformaten, wie z.B. RTF, ab. In der Vergangenheit konnten die meisten von Word erzeugten RTF-Formaten von anderen Systemen gelesen werden. Das von der neuesten Version Word 97 erzeugte RTF läßt dies nicht mehr so problemlos zu. Ob dies ein Implementationsfehler oder eine gewollte Entwicklung ist, bleibt abzuwarten.

Die Einschätzung von Microsofts Word-Format läßt sich bis auf wenige Einzelheiten auf Standardformate anderer Systeme, wie z.B. WordPerfect, übertragen.

ASCII-Text

Ein Dokument, das nur aus Zeichen des ASCII-Codes (American Standard Code for Information Interchange) und keinerlei weitere Formatierungen als Zeilenumbrüche oder Tabulatoren kennt, wird im allgemeinen als ASCII-Text bezeichnet, obwohl natürlich strenggenommen ein RTF-Dokument auch solch ein Text ist, da es auch nur aus Zeichen des ASCII-Codes besteht. Der ursprüngliche Code bestand nur aus 127 Zeichen, was schnell als zu wenig erachtet wurde, und ASCII wurde auf 255 Zeichen erweitert. Doch auch dies reicht für länderspezifische Anforderungen, wie z.B. einen chinesischen Zeichensatz, nicht aus. Neue Entwicklungen beziehen sich deshalb auf den auf 255*255 erweiterten Unicode.
 
Verfügbarkeit:  Software zum Erstellen, Verändern und Betrachten ist auf der Rechnerplattform unter allen System verfügbar. Es reicht ein meist zur Grundinstallation gehöriger Editor.
Strukturierbarkeit: Ein ASCII-Text ist bis auf Zeilenumbrüche nicht strukturierbar. Somit können einzelne Textbestandteile nicht besonders gekennzeichnet werden, weder als logisches Element noch mit Hilfe einer Layoutauszeichnung. Dies ist wohl als der größte Nachteil dieses Format zu betrachten.
Konvertierbarkeit, Austauschbarkeit:  ASCII-Texte sind aufgrund ihrer geringen Komplexität äußerst einfach in beliebige andere Formate zu konvertieren. Ein Transport im Internet ist bei Verwendung des eigentlichen 7-Bit-Codes unproblematisch.
Recherchierbarkeit:  Mit ASCII-Texten lassen sich Suchfunktionen wie Volltextsuche, Nutzung boolescher Ausdrücke, Trunkierung, Nutzung regulärer Ausdrücke und Nachbarschaftssuchen realisieren. Dies sind auf den ersten Blick relativ viele Funktionen, die von einer Suchmaschine auch recht einfach implementiert werden können. Allerdings kann man eben auch nur in unstrukturierten textuellen Bestandteilen suchen. ASCII ist damit für herkömmliche Dokumente als Rechercheformat sicherlich brauchbar, erfüllt jedoch keine der mit einer echten elektronischen Publikation verbundenen Forderungen, wie z.B. strukturelle Suchen.
Präsentation:  Dokumente im ASCII-Format lassen sich, auch in Teilen, problemlos am Bildschirm darstellen und drucken. Eine Identität zwischen Druckbild und Bildschirmdarstellung ist jedoch nicht gegeben, was eine Zitierbarkeit wesentlich erschwert.
Sonderzeichen, Formeln, Multimedia, Hypertext:  Eine Integration von Sonderzeichen ist ebensowenig möglich wie das Einbinden von Formeln oder multimedialen Bestandteilen. Hyperlinks sind nicht möglich. Auch das sind fehlende Eigenschaften, die jedoch für elektronische Publikationen essentiell sind.
Standardisierung:  Das Format ist in einem offenen Standard spezifiziert. Es ist seit geraumer Zeit in Anwendung und damit zumindest retrospektiv als zukunftssicher zu betrachten. Es wird jedoch schon recht bald aufgrund seines geringen Zeichenumfangs neuen Entwicklungen wie Unicode weichen müssen.
Archivierbarkeit:  ASCII-Texte sind aufgrund ihrer Standardisierung und der einfachen Konvertierungsmöglichkeiten gut zur Langzeitarchivierung geeignet.
ASCII ist als Dateiformat für elektronische Publikationen nicht geeignet. Obwohl es eine Reihe von Kriterien hervorragend erfüllt, ist es nicht in der Lage, auch nur leicht komplexe Texte, wie z.B. Briefe, adäquat zu speichern und damit insbesondere für wissenschaftliche Arbeiten in der heutigen Zeit nicht mehr verwendbar.

Postscript

Im Jahre 1985 stellte die Fa. Adobe Systems das Format Postscript vor, das sich aufgrund seiner herausragenden Eigenschaften in kurzer Zeit zu einem Industriestandard entwickelte. In Postscript können textuelle und graphische Elemente geräte- und auflösungsunabhängig definiert werden, d.h. die Ausgabe eines Dokuments auf dem Bildschirm und auf dem Drucker ist identisch. Postscript ist eine Seitenbeschreibungssprache und somit stark layoutfixiert, d.h. von einer eventuell früher vorhandenen logischen Struktur eines Dokuments ist nach einer Konvertierung in Postscript nichts mehr zu entdecken.

Ein Postscript-Dokument wird meist durch eine Konvertierung erzeugt, d.h. ein direktes Erstellen von Dateien ist aufgrund der Komplexität und der Layoutorientierung in der Regel nicht möglich. Meist werden Datei- oder Druckerfilter genutzt, die Postscript erzeugen. Viele Drucker besitzen die Fähigkeit, Postscriptdateien direkt zu drucken. Für alle gängigen Plattformen und Betriebssysteme sind gute Werkzeuge zur Erstellung und Konvertierung von Dokumenten frei verfügbar (z.B. Ghostscript). Postscript-Dokumente lassen sich im allgemeinen nicht bearbeiten (eingeschränkte Editierbarkeit ist mit Spezialsoftware möglich).
 
Verfügbarkeit:  Auf allen Plattformen und Systemen ist frei verfügbare als auch kommerzielle Software zur Erzeugung und Darstellung von Postscript-Dokumenten vorhanden. Eine direkte Erstellung ist nicht möglich, sondern die Dateien werden durch Konvertierung gewonnen. Auch von Postscript existieren mehrere Versionen, die aber jeweils klar definiert sind.
Strukturierbarkeit: Postscript ist ein vollständig layoutorientiertes Format, so daß jegliche Strukturierung des Textes, die in dem Ausgangsformat eventuell vorhanden war, verloren geht.
Konvertierbarkeit, Austauschbarkeit:  Eine Konvertierung von Postscript ist allenfalls in ein wenig komplexes Dateiformat, wie z.B. ASCII, oder in ein anderes layoutorientiertes Format, wie z.B. PDF, möglich. Allerdings wird eine Konvertierung von Postscript nur selten eine reale Anforderung sein, da es selbst erst im Ergebnis eines Konvertierungsprozesses entsteht. Im allgemeinen bestehen die Dateien aus 7-Bit-ASCII-Code, der problemlos im Internet ausgetauscht werden kann.
Recherchierbarkeit:  In Postscript lassen sich aufgrund der fehlenden Strukturierung nur ähnlich umfangreiche Recherchemöglichkeiten wie beim ASCII-Format nutzen. Die Indexierung ist jedoch aufgrund der Layoutinformationen und der damit verbundenen Dokumentgrößen aufwendiger. Trotzdem unterstützen aufgrund der hohen Verbreitung des Formates die meisten Index-Maschinen Postscript.
Präsentation:  Postscript läßt sich mit Standard-Werkzeugen am Bildschirm betrachten und ausdrucken. Das Ergebnis ist dabei auf allen Ausgabegeräten identisch. Dokumente lassen sich auch seitenweise ausdrucken und qualitätserhaltend vergrößern wie verkleinern. Die gute Zitierbarkeit wird durch die Layoutorientierung und die Geräteunabhängigkeit erreicht.
Sonderzeichen, Formeln, Multimedia, Hypertext:  Sonderzeichen, Formeln und Graphiken lassen sich je nach Verfügbarkeit im Ausgangsformat problemlos in Postscript integrieren. Die Einbindung anderer multimedialer Bestandteile ist durch Objektreferenzen möglich.
Standardisierung:  Postscript ist ein Industriestandard, da trotz der Entwicklung durch einen Hersteller die Spezifikationen offenliegen und das Format sich in allen Gebieten durchgesetzt hat. Die Entwicklung ist jedoch weitgehend abgeschlossen, da die zukünftigen Bestrebungen sich auf andere Formate (PDF) richten.
Archivierbarkeit:  Postscript läßt sich aufgrund der fehlenden Strukturinformationen schlecht in andere Dateiformate konvertieren und ist somit als alleiniges Format für eine Langzeitarchivierung nicht geeignet.
Postscript ist ein layoutorientiertes Dateiformat, das immer aus anderen Dateiformaten generiert wird. Seine Vorteile liegen in der layoutgetreuen Darstellung des Dokuments auf dem Bildschirm und auf Papier auch unter Einbeziehung von Sonderzeichen, Formeln oder multimedialen Bestandteilen. Die Zitierbarkeit ist gewährleistet. Es ist für die Recherche aufgrund fehlender Strukturierung nicht geeignet. Aus diesem Grunde und nicht zuletzt aufgrund der Dateigrößen ist es auch für die Langzeitarchivierung schlecht einsetzbar. Es kann allenfalls übergangsweise als Sekundärformat zur Archivierung des Layouts eines Dokuments und für die notwendige Zitierbarkeit einer elektronischen Ausgabe genutzt werden.

Portable Document Format - PDF

Dieses Format, das ebenfalls von Adobe entworfen wurde, ist als Weiterentwicklung von Postscript anzusehen. Gerade unter dem Einfluß des World Wide Web war es sinnvoll, ein Format zu entwickeln, das ebenso wie Postscript geräte- und auflösungsunabhängig Dokumente darstellt, andererseits aber auf neue Entwicklungen wie Hyperlinks usw. Rücksicht nimmt. So ist PDF weiterhin eine seitenorientierte Sprache, implementiert aber Features wie Links, Anmerkungen, Bookmarks, interaktive Elemente, sprachspezifische Zeichen und zahlreiche Präsentationsoptionen. Weiterhin wurde das Fonthandling wesentlich verbessert, so daß auch Nutzer, die den einen oder anderen Font nicht zur Verfügung haben, das Dokument ohne Layouteinbußen ansehen können. Durch eine interne Komprimierung konnte die Dateigröße reduziert werden.

PDF erfreut sich inzwischen wachsender Beliebtheit bei der elektronischen Publikation von Dokumenten, nichtzuletzt durch die Verfügbarkeit von Plugins für WWW-Browser, die damit PDF direkt im Fenster darstellen können. Trotzdem wird auch bei diesem Format die eventuell vorhandene Struktur des Ausgangstextes weitgehend vernichtet. Eine interessante Weiterentwicklung, Encapsulated PDF, das Strukturinformationen in für PDF-Dateien wieder verfügbar machen sollte, ist nach Wissen des Autors nicht über einen technical report im Jahre 1995 hinausgekommen, obwohl die Ziele des Projekts recht vielversprechend klangen.
 
Verfügbarkeit:  Für das Betrachten von PDF-Dokumenten stellt Adobe kostenfrei das Programm Acrobat Reader auf fast allen Plattformen zur Verfügung. Er ist auch als Plugin für den Netscape Communicator und den Microsoft Internet Explorer erhältlich. Der Reader integriert dabei Funktionen wie Suche im Dokument, Seitennavigation und Druck. Auch die GNU-Software Ghostscript ist inzwischen in der Lage, PDF-Dateien zu verarbeiten, allerdings mit eingeschränktem Funktionsumfang. PDF-Dokumente werden durch Konvertierung aus einem Quellformat, wie z.B. MS-Word erzeugt. Dazu muß allerdings auf die nur kommerziell verfügbaren Produkte der Acrobat-Reihe, wie Distiller oder Exchange zurückgegriffen werden. Diese erlauben die Erstellung von PDF-Dokumenten direkt aus der eigenen Textverarbeitung heraus und das Einfügen von Bookmarks oder Hyperlinks.
Strukturierbarkeit: Ebenso wie Postscript ist PDF ein layoutorientiertes Format und bietet prinzipiell keine Speicherung von beliebigen strukturellen Zusatzinformationen. Allerdings ist im Gegensatz zu Postscript die Erstellung eines Inhaltsverzeichnisses, das Anbringen von Anmerkungen und interaktiven Elementen und Hyperlinks möglich. Damit kann ein Dokument wenigstens in Grundzügen strukturiert werden.
Konvertierbarkeit, Austauschbarkeit:  Auch für diesen Punkt gilt ähnliches wie für das Postscript-Format. Eine Konvertierung ist nur in ein wenig komplexes oder ein layoutorientiertes Dateiformat sinnvoll. PDF kann eine interne Dateikomprimierung verwenden, so daß dann eine Kodierung vor dem Versand im Internet notwendig ist.
Recherchierbarkeit:  Für PDF-Dokumente lassen sich aufgrund der minimalen Strukturierungsmöglichkeiten nur ähnlich umfangreiche Recherchemethoden wie bei Postscript oder ASCII nutzen. Zumindest ist eine separate Indexierung von Links und Verzeichniseinträgen möglich. Da PDF schon heute, insbesondere als Dokumentenformat, auf Webservern etabliert ist, wird das Format auch von vielen Index-Maschinen unterstützt. 
Präsentation:  PDF-Dokumente lassen sich seitenidentisch sowohl am Bildschirm betrachten als auch ausdrucken. Wie bei Postscript ist die Ausgabe dabei wegen der Layoutorientierung von hoher Qualität. Allerdings wird bei PDF die Navigierbarkeit innerhalb des Dokuments durch Inhaltsverzeichnisse oder die direkte Integration von Hyperlinks wesentlich erleichtert.
Sonderzeichen, Formeln, Multimedia, Hypertext:  Je nach Verfügbarkeit im Ausgangsformat sind Sonderzeichen, Formeln und multimediale Bestandteile in PDF integrierbar. Hyperlinks werden anklickbar eingebunden. 
Standardisierung:  Das PDF-Format hat sich ähnlich wie Postscript trotz der Bindung an einen Hersteller aufgrund seiner hervorragenden Eigenschaften schnell verbreitet und kann dementsprechend als Industriestandard angesehen werden. Allerdings ist die Entwicklung zum derzeitigen Zeitpunkt noch lange nicht abgeschlossen, so daß mit einer Reihe von Änderungen am Format durch Adobe zu rechnen ist.
Archivierbarkeit:  Ähnlich wie bei Postscript ist die alleinige Archivierung von PDF-Dokumenten aufgrund der unzureichenden Strukturierung und den sich daraus ergebenden Konvertierungsproblemen nicht empfehlenswert. Auch die Festlegung auf das Format eines einzigen Herstellers ist trotz der hohen Verbreitung kritisch, da keine konkreten Aussagen über die Zukunft des Formats getroffen werden können.
PDF stellt ein layoutorientiertes Format dar, das in der Lage ist, auflösungs- und geräteunabhängig Dokumente auch mit hohen Anforderungen an die Darstellungsqualität zu speichern. Durch die gute Integrationsmöglichkeit von einigen Strukturierungsmerkmalen und vor allem von Hyperlinks ist dieses Format insbesondere als Präsentationsformat im Internet sehr beliebt. Für Recherchezwecke und für die Langzeitarchivierung ist es aufgrund fehlender umfassender Strukturierungsmöglichkeiten und der proprietären Entwicklung nicht gut geeignet.

Rich Text Format - RTF

Das RTF-Format wurde von Microsoft entwickelt, um den Dokumentenaustausch zwischen verschiedenen Rechnersystemen zu ermöglichen. Primär war hier der Austausch zwischen MS-Word-Versionen auf PC und Macintosh gemeint, jedoch wurde das Format nach und nach in fast alle gängigen Textverarbeitungen integriert, so daß das Speichern und Lesen von RTF-Dokumenten relativ unproblematisch ist. Doch obwohl eine detaillierte Spezifikation des Formats von Microsoft verfügbar ist, existiert doch eine Reihe von Dokumenten, die von diesem oder jenem Textverarbeitungsprogramm nicht gelesen werden kann. Von einer 100%-igen Austauschbarkeit kann deshalb nicht gesprochen werden.
 
Verfügbarkeit:  RTF wurde von Microsoft als Austauschformat spezifiziert. Es wird nicht direkt erzeugt, sondern entsteht mittels Konvertierung oder Export aus einer Textverarbeitung. Durch die freie Verfügbarkeit der RTF-Spezifikation sind viele Textsysteme unterschiedlicher Plattformen in der Lage, diese Dateien zu lesen und auch zu schreiben. Damit hätte man theoretisch ein hervorragendes Austauschformat zwischen unterschiedlichsten Plattformen. Allerdings treten vor allem bei längeren oder komplizierteren Dokumenten (große Tabellen, viele Bilder, Formeln) des öfteren Probleme bei der Verarbeitung auf. Auch scheint sich Microsoft nicht in der Pflicht zu sehen, das RTF-Format zu sich kompatibel zu halten: RTF-Dateien, die von MS Word 97 erzeugt wurden, lassen sich im allgemeinen nicht von Textsystemen anderer Hersteller lesen, was für ein Austauschformat ein äußerst störender Fakt ist.
Strukturierbarkeit: Das RTF-Format ist in der Lage, Dokumente, die unter Benutzung von Formatvorlagen erstellt wurden, adäquat zu repräsentieren. Zwar wird auch hier wieder die Strukturierung mit der Formatierung vermischt, allerdings wird die Formatvorlage am Anfang der Datei definiert, und im Text wird nur noch auf konkrete Elemente Bezug genommen.
Konvertierbarkeit, Austauschbarkeit:  RTF ist generell gut für die Konvertierung geeignet. Durch die offene Spezifikation existiert auch eine Reihe von frei verfügbarer Software, die RTF-Dokumente in andere Formate, wie z.B. HTML, konvertiert. Durch die Beschränkung auf einen 7-Bit-ASCII-Code und die hohe Verfügbarkeit, insbesondere auf anderen Rechnerplattformen, ist RTF für den Austausch von Dokumenten über das Internet gut geeignet.
Recherchierbarkeit:  Das RTF-Format ist relativ leicht zu parsen und kann Strukturen in Form von Formatvorlagen repräsentieren. Somit können die schon bei der Betrachtung des ASCII-Formates genannten Recherchemethoden angewandt und darüberhinaus, bei entsprechend aufgebauter Index-Software, auch Suchbegriffe in bestimmten Formatvorlagenelementen gesucht werden. Allerdings werden auch hier durch die Abhängigkeit vom Ausgangsformat bestimmte Funktionalitäten nicht realisierbar sein. RTF wird aufgrund seiner Verbreitung inzwischen von mehreren Index-Maschinen unterstützt.
Präsentation:  Die Darstellung von RTF-Dokumenten erfolgt meist durch Konvertierung in ein gut darstellbares Format oder Import in die gewünschte Textverarbeitung. So wird RTF häufig als Zwischenschritt bei der Konvertierung nach HTML genutzt, was dann mit einem WWW-Browser gelesen werden kann. Die Erfüllbarkeit der hier geforderten Kriterien hängt also immer vom Zielformat und der Qualität der Konvertierung ab.
Sonderzeichen, Formeln, Multimedia, Hypertext:  Die Integration von Sonderzeichen ist je nach Verfügbarkeit im Ausgangsformat möglich. Allerdings wird dabei auf systemabhängige Komponenten, wie z.B. installierte Fonts, Bezug genommen, was eine Konvertierung erschwert. Graphiken werden direkt in RTF gespeichert. Auch Formeln und Hyperlinks können in das Format übernommen werden.
Standardisierung:  RTF ist ein Dateiformat, das von Microsoft entwickelt wurde. Somit ist es, obwohl die Spezifikation frei und RTF auch als Austauschformat initiiert worden ist, an einen Hersteller gebunden. Obgleich das Format weit verbreitet ist, lassen insbesondere die mit der Einführung von MS-Word 97 aufgetretenen Inkompatibilitäten Zweifel an der Ernsthaftigkeit von Microsoft bei der weiteren Entwicklung in Richtung eines Austauschformats aufkommen.
Archivierbarkeit:  RTF ist ein proprietäres, von Microsoft für den Dateiaustausch definiertes Format, dessen Spezifikation zwar offenliegt, aber trotzdem einem Wandel unterzogen ist, der zu Inkompatibilitäten führen kann. Obwohl RTF strukturierbar ist und gute Voraussetzungen für eine Konvertierung bietet, kann es dennoch nicht für eine Archivierung empfohlen werden. Es ist nicht in der Lage, ein Layout auf hohem Niveau zu repräsentieren. Ebenso ist eine Strukturierung nur auf einer vergleichsweise geringen Ebene möglich.
RTF ist ein proprietäres Dateiformat der Firma Microsoft, das für den Dateiaustausch entwickelt wurde und aufgrund des offen spezifizierten Aufbaus von einer Vielzahl von Systemen auf unterschiedlichen Plattformen unterstützt wird. Insbesondere beim Export von MS-Word-Dateien werden Bestandteile wie Formatvorlagenelemente oder Bilder in das RTF-Format übernommen. Es kann deshalb sinnvoll als Zwischenstufe für die Konvertierung der Ausgangsdokumente in ein zu wählendes Zielformat genutzt werden.

TeX, LaTeX

Wer mit mathematischen Formeln gespickte Arbeiten zu schreiben hat, die auch noch eine hohe Layoutqualität besitzen sollen, der ist mit einiger Sicherheit nicht an TeX vorbeigekommen. TeX ist keine Textverarbeitung, sondern ein Satzsystem, das sich besonders in naturwissenschaftlichen Kreisen durchgesetzt hat. Die Ausgabe eines TeX-Systems braucht sich im allgemeinen nicht hinter einer professionell layouteten zu verstecken. LaTeX ist ein weitverbreitetes Makropaket, das die Arbeit wesentlich vereinfacht und die logische Auszeichnung von Textbestandteilen ermöglicht. Nur wenige Anwender benutzen noch das reine TeX-System, da es für die tägliche Benutzung bei weitem zu kompliziert ist.

Das Eingangsformat für TeX ist ein 7-Bit-ASCII File, das mittels Befehlen den Inhalt und das Layout des Dokuments definiert. So ist es ohne weiteres möglich, komplizierte mathematische Formeln zu erzeugen oder landessprachspezifische Zeichen zu verwenden. So läßt sich die folgende Formel in TeX als \int_{0}^{2} \sqrt{\sin {x}} dx erzeugen:

Die TeX-Datei wird anschließend durch das System kompiliert und standardmäßig eine Datei im DVI-Format erzeugt, die meist nach Postscript gewandelt wird.
 
Verfügbarkeit:  Das TeX-System ist auf allen Rechnerplattformen frei verfügbar. Eine komplette Installation beinhaltet nicht nur das Grundsystem, sondern z.B. auch eine Reihe von Makropaketen für unterschiedlichste Anwendungszwecke und Fontgeneratoren. TeX-Source-Files werden in das DVI-Format übersetzt und danach meist nach Postscript konvertiert. TeX ist ein äußerst leistungsfähiges System, in dem sich komplexe Dokumente in Layoutqualität erstellen lassen. Die Benutzung ist deshalb für Laien ungleich schwieriger zu erlernen als z.B. MS-Word. Die Verbreitung ist aus diesem Grunde außerhalb der Naturwissenschaften äußerst gering.
Strukturierbarkeit: Im TeX-Source-File lassen sich Strukturierungen je nach dem verwendeten Makropaket ähnlich einer Formatvorlage in MS-Word anbringen, wobei auch hier die Strukturierung mit Formatierungsanweisungen zusammenfällt. Allerdings wird in ein TeX-Dokument im allgemeinen auch eine Vielzahl von reinen Layoutanweisungen integriert. 
Konvertierbarkeit, Austauschbarkeit:  TeX läßt sich durch seine Strukturierungsmöglichkeiten gut in andere Formate konvertieren. So existieren z.B. Konverter, die TeX in HTML weitgehend automatisch transformieren. Einschränkungen müssen bei der Layoutqualität und der Darstellung von Sonderzeichen und Formeln hingenommen werden. Der Austausch von TeX-Dateien über das Internet ist problemlos möglich, allerdings müssen auf Empfängerseite die gleichen Makro- und Stylepakete installiert sein, um das Dokument erfolgreich kompilieren und darstellen zu können.
Recherchierbarkeit:  Eine Indexierung von TeX-Dokumenten ist prinzipiell aufgrund der Strukturierung möglich. In der Praxis existieren allerdings wenige Systeme, die dazu in der Lage sind. Einerseits ist die Anwendung fast ausschließlich auf den naturwissenschaftlichen Bereich beschränkt. Andererseits lassen sich durch die Indexierung des Ausgabeformats Postscript ähnliche Recherchemethoden wie dort implementieren. Eine zusätzliche Verarbeitung des TeX-Quelltextes wäre nur dann sinnvoll, wenn z.B. auch direkt in Formeln recherchiert werden könnte, was jedoch einen recht hohen Aufwand bedeutet.
Präsentation:  Das TeX-Format selbst ist für die Darstellung nicht geeignet, sondern wird in einem Kompilationsprozeß meist in das Postscript-Format gewandelt. Somit gilt das dort gesagte auch hier.
Sonderzeichen, Formeln, Multimedia, Hypertext:  Sonderzeichen und mathematische oder chemische Formeln lassen sich mit TeX hervorragend darstellen. Es existieren umfangreiche Sammlungen von Makropaketen und Fonts für diese Anwendungen. Die korrekte Darstellung ist jedoch nur dann gegeben, wenn ein layoutorientiertes Ausgabeformat wie Postscript verwendet wird. Die Einbindung multimedialer Bestandteile, insbesondere von Grafiken, ist über Include- oder Special-Befehle möglich, wobei die Darstellung auch hier von den Fähigkeiten des Präsentationsformats und der dazugehörigen Software abhängt. Dies gilt ebenso für die Integration von Hyperlinks (Projekt HyperTeX).
Standardisierung:  TeX ist nicht standardisiert. Die Mächtigkeit hängt weniger von den definierten Grundelementen, sondern vielmehr von den zahlreich verfügbaren Makro- und Stylepaketen ab. Diese sind jedoch im allgemeinen frei verfügbar. Die Weiterentwicklung von TeX selbst ist eingestellt. Mehrere Gruppen arbeiten langfristig an einer Neuimplementation, um auf die im Laufe der Jahre angewachsenen Ansprüche zu reagieren. Die Entwicklung liegt damit in den Händen von zahlreichen Einzelpersonen und Organisationen, d.h. den Anwendern selbst.
Archivierbarkeit:  TeX bietet scheinbar gute Voraussetzungen für eine Archivierung. Es ist mit Einschränkungen strukturierbar, das Ausgabeformat ist von hoher Layoutqualität und die Entwicklung ist nicht an einen Hersteller gebunden. Die Mächtigkeit von TeX beruht jedoch im wesentlichen auf der Verfügbarkeit von Zusatzpaketen, die jeweils alle in der aktuellen Version und dem TeX-System selbst archiviert werden müßten. Auch ist die TeX auf die Anwendung in den Naturwissenschaften ausgerichtet. Eine Konvertierung anderer Dateiformate nach TeX wäre ein unvertretbarer Aufwand.
TeX ist ein, fast nur in naturwissenschaftlichen Kreisen verbreitetes, recht kompliziert zu bedienendes Text- und Satzsystem, das sich insbesondere durch seine einzigartige Integration von Sonderzeichen und Formeln auszeichnet. Selbst andere Systeme bedienen sich z.T. der Layoutmöglichkeiten von TeX zur Formeldarstellung. Es läßt sich relativ gut strukturieren und ist für eine Konvertierung in andere Formate geeignet. Es wird deshalb die Anforderung bestehen, TeX-Dateien unter Beibehalt möglichst aller Vorteile in andere layoutorientierte aber auch strukturorientierte Formate zu konvertieren.

Standard Generalized Markup Language - SGML

Die Standard Generalized Markup Language wurde im Jahre 1986 als ISO-Standard verabschiedet (ISO 8879). Die eigentliche Entwicklung begann wesentlich früher, und zwar 1969 durch Charles Goldfarb, der die GML entwickelte. Ziel war es, ein Format für den Austausch von Informationen und Dokumenten zu entwerfen, das im Gegensatz zu allen anderen bisher besprochenen Formaten die Struktur eines Dokuments in den Vordergrund stellt und nicht die konkrete Erscheinungsform auf einem bestimmten Medium. Während die meisten Dateiformate mehr oder weniger die Formatierungsanweisungen integrieren, sind solche Informationen in einer SGML-Datei nicht vorhanden. Diese müssen vielmehr in einer separaten Styledefinition festgelegt werden. Die Vorteile liegen klar auf der Hand: Ein und dasselbe SGML-Dokument läßt sich durch die Angabe verschiedener Styles auf unterschiedlichen Medien ausgeben.

Streng genommen ist SGML aber kein Dateiformat wie TeX oder auch HTML, vielmehr eine Metasprache, in der sogenannte Document Type Definitions (DTD) beschrieben werden können. Eine DTD wird für eine Klasse gleichartiger Dokumente (z.B. Geschäftsbriefe) definiert. Wenn also von einem SGML-Dokument gesprochen wird, ist meist ein Dokument gemeint, das mit einer durch die SGML-Metasprache definierten DTD strukturiert wurde. Eine DTD besteht aus der Aufzählung und Verkettung logischer Elemente, z.B. Überschriften, Absätze, Fußnoten usw. Dabei wird genau festgelegt, in welchem Kontext, in welcher Reihenfolge und wie oft diese Elemente im Dokument vorkommen können oder müssen. Diese Elemente werden als Tags bezeichnet und werden üblicherweise durch spitze Klammern begrenzt, z.B. <Heading1>. Ein SGML-Dokument wird dann entsprechend einer anzugebenden DTD erstellt. Das Erscheinungsbild wird wie erwähnt dabei nicht festgelegt - das ist Sache eines SGML-Browsers oder eines anderen Konverters, der unter Zuhilfenahme eines Stylefiles Überschriften der Größe 1 z.B. auf Arial 14pt festlegt.
 
Verfügbarkeit:  Die Erstellung von SGML-Dokumenten kann mit einem normalen Editor erfolgen, was aber kompliziert ist, da ja die durch die DTD festgelegten und z.T. komplizierten Regeln beachtet werden müssen. Echte SGML-Editoren (z.B. Author/Editor oder Framemaker+SGML) sind da wesentlich komfortabler. Diese sind jedoch in der Regel nur kommerziell und auch nur für bestimmte Plattformen verfügbar. Die Preise für diese Systeme sind im allgemeinen sehr hoch und für einen Privatanwender derzeit nicht erschwinglich. Auch die Bedienung dieser Systeme erfordert weit mehr Erfahrung und Übung als beispielsweise das Schreiben eines Textes mit Word für Windows. Der Markt an public-domain-Editoren beschränkt sich auf einen SGML-Modus von Emacs. Zum Parsen und Konvertieren von Dokumenten stehen weit mehr Tools für unterschiedlichste Plattformen zur Verfügung.
Strukturierbarkeit: Die Erstellung einer SGML-Datei nach einer bestimmten DTD bedeutet Strukturierung schlechthin. Durch die DTD wird genau festgelegt, welche Elemente das Dokument enthalten darf und an welcher Stelle sie auftreten dürfen. Eine Verknüpfung mit Layoutinformationen findet nicht statt.
Konvertierbarkeit, Austauschbarkeit:  SGML läßt sich aufgrund seiner Strukturierung und der darunterliegenden Definition in Form einer DTD sehr gut in andere Formate konvertieren. Für die Darstellung des Layouts ist jedoch eine korrespondierende Styledefinition notwendig. Die Konvertierung nach SGML ist schwieriger zu bewerkstelligen, da ja durch die Strukturierung mehr Informationen über den Text vorliegen müssen. So ist z.B. eine Konvertierung von Postscript nach SGML nur durch manuelles Einfügen der Tags zu erreichen. Gute Voraussetzungen bieten Dateiformate, die konsequent mit Formatvorlagen umgehen können. Hier ist nur die Struktur- von der Layoutinformation zu trennen und die Formatvorlagenelemente adäquat in die von der DTD vorgegebene Hierarchie einzuordnen. Ein SGML-Dokument ist normalerweise im 7-Bit-ASCII-Code geschrieben, was eine Austauschbarkeit per Email ermöglicht. Auch hier ist für eine vollständige Darstellung eine Styledefinition notwendig.
Recherchierbarkeit:  SGML ist sehr gut für Recherchezwecke geeignet. So lassen sich über die gängigen Suchverfahren hinaus vor allen Dingen strukturelle Suchen verwirklichen. Z.B. kann in der DTD ein Tag für Orte oder Länder vorgesehen werden, nach dem dann gezielt recherchiert werden kann. Ebenso lassen sich z.B. chemische oder mathematische Formeln nach bestimmen Bestandteilen durchsuchen. Problematisch ist die z.Z. noch mangelhafte Unterstützung von Index- und Suchmaschinen. Nur wenige, auch kommerzielle Anbieter sind in der Lage, einen angemessenen Funktionsumfang zur Unterstützung der Recherchepotentiale in SGML anzubieten.
Präsentation:  Die Darstellung von SGML-Dateien ist an das Vorhandensein eines Stylefiles geknüpft, der das Aussehen der einzelnen in der DTD definierten Tags beschreibt. Dabei kann entweder ein echter SGML-Browser (z.B. Softquads Panorama) zum Einsatz kommen, oder das SGML-Dokument wird in Kombination mit dem Style in ein anderes Format (z.B. HTML) konvertiert und mit den hier verfügbaren Viewern dargestellt. Hiervon ist auch die Darstellung von Sonderzeichen, Hyperlinks oder multimedialen Bestandteilen abhängig. Die Identität zwischen Bildschirm- und Druckausgabe ist im allgemeinen nicht gegeben. Daraus resultiert die Problematik der Zitierbarkeit, da für unterschiedliche Ausgabemedien verschiedene Styles existieren oder die Konvertierung in andere Formate erfolgt. Hier sind im allgemeinen Eingriffe am SGML-Quelltext selbst vorzunehmen.
Sonderzeichen, Formeln, Multimedia, Hypertext:  Sonderzeichen können mit beliebigen Standards, z.B. ISO 8859 oder Unicode, in SGML implementiert werden. Problematisch ist allerdings die letztendliche Darstellung des Dokuments, da die meisten Browser nicht in der Lage sind, die notwendige Vielzahl von Zeichenstandards zu unterstützen. Beliebige Objekte lassen sich über Referenzen in eine SGML-Datei einbinden. Auch hier ist es Aufgabe der Darstellungssoftware, diese Objekte adäquat darzustellen. Gleiches gilt für die Einbindung und Darstellung von Hyperlinks.
Standardisierung:  SGML wurde 1986 unter der Nummer 8879 als ISO-Standard verabschiedet. Es ist also nicht herstellerabhängig. 
Archivierbarkeit:  SGML eignet sich hervorragend für die Archivierung von Dokumenten, da es ein Maximum an Zusatzinformationen zum Text speichert. Es ist ein offener, internationaler Standard und sehr gut in andere Dateiformate konvertierbar. Für die Layoutdarstellung ist eine Styledefinition in einem möglichst ebenfalls standardisierten Format notwendig. 
SGML ist eine Metasprache zur strukturellen Beschreibung von Dokumentklassen und international standardisiert. Es eignet sich aufgrund der ausgezeichneten Möglichkeiten zur Dokumentenstrukturierung und der offenen Standardisierung besonders für die Recherche und Archivierung. Das Layout muß in einer separaten Styledefinition oder in einem anderen Dateiformat gespeichert werden. Eine direkte Erstellung von SGML-Dateien ist für die meisten Anwender zu kompliziert, so daß Konvertierungsmöglichkeiten aus anderen Formaten vorgesehen werden müssen.

Hypertext Markup Language - HTML

Mit der Entwicklung des WWW als völlig neuartigem Medium für den Informationsaustausch im Internet wurde die Sprache bzw. das Dateiformat HTML kreiert, wobei nicht nur Texte, sondern auch Graphiken integriert werden sollten und vor allen Dingen auch Hyperlinks auf andere Dokumente gesetzt werden können. Mit der rasanten Verbreitung des WWW wurde eine Standardisierung notwendig, die durch das W3-Konsortium vorangetrieben wurde. Man orientierte sich dabei an SGML und beschrieb HTML als eine Dokumenttypdefinition (DTD), so daß beliebige Dokumente damit im Internet bzw. WWW publiziert werden konnten. Obwohl SGML die Trennung von Struktur und Layout vorsieht, konnte das bei HTML nicht durchgehalten werden, so daß viele Tags nicht nur eine logische, sondern auch physische Layoutdefinition vornehmen. Um dieses Problem zu beheben, wurden und werden Style-Standards, wie z.B. CSS - Cascading Style Sheets, entwickelt, die z.T. schon in aktuellen WWW-Browsern implementiert sind.

Je nach Unterstützung durch die Softwarehersteller ist eine Migration nach XML abzusehen, die eine strenge Festlegung auf ein wohldefiniertes Set von HTML-Tags überflüssig macht. XML besitzt einen eingeschränkten Funktionsumfang gegenüber SGML, jedoch lassen sich wie dort DTDs für beliebige Dokumentklassen entwickeln, so daß man nicht wie bei HTML auf ein abgegrenztes Set von Tags angewiesen ist. Der große Vorteil wird darin bestehen, daß die Browser-Hersteller schon jetzt dabei sind, ihre Programme XML-fähig zu machen. Dazu muß für jedes Dokument ein entsprechender Style verfügbar sein, da die Browser dann nicht mehr eine eigenmächtige Formatierung durchführen. Für HTML wurden in vielen Browsern schon erste Implementationen der „Cascading Style Sheets" (CSS) vorgenommen, die z.T. jedoch untereinander inkompatibel sind. Für XML scheint sich die „eXtended Style Language" (XSL), eine Untermenge von DSSSL, durchzusetzen.
 
Verfügbarkeit:  HTML-Dokumente lassen sich entweder in einem ganz normalen Editor erstellen oder wesentlich komfortabler mit einem der zahlreichen, z.T. frei verfügbaren HTML-Editoren erstellen. Diese unterstützen bei der Auswahl der Tags und ihrer korrekten Anwendung und sind teilweise wie WYSIWYG-Systeme aufgebaut. Für die Darstellung von HTML kommen sogenannte Browser zum Einsatz, die fast immer frei verfügbar sind. Am verbreitetsten sind der Internet Explorer von Microsoft (nur für Windows) und der Navigator bzw. Communicator von Netscape (für Windows, MAC, Unix).
Strukturierbarkeit: Die standardisierten Varianten von HTML können als durch die SGML-Sprache definierte DTDs aufgefaßt werden und bieten somit alle Möglichkeiten der Strukturierung. Allerdings muß man sich hier auf das vorgegebene Tag-Set beschränken und für alle Dokumente anwenden. Auch sind mit vielen Tags bereits implizit Layoutinformationen verbunden, die aber durch Styledefinition überschrieben werden können.
Konvertierbarkeit, Austauschbarkeit:  Das HTML-Format läßt sich aufgrund der Strukturierbarkeit gut aus anderen Dateiformaten erzeugen und auch selbst in andere Formate konvertieren. Insbesondere mit Standardformatvorlagen anderer Systeme geschriebene Dokumente lassen sich gut und weitgehend automatisch auf die Tag-Struktur von HTML abbilden. Wie auch bei SGML ist jedoch das Layout gesondert zu spezifizieren, da die Browser für alle Tags eine Standardformatierung anwenden, die nicht immer den Wünschen der Anwender entspricht. 
Recherchierbarkeit:  Prinzipiell gelten für die Recherchierbarkeit von HTML die gleichen Aussagen wie für SGML. Allerdings kann nur über solche Textbestandteile strukturell recherchiert werden, die auch von der HTML-DTD definiert werden. HTML wird von einer Vielzahl von Index- und Suchmaschinen unterstützt, wobei aber vielfach nur Metainformationen und der Volltext, nicht jedoch die Kombination HTML-Tag:Inhalt verarbeitet wird. 
Präsentation:  Zur Darstellung von HTML ist im Gegensatz zu SGML keine Styledefinition notwendig, da viele Tags allein schon Layoutbedeutung haben und die Browser eine Standardformatierung vornehmen, die jedoch durch Verwendung von Styles überschrieben werden kann. HTML-Browser sind im allgemeinen in der Lage, Sonderzeichen (abhängig von Fonts) und einfache multimediale Bestandteile wie Grafiken integriert darzustellen.
Sonderzeichen, Formeln, Multimedia, Hypertext:  HTML ist in der Lage, Sonderzeichen auf der Basis verschiedener Standards zu integrieren. So können z.B. direkt die Ziffer-Codes von ISO-8859 oder Unicode, aber auch deren verbale Umschreibungen in Form von Entities dargestellt werden. Deren Präsentation ist allerdings oft vom System, insbesondere von den installierten Fonts abhängig. Die Darstellung von Formeln ist über spezielle HTML-Tags, die z.Z. kaum ein Browser implementiert hat, oder über die Einbindung von Grafiken möglich. Über Links lassen sich beliebige Dokumenttypen einbinden, wobei deren Darstellbarkeit von der installierten Browser-Software abhängig ist.
Standardisierung:  HTML wird vom W3-Konsortium standardisiert. Die aktuelle Version ist 4.0. Allerdings beschränken sich die führenden Browser-Hersteller nicht auf diesen Standard, sondern implementieren eigene Tags, die meist vom Konkurrenzprodukt nicht interpretiert werden können. Ein konsequenter HTML-Einsatz kann deshalb nur unter Verzicht auf die proprietären, jedoch manchmal sinnvollen Tags erfolgen. Es ist abzuwarten, inwiefern die Weiterentwicklung von HTML zugunsten von XML, wo die Beschränkung auf ein bestimmtes Tag-Set wegfällt, aufgegeben wird.
Archivierbarkeit:  Bei Verwendung eines verabschiedeten HTML-Standards kann das Format als Übergangslösung für die Archivierung eingesetzt werden. Es läßt sich im Bedarfsfall aufgrund der guten Strukturierbarkeit in andere Formate konvertieren. Allerdings muß das Layout separat in einer Styledefinition oder einem anderen Format festgehalten werden. Auch können aufgrund des festen Tag-Sets keine durch die Autoren festgelegten, zusätzlichen strukturellen Informationen archiviert werden.
HTML ist ein durch eine SGML-DTD definiertes Dateiformat, das vor allem durch seinen Einsatz als Standardsprache zur Gestaltung von Dokumenten im World Wide Web sehr weit verbreitet ist. Es ist leicht aus anderen Formaten zu erzeugen und damit zur Präsentation von Dokumenten gut geeignet. Es müssen jedoch im Ausgangsformat vorhandene Strukturelemente an HTML angepaßt und das Layout durch Erzeugung von Styles definiert werden.



Matrix zur Bewertung von Dateiformaten(3)
 
Anforderung an das Dateiformat / Dateiformat MS Word ASCII-Text Postscript Portable Document Format Rich Text Format TeX, LaTeX SGML HTML XML(4)
Verfügbarkeit 

Erstellungswerkzeuge

O X X O X X O X O
Verfügbarkeit 

Bearbeitungswerkzeuge

O X - - X X O X O
Strukturierbarkeit O - - - O O X O X
Recherchierbarkeit O O O O O O X O X
Konvertierbarkeit O X - - X X X X X
Präsentation O X X X O X O X O
Hypertextfähigkeit O - - X O O X X X
Zitierbarkeit X - X X X O O O O
Standardisierung - X O O O O X X X
Archivierbarkeit - X O O O O X O X
- - nicht oder nur mit starken Einschränkungen erfüllt; O - mit Einschränkungen erfüllt; X - mit wenigen oder gar keinen Einschränkungen erfüllt
 


Zusammenfassung

Ziel dieser Arbeit war es allgemeine Anforderungen an Dateiformate für die elektronische Publikation von Dokumenten zu formulieren. Anhand dieser Kriterien wurden gängige Formate auf ihre Eignung überprüft. Diese Studienarbeit ist im Rahmen des durch das Hochschulsonderprogramm III geförderten Projekts „Elektronische Publikation von Dissertationen" von Bibliothek und Rechenzentrum der Humboldt-Universität zu Berlin entstanden. Aus diesem Grunde soll, die vorangegangenen Ergebnisse auf diesen Einsatzzweck beziehend, ein Vorschlag für den Umgang mit Dateiformaten im Rahmen des Projekts unterbreitet werden.

Jeder Promovend wird durch die jeweilige Promotionsordnung der Fakultät zur Veröffentlichung seiner Dissertation verpflichtet. Dies konnte bisher auf drei verschiedene Arten geschehen: Abgabe von Papierexemplaren in der Bibliothek (30-150), Abgabe von wenigen Papierexemplaren und Microfiches oder die Veröffentlichung in einem Verlag. Je nach gewählter Option war dies für den Promovenden mit erheblichen Kosten verbunden. Des weiteren werden Dissertationen auch heute noch als „graue Literatur" behandelt, d.h. sie werden recht selten ausgeliehen oder zitiert. Die genannten Nachteile können durch eine elektronische Publikation ausgeglichen werden. Durch eine Veröffentlichung auf einem Dokumentenserver kann das Kopieren von zahlreichen Papierexemplaren entfallen, die Arbeiten sind auf einfache Art und Weise einer großen Öffentlichkeit zugänglich, und es ergeben sich völlig neuartige Möglichkeiten der Recherche und der Integration multimedialer Bestandteile.

Bei der elektronischen Veröffentlichung einer Dissertation tritt jedoch auch eine Reihe von technischen(5) Problemen auf, die gelöst werden muß. Die Promovenden erstellen die Dokumente in unterschiedlichsten Textverarbeitungen inklusive deren zahlreichen Versionen. Ein einfaches Kopieren des Originaldokuments auf einen Dokumentenserver ist aus Software-Verfügbarkeitsgründen nicht akzeptabel. Die Dissertationen müssen konvertiert werden, was bei einer durchschnittlichen Zahl von 350 Promotionen an der HU und ca. 21.000 in der Bundesrepublik jährlich weitgehend automatisch geschehen muß. Dies setzt eine gewisse Strukturierung der Ausgangsdokumente voraus. Die Nutzer erwarten vielfältige Recherchemöglichekeiten, wie unter Punkt 2.4 aufgeführt. Die Arbeiten sollen im Volltext am Bildschirm lesbar und ausdruckbar sein. Die Bibliothek ist verpflichtet, die Dissertationen über einen langen Zeitraum zu archivieren. Die Zitierbarkeit auf Basis von Seitenzahlen der Papier- und der elektronischen Version ist zu sichern.

All diese Forderungen lassen sich durch die Anwendung nur eines Dateiformats derzeit nicht erfüllen. Es sind deshalb Formate für die einzelnen Einsatzzwecke auszuwählen und entsprechende Konvertierungsmöglichkeiten zu schaffen.

Für die Archivierung und Recherche wird SGML empfohlen. Es handelt sich um einen offenen Standard, der Strukturen von Dokumenten beschreibt. SGML ist deshalb einfach in zukünftige Formate zu konvertieren, was für die Langzeitarchivierung von großer Bedeutung ist. Weiterhin wird das größte Maß an Recherchemethoden unterstützt. Vor allen Dingen die Möglichkeit der strukturellen Suche in beliebigen Textbestandteilen und nicht nur einer kleinen Menge von Metainformationen stellt eine völlig neue Qualität dar. Es lassen sich so wesentlich gezieltere Suchanfragen formulieren (höhere precision).

Die Erstellung von Dokumenten direkt in einer durch SGML definierten DTD ist jedoch aus Verfügbarkeitsgründen (s. 1.1) nur selten möglich. Vielmehr werden die Promovenden die Dissertationen in den in ihrem jeweiligen Fachgebiet üblichen oder aus persönlichen Gründen präferierten Textsystem schreiben. Weit verbreitet sind Microsoft Word und TeX. Da SGML jedoch strukturierte Informationen voraussetzt, ist eine Konvertierung nur adäquat möglich, wenn Mittel wie Formatvorlagen (z.B. Word) oder Makros (z.B. TeX) konsequent eingesetzt werden. Dabei ist die Vorgabe für Dissertationen geeigneter Formatvorlagen empfehlenswert. Die Autoren sind bei der Anwendung zu unterstützen. Einige Formate eignen sich nicht als Ausgangsformat, wie z.B. HTML, da hier nur ein fest definiertes Set von Strukturierungen zur Verfügung steht und damit Recherchemöglichkeiten eingeschränkt werden. Es ist deshalb sinnvoll, sich auf einige Ausgangsformate zu beschränken.

Da SGML keine Layoutinformationen speichert, ist die Speicherung des Layouts in einer separaten Styledefinition, die einem entsprechenden Standard (z.B. DSSSL) folgt, notwendig. Der Style läßt sich aus einer vorgegebenen Formatvorlage ableiten, da diese meist implizit ein Layout vorgibt, was der Autor jedoch verändern kann.

Für die Präsentation der Dokumente werden zum jetzigen Zeitpunkt zwei Formate vorgeschlagen. Für den Download des Volltextes eines Dokuments eignet sich aufgrund seiner hohen Layoutqualität das PDF-Format. Damit besteht die Möglichkeit, die Datei komplett zu betrachten und zu drucken. Diese PDF-Datei läßt sich unter Verwendung von einheitlichen Postscript-Treibern und der Adobe-Software Acrobat Distiller aus den meisten Ausgangsformaten erzeugen. Für die gezielte Präsentation von Suchergebnissen ist es jedoch nicht sinnvoll, das gesamte Dokument zu übertragen. Hierfür eignet sich HTML, so daß z.B. für jedes Kapitel eine separate Datei erzeugt wird, die dann von einem WWW-Browser angezeigt werden kann. Eine andere Variante wäre die Online-Erzeugung von HTML-Dokumenten als Ergebnis einer individuellen Recherche.

Zusammengefaßt ergibt sich daraus folgende Verfahrensweise: mittels Formatvorlagen oder anderen Makros erzeugte Dokumente werden nach SGML in eine bestimmte DTD und ein Stylefile konvertiert. Gleichzeitig wird aus der Originaldatei ein PDF-Dokument und aus der SGML-Datei eine, am Inhaltsverzeichnis der Arbeit orientierte Menge von HTML-Dateien erzeugt. Das SGML-Dokument wird archiviert und im Recherchesystem indexiert. Die Präsentation von Suchergebnissen erfolgt dagegen in HTML. Der Download des PDF-Dokuments kann dann zum Lesen oder Drucken des kompletten Volltextes dienen.

Die Zitierbarkeit aus Seitenbasis sowohl der Papier-, der HTML- als auch der PDF-Version kann derzeit nur gesichert werden, wenn manuell Zusatzeinträge für Seitenzahlen in das SGML-Dokument eingefügt werden. Dies ist sehr aufwendig, resultiert aber daraus, daß sich durch notwendige Vorarbeiten zur Konvertierung nach SGML Seitenverschiebungen im Originaldokument ergeben.

Die vorgeschlagene Lösung erscheint auf den ersten Blick kompliziert, jedoch lassen sich unter Einhaltung gewisser Prämissen zahlreiche Abläufe weitgehend automatisieren. Dazu sind natürlich entsprechend umfangreiche Entwicklungsarbeiten zu leisten.

Weiter zu verfolgen ist die Entwicklung von XML. Hier können die Strukturierungsmöglichkeiten von SGML genutzt werden, und es zeichnet sich ab, daß die Browserhersteller XML und einen entsprechenden Stylestandard unterstützen werden, so daß der Konvertierungsschritt nach HTML und eventuell auch PDF entfallen könnte.
 



Thesen
 
  1. Für die elektronische Publikation von wissenschaftlichen Hochschulschriften ist insbesondere unter den Aspekten der Recherchierbarkeit und der Langzeitarchivierung ein Dateiformat zu verwenden, das die Struktur eines Dokumentes so genau wie möglich widergibt. Das Layout ist getrennt zu beschreiben. Für diesen Einsatzzweck eignet sich SGML.
  2. Für Gruppen von verwandten Wissenschaftszweigen sind Dokumenttypdefinitionen zu entwickeln, die den Erfordernissen der Autoren entsprechen. Besondere Berücksichtigung müssen multimediale und fachspezifische Anforderungen finden, wie z.B. chemische und mathematische Formeln, landessprachliche Zeichen, Videosequenzen, 3D-Modelle oder Noten.
  3. Für die wichtigsten Textverarbeitungssysteme und ihre Dateiformate sind Vorgaben zu entwickeln, die eine möglichst automatisierte Konvertierung in ein SGML-Dokument ermöglichen. Die Autoren der Dokumente sind bei der Umsetzung der Vorgaben zu unterstützen.
  4. Für das Lesen am Bildschirm und das Ausdrucken ist ein weitverbreitetes Dateiformat zu wählen, das auch hohe Anforderungen an das Layout eines Dokuments erfüllen kann. Hierfür eignet sich PDF (Portable Document Format). Dabei ist aus Gründen der Zitierbarkeit auf Seitenidentität zwischen einer eventuell vorhandenen Papier-, der HTML- und der PDF-Version zu achten.
 

Literaturverzeichnis

Adobe Systems: Portable Document Format Reference Manual. 1993

Feuerstein, R. : SGML - Einführung, Beispiele, Tools. Seminararbeit Uni Würzburg 1996

Grötschel, M.; Lügger, J. : Aufbau elektronischer Informations- und Kommunikationsstrukturen. Technical Report TR 95-10, Konrad-Zuse-Zentrum für Informationstechnik Berlin.

Grötschel, M.; Lügger, J. : Wissenschaftliche Kommunikation am Wendepunkt - Bibliotheken im Zeitalter globaler elektronischer Netze. Technical Report TR 95-1, Konrad-Zuse-Zentrum für Informationstechnik Berlin.

Martin, N. : Bibliothekarische Anforderungen betr. der elektronischen Publizierung von Dissertationen. Projektpapier "Digitale Dissertationen" , 1997.

Martin,N.; Schirmbacher,P. : Die elektronische Publikation von Dissertationen an der Humboldt-Universität zu Berlin. RZ-Mitteilungen Nr. 14, 1997.

Odlyzko, A. : Tragic Loss or good riddance? The impending demise of traditional scholarly journals. AT&T Bell Laboratories, 1994

Ohst, D. ; Schirmbacher, P. : Zur Wahl von Dateiformaten für die elektronische Publikation von Dissertationen an der Humboldt-Universität zu Berlin. Rechenzentrum der HU, 1996

Oßwald, A. : Elektronische Volltexte im Internet. Fachhochschule Köln, 1995.

Rieger, W. : SGML für die Praxis. Springer-Verlag, 1995.

Microsoft Corporation: RTF Specification v. 1.5

VOI Verband Optische Informationssysteme e.V.: Grundsätze der elektronischen Archivierung, 1997

Smith, P.: Block-Based Formatting with Encapsulated PDF. University of Nottingham, 1995

http://www.w3.org/XML/

http://www.microsoft.com/standards/xml/

http://medoc.informatik.tu-muenchen.de/

http://www.netzwelt.com/selfhtml/

http://www.educat.hu-berlin.de/diss_online/

http://xxx.lanl.gov/hypertex


Fußnoten

1. Obwohl das Wort Format schon in der Abkürzung steckt wird dennoch aus sprachlichen Gründen auch vom RTF- bzw. PDF-Format gesprochen.

2. In dieser Arbeit werden ausschließlich Dateiformate für Texte untersucht. Bild-, Audio- oder Videoformate werden nicht betrachtet.

3. Die Matrix faßt in tabellarischer Form die Bewertungen zusammen. Die dreistufige Klassifikation ist jedoch nicht in der Lage, konkrete Eigenschaften eines Formates genau zu erfassen. Deshalb sollte die Tabelle nicht ohne die vorhergehenden verbalen Erläuterungen gelesen werden.

4. Obwohl XML in der Tabelle erwähnt wird, konnte aus zeitlichen Gründen keine ausführliche Behandlung im Text vorgenommen werden. Durch die recht junge Entwicklung sind hier Änderungen insbesondere bei der Verfügbarkeit von Werkzeugen und Darstellungssoftware zu erwarten.

5. Die vielfältigen Probleme rechtlicher Art, die beim elektronischen Publizieren auftreten sollen, in diesem Zusammenhang außer acht gelassen werden.