Show simple item record

1998-03-01Buch DOI: 10.18452/9117
Dateiformate für das elektronische Publizieren
dc.contributor.authorOhst, Daniel
dc.date.accessioned2017-06-17T00:04:40Z
dc.date.available2017-06-17T00:04:40Z
dc.date.created1998-03-01
dc.date.issued1998-03-01
dc.date.submitted1998-03-01
dc.identifier.urihttp://edoc.hu-berlin.de/18452/9769
dc.description.abstractZiel dieser Arbeit war es allgemeine Anforderungen an Dateiformate für die elektronische Publikation von Dokumenten zu formulieren. Anhand dieser Kriterien wurden gängige Formate auf ihre Eignung überprüft. Diese Studienarbeit ist im Rahmen des durch das Hochschulsonderprogramm III geförderten Projekts "Elektronische Publikation von Dissertationen" von Bibliothek und Rechenzentrum der Humboldt-Universität zu Berlin entstanden. Aus diesem Grunde soll, die vorangegangenen Ergebnisse auf diesen Einsatzzweck beziehend, ein Vorschlag für den Umgang mit Dateiformaten im Rahmen des Projekts unterbreitet werden. Jeder Promovend wird durch die jeweilige Promotionsordnung der Fakultät zur Veröffentlichung seiner Dissertation verpflichtet. Dies konnte bisher auf drei verschiedene Arten geschehen: Abgabe von Papierexemplaren in der Bibliothek (30-150), Abgabe von wenigen Papierexemplaren und Microfiches oder die Veröffentlichung in einem Verlag. Je nach gewählter Option war dies für den Promovenden mit erheblichen Kosten verbunden. Des weiteren werden Dissertationen auch heute noch als ?graue Literatur" behandelt, d.h. sie werden recht selten ausgeliehen oder zitiert. Die genannten Nachteile können durch eine elektronische Publikation ausgeglichen werden. Durch eine Veröffentlichung auf einem Dokumentenserver kann das Kopieren von zahlreichen Papierexemplaren entfallen, die Arbeiten sind auf einfache Art und Weise einer großen Öffentlichkeit zugänglich, und es ergeben sich völlig neuartige Möglichkeiten der Recherche und der Integration multimedialer Bestandteile. Bei der elektronischen Veröffentlichung einer Dissertation tritt jedoch auch eine Reihe von technischen(5) Problemen auf, die gelöst werden muß. Die Promovenden erstellen die Dokumente in unterschiedlichsten Textverarbeitungen inklusive deren zahlreichen Versionen. Ein einfaches Kopieren des Originaldokuments auf einen Dokumentenserver ist aus Software-Verfügbarkeitsgründen nicht akzeptabel. Die Dissertationen müssen konvertiert werden, was bei einer durchschnittlichen Zahl von 350 Promotionen an der HU und ca. 21.000 in der Bundesrepublik jährlich weitgehend automatisch geschehen muß. Dies setzt eine gewisse Strukturierung der Ausgangsdokumente voraus. Die Nutzer erwarten vielfältige Recherchemöglichekeiten, wie unter Punkt 2.4 aufgeführt. Die Arbeiten sollen im Volltext am Bildschirm lesbar und ausdruckbar sein. Die Bibliothek ist verpflichtet, die Dissertationen über einen langen Zeitraum zu archivieren. Die Zitierbarkeit auf Basis von Seitenzahlen der Papier- und der elektronischen Version ist zu sichern. All diese Forderungen lassen sich durch die Anwendung nur eines Dateiformats derzeit nicht erfüllen. Es sind deshalb Formate für die einzelnen Einsatzzwecke auszuwählen und entsprechende Konvertierungsmöglichkeiten zu schaffen. Für die Archivierung und Recherche wird SGML empfohlen. Es handelt sich um einen offenen Standard, der Strukturen von Dokumenten beschreibt. SGML ist deshalb einfach in zukünftige Formate zu konvertieren, was für die Langzeitarchivierung von großer Bedeutung ist. Weiterhin wird das größte Maß an Recherchemethoden unterstützt. Vor allen Dingen die Möglichkeit der strukturellen Suche in beliebigen Textbestandteilen und nicht nur einer kleinen Menge von Metainformationen stellt eine völlig neue Qualität dar. Es lassen sich so wesentlich gezieltere Suchanfragen formulieren (höhere precision). Die Erstellung von Dokumenten direkt in einer durch SGML definierten DTD ist jedoch aus Verfügbarkeitsgründen (s. 1.1) nur selten möglich. Vielmehr werden die Promovenden die Dissertationen in den in ihrem jeweiligen Fachgebiet üblichen oder aus persönlichen Gründen präferierten Textsystem schreiben. Weit verbreitet sind Microsoft Word und TeX. Da SGML jedoch strukturierte Informationen voraussetzt, ist eine Konvertierung nur adäquat möglich, wenn Mittel wie Formatvorlagen (z.B. Word) oder Makros (z.B. TeX) konsequent eingesetzt werden. Dabei ist die Vorgabe für Dissertationen geeigneter Formatvorlagen empfehlenswert. Die Autoren sind bei der Anwendung zu unterstützen. Einige Formate eignen sich nicht als Ausgangsformat, wie z.B. HTML, da hier nur ein fest definiertes Set von Strukturierungen zur Verfügung steht und damit Recherchemöglichkeiten eingeschränkt werden. Es ist deshalb sinnvoll, sich auf einige Ausgangsformate zu beschränken. Da SGML keine Layoutinformationen speichert, ist die Speicherung des Layouts in einer separaten Styledefinition, die einem entsprechenden Standard (z.B. DSSSL) folgt, notwendig. Der Style läßt sich aus einer vorgegebenen Formatvorlage ableiten, da diese meist implizit ein Layout vorgibt, was der Autor jedoch verändern kann. Für die Präsentation der Dokumente werden zum jetzigen Zeitpunkt zwei Formate vorgeschlagen. Für den Download des Volltextes eines Dokuments eignet sich aufgrund seiner hohen Layoutqualität das PDF-Format. Damit besteht die Möglichkeit, die Datei komplett zu betrachten und zu drucken. Diese PDF-Datei läßt sich unter Verwendung von einheitlichen Postscript-Treibern und der Adobe-Software Acrobat Distiller aus den meisten Ausgangsformaten erzeugen. Für die gezielte Präsentation von Suchergebnissen ist es jedoch nicht sinnvoll, das gesamte Dokument zu übertragen. Hierfür eignet sich HTML, so daß z.B. für jedes Kapitel eine separate Datei erzeugt wird, die dann von einem WWW-Browser angezeigt werden kann. Eine andere Variante wäre die Online-Erzeugung von HTML-Dokumenten als Ergebnis einer individuellen Recherche. Zusammengefaßt ergibt sich daraus folgende Verfahrensweise: mittels Formatvorlagen oder anderen Makros erzeugte Dokumente werden nach SGML in eine bestimmte DTD und ein Stylefile konvertiert. Gleichzeitig wird aus der Originaldatei ein PDF-Dokument und aus der SGML-Datei eine, am Inhaltsverzeichnis der Arbeit orientierte Menge von HTML-Dateien erzeugt. Das SGML-Dokument wird archiviert und im Recherchesystem indexiert. Die Präsentation von Suchergebnissen erfolgt dagegen in HTML. Der Download des PDF-Dokuments kann dann zum Lesen oder Drucken des kompletten Volltextes dienen. Die Zitierbarkeit aus Seitenbasis sowohl der Papier-, der HTML- als auch der PDF-Version kann derzeit nur gesichert werden, wenn manuell Zusatzeinträge für Seitenzahlen in das SGML-Dokument eingefügt werden. Dies ist sehr aufwendig, resultiert aber daraus, daß sich durch notwendige Vorarbeiten zur Konvertierung nach SGML Seitenverschiebungen im Originaldokument ergeben. Die vorgeschlagene Lösung erscheint auf den ersten Blick kompliziert, jedoch lassen sich unter Einhaltung gewisser Prämissen zahlreiche Abläufe weitgehend automatisieren. Dazu sind natürlich entsprechend umfangreiche Entwicklungsarbeiten zu leisten. Weiter zu verfolgen ist die Entwicklung von XML. Hier können die Strukturierungsmöglichkeiten von SGML genutzt werden, und es zeichnet sich ab, daß die Browserhersteller XML und einen entsprechenden Stylestandard unterstützen werden, so daß der Konvertierungsschritt nach HTML und eventuell auch PDF entfallen könnte.ger
dc.language.isoger
dc.publisherHumboldt-Universität zu Berlin, Mathematisch-Naturwissenschaftliche Fakultät II, Institut für Informatik
dc.subject.ddc004 Informatik
dc.titleDateiformate für das elektronische Publizieren
dc.typebook
dc.identifier.urnurn:nbn:de:kobv:11-1005965
dc.identifier.doihttp://dx.doi.org/10.18452/9117
dc.subject.dnb28 Informatik, Datenverarbeitung
local.edoc.anmerkungStudienarbeit
local.edoc.type-nameBuch
local.edoc.institutionInstitut für Informatik
local.edoc.container-typebook
local.edoc.container-type-nameBuch
dc.description.versionPeer Reviewed

Show simple item record