edoc-Server der Humboldt-Universität zu Berlin

Post- oder Preprint

Publikationsart: Buch
Autor(en): Daniel Ohst
Titel: Dateiformate für das elektronische Publizieren
Einreichung: 01.03.1998
Veröffentlichung auf edoc: 01.03.1998
Anmerkung: Studienarbeit
Status: published
peer_reviewed
Volltext: html (urn:nbn:de:kobv:11-1005965)
Fachgebiet(e): Informatik
Einrichtung: Humboldt-Universität zu Berlin, Mathematisch-Naturwissenschaftliche Fakultät II, Institut für Informatik
Metadatenexport: Um den gesamten Metadatensatz im Endnote- oder Bibtex-Format zu speichern, klicken Sie bitte auf den entsprechenden Link. Endnote   Bibtex  

Abstract (ger):
Ziel dieser Arbeit war es allgemeine Anforderungen an Dateiformate für die elektronische Publikation von Dokumenten zu formulieren. Anhand dieser Kriterien wurden gängige Formate auf ihre Eignung überprüft. Diese Studienarbeit ist im Rahmen des durch das Hochschulsonderprogramm III geförderten Projekts "Elektronische Publikation von Dissertationen" von Bibliothek und Rechenzentrum der Humboldt-Universität zu Berlin entstanden. Aus diesem Grunde soll, die vorangegangenen Ergebnisse auf diesen Einsatzzweck beziehend, ein Vorschlag für den Umgang mit Dateiformaten im Rahmen des Projekts unterbreitet werden. Jeder Promovend wird durch die jeweilige Promotionsordnung der Fakultät zur Veröffentlichung seiner Dissertation verpflichtet. Dies konnte bisher auf drei verschiedene Arten geschehen: Abgabe von Papierexemplaren in der Bibliothek (30-150), Abgabe von wenigen Papierexemplaren und Microfiches oder die Veröffentlichung in einem Verlag. Je nach gewählter Option war dies für den Promovenden mit erheblichen Kosten verbunden. Des weiteren werden Dissertationen auch heute noch als ?graue Literatur" behandelt, d.h. sie werden recht selten ausgeliehen oder zitiert. Die genannten Nachteile können durch eine elektronische Publikation ausgeglichen werden. Durch eine Veröffentlichung auf einem Dokumentenserver kann das Kopieren von zahlreichen Papierexemplaren entfallen, die Arbeiten sind auf einfache Art und Weise einer großen Öffentlichkeit zugänglich, und es ergeben sich völlig neuartige Möglichkeiten der Recherche und der Integration multimedialer Bestandteile. Bei der elektronischen Veröffentlichung einer Dissertation tritt jedoch auch eine Reihe von technischen(5) Problemen auf, die gelöst werden muß. Die Promovenden erstellen die Dokumente in unterschiedlichsten Textverarbeitungen inklusive deren zahlreichen Versionen. Ein einfaches Kopieren des Originaldokuments auf einen Dokumentenserver ist aus Software-Verfügbarkeitsgründen nicht akzeptabel. Die Dissertationen müssen konvertiert werden, was bei einer durchschnittlichen Zahl von 350 Promotionen an der HU und ca. 21.000 in der Bundesrepublik jährlich weitgehend automatisch geschehen muß. Dies setzt eine gewisse Strukturierung der Ausgangsdokumente voraus. Die Nutzer erwarten vielfältige Recherchemöglichekeiten, wie unter Punkt 2.4 aufgeführt. Die Arbeiten sollen im Volltext am Bildschirm lesbar und ausdruckbar sein. Die Bibliothek ist verpflichtet, die Dissertationen über einen langen Zeitraum zu archivieren. Die Zitierbarkeit auf Basis von Seitenzahlen der Papier- und der elektronischen Version ist zu sichern. All diese Forderungen lassen sich durch die Anwendung nur eines Dateiformats derzeit nicht erfüllen. Es sind deshalb Formate für die einzelnen Einsatzzwecke auszuwählen und entsprechende Konvertierungsmöglichkeiten zu schaffen. Für die Archivierung und Recherche wird SGML empfohlen. Es handelt sich um einen offenen Standard, der Strukturen von Dokumenten beschreibt. SGML ist deshalb einfach in zukünftige Formate zu konvertieren, was für die Langzeitarchivierung von großer Bedeutung ist. Weiterhin wird das größte Maß an Recherchemethoden unterstützt. Vor allen Dingen die Möglichkeit der strukturellen Suche in beliebigen Textbestandteilen und nicht nur einer kleinen Menge von Metainformationen stellt eine völlig neue Qualität dar. Es lassen sich so wesentlich gezieltere Suchanfragen formulieren (höhere precision). Die Erstellung von Dokumenten direkt in einer durch SGML definierten DTD ist jedoch aus Verfügbarkeitsgründen (s. 1.1) nur selten möglich. Vielmehr werden die Promovenden die Dissertationen in den in ihrem jeweiligen Fachgebiet üblichen oder aus persönlichen Gründen präferierten Textsystem schreiben. Weit verbreitet sind Microsoft Word und TeX. Da SGML jedoch strukturierte Informationen voraussetzt, ist eine Konvertierung nur adäquat möglich, wenn Mittel wie Formatvorlagen (z.B. Word) oder Makros (z.B. TeX) konsequent eingesetzt werden. Dabei ist die Vorgabe für Dissertationen geeigneter Formatvorlagen empfehlenswert. Die Autoren sind bei der Anwendung zu unterstützen. Einige Formate eignen sich nicht als Ausgangsformat, wie z.B. HTML, da hier nur ein fest definiertes Set von Strukturierungen zur Verfügung steht und damit Recherchemöglichkeiten eingeschränkt werden. Es ist deshalb sinnvoll, sich auf einige Ausgangsformate zu beschränken. Da SGML keine Layoutinformationen speichert, ist die Speicherung des Layouts in einer separaten Styledefinition, die einem entsprechenden Standard (z.B. DSSSL) folgt, notwendig. Der Style läßt sich aus einer vorgegebenen Formatvorlage ableiten, da diese meist implizit ein Layout vorgibt, was der Autor jedoch verändern kann. Für die Präsentation der Dokumente werden zum jetzigen Zeitpunkt zwei Formate vorgeschlagen. Für den Download des Volltextes eines Dokuments eignet sich aufgrund seiner hohen Layoutqualität das PDF-Format. Damit besteht die Möglichkeit, die Datei komplett zu betrachten und zu drucken. Diese PDF-Datei läßt sich unter Verwendung von einheitlichen Postscript-Treibern und der Adobe-Software Acrobat Distiller aus den meisten Ausgangsformaten erzeugen. Für die gezielte Präsentation von Suchergebnissen ist es jedoch nicht sinnvoll, das gesamte Dokument zu übertragen. Hierfür eignet sich HTML, so daß z.B. für jedes Kapitel eine separate Datei erzeugt wird, die dann von einem WWW-Browser angezeigt werden kann. Eine andere Variante wäre die Online-Erzeugung von HTML-Dokumenten als Ergebnis einer individuellen Recherche. Zusammengefaßt ergibt sich daraus folgende Verfahrensweise: mittels Formatvorlagen oder anderen Makros erzeugte Dokumente werden nach SGML in eine bestimmte DTD und ein Stylefile konvertiert. Gleichzeitig wird aus der Originaldatei ein PDF-Dokument und aus der SGML-Datei eine, am Inhaltsverzeichnis der Arbeit orientierte Menge von HTML-Dateien erzeugt. Das SGML-Dokument wird archiviert und im Recherchesystem indexiert. Die Präsentation von Suchergebnissen erfolgt dagegen in HTML. Der Download des PDF-Dokuments kann dann zum Lesen oder Drucken des kompletten Volltextes dienen. Die Zitierbarkeit aus Seitenbasis sowohl der Papier-, der HTML- als auch der PDF-Version kann derzeit nur gesichert werden, wenn manuell Zusatzeinträge für Seitenzahlen in das SGML-Dokument eingefügt werden. Dies ist sehr aufwendig, resultiert aber daraus, daß sich durch notwendige Vorarbeiten zur Konvertierung nach SGML Seitenverschiebungen im Originaldokument ergeben. Die vorgeschlagene Lösung erscheint auf den ersten Blick kompliziert, jedoch lassen sich unter Einhaltung gewisser Prämissen zahlreiche Abläufe weitgehend automatisieren. Dazu sind natürlich entsprechend umfangreiche Entwicklungsarbeiten zu leisten. Weiter zu verfolgen ist die Entwicklung von XML. Hier können die Strukturierungsmöglichkeiten von SGML genutzt werden, und es zeichnet sich ab, daß die Browserhersteller XML und einen entsprechenden Stylestandard unterstützen werden, so daß der Konvertierungsschritt nach HTML und eventuell auch PDF entfallen könnte.
Zugriffsstatistik: Die Daten für die Zugriffsstatistik der einzelnen Dokumente wurden aus den durch AWSTATS aggregierten Webserver-Logs erstellt. Sie beziehen sich auf den monatlichen Zugriff auf den Volltext sowie auf die Startseite.
 
Bei Formatversionen eines Dokuments, die aus mehreren Dateien bestehen (insbesondere HTML), wird jeweils der monatlich höchste Zugriffswert auf eine der Dateien (Kapitel) des Dokuments angezeigt.
 
Um die detaillierten Zugriffszahlen zu sehen, fahren Sie bitte mit dem Mauszeiger über die einzelnen Balken des Diagramms.
HTML: 72 Zugriffe Startseite: 1 Zugriffe HTML: 72 Zugriffe HTML: 94 Zugriffe Startseite: 1 Zugriffe HTML: 132 Zugriffe HTML: 88 Zugriffe Startseite: 2 Zugriffe HTML: 92 Zugriffe Startseite: 1 Zugriffe HTML: 98 Zugriffe Startseite: 2 Zugriffe HTML: 84 Zugriffe Startseite: 1 Zugriffe HTML: 122 Zugriffe HTML: 85 Zugriffe Startseite: 1 Zugriffe HTML: 84 Zugriffe Startseite: 2 Zugriffe HTML: 97 Zugriffe Startseite: 1 Zugriffe HTML: 69 Zugriffe Startseite: 1 Zugriffe HTML: 43 Zugriffe HTML: 39 Zugriffe Startseite: 1 Zugriffe HTML: 103 Zugriffe Startseite: 3 Zugriffe HTML: 52 Zugriffe HTML: 73 Zugriffe Startseite: 2 Zugriffe HTML: 24 Zugriffe HTML: 27 Zugriffe HTML: 23 Zugriffe Startseite: 2 Zugriffe HTML: 34 Zugriffe HTML: 97 Zugriffe HTML: 38 Zugriffe Startseite: 2 Zugriffe HTML: 32 Zugriffe HTML: 17 Zugriffe Startseite: 3 Zugriffe HTML: 35 Zugriffe Startseite: 3 Zugriffe HTML: 70 Zugriffe Startseite: 5 Zugriffe HTML: 52 Zugriffe Startseite: 1 Zugriffe HTML: 31 Zugriffe Startseite: 1 Zugriffe HTML: 128 Zugriffe Startseite: 3 Zugriffe HTML: 352 Zugriffe
Jul
11
Aug
11
Sep
11
Oct
11
Nov
11
Dec
11
Jan
12
Feb
12
Apr
12
May
12
Jun
12
Jul
12
Aug
12
Sep
12
Oct
12
Nov
12
Dec
12
Jan
13
Feb
13
Mar
13
Apr
13
May
13
Jun
13
Jul
13
Aug
13
Sep
13
Oct
13
Nov
13
Dec
13
Jan
14
Feb
14
Mar
14
Monat Jul
11
Aug
11
Sep
11
Oct
11
Nov
11
Dec
11
Jan
12
Feb
12
Apr
12
May
12
Jun
12
Jul
12
Aug
12
Sep
12
Oct
12
Nov
12
Dec
12
Jan
13
Feb
13
Mar
13
Apr
13
May
13
Jun
13
Jul
13
Aug
13
Sep
13
Oct
13
Nov
13
Dec
13
Jan
14
Feb
14
Mar
14
Startseite   1   1   2 1 2 1   1 2 1 1   1 3   2     2     2   3 3 5 1 1 3
HTML 72 72 94 132 88 92 98 84 122 85 84 97 69 43 39 103 52 73 24 27 23 34 97 38 32 17 35 70 52 31 128 352

Gesamtzahl der Zugriffe seit Jul 2011:

  • Startseite – 39 (1.26 pro Monat)
  • HTML – 2459 (76.84 pro Monat)
 
 
Generiert am 18.04.2014, 00:11:12