Übersichten

Aktuelle Ausgabe
Archiv
Impressum
@Redaktion@
   

Band 7 • 2005 • Teilband I

ISBN 3-86004-198-3

Geschichte und Neue Medien in Forschung, Archiven, Bibliotheken und Museen

zur¨ck

Publikationen und Editionen

 

eDoc – edoc.mpg.de
Der elektronische Dokumentenserver einer multi-disziplinären Forschungsorganisation

Beier, Gerhard

Der folgende Artikel ist ein Projektbericht und referiert den Stand des Projektes vom April 2003. Er spiegelt nicht den aktuellen Stand im Oktober 2005 wieder.

Der eDoc Server bietet den Instituten der Max-Planck-Gesellschaft eine einfach zu nutzende elektronische Plattform, um wissenschaftliche Informationen und Forschungsergebnisse zu erfassen, zu dokumentieren, zu archivieren, elektronisch zu publizieren, weltweit frei zugänglich zu machen und mit anderen WissenschaftlerInnen auszutauschen und zu verwalten. Dabei werden auf eDoc nicht nur die bibliografischen Angaben zu Publikationen, sondern auch die Volltexte oder Materialien selbst erfasst.
Dieser Beitrag beleuchtet das Konzept und die politischen wie technischen Implikationen des eDoc-Servers und wird so ein Beispiel für die Entwicklung einer Software wie eines Services für einen institutionellen Server in einer multi-disziplinären Forschungsorganisation näher erläutern.

Kontext für institutionelle Server

Wissenschaftliche Kommunikation war im letzten Jahrzehnt von einem radikalen Wandel der Publikationsformen und Publikationsmöglichkeiten betroffen. Während in den vorangegangenen Jahrzehnten die Kommunikation von Forschungsergebnissen und die Forschungsdiskussion im Wesentlichen in gedruckten Zeitschriften auf Papier stattgefunden hat, bot sich mit der zunehmenden Durchdringung aller Disziplinen durch das Internet eine völlig neue Möglichkeit zur Verbreitung wissenschaftlicher Informationen.

Jürgen Renn spricht in diesem Zusammenhang vom Übergang aus der Gutenberg-Ära in die Ginsparg-Ära [1] , benannt nach dem Begründer des physikalischen Preprint-Servers arXiv.org, der inzwischen im Bereich der Physik nahezu alle Forschungsergebnisse öffentlich kostenlos zugänglich macht und somit die Zeitschriften als primäres Kommunikationsorgan in Frage stellt. Damit hat für die Physik der Übergang von der gedruckten Welt in die elektronische, zumindest was die Verbreitung und Suche relevanter Literatur betrifft, bereits stattgefunden. Auch wenn sich im geschichtswissenschaftlichen Umfeld noch keine vergleichbaren Server finden, zeigen doch die bereits bestehenden Online-Rezensionsjournale [2] erste Schritte in die Richtung, das Internet als wichtiges Forum für wissenschaftliche Kommunikation zu etablieren.

Institutioneller Hintergrund und Zielsetzungen

In diesem weiteren Kontext bewegt sich der elektronische Dokumentenserver (eDoc-Server) der Max-Planck-Gesellschaft (MPG), bei dem vor allem zwei übergeordnete Zielsetzungen im Vordergrund stehen:

Zum ersten die breite, kostenfreie Zugänglichmachung von Forschungsergebnissen, die im Rahmen der Tätigkeit der einzelnen Max-Planck-Institute (MPIs) entstehen.

Zum zweiten die öffentliche Zurverfügungstellung von aufbereiteten Primärquellen für Forschungszwecke mittels des Internet. Insbesondere der letztgenannte Aspekt wird von einigen MPIs der geisteswissenschaftlichen Sektion mit prototypischen Projekten vorangetrieben, die unten noch näher beschrieben werden.

Die MPG ist derzeit in 80 Instituten organisiert, die sich vornehmlich der Grundlagenforschung widmen. Die Institute sind „frei und unabhängig“ in der Wahl und Ausübung ihrer Forschungstätigkeit und sind verpflichtet, die Ergebnisse ihrer Forschung zu veröffentlichen. Dabei ist die MPG in drei große Sektionen, eine chemisch-physikalisch-technische, einer biomedizinische und einer geisteswissenschaftliche Sektion untergliedert.

Die konzeptionellen Überlegungen zum Aufbau eines elektronischen Dokumentenservers müssen demnach auf die unterschiedlichen Traditionen, Praktiken und Ausrichtungen der wissenschaftlichen Kommunikation in den jeweiligen Disziplinen Rücksicht nehmen und gleichzeitig versuchen, Gemeinsamkeiten zu identifizieren, um allen eine gemeinsame Plattform zur Verfügung zu stellen, die sinnvolle Bereiche zentral abdeckt und andere den Instituten zur weiteren Ausgestaltung frei lässt.

Als übergeordnete strategische Zielsetzungen sind dabei vor allem vier Punkte zu nennen.

  1. Die MPG möchte sich in dem in der Entstehung befindlichen weltweiten Wissensnetzwerk positionieren und mit dem eDoc-Server einen Baustein bereitstellen, um das in der Gesellschaft produzierte Wissen in dieses Netzwerk einzuspeisen. Ähnliche Projekte auf institutioneller Ebene (so genannte Institutional Repositories) gibt es bereits am Massachusetts Institute of Technology, der Eidgenössischen Technischen Hochschule in Zürich und dem CERN, um nur einige prominente zu nennen. [3] Auf der Ebene einzelner Disziplinen sind insbesondere das oben erwähnte Preprint-Archiv ArXiv und der Server für die Papers der Wirtschaftswissenschaften RePEc von besonderer Bedeutung.
  2. Mit dem Aufbau eines eDoc-Servers soll gleichzeitig eine Plattform für WissenschaftlerInnen der MPG geschaffen werden, um neue Formen der wissenschaftlichen Kommunikation und Zusammenarbeit zu erproben und weiterzuentwickeln.
  3. Darüber hinaus gibt die Erfassung, Sammlung und Zurverfügungstellung der Forschungsergebnisse der MPG eine Möglichkeit, die eigene Produktivität nachzuweisen. Das geschieht zum einen durch die konsequente Erfassung und Präsentation der bibliografischen Angaben zu publizierten Materialien aus den Instituten. Zum anderen ermöglicht der direkte Zugriff auf den Volltext der Veröffentlichungen via Internet einen direkten Einblick in die Qualität der Forschung in den Instituten.
  4. Aus politischer Sicht verfolgt die MPG jedoch noch ein weiteres Ziel. Durch den Aufbau von alternativen, kostenfreien Publikationsformen und der Unterstützung einer Kultur der „Selbstarchivierung“ soll ein Gegengewicht zu monopolistischen Tendenzen im Bereich des wissenschaftlichen Verlagswesens und der Kommerzialisierung wissenschaftlicher Literatur in Form von Zeitschriftenartikeln geschaffen werden. Diese Diskussion hier zu referieren, würde den Rahmen sprengen, man muss jedoch darauf hinweisen, dass speziell im naturwissenschaftlichen Bereich in den letzten Jahren ein Anstieg der Preise der einzelnen Abonnements wie auch eine Zunahme der Anzahl der Zeitschriften stattgefunden hat, was zur Folge hat, dass selbst große Bibliotheken nicht mehr in der Lage sind, die gesamte relevante Fachliteratur ihren WissenschaftlerInnen zur Verfügung zu stellen. [4]

Konzeptionelle Eckpunkte

Aus den strategischen Überlegungen und aus den Rahmenbedingungen innerhalb der MPG ergeben sich für den Aufbau eines Institutional Repositories wie eDoc folgende Parameter.

Nachdem die Institute sehr autonom agieren, kann nur die Infrastruktur zentral gestellt werden, die Verwaltung und Pflege und gegebenenfalls Anpassung muss auf lokaler Ebene erfolgen. Aufgrund der Vielfalt der in der MPG vertretenen Forschungsdisziplinen ist es zudem eminent wichtig, die einzelnen Bedürfnisse der Institute zu identifizieren und so weit möglich in eine zentrale Infrastruktur zu integrieren. Besonders deutlich wird dies an der Liste der Dokumenttypen (Genre Types), die derzeit in eDoc eingegeben und verwaltet werden können. Diese erstreckt sich von allgemeinen Typen wie „Book“ oder „Article“ bis zum „Poster“ oder „juristischen Gutachten“. Weitere disziplinspezifische Dokumenttypen können ergänzt werden. Die gesamte Entwicklung des Systems wurde am Heinz Nixdorf Zentrum für Informationsmanagement in der Max-Planck-Gesellschaft (ZIM) in sehr enger Abstimmung mit den Instituten geleistet. Technisch baut das System dabei auf eine prototypische Entwicklung aus dem Fritz-Haber-Institut der MPG. Ein weiterer wichtiger Punkt, um den einzelnen Disziplinen gerecht zu werden, ist die Interoperabilität einzelner Systeme, die mittels des OAI-Protokolls zum Austausch von Metadaten (OAI-PMH) [5] garantiert wird. Damit können die institutionellen Server, wie der eDoc-Server der MPG, als so genannte Data Provider in ein großes Netz von so genannten Service Providers integriert werden, die zum Beispiel Portale für die Fachinformation in bestimmten Disziplinen bieten.

Um die Attraktivität und die dauerhafte Pflege des Systems aus Sicht der einzelnen Disziplinen zu garantieren, ist eine Integration von oder in disziplinspezifische Angebote entscheidend. Im Idealfall bildet sich so ein großes Wissensnetz, das aus den einzelnen institutionellen und disziplinspezifischen Servern gespeist wird.

Nutzungsszenarien

Die Arbeit mit dem eDoc-Server-Prototypen hat in zahlreichen Instituten zu einer Diskussion über die möglichen weiteren Nutzungsszenarien für eine eDoc-Software in der MPG geführt.

Um diesen vielfältigen Anforderungen gerecht zu werden, hat das ZIM vorgeschlagen, den eDoc-Server in verschiedene Plattformen zu gliedern, die den spezifischen Anwendungsszenarien Rechnung tragen:

  1. eDoc Archival – für die möglichst vollständige Dokumentation der Forschungsergebnisse in einem Institut
  2. eDoc Community – eine Plattform, auf der Dokumente flexibel und schnell zugänglich gemacht und gemeinsam verwaltet werden können
  3. eDoc Primary Source – Primärdaten oder –quellen, die für einen spezifischen Forschungszusammenhang aufbereitet und auf eDoc zugänglich gemacht werden
  4. eDoc ePublishing – Unterstützung für die Publikation von institutionellen Veröffentlichungen wie Reihen, Working Papers, am Institut herausgegebene Zeitschriften usw.
  5. Event Documentation – Dokumentation von Workshops, Konferenzen, Tagungen, Meetings
  6. Project Library – eine interne Sammlung von relevanten (externen) Quellen/Dokumenten für eine Projektgruppe.

Collections

Die grundsätzliche Organisation von Dokumenten und Material erfolgt auf eDoc in so genannten Collections (Sammlungen). Dokumente werden in Collections abgelegt (submitted) und dort verwaltet. Jeder Collection sind MitarbeiterInnen eines Institutes zugeordnet, die für die dort abgelegten Dokumente und Materialien die Verantwortung und Pflege der Daten übernehmen.

Gleichzeitig dienen die Collections dazu, Richtlinien für den Einsatz im Institut zu definieren: Welche Daten werden aufgenommen, wer darf Daten ins System einpflegen, wer kontrolliert die Eintragungen, wer gibt sie endgültig nach außen frei?

Derzeit wird auf eDoc nur der Typ eDoc Archival unterstützt. Speziell für einzelne geisteswissenschaftliche Institute bestehen aber bereits prototypische Implementierungen von Primary Source Collections.

Im Folgenden gebe ich eine detailliertere Beschreibung der beiden bereits implementierten Nutzungsszenarien. Außer im Szenario 6 Project Library (siehe oben) müssen alle Dokumente oder Ressourcen, die auf eDoc abgelegt werden, im Rahmen der Arbeit eines MPI entstanden sein, um auf eDoc abgespeichert werden zu können.

  • eDoc Archival
    dient zur Dokumentation und Archivierung der Forschungsergebnisse der Institute. Idealerweise werden dort nicht nur die Metadaten zu Publikationen, sondern auch der Volltext selbst abgelegt bzw. ein Link zu einem Server, der dauerhaft freien Zugang zur Information gewährt. Der eDoc Server bietet eine stabile Referenzquelle („persistent identifier“) insbesondere für so genannte "graue Literatur" und Publikationsformen, die bisher in den wenigsten Systemen systematisch erfasst wurden (zum Beispiel Bilder, Simulationen, Software, Talks, Präsentationen, Qualifikationsarbeiten, aufbereitete Primärdaten usw.). Die Metadaten aller Einträge sind öffentlich zugänglich und der Zugang zu den Volltexten soll nach Möglichkeit nur eingeschränkt werden, sofern Copyright-Gründe gegen eine weitere Verbreitung sprechen.
    eDoc Archival dient als zentraler Ort für den gesamten Ertrag der wissenschaftlichen Forschung (unabhängig vom Publikationstyp), mit denen sich das Institut nach außen identifizieren will.
    Diese Collections dienen auch der Erfüllung der Berichtspflichten für das Jahrbuch der MPG, den Fachbeiratsberichten oder Drittmittelgebern, wenn die Datensätze für die entsprechende Verwendungsform selektiert werden.
  • eDoc Primary Sources
    zielt darauf ab, aufbereitete Primärdaten, Quellen, Bilder usw. zugänglich zu machen und die dauerhafte Verfügbarkeit für die Wissenschaft zu gewährleisten. Die Collection unterstützt laufende Forschungsprojekte in den Instituten und erfasst vor allem work-in-progress oder Primärquellen wie Bilder, Scans von Texten, Datensätze usw., auf die in Berichten oder Publikationen verwiesen wird oder die die Basis für die laufenden Arbeiten bilden. Im Vordergrund steht dabei die kosten- und barrierefreie Zurverfügungstellung von hochaufgelösten Scans als Arbeitsmaterialien für die Wissenschaft. Im Einzelfall können jedoch technisch die Zugriffsmöglichkeiten auf Dateiebene eingeschränkt werden. Objekte, die in Primary Source Collections abgelegt werden, haben in der Regel forschungsspezifische Metadatensätze, die durch die standardisierten Genre Types der oben genannten Collections nicht abgedeckt sind. Darüber hinaus können diese Objekte über ein hierarchisches Datenmodell verfügen und aus einer Vielzahl von Dateien bestehen, die nur durch Tools zum Datenup- und Download verwaltet werden können.

Beispiele der eDoc-Nutzung

Das eDoc Archival Szenario wird bereits von einigen Instituten umfassend genutzt, indem diese alle Poster, Konferenzpräsentationen, Manuskripte der eingereichten Artikel usw. auf eDoc ablegen und öffentlich zugänglich machen. Als Datenformat wird meist PDF genutzt, aber die Präsentationen sind zum Beispiel auch als Microsoft Powerpoint gespeichert. Für Artikel gibt es meist PDFs, deren Inhalt zusätzlich oft noch in einer editierbaren Fassung als RTF oder TeX abgelegt wurde. Der Abruf erfolgt über den Browser und einen PDF oder anderen Text-Viewer. Die derart gesammelten bibliografischen Angaben werden für die Generierung von Publikationslisten verwandt (zum Beispiel für das Jahrbuch der MPG, den Fachbeiratsreport usw.)

Mit drei historisch arbeitenden Instituten (Max-Planck-Institut für Wissenschaftsgeschichte, Berlin / Kunsthistorisches Institut – MPI, Florenz / Bibliotheca Hertziana, Rom) wurden so genannte Showcase-Collections für „Primärdaten“ realisiert oder befinden sich gerade in der Fertigstellung. In dieser prototypischen Realisierung von eDoc Primary Sources wird eDoc sozusagen als „Storage Backend“ für diese Daten genutzt, das heißt die Daten werden dauerhaft dort gespeichert und von dort jeweils mit unterschiedlichen Applikationen abgerufen. Dies erfordert unter anderem die Integration spezieller Tools nach eDoc, um mit Bildern (vornehmlich Scans) arbeiten zu können.

Ein Beispiel hierfür ist das Lineamenta-Projekt [6] der Bibliotheca Hertziana, in dem Architekturzeichnungen des 17. und 18. Jahrhunderts online gebracht werden. Als langfristiger Speicher im Hintergrund fungiert hierbei eDoc. [7] Zudem werden die Zeichnungen mit Hilfe des Digilib-Viewers präsentiert. [8] Dieses Tool wurde von der Universität Bern in Zusammenarbeit mit dem MPI für Wissenschaftsgeschichte entwickelt und ermöglicht unter anderem die Darstellung von Ausschnitten der Zeichnungen in Originalgröße auf dem Bildschirm. So können sich die NutzerInnen zwischen den einzelnen Ausschnitten hin- und herbewegen. Die Ausschnitte werden dabei immer wieder neu berechnet und in komprimierter Form dem Client zur Verfügung gestellt. Digilib stellt so eine regelrechte Arbeitsumgebung für HistorikerInnen zur Verfügung. Man kann bestimmte Stellen annotieren und den Link auf das annotierte Bild seinen KollegInnen zur Verfügung stellen, eine Skalierung der Bilder ist möglich und durch die Einstellung von Helligkeit und Kontrast können bei großen Zeichnungen teilweise mehr Details untersucht werden, als es mit der Arbeit am Original möglich wäre. Außerdem hat man die Möglichkeit, die Pläne entsprechend zu vermessen und mit Hilfe der Archimedes-Software [9] auch die historischen Längenmaße entsprechend zu übersetzen.

Im Fall von Lineamenta bietet der eDoc-Server das „Backend“ für spezielle Applikationen, die dann auf Seiten der Institute entwickelt und auf eDoc entsprechend eingebunden werden.

Als weitere Showcase-Collection wird die sogenannte Einstein-Collection [10] des MPI für Wissenschaftsgeschichte integriert, die historische Artikel und Beiträge in Büchern von relevanten AutorInnen übers Internet öffentlich zugänglich macht. Auch hier wird eDoc als technologische Plattform dienen, um die Daten in der Browsingumgebung, aber auch mit Hilfe von Digilib abzurufen.

Als drittes Projekt wird derzeit die Fotothek des Kunsthistorischen Instituts (KHI) in Florenz durch eDoc online verfügbar gemacht. [11] Dabei geht es um einen Datenbestand von mehr als 10.000 Fotos, die digitalisiert auf eDoc gespeichert werden und durch einfache Sichten auf die Daten auch über eDoc verfügbar sind. Die Metadaten zu den Objekten werden jedoch in der lokalen Datenbank des KHI gepflegt und nach Fertigstellung zusammen mit dem Objekt auf eDoc für eine langfristige Archivierung abgelegt. Auf eDoc hat man nun die Möglichkeit, mit Hilfe von Digilib mit den Bildern zu arbeiten und neuen Forschungsfragen nachzugehen.

Publikationstypen und Dateiformate

Die oben genannten Primary Source Collections verfügen teilweise über ein sehr spezielles Metadatenmodell, das unter Umständen. nur für eine einzelne Collection relevant und Gewinn bringend ist. Für eDoc Archival gibt es ein Metadatenmodell, das sich an den in der Wissenschaft üblichen Publikationstypen orientiert. Materialien werden auf eDoc nach Publikationstypen eingetragen, wobei das eDoc Modell für eDoc Archival derzeit 17 verschiedene Standard Genre Typen und deren spezielle Metadaten unterstützt. Instituts- oder disziplinspezifische Typen können ergänzt werden. Das Grundkonzept der Genre Types basiert auf der Trennung zwischen intellektuellem Konzept und Publikationsmedium. Ein Artikel wird demnach zum Beispiel immer als Artikel erfasst, egal ob er auf CD-ROM, online oder in gedruckter Form erschienen ist. [12] Gleichzeitig werden Artikel auch unabhängig von ihrem Status in einer Zeitschrift immer als Artikel erfasst mit der zusätzlichen Angabe, ob sie dort „submitted, accepted / in press oder published“ sind. Damit beugt man der Schaffung eines PrePrint-Genres vor, für das sich über die Disziplingrenzen hinweg keine allgemeingültige Definition finden lässt.

Die grundsätzliche Zielsetzung des eDoc-Servers ist es, alle Typen von Dokumenten erfassen zu können, die als wissenschaftlicher Output der MPIs gesehen werden. Aus diesem Grunde gibt es auch keine Einschränkung auf bestimmte Dateiformate, die hochgeladen werden können, da man garantieren will, dass die einzelnen Fachgebiete die Dateiformate ablegen, die in ihrem Umfeld am gebräuchlichsten sind. Gleichzeitig wird darauf hingewirkt, dass aus Gründen der Plattformunabhängigkeit zumindest – sofern möglich - jedem Dokument eine PDF-Version angehängt werden sollte. eDoc garantiert die Abrufbarkeit der Dateien, von denen die meisten mit einem Browserplugin gelesen werden können. Dateien, die ein spezielles Programm zum Lesen erfordern, zum Beispiel SPSS, müssen zunächst auf dem lokalen System abgespeichert und dort mit dem entsprechenden Programm geöffnet werden.

Wenn die verschiedensten Dateiformate akzeptiert werden, schließt sich daran natürlich die Frage nach der langfristigen Verfügbarkeit der Inhalte an. eDoc kann im Moment nur die „bit preservation“ übernehmen, die Sicherstellung, dass die Dateien in der Form verfügbar gehalten werden, wie sie ursprünglich kreiert wurden. Auf der anderen Seite würde man sich natürlich auch eine „funktionelle Erhaltung“ der Dateien wünschen, um die Inhalte auch in einigen Jahren noch abrufen zu können. Dies bedeutet, dass man entweder die Software zum Lesen der Daten dauerhaft zur Verfügung stellt oder aber die Daten in neue Formate konvertiert. Für beide Probleme wird national wie international nach Lösungen gesucht und das ZIM unternimmt derzeit erste Schritte in der Vorbereitung von Kooperationen, um die Abrufbarkeit der Inhalte von eDoc auch aus funktionaler Sicht langfristig zu garantieren.

Metadatenmodell

eDoc verwendet ein eigenes Metadatenmodell, das speziell entwickelt wurde, gleichzeitig aber zu Dublin Core (qualified) gemappt werden kann. Daten, die mit anderen OAI-kompatiblen Servern ausgetauscht werden, können in jedem Fall in Dublin Core geliefert werden oder aber im speziellen eDoc Format. So können zum Beispiel fachspezifische Suchdienste oder OAI-Service-Provider nach bestimmten Kriterien auf eDoc zugreifen, um die auf eDoc gespeicherten Metadaten der Dokumente der relevanten MPIs einer Fachdisziplin in das eigene Portal zu integrieren. So könnten zum Beispiel die auf eDoc publizierten Forschungsergebnisse des MPI für Geschichte, für Wissenschaftsgeschichte, der Bibliotheca Hertziana, des KHI in Florenz oder auch der juristischen Institute in Clio-online [13] eingebunden werden.

Für die Umsetzung der Primary Source Collections wurde noch keine Entscheidung getroffen, ob man die speziellen Metadatenformate der einzelnen Projekte auf eDoc abbildet, oder ob man ein allgemeines Format nimmt, das für alle Projekte gleichermaßen nutzbar sein sollte. [14]

Workflow (für eDoc Archival)

eDoc Archival kennt verschiedene Nutzerrollen. Die Grundannahme ist, dass die einzelnen WissenschaftlerInnen ihre Dokumente selbst auf eDoc einpflegen und verwalten. Sie geben die entsprechenden genre-spezifischen Metadaten ein und laden, sofern vorhanden, einen Volltext hoch. Sofern sie einen Volltext hoch geladen haben, können sie eine Empfehlung abgeben, auf welcher Ebene dieser Volltext zugänglich gemacht werden soll. Derzeit stehen vier Ebenen zur Auswahl (intern, eine Gruppe von spezifischen NutzerInnen, innerhalb der gesamten MPG, öffentlich ohne Einschränkung).

Zur Qualitätssicherung der über den eDoc-Server zugänglich gemachten Inhalte gibt es für jede Collection zwei Rollen, die besetzt werden müssen. Zum einen die Moderatorenrolle, die die Pflege der Metadaten übernimmt und gegebenenfalls korrigierend oder ergänzend eingreift, zum anderen die Authority, die die wissenschaftliche Verantwortung für das Dokument übernimmt. Ohne eine explizite Zustimmung von beiden Personen können auf eDoc Archival keine Daten öffentlich freigeschaltet werden. Zudem wird die Authority – also die Wissenschaftliche Kontrollinstanz - auch noch namentlich mit dem Datensatz verbunden, der von ihr freigegeben wurde, indem der Datensatz eine Kennzeichnung bekommt, dass <Name der Authority> diesen Datensatz kommuniziert hat.

Die Moderation übernimmt außerdem die Entscheidung, welcher Nutzergruppe ein Dokument zugänglich gemacht wird.

User Interfaces

Das gesamte System ist über web-basierte Interfaces zu bedienen und kann auf Ebene der Institute durch bestimmte Parameter konfiguriert werden. Im Wesentlichen gibt es Interfaces zur Dateneingabe und –ausgabe sowie verschiedenste Suchmasken (Quick, Advanced, Full Text). Für die speziellen Nutzerrollen und deren Aufgaben gibt es eigene Arbeitsumgebungen und ein integriertes Messaging System, um den Workflow zu unterstützen. Um das System auf lokaler Ebene durch MitarbeiterInnen eines Instituts zu administrieren, gibt es für den so genannten lokalen eDoc Administrator noch entsprechende Interfaces zur Konfiguration.

Technik / System

Das eingehende Studium von bestehender Software für Dokumentenserver [15] brachte als Ergebnis, dass die speziellen Anforderungen der MPG am besten durch eine Eigenentwicklung auf Open Source Basis erfüllt werden könnten. Diese wurde vom ZIM in Zusammenarbeit mit dem Fritz-Haber-Institut in Berlin vorangetrieben. [16] Das derzeitige Live-System basiert auf einer PostgreSQL-Datenbank, die aufgrund der guten Unicode-Unterstützung ausgewählt wurde, und Embedded Perl. Als Web-Server läuft im Moment ein Apache und die Java-Servlet-Engine TomCat, die für die Unterstützung des Digilib-Viewers wichtig ist. Das ganze System läuft derzeit auf SunSolaris und wird in nächster Zukunft auf einer Linux-Maschine aufgesetzt.

Wichtig für die Architektur des Systems in einer dezentral organisierten Forschungsorganisation ist insbesondere die Bereitstellung von Schnittstellen.

Im Wesentlichen geht es dabei um Schnittstellen der Dateneingabe und Datenausgabe, aber auch speziell um Schnittstellen zur Integration in spezifische Angebote oder externe Infrastrukturen.

Import / Export

Die gängigen Literaturverwaltungssysteme (EndNote, Reference Manager, BibTeX) werden sowohl über Importe nach eDoc wie auch über Exporte von eDoc in die jeweiligen Systeme unterstützt. Zur Erleichterung der Dateneingabe und – bearbeitung auf eDoc gibt es auch die Möglichkeit, die Ergebnisse von Abfragen des Web of Science (zum Beispiel nach Publikationen des Jahres 2002 des Instituts X) sowie XML-Daten aus lokalen Datenbanken zu importieren. Für den regelmäßigen und dauerhaften Austausch mit Datenbanken in den Instituten gibt es eine OAI-Schnittstelle, über die Daten in beide Richtungen dynamisch abgefragt werden können. [17]

Für die Integration von Publikationslisten und Volltexten in lokale Webseiten der Institute wird es ein weiteres Interface geben, das die lokalen Anfragen dynamisch verarbeitet und ein XML-Resultat zurückgibt, das dann lokal mit XSLT zu einem HTML-Output transformiert wird. Damit können beliebige Suchanfragen an eDoc gestellt werden, deren Resultate im Corporate Design der Website dargestellt werden können. [18]

Zudem wurde der MPG SFX-Service [19] in den eDoc-Server integriert, der es erlaubt, kontext-sensitive Verlinkungen herzustellen. Wenn NutzerInnen aus dem IP-Bereich der MPG eine bibliografische Angabe ohne Volltext auf eDoc finden, können sie durch den Aufruf des SFX-Buttons zu einem Service gelangen, der sie direkt mit dem gesuchten Artikel verbindet, sofern die MPG die entsprechende Lizenz besitzt.

Über das OAI-PMH-Protokoll wird auch die Anbindung disziplinspezifischer Angebote wie zum Beispiel RePEc [20] realisiert.

Für den flexiblen Up- und Download von größeren Datenmengen für Primary Source Collections verfügt das System zudem noch über eine zusätzliche dokumentierte Schnittstelle, die derzeit zum Beispiel von einem Java-Client der Wissenschaftsgeschichte bedient wird und die der Anbindung spezieller Projekte der Institute an eDoc dienen soll.

Status und Herausforderungen für die Zukunft

Derzeit wird das System vor allem zur Eingabe von bibliografischen Angaben, unter anderem für Berichte wie das Jahrbuch der MPG, genutzt und wird bereits von allen Instituten eingesetzt. Darüber hinaus laden zahlreiche Institute Volltexte auf eDoc, die zum Großteil öffentlich zugänglich sind. Gleichzeitig gibt es eine große Unsicherheit in den Instituten, wie man mit der Situation umgehen soll, dass viele AutorInnen die exklusiven Nutzungsrechte vertraglich an die Zeitschriften abtreten, was dann faktisch eine „Selbstarchivierung“ auf eDoc verbietet. [21]

Hier arbeitet das ZIM zusammen mit anderen Personen und Gremien an Richtlinien, die den Umgang mit Urheber- und Nutzungsrechten für die Institute transparenter machen und konkrete Hilfestellungen geben sollen. Dabei steht jedoch immer die Zielsetzung im Vordergrund, so viele Texte wie möglich öffentlich zugänglich auf eDoc zu halten und nur im Einzelfall die Zugriffsrechte einzuschränken.

Doch nicht nur auf politischer Seite, sondern auch auf der technischen Seite warten große Herausforderungen. Um die oben ausgeführten verschiedenen Nutzungsszenarien umsetzen zu können, bedarf es eines technischen Systems, das ein festes Set von Kernfunktionalitäten umfasst und das auf zentraler oder lokaler Ebene durch Anpassungen der bestehenden oder den kompletten Aufbau neuer Module erweitert und flexibilisiert werden kann. Die einzelnen Nutzungsszenarien werden so Schritt für Schritt aufgebaut und in das Gesamtsystem integriert. [22]

Ausblick

Die erste Phase der Einführung des Systems in den verschiedenen MPIs hat gezeigt, dass die antizipierten Nutzungsszenarien (insbesondere eDoc Archival) gut angenommen wurden und zu einer intensiven Diskussion über die weitere Nutzung von eDoc in den Instituten geführt haben.

Das Thema Open Access zu wissenschaftlichen Forschungsergebnissen und kultureller Überlieferung gewinnt in der nationalen und internationalen Diskussion sowie innerhalb der MPG [23] zunehmend an Bedeutung und wird den Rahmen für die weitere Entwicklung des eDoc-Servers bilden. Dieser kann als ein wichtiger Baustein gesehen werden, um mittels des Internets die Ergebnisse öffentlich geförderter Grundlagenforschung zu einem kulturellen Allgemeingut werden zu lassen und die wissenschaftliche Kommunikation und Forschung zu fördern.

Gerhard Beier ist Projektmanager für den eDoc Server beim Heinz Nixdorf Zentrum für Informationsmanagement in der Max-Planck-Gesellschaft.


[1] Renn, Jürgen, Challenges of the Information Revolution for the Max Planck Society, Preprint 151 (2000), URL: <http://www.mpiwg-berlin.mpg.de/Preprints/P151.PDF>.

[2] Hier wären vor allem die Sehepunkte <http://www.sehepunkte.de> und H-Soz-u-Kult <http://hsozkult.geschichte.hu-berlin.de> zu nennen.

[3] MIT: DSpace <http://www.dspace.org>; ETH Zürich: <http://www.eth.ch>; CERN: <http://cds.cern.ch>.

[4] Aufschlussreich zu diesem Thema ist insbesondere das Position Paper von SPARC (Scholarly Publishing and Academic Resources Coalition): <http://www.arl.org/sparc/IR/ir.html> wie auch die weiterführenden Informationen auf der Website von SPARC: <http://www.arl.org/sparc/> oder eine Zeittafel der Geschichte des Open Access Movements: <http://www.earlham.edu/~peters/fos/timeline.htm>.

[5] Ein Protokoll, das von der Open Archives Initiative <http://www.openarchives.org> entwickelt wurde: <http://www.openarchives.org/OAI/openarchivesprotocol.htm>.

[6] Vgl. <http://www.biblhertz.it/deutsch/forschung/lineamentaDeutsch.htm> und <http://lineamenta.biblhertz.it/>.

[7] Anmerkung Oktober 2005: Dieses Projekt wurde aufgrund veränderter Prioritäten nicht auf eDoc realisiert.

[8] Digilib ist als open source verfügbar: <http://developer.berlios.de/projects/digilib/>.

[9] Dieses Tool wurde von Martin Raspe von der Universität Trier entwickelt. <http://www.mpi.nl/echo/exis-tools/formatstools-tr2.html>.

[10] Vgl. <http://living-einstein.mpiwg-berlin.mpg.de/living_einstein>.

[11] Anmerkung Oktober 2005: Dieses Projekt wurde aufgrund veränderter Prioritäten nicht auf eDoc realisiert.

[12] Vgl. IFLA Study Group on the Functional Requirements for Bibliographical Records (Hg.), Functional Requirements for Bibliographical Records. Final Report, München 1998, S. 7 -16.

[13] Das Fachportal für die Geschichtswissenschaften findet sich unter: <http://www.clio-online.de>.

[14] Das European Cultural Heritage Online Project (ECHO), das von drei Max-Planck-Instituten und 13 europäischen Partnern im Rahmen eines EU-Programms vorangetrieben wird, versucht bereits, ein Set von Core Metadaten zu entwickeln, mit denen Objekte der kulturellen Überlieferung, einfach aber doch adäquat beschrieben werden können. Siehe <http://echo.mpiwg-berlin.mpg.de/>.

[15] Greenstone: <http://www.greenstone.org/english/home.html>; CERN Document Server: <http://cds.cern.ch>; Eprints.org: <http://www.eprints.org>; leider stand zu diesem Zeitpunkt Dspace: <http://www.dspace.org> noch nicht als Open Source Software zur Verfügung.

[16] Die derzeit unter <http://edoc.mpg.de> laufende Software ist im Moment nicht als Open Source verfügbar. Die Software, die als Basis für edoc.mpg.de diente, ist in einer Weiterentwicklung durch Mike Wesemann inzwischen jedoch unter dem Namen eDoc Advanced als Open Source verfügbar: <http://w3.rz-berlin.mpg.de/eda/>.

[17] Anmerkung Oktober 2005: Die Integration von Daten via OAI-Harvest aus den Instituten konnte in eDoc nicht mehr realisiert werden.

[18] Anmerkung Oktober 2005: Diese Funktionalität wird erst im Nachfolgesystem des eDoc-Projektes realisiert.

[19] Mehr Informationen zu SFX: <http://www.gwdg.de/forschung/publikationen/gwdg-nr/GN0302/gn0302_05.html>.

[20] Research Papers in Economics <http://www.repec.org/>.

[21] Einen guten Einstieg bzw. Überblick über diese Thematik bilden folgende Websites: <http://www.surf.nl/copyright/> und <http://www.lboro.ac.uk/departments/ls/disresearch/romeo/>.

[22] Anmerkung Oktober 2005: Dank großzügiger Förderung durch das Bundesministerium für Bildung und Forschung (BMBF) wird die MPG zusammen mit dem FIZ-Karlsruhe im Rahmen des eSciDoc-Projektes ein solches System realisieren. Siehe <http://www.escidoc-projekt.de>.

[23] Die MPG führt hierzu eine Konferenz vom 20. bis zum 22. Oktober 2003 in Berlin durch: „Open Access to the Data and Results of the Sciences and Humanities“, vgl. <http://www.zim.mpg.de/openaccess-berlin/>.


Online-Hochschulschriften an der Deutschen Bibliothek

Wollschläger, Thomas

Da mittlerweile so gut wie alle Dissertationen am PC erstellt werden und damit in digitaler Form vorliegen, bietet es sich an, sie als Online-Publikation zur Verfügung zu stellen. Einige sich daraus ergebende Vorteile für AutorInnen, WissenschaftlerInnen und BibliothekarInnen sind:

  • gezielte Recherche nach AutorIn, Titel, Jahr, Schlagworten, Abstract oder im Volltext von Dissertationen auf verteilten Servern,
  • sofortige Verfügbarkeit des Dokuments oder einzelner Teile davon am Arbeitsplatz der BenutzerInnen,
  • weltweite Vernetzung neuer Forschungsergebnisse zum Thema, damit auch
  • sofortige Überprüfbarkeit von Verweisen und Zitaten,
  • sehr kostengünstige Veröffentlichung,
  • Integration vielfältiger Darstellungsmöglichkeiten wie 3D- und Farbdarstellungen, Simulationen, Animationen, Video- und Audio-Sequenzen und anderes mehr,
  • Beschleunigung bibliothekarischer Arbeit durch Datenübernahme und den Wegfall bestimmter Arbeitsgänge,
  • sowie Platz sparende Archivierung.

Die Voraussetzungen für eine effektive Umsetzung der oben genannten Vorteile wurden von der Kultusministerkonferenz geschaffen. In ihrem Beschluss vom 30. Oktober 1997 wurde der Grundsatz festgehalten, dass der Veröffentlichungspflicht von Dissertationen "durch die Ablieferung einer elektronischen Version, deren Datenformat und deren Datenträger mit der Hochschulbibliothek abzustimmen sind" [1] , entsprochen werden kann. Seitdem haben zahlreiche Hochschulen diese Möglichkeit in ihren Promotionsordnungen verankert, und sie wird von den PromovendInnen zunehmend genutzt. Die Zahl der Online-Hochschulschriften, die Hochschulbibliotheken Der Deutschen Bibliothek gemeldet haben, stieg in den letzten Jahren rapide an:

Stichtag

Anzahl der gemeldeten

Online-Hochschulschriften

31.12.1998

97

31.12.1999

521

31.12.2000

1.582

31.12.2001

7.392

31.12.2002

13.204

30.04.2003

15.652

Die Deutsche Bibliothek sammelt Online-Dissertationen und -Habilitationen seit Juli 1998. Im Projekt „Dissertation Online“, an dem Die Deutsche Bibliothek mitarbeitete, wurden Methoden entwickelt, um das Potential von elektronischen Dissertationen optimal zu erschließen. Das Format „MetaDiss“ ist ein Ergebnis des Projektes „Dissertationen Online“. „MetaDiss“ hat sich inzwischen bundesweit als Standard durchgesetzt. Das Format dient zur Übertragung der bei der Abgabe von Online-Hochschulschriften gelieferten Metadaten. Diese Metadaten werden in Der Deutschen Bibliothek zur Verbesserung der Erschließung verwendet und zur Nachnutzung bereitgestellt. Die Deutsche Bibliothek betreut das Metadatenformat „MetaDiss“ sowie die Transfer-Schnittstelle für Online-Hochschulschriften und gewährleistet die Langzeitverfügbarkeit elektronischer Publikationen.

Das Projekt „Dissertationen Online“

Damit die neue Form der Online-Veröffentlichung sinnvoll genutzt werden kann, alle ihre Möglichkeiten vollständig ausgeschöpft werden und zur Klärung organisatorischer Fragen wurde, ausgehend von einer Anregung der Initiative Information und Kommunikation der wissenschaftlichen Fachgesellschaften in Deutschland (IuK), eine Arbeitsgruppe „Dissertationen Online“ gegründet. Zur Bearbeitung dieses sehr umfangreichen Komplexes hat die Deutsche Forschungsgemeinschaft (DFG) das Projekt „Dissertation Online“ von 1998 bis 2000 gefördert. [2] Zur optimalen Umsetzung der Projektergebnisse und deren Anpassung an die zukünftige Entwicklung wurde eine Reihe von Projekt-Empfehlungen erarbeitet:

  • Die entwickelten Lösungen sollen allen interessierten Universitäten, Bibliotheken und Verlagen zugänglich gemacht werden.
  • Es soll zu einer formellen, an bestimmte Grundsätze und Bedingungen geknüpfte Beteiligung an Dissertationen Online aufgerufen werden.
  • Die Entwicklung technischer Lösungen auf Basis offener, internationaler Standards (zum Beispiel der Open Archives Initiative (OAI) und anderer) soll weiterverfolgt werden.
  • Für Dissertationen entwickelte Lösungen und Verfahren sollen auf elektronische Publikationen generell angewendet werden.
  • Es sollen Empfehlungen und praktische Hilfen für das Verfassen, Strukturieren und Dokumentieren von elektronischen Publikationen (Autorenrichtlinien) herausgegeben werden.
  • Die Deutsche Bibliothek soll eine Geschäftsstelle einrichten, die die Zusammenarbeit der Kooperationspartner koordiniert.

Zusätzlich zu den Kernaufgaben Der Deutschen Bibliothek wurde deshalb, der zuletzt genannten Anregung folgend, zum 01. Februar 2001 die Koordinierungsstelle DissOnline für die Nutzung der Ergebnisse und die Koordinierung der Weiterentwicklung von „Dissertationen Online“ eingerichtet.

Aufgaben und Aktivitäten der Koordinierungsstelle DissOnline

Die Koordinierungsstelle DissOnline sieht ihren besonderen Aufgabenschwerpunkt in der Koordinierung und Beratung der am Verfahren Dissertationen Online beteiligten Institutionen. Innerhalb Der Deutschen Bibliothek ist die Koordinierungsstelle Anlaufstelle für alle Fragen, die die Ablieferung, Bearbeitung und Archivierung von Online-Hochschulschriften betreffen.

Nach außen nimmt die Koordinierungsstelle DissOnline folgende Aufgaben wahr:

  • Die Koordinierungsstelle ist Ansprechpartnerin und Kontaktstelle für wissenschaftliche Institutionen, Bibliotheken, Verlage und AutorInnen.
  • Die Koordinierungsstelle regt die Kooperation der beteiligten wissenschaftlich publizierenden Einrichtungen untereinander an und fördert den Know-How-Transfer. Sie koordiniert Weiterentwicklungen und Anpassungen, macht sie bekannt und stellt sie zur Verfügung.
  • Die Koordinierungsstelle empfiehlt technische Neu- oder Weiterentwicklungen und orientiert sich dabei am „Stand der Technik“ sowie an nationalen und internationalen Standardisierungsbestrebungen.
  • Die Koordinierungsstelle betreibt Öffentlichkeitsarbeit und fördert das Publizieren von Dissertationen in elektronischer Form. Dazu organisiert die Koordinierungsstelle Informationsveranstaltungen, hält Vorträge und tritt an Messeständen auf.
  • Die Koordinierungsstelle arbeitet mit nationalen und internationalen Organisationen (vor allem der NDLTD (Networked Digital Library of Theses and Dissertations)) zusammen, um ihre Zielsetzungen zu verwirklichen. [3]

Seit dem 18. September 2002 ist die Koordinierungsstelle DissOnline auch für Redaktion, Betreuung und Aktualisierung der im DFG-Projekt entwickelten Webseiten von DissOnline [4] - "Digitale Dissertationen im Internet" verantwortlich. Über diese Informationsbörse erhalten Bibliotheken, DoktorandInnen, Fachbereiche und Rechenzentren Hinweise, Online-Hilfen und AnsprechpartnerInnen sowie die Empfehlungen Der Deutschen Bibliothek zu bevorzugten Formaten und Tools.

Die Koordinierungsstelle bietet Hochschulbibliotheken, ausgehend vom etablierten Geschäftsgang Der Deutschen Bibliothek, Hilfestellung bei der Einführung oder Änderung des Workflows für Online-Dissertationen sowie Hilfe bei der Nutzung der Verfahren zur Übermittlung von Online-Hochschulschriften und deren Metadaten.

Anmeldung von Online-Hochschulschriften bei Der Deutschen Bibliothek

Um sicher zu gehen, dass von Der Deutschen Bibliothek nur authentische Dissertationen archiviert werden, akzeptiert sie nur die Meldungen der gemäß Promotionsordnung zuständigen Hochschulbibliothek. Meldende Bibliotheken benötigen eine Identifikationsnummer, die durch Die Deutsche Bibliothek auf Anforderung vergeben wird.

Es ist wichtig, dass die VerfasserInnen von Hochschulschriften zu ihren Dokumenten Metadaten erstellen und diese an Die Deutsche Bibliothek gemeldet werden. Die Metadatenschnittstelle ermöglicht den Wünschen der Universitätsbibliotheken entsprechend verschiedene Transportvarianten. Grundsätzlich können zwei Übertragungswege unterschieden werden:

  • Ein interaktives Anmeldeformular auf dem Web-Server Der Deutschen Bibliothek [5] , das die Erfassung von Metadaten gemäß dem vereinbarten Standard MetaDiss erlaubt. Die Rückmeldung der strukturierten Daten an die anmeldende Bibliothek erfolgt direkt nach der Erfassung.
  • Eine E-Mail an Die Deutsche Bibliothek informiert in vereinbarter Form über die Existenz eines frei zugänglichen "Metadatenträgers", der Metadaten gemäß des Standards MetaDiss enthält. In diesem Fall kann die manuelle Erfassung der Metadaten an die AutorInnen delegiert oder durch Routinen unterstützt werden. Die E-Mail kann gegebenenfalls durch lokale Verarbeitungssysteme für Online-Hochschulschriften automatisch erzeugt werden.

Die Online-Hochschulschriften werden von den Universitätsbibliotheken an Die Deutsche Bibliothek gemeldet, die sie dann auf ihren Archivserver DEPOSIT.DDB.DE mittels Standardtransferprotokollen übernimmt. Die Dokumente müssen in einem von Der Deutschen Bibliothek bevorzugten Dateiformat zur Abholung bereitgestellt werden. Um die Integrität von Dokumenten zu garantieren, die aus mehren Einzeldateien bestehen, wird die Erstellung einer gepackten Datei für die Übermittlung von Mehrdateien-Dokumenten (Containermodell) gefordert.

Nach der Übernahme einer Kopie des Dokumentes auf den Archivserver findet ein Virencheck und die Berechnung eines MD5-Hashcodes statt, der es erlaubt, die Identität von Dokumentkopien in Relation zu der archivierten Referenzversion zu ermitteln. Die Deutsche Bibliothek richtet ein Depotsystem für elektronische Hochschulschriften ein. Die Langzeiterhaltung wird durch den Einsatz verschiedener Sicherungstechniken gewährleistet.

Die Online-Hochschulschriften werden wie die gedruckten Dissertationen in der Reihe H der Deutschen Nationalbibliografie verzeichnet.

Strategien zur Sicherung der Langzeitverfügbarkeit elektronischer Dissertationen

Ziel Der Deutschen Bibliothek ist es, wie alle anderen Publikationen auch die elektronischen Hochschulschriften langfristig zu archivieren und eine dauerhafte Nutzung zu gewährleisten. Probleme werfen dabei die verhältnismäßig kurzen Lebenszyklen der Hard- und Software sowie der Gebräuchlichkeit von Formaten im Internetbereich auf. Aus diesem Grund schlug bereits das Projekt "Dissertationen Online" für die Archivierung, für die Präsentation und für den Druck von Dissertationen eine Kombination von Dateiformaten vor. Die Dissertationen sollten danach für die Archivierung in ein sicheres Archivierungsformat (zum Beispiel XML), für die Präsentation auf dem Bildschirm in ein Präsentationsformat (zum Beispiel HTML) und für den Ausdruck in ein layoutorientiertes Druckformat (zum Beispiel PDF) konvertiert werden. Zukunftsgerecht scheint es in jedem Fall zu sein, strukturierte Dokumente zu verwenden und den Inhalt vom Layout zu trennen, so dass, selbst wenn das Layout eines heute verbreiteten Formats wie PDF nicht zu erhalten sein sollte, der Inhalt nach wie vor lesbar bleibt.

Die bei Der Deutschen Bibliothek eingehenden Dateiformate zeigen, dass PDF derzeit die elektronischen Dissertationsformate dominiert:

Dateiformat

Anteil in Prozent

PDF

86,1

ZIP (davon wiederum hauptsächlich pdf und html)

9,8

PS

2,0

TAR.GZ; TGZ (davon wiederum hauptsächlich pdf und html)

1,9

Andere

0,2

Die Deutsche Bibliothek hat eine Präferenzregelung getroffen, um die Auswahl zwischen mehreren inhaltsgleichen Versionen desselben Dokuments in unterschiedlichen Dateiformaten zu regeln. Die Präferenzregelung sieht, absteigend nach Bevorzugungsgrad, folgende Reihenfolge vor:

Reihenfolge

Dateiformat

1.

XML / SGML

2.

HTML

3.

PDF

4.

PS

5.

Sonstige (RTF, DOC, TEX, DVI, TXT, etc.)

Eine Konversion der abgelieferten Hochschulschriften in andere Zielformate findet nicht statt. Weitere Informationen zur Archivierung von Netzpublikationen sind auf der Homepage Der Deutschen Bibliothek zu finden. [6]

Persistent-Identifier-Management (URN)

Gegenwärtig wird die "elektronische Adresse" von Internet-Dokumenten überwiegend in Form des Uniform Resource Locators (URL) realisiert. Jede URL ist weltweit an sich eindeutig. Aus diesem Grund werden URLs sowohl für den Zugriff auf das Dokument als auch als Identifier für die Zitierung von Publikationen verwendet. Wird jedoch der elektronische Standort des Dokumentes verändert, sind alle Referenzen auf das Dokument nicht mehr benutzbar. Da mit der Veröffentlichung einer Dissertation eine rechtliche Auflage erfüllt wird, ist es jedoch gerade für Online-Dissertationen wichtig, dass auch sie genau wie gedruckte Dissertationen dauerhaft und eindeutig zugriffs- und zitierfähig bleiben.

Als Grenzen der URL lassen sich beispielhaft folgende Punkte nennen:

  • Methoden der Adressierung, die eine langfristige Lösung versprechen, können sich ändern
  • URLs, die durch einen Linkcheck als fehlerhaft identifiziert wurden, müssten unter hohem Arbeitsaufwand in allen Nachweissystemen wie Katalogen, Bibliografien oder Portalen korrigiert werden
  • Änderungen in gedruckten Publikationen, die Internet-Adressen zitieren, sind in der Regel unmöglich
  • URLs können temporär durch instabile Verbindungen zu Servern, Netzwerkfehler usw. ausfallen
  • Elektronische Dokumente verändern auch in verteilten Geschäftsprozessen ihren Standort und können durch URLs nicht zuverlässig identifiziert und adressiert werden
  • Mangelnde standortunabhängige Zitierfähigkeit von elektronischen Dokumenten mittels URLs.

Daher besteht Bedarf, dass sowohl AutorInnen als auch Informationsprovider dauerhafte Adressierungsmechanismen verwenden. Eine Lösung ist die Anwendung von Persistent Identifiers. Dadurch sind elektronische Dokumente referenzierbar und auch bei einer sich ändernden URL erreichbar. Um einen dauerhaften Zugriff auf elektronische Ressourcen zu gewährleisten, hat daher Die Deutsche Bibliothek seit September 2001 einen Dienst zur Vergabe und Verwaltung von Persistent Identifiers aufgebaut, und wendet als Persistent Identifier den "Uniform Resource Name" (URN) an.

URN, die an Der Deutschen Bibliothek administriert werden, leiten sich aus dem internationalen Namensraum "NBN" (National Bibliography Number) ab. Der Namensraum "NBN" ist eine gemeinsame Initiative der Nationalbibliotheken. Das Konzept sieht eine verteilte Administrierung vor, bei der den einzelnen Nationalbibliotheken die Verwaltung und Auflösung von URN entsprechend ihrem Sammelauftrag zugeordnet wird. Die Deutsche Bibliothek ist damit für die Verwaltung von URN mit dem Namensraum "nbn:de" verantwortlich.

Eine deutsche URN wird nach dem folgenden Muster gebildet:

urn:nbn:de:[Verbundabkürzung]:[Sigelnummer]-[Nummer][P]

(Beispiel: urn:nbn:de:gbv:18-7900)

Dabei bedeutet [Verbundabkürzung] ein Buchstabenkürzel des jeweiligen Bibliotheksverbundes, [Sigelnummer] steht für das Bibliothekssigel der Hochschulbibliothek und [Nummer] muss eine eindeutige (Produktions-)Nummer sein. [P] bezeichnet die Prüfziffer zur Validierung des Strings.

Gegenwärtig werden im OPAC Der Deutschen Bibliothek (DDB-OPAC) keine Herkunfts-URL mehr angezeigt, sondern nur die URN und der Verweis auf die Frontpage des Archivservers Der Deutschen Bibliothek, um die Anzeige ungültiger URLs zu vermeiden und die Vorteile der URN zu nutzen.

Seit September 2001 wurden insgesamt 5.210 URN mit über 30.000 Zugriffen (Stand: 30. April 2003) registriert. Gegenwärtig haben 42 Universitätsbibliotheken ihre Bereitschaft zur Vergabe von URN angemeldet, davon nutzen 29 aktiv dieses Verfahren. Fast 50 Prozent aller bisher registrierten URN wurden retrospektiv erfasst. Die Tatsache, dass circa 30 Prozent aller gemeldeten URLs inzwischen – zum Beispiel durch Serverumstellungen bei Universitätsbibliotheken - inaktiv sind, zeigt, dass der Einsatz von URN nötig und sinnvoll ist.

Dieser Persistent-Identifier-Dienst Der Deutschen Bibliothek wird im Rahmen des Projektes EPICUR in eine produktive Systemumgebung überführt. Vergabe und Verwaltung von Persistent Identifiers werden auf weitere Dokumentenklassen ausgedehnt. Nähere Informationen zum URN-Management Der Deutschen Bibliothek finden sich über die Homepage des Projektes EPICUR. [7]

Recherche und Zugriff auf Online-Dissertationen

Es gibt verschiedene Möglichkeiten, nach Online-Hochschulschriften zu recherchieren. In allen Fällen liegt die Gewährleistung der Zugänglichkeit im Verantwortungsbereich der Hochschulbibliothek, welche die Online-Hochschulschrift angenommen hat. Dies kann durch Anmeldung des Hochschulschriften-Servers bei TheO (Theses Online) und durch die Anmeldung jeder einzelnen Dissertation bei Der Deutschen Bibliothek und in weiteren Archiven erfolgen. Die Kombination von Recherchen in den vorhandenen Archiven bietet unterschiedliche Zugänge zu den Dokumenten.

Aus dem Projekt "Dissertationen Online" ist die spezielle Dissertationen-Suchmaschine TheO hervorgegangen: [8]

TheO (<http://www.iwi-iuk.org/dienste/TheO/>)

Diese Suchmaschine durchsucht die Metadaten von Online-Dissertationen, deren Server bei TheO eingetragen sind. Derzeit werden die Server von 46 Hochschulbibliotheken indiziert. TheO ermöglicht eine sehr komfortable Suche nach Dissertationen durch differenzierte Suchkategorien und –felder. Insbesondere die Suche nach Dissertationen einzelner Fachgebiete, die zusätzlich noch eingeschränkt werden kann, ist eine der Stärken von TheO.

Die mit Abstand größte Anzahl von Online-Dissertationen verzeichnet der DDB-OPAC: [9]

OPAC Der Deutschen Bibliothek (<http://dbf-opac.ddb.de/>)

Derzeit haben sich (Stand: 01. April 2003) 78 Hochschulbibliotheken für das Abgabeverfahren an Die Deutsche Bibliothek angemeldet, von denen 68 regelmäßig diese Möglichkeit nutzen. Dadurch verzeichnet der OPAC Der Deutschen Bibliothek mittlerweile über 15.000 Dissertationen. Die Suche im DDB-OPAC nach Online-Hochschulschriften ist allerdings ein wenig kompliziert; insbesondere bei der Suche nach Dissertationen bestimmter Fachgebiete müssen mehrere aufeinander aufbauende Suchschritte erfolgen. [10]

Die Vollanzeige der Treffer im OPAC bietet den Zugang zum Dokument über die zugehörige URN, sofern eine solche vorhanden ist (siehe Abbildung 2), und in jedem Fall über den Link zum Archivserver Der Deutschen Bibliothek. Der Link zum Archivserver führt zunächst zu einer sogenannten "Frontdoor": Die Frontdoor enthält grundlegende Informationen zum Dokument (darunter wie im oben gezeigten Beispiel die URN als integraler Bestandteil der Dokumentbeschreibung) und bietet den Zugang zum Volltext des Dokuments selbst, zu seinen Metadaten sowie der MD5-Prüfsumme und enthält gegebenenfalls notwendige Viewer zur Darstellung des Dokuments oder multimedialer Elemente. Der Volltext der Online-Dissertationen ist in seinem ganzen Umfang frei zugänglich und kann gemäß dem Urheberrecht zum eigenen wissenschaftlichen Gebrauch verwendet werden.

Archivserver Der Deutschen Bibliothek

Eine weitere Möglichkeit bildet die Suche im OPUS-Informationsverbund. [11] Die Metasuchmaschine des Stuttgarter OPUS-Projektes indiziert elektronische Dokumente der derzeit 27 OPUS-Anwender. Die gefundenen Dokumente sind, je nach Anwender, nicht nur Dissertationen und Habilitationen, sondern gegebenenfalls alle Arten von Hochschulschriften wie Reports, Aufsätze, Diplomarbeiten und andere.

Einen globalen Zugang bietet die Suche im "Networked Digital Library of Theses and Dissertations Union Catalog". [12] Dieser Gesamtkatalog soll als Depot akademischen Materials dienen; die Beiträge stammen von zahlreichen Mitgliedsinstitutionen weltweit.

Schließlich seien hier noch zwei Beispiele zur Suche in verteilten OAI-Archiven erwähnt. Eine Suche über vorwiegend deutsche OAI-Archive bietet der Dokumenten- und Publikationsserver der Humboldt-Universität zu Berlin. [13] Dieser indiziert gegenwärtig elektronische Dokumente aller Art aus 13 OAI-Archiven und enthält darunter etwa 500 Dissertationen.

Eine weltweite OAI-Suche bietet OAIster, ein Projekt der University of Michigan Digital Library Production Services [14] , welche derzeit über eine Million Datensätze aus weltweit rund 150 Institutionen verzeichnet. Darunter befinden sich zahlreiche Dissertationen; allerdings kann hier nur im Freitext nach den Begriffen "Thesis" oder "Dissertation" gesucht werden.

Das fachbezogene Aufkommen der Online-Hochschulschriften unter besonderer Berücksichtigung des Fachs Geschichte

Die große Datenmenge, die der Archivserver Der Deutschen Bibliothek in Bezug auf Online-Hochschulschriften vorhält, macht es möglich, relativ aussagekräftige Angaben über den Ist-Zustand von deren Aufkommen in einzelnen Disziplinen machen zu können.

Bei der Recherche nach Online-Hochschulschriften ist ein sehr heterogenes Bild festzustellen, was die Verteilung nach der fachlichen Herkunft der Dokumente betrifft. Eine Übersicht verdeutlicht, dass naturwissenschaftliche Fächer einen sehr hohen Prozentanteil der in diesen Fächern angefertigten Dissertationen als Online-Publikation einreichen:

Aufkommen nach Fach im Jahr 2002

(die obersten 9 Fächer, nach Prozentanteil)

Anzahl der Online-Dissertationen

Online-Anteil in Prozent

Chemie

301

44,96

Veterinärmedizin

133

44,26

Biologie

342

40,52

Mathematik

74

37,37

Physik / Astronomie

342

36,31

Chemische Technik; Lebensmittel-, Textiltechnik

104

25,49

Informatik

67

25,33

Geowissenschaften und Geographie

114

22,53

Medizin

1050

20,94

Allein die Hochschulschriften im Fach Medizin, die die größte absolute Zahl der Online-Hochschulschriften bilden, stellen über 30 Prozent aller seit 1998 archivierten Dokumente; das Fach Informatik, welches in der obigen Übersicht für 2002 den an absoluten Zahlen geringsten Anteil einnimmt, immer noch fast sechs Prozent. Demgegenüber ist zu konstatieren, dass aus sämtlichen Geistes- und Sozialwissenschaften - zusammen genommen – weniger als zehn Prozent aller archivierten Online-Hochschulschriften stammen. Folgende Tabelle verdeutlicht die entsprechende Aufteilung:

Fach

Anzahl der Online-Dissertationen seit 1998

Anteil am gesamten Aufkommen der Online-Dissertationen in Prozent

Wirtschaft

537

3,77

Soziologie

349

2,45

Recht

214

1,50

Geschichte

168

1,18

(alle) Sprach- und Literaturwissenschaften

70

0,49

Religion

60

0,42

Musik, Theater, Film

54

0,38

Das Fach Geschichte nimmt, wie oben sichtbar ist, innerhalb der Geisteswissenschaften noch mit Abstand den größten Anteil an Online-Dissertationen für sich in Anspruch. Analysiert man das Aufkommen der Online-Dissertationen in Geschichte während der letzten vier Jahre, so ist eine deutliche und kontinuierliche Steigerung festzustellen, wie die nächste Tabelle zeigt:

Erscheinungsjahr

Dissertationen im Fach Geschichte (Druck und Online)

Anzahl Online-Dissertationen

Anteil der Online-Dissertationen in Prozent

1999

973

18

1,85

2000

952

31

3,26

2001

965

44

4,56

2002

785

52

6,62

1999-2002 gesamt

3675

145

4,07

Die bisher etwas geringere Anzahl von Dissertationen für 2002 resultiert daraus, dass die mit dem Erscheinungsjahr des jeweiligen Jahres versehenen Dissertationen noch weit über das nächste Jahr hinaus erscheinen und abgeliefert werden. Erfahrungsgemäß sollte die Gesamtzahl der vergangenen Jahre erreicht werden.

Das Aufkommen der Online-Dissertationen im Fach Geschichte ist je nach Hochschule sehr unterschiedlich. Die folgende Tabelle zeigt die Hochschulen, an denen in den vergangenen Jahren insgesamt mindestens fünf Online-Dissertationen erschienen sind:

Hochschule

Anzahl Online-Dissertationen gesamt

Anzahl Online-Dissertationen Geschichte

Anteil Geschichte an allen Online-Dissertationen

Anteil Geschichte an allen Dissertationen

Berlin, FU

876

20

2,28

6,38

Oldenburg, U

182

13

7,14

5,62

Freiburg, U

496

12

2,42

4,56

Göttingen, U

380

10

2,63

3,76

Hannover, U

630

10

1,59

3,60

Hamburg, U

869

10

1,15

3,81

Berlin, HU

475

9

1,89

3,75

Frankfurt, U

221

7

3,17

5,11

Köln, U

325

7

2,15

3,40

Berlin, TU

464

7

1,51

3,82

Bremen, U

110

5

4,55

4,83

Konstanz, U

257

5

1,95

4,83

Während die in Spalte vier aufgeführten Prozentwerte den Anteil der Online-Dissertationen aus dem Fach Geschichte (Spalte drei) gegenüber der Gesamtzahl aller Online-Dissertationen der Hochschule (Spalte zwei) angibt, bezieht sich der Prozentwert in Spalte fünf auf das Verhältnis aller Dissertationen (Druck und Online) aus dem Fach Geschichte zur Gesamtzahl aller Dissertationen der Hochschule – also in etwa ein Spiegel dafür, welchen Anteil das Fach Geschichte im Publikationsbereich Dissertationen an der jeweiligen Hochschule einnimmt. Der Vergleich der Spalten vier und fünf zeigt, dass der Anteil der Online-Dissertationen aus dem Fach Geschichte an allen Universitäten außer an der Universität Oldenburg proportional unter dem Gesamtanteil der geschichtswissenschaftlichen Dissertationen bleibt.

Ausblick

Der kurze Überblick hat gezeigt, dass das Aufgabenspektrum mit zunehmender Zahl der abgelieferten Arbeiten an Komplexität zunimmt. Um nötige Weiterentwicklungen anzuregen, die die Ergebnisse des Projekts DissOnline auf dem Stand der Technik halten, und um ein Kompetenznetzwerk aufzubauen, fördert die DFG seit dem 01. Januar 2003 ein Projekt zum "Aufbau einer Koordinierungsstelle für elektronische Hochschulschriften" zum Ausbau der Koordinierungsstelle DissOnline.

Das Projekt beinhaltet unter anderem eine Analyse zur Infrastruktur im Bereich Online-Dissertationen an den deutschen Hochschulen mit Vergleichen von Promotionsordnungen, Geschäftsgängen, Online-Angeboten und –Portalen. Mit den daraus gewonnenen Ergebnissen wird ein interaktives Informationssystem aufgebaut; die Empfehlungen für Promovenden, Fachbereiche, Bibliotheken werden ergänzt und erweitert werden. Für die Klärung rechtlicher Fragen wird projektbegleitend in Werkverträgen gesorgt.

Als Ergebnis des Projekts sollen Vorschläge zu einem einheitlichen, praktikablen Verfahren DissOnline in Deutschland stehen, die mit Fachbereichen, Rechenzentren und Bibliotheken diskutiert und abgestimmt werden. Die Ergebnisse und wesentliche Zwischenstände des Projekts – wie etwa die Auswertung der derzeit laufenden Analyse zur Infrastruktur - werden zeitgerecht über die Homepage veröffentlicht. [15]

Dr. Thomas Wollschläger arbeitet in der Koordinierungsstelle DissOnline in Der Deutschen Bibliothek, Frankfurt am Main.


[1] Vgl. <http://www.ub.ruhr-uni-bochum.de/DigiBib/Tauschseiten/KmKBeschluss.pdf>.

[2] Vgl. <http://www.dissonline.de/tagungen/abschlusstagung_2000_12_13/ergebnis.pdf>.

[3] Vgl. <http://www.ndltd.org/>.

[4] Vgl. <http://www.dissonline.de/>.

[5] Vgl. <http://www.ddb.de/>.

[6] Vgl. <http://www.ddb.de/> unter „Wir über uns / Netzpublikationen“.

[7] Vgl. <http://www.persistent-identifier.de/>.

[8] Vgl. <http://www.iwi-iuk.org/dienste/TheO/>.

[9] Vgl. <http://dbf-opac.ddb.de/> oder <http://dbl-opac.ddb.de/>; identische Einträge bis auf die Daten der letzten 24 Stunden.

[10] Eine Anleitung zur Suche nach Online-Dissertationen im OPAC Der Deutschen Bibliothek findet sich unter <http://www.dissonline.de/faq-x.htm>.

[11] Vgl. <http://elib.uni-stuttgart.de/opus/gemeinsame_suche.php/>.

[12] Vgl. <http://www.ndltd.org/browse.en.html/>.

[13] Vgl. <http://edoc.hu-berlin.de/e_suche/oai.php/>.

[14] Vgl. <http://oaister.umdl.umich.edu/o/oaister/>.

[15] Vgl. <http://www.dissonline.de/>. Alle Angaben im Aufsatz entsprechen dem Stand der Tagung (April 2003). Die zitierten Internet-Links sind soweit noch gültig. Für die aktuellsten Informationen bitte die DissOnline-Website konsultieren oder eine E-Mail an dissonline@dbf.ddb.de senden.


Internet-Zeitschriften zur Geschichte
Eine Bestandsaufnahme

Zündorf, Irmgard

Die Verbreitung historischer Inhalte und Fragestellungen durch das Internet ist in den letzten Jahren immer weiter fortgeschritten. [1] So gibt es inzwischen eine Fülle von Angeboten, vom Lehrplan der Universitäten mit ganzen Seminar- und Vorlesungsüberblicken über Veröffentlichungen von Aufsätzen – teilweise auch die bei den DozentInnen so unbeliebten Sites zur Sammlung von Hausarbeiten der StudentInnen – bis hin zu Dissertationsveröffentlichungen. Aber auch im Bereich der Zeitschriften kann bereits auf entsprechende Erfahrungen zurückgegriffen werden. Internet-Zeitschriften stellen zwar keine Pionierleistung mehr dar, in den Geschichtswissenschaften haben sie sich aber trotzdem noch nicht etabliert. Gerade in Verhältnis zu konventionellen gedruckten Fachzeitschriften muss das neue Medium noch um seinen Platz und seine Anerkennung kämpfen. Dies erreicht es einerseits über die Inhalte, zum anderen über die mediale Form. Das Internet bietet neue Möglichkeiten der Darstellung und der Verbreitung. Es bleibt zu klären, inwieweit diese genutzt werden, um auch die Geschichtswissenschaft – die von Hause aus eher in die Vergangenheit als in die Zukunft blickt – an die zeitgenössischen Medien heranzuführen. Ziel des Beitrags ist es, die Chancen und die Probleme des virtuellen Raums in Abgrenzung zum gedruckten Medium herauszustellen. Dabei soll untersucht werden, inwieweit diese Abgrenzung bei den bestehenden Internet-Zeitschriften stattfindet, wie stark sie vorgenommen wird und ob sie in jedem Fall sinnvoll oder hilfreich ist.

Nach einer Definition des Analysegegenstandes wird zunächst ein quantitativer Überblick gegeben; anschließend wird das gesichtete Material anhand ausgewählter Kriterien (bezüglich Aufbau, Design und Inhalten) näher untersucht. So werden die Möglichkeiten und Probleme des Internets als Publikationsort für Zeitschriften deutlich. Denn nicht jede Umsetzung wirkt sich günstig auf den übermittelten Inhalt aus, nicht jedes Feature unterstützt die Aufmachung und nicht jeder Link vereinfacht die Übersicht.

Gute Einstiege in das Spektrum der Internet-Zeitschriften zur Geschichte bieten der History Journals Guide [2] , die Elektronische Zeitschriftenbibliothek der Bayerischen Staatsbibliothek München [3] sowie das Internet-Portal H-Soz-u-Kult. [4] Der Herausgeber des History Journals Guide, Stefan Blaschke, hat zudem zwei Aufsätze zum Thema „Internet Zeitschriften für Historiker“ veröffentlicht. [5] Diese sind zwar bereits mehrere Jahre alt und geben damit im schnelllebigen Internet nicht mehr den aktuellen Stand wieder, liefern jedoch nach wie vor einen guten Einblick in die Art und die Möglichkeiten elektronischen Publizierens für HistorikerInnen. [6] Zudem ist es interessant, die ältere Analyse mit heutigen Internet-Publikationen zu vergleichen, denn viele Anfängerfehler sind inzwischen behoben. Der Ausblick, den Blaschke gibt, hat sich allerdings leider bewahrheitet: viele der damaligen Zeitschriften existieren bereits nicht mehr. [7]

Definition

Unter Internet-Zeitschriften zur Geschichte werden hier diejenigen Zeitschriften verstanden, die sich erstens selbst als Zeitschriften bezeichnen, die zweitens für das Internet konzipiert wurden und deren vollständige Ausgabe online verfügbar ist und die sich drittens stark mit historischen Themen auseinandersetzen. [8] Darüber hinaus werden nur deutschsprachige Angebote untersucht, um vor allem das hiesige Angebot der Bestandsaufnahme zu unterziehen. In einer erweiterten Analyse müsste allerdings auch das fremdsprachige Potential näher betrachtet werden – vor allem unter dem Aspekt des Erfahrungsaustausches, denn in diesem Bereich finden sich gerade in den USA bereits wesentlich langlebigere Journals. Neben den reinen Internet-Zeitschriften sind verschiedene Printmedien zur Geschichte auch im Internet vertreten und bieten dort Auszüge ihrer gedruckten Ausgaben an. [9] Da diese Zeitschriften nicht fürs Internet erstellt wurden, sich dementsprechend nicht den Möglichkeiten anpassen und eher Werbung für die gedruckte Ausgabe darstellen, sind sie in der vorliegenden Analyse nicht berücksichtigt.

Quantitativer Überblick

Wie oben bereits erwähnt, liefert der History Journals Guide eine sehr umfangreiche und vor allem übersichtliche Liste bestehender E-Zeitschriften mit wissenschaftlichem Anspruch, die sich im engeren wie weiterem Sinne mit Geschichte beschäftigen. [10] Darunter befinden sich auch Zeitschriften zur Anthropologie, Archäologie, Ethnologie, Literaturwissenschaft, Philosophie, Religionswissenschaft, Mythologie, Philologie und Psychologie. Der überwiegende Teil der Zeitschriften ist aus dem englischsprachigen Raum; daneben gibt es Angebote in französisch, spanisch, italienisch, niederländisch, finnisch, tschechisch, russisch und ungarisch. Nach der oben festgelegten Definition bleiben schließlich die folgenden 20 Internet-Zeitschriften, ohne dass hier der Anspruch auf Vollständigkeit erhoben werden kann.

Titel

URL

Concilium medii aevi. Zeitschrift für Geschichte, Kunst und Kultur des Mittelalters und der frühen Neuzeit

<http://www.cma.d-r.de/z/>

eForum zeitGeschichte

<http://www.eforum-zeitgeschichte.at>

Einblicke. Online-Zeitschrift für Regionalgeschichte

<http://www.historisches-centrum.de/einblicke/index.shtml>

forum historiae iuris

<http://www.rewi.hu-berlin.de/online/fhi/>

Forum Qualitative Sozialforschung

<http://qualitative-research.net/fqs/fqs.htm>

Fundus. Forum für Geschichte und ihre Quellen

<http://www.fundus.d-r.de/>

Göttinger Forum für Altertumswissenschaft

<http://www.gfa.d-r.de/>

IASLonline

<http://www.iasl.uni-muenchen.de/>

Inform. Landesgeschichtlicher Rezensionsdienst zur Geschichte der Frühen Neuzeit

<http://www.sfn.uni-muenchen.de/rezensionen/inform/rez_inform_start.htm>

Kunstform. Rezensionsjournal zur Kunstgeschichte

<http://www.kunstform.historicum.net/>

Mitteilungen der Residenzenkommission

<http://resikom.adw-goettingen.gwdg.de/>

newsletter des Arbeitskreises Militärgeschichte

<http://akmilitaergeschichte.de/>

Osnabrücker Online-Beiträge zu den Altertumswissenschaften

<http://www.geschichte.uni-osnabrueck.de/projekt/online_start.html>

Plekos

<http://www.plekos.uni-muenchen.de/>

Querelles-Net

<http://www.querelles-net.de/>

Rundfunk und Geschichte

<http://www.medienrezeption.de/zeitschriften/rundfunk/>

Sehepunkte

<http://www.sehepunkte.de>

Transodra. Deutsch-polnische Geschichte

<http://www.dpg-brandenburg.de/transodra_main.htm>

Zeitenblicke

<http://www.zeitenblicke.historicum.net>

Zentrum für Antisemitismusforschung Internet Journal

<http://www.tu-berlin.de/zfa/>

Von der Form her finden sich darunter drei reine Rezensionszeitschriften [11] und ein Newsletter. [12] Alle anderen sind Zeitschriften mit unterschiedlichen Angeboten, die als vollständige Ausgabe zu bestimmten Zeiten erscheinen – trotz Ankündigung aber meist in unregelmäßigen Abständen. Inhaltlich sind elf Zeitschriften epochenübergreifend angelegt [13] , drei beziehen sich ausschließlich auf das Altertum [14] , zwei auf das Mittelalter [15] , eine auf die Frühe Neuzeit [16] und drei auf die Zeitgeschichte. [17] Die meisten Zeitschriften sind Initiativen von Einzelpersonen mit Anbindung an einen Lehrstuhl, vereinzelt finden sich reine Privatinitiativen oder drittmittelfinanzierte Projekte, soweit dies aus den Internet-Seiten ersichtlich wird.

Hier wird bereits deutlich, dass das Angebot weder ausufernd noch unübersichtlich ist, sondern sich in einem sehr überschaubaren Rahmen hält. Gerade zur Zeitgeschichte finden sich – wie bereits erwähnt – nur drei Angebote im Netz, von denen wiederum zwei thematisch sehr eingeschränkt sind: So behandelt die eine Zeitschrift die Antisemitismusforschung und die andere die deutsch-polnischen Beziehungen. Einzig das österreichische Angebot „eForum“ stellt eine thematisch übergreifende Zeitschrift zur Zeitgeschichte dar, konzentriert sich allerdings auf NS-Geschichte und Erinnerungskultur. Ein thematisch übergreifendes Angebot zur Zeitgeschichte nach 1945 fehlt noch gänzlich, ist aber bereits für Anfang 2004 geplant. [18]

Qualitative Analyse

Die qualitative Analyse geht anhand folgender Kriterien vor:

  • formale Darstellung,
  • Art der Inhalte,
  • Einbindung multimedialer Elemente,
  • Seriosität der Site sowie Einbindung zusätzlicher Angebote.

In einem ersten Schritt werden die verschiedenen Möglichkeiten der formalen und inhaltlichen Darstellung aufgelistet und Bewertungskriterien für eine seriöse Aufmachung gegeben. Anschließend werden die einzelnen Zeitschriften anhand des Kriterienkatalogs analysiert. Die formalen Kriterien befassen sich vor allem mit der „Informationsarchitektur“ und umfassen Funktionalität, Gestaltung und Benutzerkomfort. [19] Untersucht wird im Einzelnen das Design, damit verbunden die Übersichtlichkeit und die Einheitlichkeit der Seiten sowie die Einbindung von Animationen. Weiter wird die Art der Verlinkung der Seiten untereinander (intern) und der Verweise auf Angebote anderer Sites (extern) aufgenommen, sowie die dadurch gegebene Benutzerfreundlichkeit – Usability. Dabei wird auf die Übersichtlichkeit auf der Homepage bzw. einer so genannten Navigationsseite geachtet sowie auf den Aufbau und die Struktur der Site: Wie viele Ebenen gibt es und wie findet man sich dort zurecht, ist die Navigation auf jeder Seite gleich, gibt es immer einen Home-Button, wird angezeigt, wo innerhalb der Site sich die NutzerInnen gerade befinden? Wird zum schnelleren Überblick eine Sitemap angeboten?

Des weiteren ist von Bedeutung, in welcher Form und welchem Zeitraum die Zeitschrift veröffentlicht wird. Erscheinen jeweils zu unregelmäßigen Zeiten Einzelbeiträge, oder kommt zu einem festen Termin eine Gesamtausgabe der Zeitschrift heraus? Daraus ergibt sich die Frage – gerade auch bei der Veröffentlichung von Einzelbeiträgen –, wie auf die Publikation aufmerksam gemacht wird.

Gefragt ist auch, welche Inhalte angeboten werden. Zunächst findet sich in den Zeitschriften eine inhaltliche, häufig auch technische Einführung bzw. eine Vorstellung der Zeitschrift – eine Art Editorial. Vor allem bieten die Zeitschriften den klassischen Forschungsaufsatz an. Dazu kommen die ebenfalls klassischen Rezensionen zu wissenschaftlichen Publikationen in Form von Büchern, neuerdings auch zu anderen Medien wie Ausstellungen, CD-ROMs oder Internet-Präsentationen. Weiter werden Tagungsberichte, Projektberichte oder so genannte Werkstattberichte angeboten. In verschiedenen Fällen sind außerdem Quellen-Besprechungen, Interviews sowie Diskussionsforen eingebunden.

Dieser erste Überblick zeigt deutlich, dass die Art der Inhalte sich am Angebot traditioneller Zeitschriften orientiert. Dieser Eindruck bestätigt sich, wenn man die Aufbereitung der einzelnen Beiträge betrachtet. In 90 Prozent der Fälle handelt es sich um rein textuelle Informationen. In einem nächsten Schritt wurde dementsprechend untersucht, ob die Beiträge an sich dem Medium Internet angepasst sind – ob die Artikel beispielsweise interne oder externe Links enthalten, ob man innerhalb der Beiträge zu verschiedenen Punkten springen kann und ob Video, Audio oder Bild-Sequenzen enthalten sind.

Multimedialität

Eine besondere Möglichkeit der E-Zeitschriften im Vergleich zu gedruckten Medien ist die Einbindung von multimedialen Elementen. Bilder lassen sich zwar abdrucken (was allerdings mit weiteren Kosten verbunden ist), doch bei Filmen oder Tondokumenten ist dies nicht möglich. Internet-Zeitschriften haben sowohl die technischen Voraussetzungen als auch die Kapazitäten, diese Medienformen einzubinden. Bilder sind problemlos auch mit einem Modem-Anschluss abrufbar, Filme und Töne nehmen aber eine weit größere Ladekapazität in Anspruch. Für die NutzerInnen ist dies mit Zeit und damit auch immer mit Geld verbunden, oder auch aufgrund der Leistungskraft bestimmter Modems gar nicht möglich. Was sowohl im Print- wie im Online-Bereich geklärt werden muss, sind die Urheber- und Verwertungsrechte der zusätzlichen Medien. Trotzdem werden diese Formen immer häufiger im Netz angeboten und bieten gerade für die Zeitgeschichte enorm erweiterte Möglichkeiten.

Die Seriosität einer Site

Bei den Massen an Internet-Angeboten wird es für die NutzerInnen immer schwieriger, zwischen guten und schlechten, seriösen und unseriösen Beiträgen zu unterscheiden. Wenn man Stuart Jenks folgen will, gibt es nur eine verlässliche Möglichkeit, die Qualität einer Site zu überprüfen: über die eigene Nachrecherche der Inhalte. [20] Dies ist allerdings bei allen Medien der einzige Weg, eine hundertprozentige Sicherheit zu erlangen – ein sicherer, aber auch recht umständlicher Weg. Daneben gibt es aber auch im Internet Hilfen, mit denen sich die Inhalte einer Site einordnen lassen. An erster Stelle steht die Qualität der Inhalte – aber nicht jeder ist problemlos in der Lage, diese eindeutig festzustellen. Hier bietet die Einrichtung einer so genannten Peer Review [21] eine zusätzliche Möglichkeit der Qualitätssicherung. Zu den formalen Kriterien, die eine seriöse Site beinhalten sollte und die schnell nachprüfbar sind, gehört die Angabe eines Links zum Impressum auf jeder Seite der Zeitschrift – wie es inzwischen auch gesetzlich vorgeschrieben ist. Es bleibt zu bedenken, dass viele NutzerInnen nicht über die Homepage der Site auf die einzelnen Beiträge stoßen, sondern vielmehr über diverse Suchmaschinen direkt auf die Seite „googeln“ und somit nicht auf den ersten Blick erkennen, bei welchem Anbieter sie sich befinden. Die Möglichkeit, dies schnell und einfach herauszufinden, sollte schon aus eigenem Interesse in jedem Fall gegeben sein. Im Impressum muss eindeutig zu erkennen sein, welche Personen oder Institutionen sich hinter dem Angebot verbergen, bzw. sich mit ihrem Namen für das Angebot verbürgen. Wünschenswert wären hier zusätzliche Informationen zu den HerausgeberInnen, Redaktionsmitgliedern und AutorInnen in Form einer kurzen Vita. Insgesamt gilt – genau wie bei jedem anderen Produkt –, dass bekannte Namen und Institutionen, die mit ihrem Namen für die Site stehen, für die NutzerInnen eine einfachere Einordnung der Beiträge ermöglichen (wobei große Namen natürlich nicht immer inhaltliche Qualität garantieren). Wichtig sind zudem eindeutige Datierungen der Beiträge sowie Informationen über Copyright und Zitierweise. Und schließlich ist die Langfristarchivierung der Inhalte eines der wichtigsten Aushängeschilder einer Site. Denn nur wenn die Beiträge dauerhaft abrufbar und eindeutig zuzuordnen sind, können die NutzerInnen sie auch weiter verwenden und auf sie verweisen.

Zusätzliche Angebote einer Internet-Zeitschrift

Die Attraktivität einer Zeitschrift und vor allem ihr Mehrwert gegenüber Printmedien wird durch die zusätzlichen Angebote gesteigert. Denn eine Internet-Zeitschrift steht überwiegend nicht allein mit der jeweils aktuellen Ausgabe im Netz, sondern wird umrahmt von einer Site, auf der sich weitere Dienstleistungen finden. Dazu gehört das schon erwähnte Archiv, das nicht nur die Dauerhaftigkeit gewährleisten soll, sondern auch der gezielten Recherche dient. So ist wünschenswert, dass im Archiv die früheren Ausgaben zur Verfügung stehen und deren Beiträge sinnvoll aufbereitet zugänglich gemacht sind. Die Inhalte sollten nach ihrer Form unterschieden werden, so dass die Möglichkeit besteht, beispielsweise alle Fachaufsätze, Rezensionen oder Tagungsberichte thematisch oder alphabetisch nach AutorInnen sortiert darzustellen.

Die Suchfunktion bietet hinsichtlich der Recherche ähnliche Zusatzangebote, die über ein Personen-, Sach- und Ortsregister weit hinaus reichen können. Dabei ist zwischen der einfachen Volltextsuche und der thematischen bzw. auf Metadaten basierten Suche zu unterscheiden. Gerade bei einem umfangreichen Angebot ist die thematische Suche die wesentlich hilfreichere Variante, deren Funktionalität allerdings stark von den vergebenen Metadaten abhängt, für deren Vergabe sich leider noch kein Standard durchgesetzt hat. [22]

Die Linkliste zu verwandten Themen im Netz ist ein weiteres zusätzliches Angebot, das auf Bereiche außerhalb der eigenen Site verweist. Zur vereinfachten Suche bietet hier eine kommentierte Linkliste die größte Hilfestellung. Über die Unterstützung bei der Recherche hinaus kann mit Hilfe der Kommentare auch eine Einordnung der Seriosität der verschiedenen Sites gegeben werden. Dies würde den NutzerInnen die Möglichkeit geben, sich nicht nur auf die eigene Bewertung verlassen zu müssen, sondern die Position anerkannter Institutionen in die Beurteilung mit einfließen lassen zu können.

Der letzte Punkt betrifft die Interaktivität einer Site. Dazu zählen hier im weitesten Sinne die Möglichkeiten der Kontaktaufnahme zwischen LeserInnen und AutorInnen sowie zwischen LeserInnen und der Redaktion bzw. den HerausgeberInnen sowie schließlich die Möglichkeit, sich mit anderen LeserInnen auszutauschen. Dies verläuft über eigene, an die Redaktion gesandte Beiträge, über ein Gästebuch oder die Rubrik Leserbriefe. Diese könnten zudem, wenn sich die Beiträge direkt auf einzelne Aufsätze oder ähnliche Angebote beziehen, auch dort verlinkt werden. Für den Austausch der LeserInnen untereinander bieten Diskussionsforen eine gute Möglichkeit der Kommunikation.

Die folgende Ergebnisauswertung wird in Form einer Zusammenfassung dargestellt, die nicht im Einzelnen auf jede analysierte Zeitschrift eingeht, sondern die Grundtendenzen und Schwerpunkte widerspiegelt, die Hauptkritikpunkte nennt und auch die positiven Entwicklungen aufzeigt. Die untersuchten Internet-Zeitschriften zeichnen sich überwiegend durch ein klares, einfaches und auf den einzelnen Seiten überwiegend einheitliches Design aus, das auf technische Animationen weitgehend verzichtet. Überwiegend werden Frames benutzt, die auf jeder Seite die Navigation und auch häufig das Logo oder den Titel der Site beinhalten. Trotz der Übersichtlichkeit sind häufig andere Informationen nicht auf den ersten Blick auffindbar. So ist die Rubrik „Kontakt“ und auch die Möglichkeit des Abonnements nicht auf der obersten Ebene erkennbar, sondern versteckt sich teilweise hinter „Impressum“ oder „weitere Angaben“. Gerade im Interesse der Redaktion sollten diese Punkte immer auf der obersten Ebene deutlich werden und sich nicht hinter weiteren Links verbergen. Obwohl die ganze Zeit von Vorteilen einer Online-Zeitschrift gegenüber Print-Zeitschriften die Rede ist, besteht doch häufig das Bedürfnis nach einer Papierversion. [23] Bei den meisten E-Zeitschriften wird dementsprechend eine Druckoption angeboten, aber eben nicht immer. Gerade hinsichtlich der Länge mancher Beiträge und im Interesse der NutzerInnen sollte auch dies entweder über PDF-Dateien oder eine Frame-freie Seite angeboten werden.

Entsprechend dem klaren Design ist auch die Verlinkung weitgehend übersichtlich, um nicht zu sagen intern – auf der eigenen Site – eher spärlich. Im Wesentlichen beschränkt sie sich auf vertikale Navigation vom Inhaltsverzeichnis zu den einzelnen Beiträgen. Innerhalb dieser Navigation gibt es höchstens eventuell noch einen Verweis auf eine Seite zu den AutorInnen und wiederum innerhalb der Seite die Möglichkeit, mit Hilfe so genannter Anker zu einzelnen Abschnitten oder zu den Fußnoten zu springen. Querverweise der Beiträge untereinander gibt es nicht. In manchen Fällen wird sogar gänzlich auf Links verzichtet und einfach die gesamte Ausgabe auf einer Seite dargestellt, auf der man allein durch Scrollen zu den einzelnen Beiträgen findet. Die externe Verlinkung wird meistens in Form einer Linkliste zu verwandten Themen angeboten. Vereinzelt werden die Autorennamen mit ihren persönlichen Websites verlinkt.

Aufgrund der geringen Verlinkung ist die Benutzerführung sehr übersichtlich und wird durch die Navigationsleiste auf der Homepage sowie jeder weiteren Unterseite noch erleichtert. Da alle Informationen auf jeder Seite deutlich werden sollen, sind die einzelnen Seiten dementsprechend häufig überladen. In vielen Fällen werden sämtliche Informationen zu Inhalt, HerausgeberInnen, Redaktion, AutorInnen, UnterstützerInnen der Zeitschrift bereits auf der Homepage angeboten. Eine nicht unbedeutende Kleinigkeit ist die URL, die in vielen Fällen sehr lang und komplex ist. Dies wird darauf zurückzuführen sein, dass viele Angebote in einem größeren Zusammenhang entstanden sind und daher eher als Untersite bestehen. Der Nachteil ist, dass sich die URL nicht einprägt und daher nur in schriftlicher Form direkt als Link weiter gegeben werden kann.

Auf den Vorteil, dass im Internet wesentlich schneller veröffentlicht und damit flexibler auf aktuelle Debatten eingegangen werden kann, haben alle Zeitschriften verzichtet. So haben die einzelnen Ausgaben weiterhin einen festen Rhythmus und damit auch einen festen Erscheinungstermin, an dem die Gesamtausgabe veröffentlicht, also online gestellt, wird. Der Vorteil liegt dabei darin, dass die LeserInnen zu einem bestimmten Termin auf die Neuerscheinung aufmerksam gemacht werden können und nicht durch die Einzelveröffentlichung der Beiträge die Aufmerksamkeit der NutzerInnen gesplittet wird. Auch die Art der Darbietungen orientiert sich – wie bereits erwähnt – sehr deutlich an Print-Medien. So bieten die meisten Zeitschriften Fachaufsätze, Essays, Rezensionen, Tagungsberichte, Projektberichte, Quellen-Besprechungen, Interviews, Diskussionsforen sowie Kurzinformationen zu den AutorInnen an. Multimedia-Elemente, die eigentlich ein Mehrwert des Internets sein könnten, werden kaum eingesetzt. Bei Audios und Videos lässt sich dies zwar durch die genannten technischen und rechtlichen Schwierigkeiten erklären, doch auch Bilder werden eher wenig angeboten. Dabei könnten gerade im Bereich der Quellen-Besprechungen oder der Interviews mit Zeitzeugen oder Spezialisten neben Textquellen verstärkt visuelle Quellen einbezogen werden.

Was die Recherchemöglichkeiten angeht, werden die Möglichkeiten des Internet noch am weitesten genutzt. Ein Archiv ist in fast allen Fällen vorhanden – was wahrscheinlich darauf zurückzuführen ist, dass damit am besten zu gewährleisten ist, dass die Beiträge zitierfähig sind. An der Art der Archive lässt sich aber kritisieren, dass sie überwiegend nur eine Aufzählung der bisherigen Ausgaben anbieten (sortiert nach Nummern). Eine alphabetische Auflistung nach AutorInnen und Titeln fehlt ebenso wie eine Gliederung nach der Art der Beiträge. Die Suchfunktion gibt es relativ häufig, doch ist sie überwiegend auf die Volltextsuche beschränkt. Die Möglichkeit der thematischen Suche fehlt weitgehend. Alternativ zur thematischen Suche erleichtert in vielen Fällen das Angebot von Abstracts die Recherche. Die schon genannte Linkliste mit Verweisen zu verwandten Themen findet sich dagegen relativ häufig. Gerade kommentierte Linklisten zu weiteren Internetangeboten sind dabei eine große Recherche-Hilfe und zudem eine wichtige Unterstützung zur Einschätzung der Seriosität einer Site.

Fazit

Die Möglichkeiten des Internets, die in der Vernetzung der Informationen, in den Suchfunktionen, in der Multimedialität und in der Aktualität liegen, werden zwar genutzt, aber bei weitem nicht ausgeschöpft. Dies dürfte unter anderem wohl auf die Klientel zurückzuführen sein, für welche die Zeitschriften konzipiert werden. So sind HistorikerInnen schon von Berufs wegen nicht diejenigen, die in erster Linie nach vorne schauen und noch sehr stark am gedruckten Medium fest halten. Die Anbieter und wahrscheinlich auch die NutzerInnen legen den größten Wert auf die Inhalte, weniger auf die Art der Darbietung. Dass die Inhalte nach wie vor im Vordergrund stehen, ist zwar positiv zu bewerten, muss aber der internetgerechten Aufbereitung nicht widersprechen. Ein gutes Design und eine sinnvolle Benutzerführung schließen einen qualitativ hochwertigen Inhalt nicht aus. Denn wenn die Möglichkeiten des Internets nicht genutzt werden, stellt sich die Frage, warum die Zeitschrift im Internet erscheint. Der einzige Vorteil bliebe die schnelle und flexible Zugangsmodalität für LeserInnen mit Internet-Zugang und die Ersparnis der Druckkosten. Das allein überzeugt aber nicht, denn Kosten verursacht auch eine Internet-Zeitschrift, und leichteren Zugangsmöglichkeiten auf der einen Seite stehen die Probleme der Seriosität und der Dauerhaftigkeit auf der anderen Seite gegenüber.

Auf LehrerInnen und HochschuldozentInnen wird verstärkt die Aufgabe zukommen, SchülerInnen und StudentInnen so genannte Medienkompetenz zu vermitteln, das heißt, sie einerseits dafür zu sensibilisieren, dass nicht alles, was im Netz steht, wahr oder qualitativ hochwertig ist, und andererseits die Fähigkeit zu vermitteln, die seriösen von den Massen an unseriösen Sites zu unterscheiden. Die Hauptaufgabe liegt aber bei den Anbietern von Internet-Zeitschriften, die ihr Angebot dem Internet anpassen und den Mehrwert der Internetangebote deutlicher herausarbeiten müssen, wenn diese eine Überlebenschance neben den traditionellen Print-Zeitschriften haben sollen. Dass dabei eventuell ganz neue Formen der Präsentation und schließlich auch wieder der Quellen entstehen, ist dabei noch ein anderes Feld, das hier nicht weiter vertieft wird.

Zum Schluss soll noch einmal das Problem der Dauerhaftigkeit der Inhalte angesprochen werden. Denn daran hängt die Akzeptanz der Zeitschrift durch die Wissenschaft und macht sich der Hauptkritikpunkt der skeptischen Historikerzunft fest. [24] Die Angebote müssen noch zugänglich sein, wenn es die Zeitschrift nicht mehr gibt – was, wie sich gezeigt hat, schneller passieren kann, als man den HerausgeberInnen einer Site wünschen möchte. Die Anbindung an größere Institutionen wie beispielsweise Bibliotheken oder Hochschulzentren, die sich zur dauerhaften Pflege und Erhaltung der Inhalte verpflichten, ist eine Möglichkeit. Dabei bleibt aber immer noch die Frage, ob diese Seiten, wie sie zur Zeit aufgebaut sind, in mehreren Jahrzehnten mit der dann bestehenden Technik überhaupt noch abrufbar sind. Die Lösung liegt dabei vor allem in der Technik, muss aber trotzdem auch von den HerausgeberInnen der Site immer mitgedacht werden. Noch ist hier keine vollkommen zufriedenstellende Lösung gefunden worden, und vielerorts wird auf die parallele Fassung einer Druckversion zurückgegriffen. [25] Hier wird sich zeigen, was die Technik auf Dauer bereit hält. Dies sollte aber kein Grund sein, auf das Internet als Veröffentlichungsmedium zu verzichten, denn „die Zukunft ist offen, ein Restrisiko bleibt immer“. [26]

Die optimale Zeitschrift, die es im Internet bislang nicht gibt und vielleicht auch nicht geben kann, müsste folgende Kriterien erfüllen: Unter der Beteiligung sowohl angesehener WissenschaftlerInnen als auch von Nachwuchskräften wird ein qualitativ hochwertiges, multimediales Angebot erstellt. Dort sind die verschiedenen Beiträge untereinander thematisch verlinkt und auch in Bezug zu anderen Sites gesetzt. Über die Verweise hinaus bieten das Archiv und die thematische Suche die Möglichkeit, innerhalb der Site zu recherchieren. Zusätzlich werden über eine kommentierte Linkliste Informationen zu weiterführenden und ähnlichen Sites gegeben. Auf diese Weise lassen sich die gesuchten Informationen individuell zusammenstellen. Darüber hinaus werden die LeserInnen über aktuelle Ereignisse, Neuerscheinungen, Tagungen oder ähnliches laufend informiert. Die Einrichtung eines Forums bietet den KollegInnen die Möglichkeit, sich über bestimmte Themen auszutauschen. Das bislang relativ isolierte Produkt „Zeitschrift“ wird zudem in einen umfassenderen wissenschaftlichen Medienverbund eingebunden. [27]

Noch muss dies eine Wunschliste bleiben, denn es setzt eine hohe Akzeptanz bei den WissenschaftlerInnen voraus, die sich beteiligen müssen. Denn ohne die AutorInnen, ohne die adäquaten Inhalte ist jede noch so gut konzipierte Zeitschrift nicht einmal die URL wert, unter der sie veröffentlicht wird. Außerdem bleibt die Frage der Finanzierung ein Problem, das auch mit wachsender Ausbreitung des Internet nicht geringer wird. Die genannten Ansprüche an Umfang und Qualität der Angebote machen es unmöglich, eine Zeitschrift allein durch die Eigeninitiative von Einzelpersonen neben ihrer eigentlichen Arbeit umzusetzen. Hier sei ein weiteres Mal betont, dass der größte Teil der analysierten Zeitschriften eben auf dieser Eigeninitiative beruht und daher – trotz aller Kritik – hohes Lob verdient. Aber mittelfristig müssen die Zeitschriften, wenn sie in der Forschungsgemeinschaft Anerkennung ernten wollen, professioneller werden, den Mehrwert des Internet nutzen und die größere Dauerhaftigkeit gewährleisten. [28]

Dr. Irmgard Zündorf ist Wissenschaftliche Mitarbeiterin am Zentrum für Zeithistorische Forschung in Potsdam.


[1] Dieser Aufsatz spiegelt den Stand vom April 2003 wider.

[2] <http://www.history-journals.de>.

[3] <http://rzblx1.uni-regensburg.de/ezeit/fl.phtml?notation=N&bibid=BSB&colors=7&frames=&toc=&ssg=&sc=E&lc=H>.

[4] <http://hsozkult.geschichte.hu-berlin.de/zeitschriften/>.

[5] Blaschke, Stefan, Fachzeitschriften für Historiker im Internet. Ein sicherlich unvollständiger Überblick, in: eForum zeitGeschichte (2001) 2, S. 1-14 unter <http://www.eforum-zeitgeschichte.at/>; Ders., Elektronische Zeitschriften für Historiker. Ein paar Anmerkungen, in: H-Soz-u-Kult vom 21. Juni 2000 unter <http://hsozkult.geschichte.hu-berlin.de/beitrag/essays/blst0600.htm>.

[6] Ebenso bieten die folgenden Beiträge einen guten Einstieg und Einblick allgemein zum Thema „Internet-Zeitschriften“: Keller, Alice, Elektronische Zeitschriften. Eine Publikationsform mit Zukunft?, in: Beate Tröger (Hg.), Wissenschaft online. Frankfurt am Main 2000, S. 259-278; Dies., Elektronische Zeitschriften. Eine Einführung, Wiesbaden 2001; Dies., Elektronische Zeitschriften im Wandel: Eine Delphi-Studie, Wiesbaden 2001; Simanowski, Roberto, Einige Anmerkungen zur Gegenwart und Zukunft elektronischer Zeitschriften, in: IASLonline vom 10.3.2000 unter <http://www.iasl.uni-muenchen.de/index.htm>.

[7] Blaschke (wie Anm. 5), S. 14.

[8] Die Internet-Zeitschrift „Querelles-net“ zur Geschlechterforschung und „Forum Qualitative Sozialforschung“ sind mit aufgenommen worden, weil sie sich zwar nicht hauptsächlich, aber doch deutlich auch mit historischen Themen beschäftigen.

[9] Dazu zählen beispielsweise: Archiv für die Geschichte des Widerstandes und der Arbeit, Archiv für Sozialgeschichte (das allerdings online einen größeren Rezensionsteil bietet: <http://www.fes.de/afs-online/>), Internationale wissenschaftliche Korrespondenz zur Geschichte der deutschen Arbeiterbewegung, Transit. Europäische Revue, Vierteljahrshefte für Zeitgeschichte.

[10] <http://www.history-journals.de/journals/hjg-title.html>.

[11] Sehepunkte. Rezensionsjournal für die Geschichtswissenschaften; Inform. Landesgeschichtlicher Rezensionsdienst zur Geschichte der Frühen Neuzeit; Rezensionszeitschrift für Frauen- und Geschlechtergeschichte.

[12] Newsletter des Arbeitskreises Militärgeschichte.

[13] Forum Historiae Iuris; Forum Qualitative Sozialforschung. Theorien, Methoden, Anwendungen; Forum für Geschichte und ihre Quellen; Fundus. Forum für Geschichte und ihre Quellen; IASLonline; Kunstform. Rezensionsjournal zur Kunstgeschichte; Newsletter des Arbeitskreises Militärgeschichte; Querelles-Net. Rezensionszeitschrift für Frauen- und Geschlechtergeschichte; Rundfunk und Geschichte; Sehepunkte. Rezensionsjournal für die Geschichtswissenschaften; Zeitenblicke. Online-Journal für Geschichtswissenschaften; Einblicke. Online-Zeitschrift für Regionalgeschichte.

[14] Göttinger Forum für Altertumswissenschaft; Osnabrücker Online-Beiträge zu den Altertumswissenschaften; Plekos. Periodicum Online zur Erforschung der Kommunikationsstrukturen in der Spätantike.

[15] Concilium medii aevi. Zeitschrift für Geschichte, Kunst und Kultur des Mittelalters und der frühen Neuzeit; Mitteilungen der Residenzenkommission.

[16] Inform. Landesgeschichtlicher Rezensionsdienst zur Geschichte der Frühen Neuzeit; Fundus.

[17] eForum zeitGeschichte; Transodra Deutsch-polnische Geschichte; Zentrum für Antisemitismusforschung Internet Journal.

[18] Siehe dazu die Informationen zu dem Portal „Zeitgeschichte-online“ bzw. der Internet-Zeitschrift „Zeithistorische Forschungen“ auf der Internet-Site des Zentrums für Zeithistorische Forschung (ZZF) Potsdam: <http://www.zeitgeschichte-online.de/> (Die Autorin ist selbst Redaktionsmitglied der Zeitschrift).

[19] Siehe dazu : Rada, Holger, Design digitaler Medien, Tübingen 2002, S. 72ff.

[20] Jenks, Stuart, Die Verlässlichkeit von Informationen im Internet, in: Ders.; Marra, Stefanie (Hgg.): Internet-Handbuch Geschichte, Köln 2001, S. 265-271, hier S. 267.

[21] Ein Begutachtungsverfahren für die Beiträge.

[22] Ein häufig eingesetztes Metadatenschema ist Dublin Core.

[23] Wie Anja Gild erläutert, ist die Bildschirmlektüre bei längeren Texten relativ beschwerlich und bei Online-Lektüre auch relativ kostenaufwändig: Gild, Anja, Bewertungskriterien für die Lesbarkeit von elektronischen Texten. Ein Beitrag aus der Praxis, in: IASLonline ohne Datum unter <http://www.iasl.uni-muenchen.de/index.htm>.

[24] Dies zeigt sich auch daran, dass bislang ein Nachweis elektronisch publizierter Aufsätze und anderer Beiträge in herkömmlichen Fachbibliografien fehlt.

[25] Dies wird auch von VertreterInnen der klassischen Verlegerzunft empfohlen, die dementsprechend auch die Beibehaltung des klassischen Aufsatzes als Darbietungsform propagieren und an der Überlebenschance der Internet-Zeitschriften Zweifel äußern, siehe: Klostermann, Vittorio, Uhlenspiegels Kieselstein. Hat die geisteswissenschaftliche Zeitschrift eine Zukunft?, in: <http://www.klostermann.de/verlegen/nzz.htm>, ohne Datum.

[26] So eine treffende Bemerkung aus dem Vortrag von Klaus Graf im Rahmen der Ringvorlesung „Faszination Internet“ am 10.7.2003 in der RWTH Aachen, siehe Graf, Klaus, Wissenschaftliches E-Publizieren – Initiative und Wiederstände, in: <http://www.bibliothekar.de/index.php?option=content&task=view&id=20>.

[27] Zum Beispiel in ein Angebot wie Clio-online. Fachportal für die Geschichtswissenschaft unter <http://www.clio-online.de/>.

[28] Auch Gudrun Gersmann fordert die stärkere „Institutionalisierung und Professionalisierung des wissenschaftlichen WWW-Angebots“ sowie ein „verstärktes Bemühen um Qualitätssicherung“, siehe: Gersmann, Gudrun, Neue Medien und Geschichtswissenschaft. Ein Zwischenbericht, in: GWU (1999) 4, S. 239-249, hier S. 247.


DigiZeitschriften
Ein Service von Bibliotheken für die Wissenschaft

Schweder, Caren

„Das Paradies habe ich mir immer als eine Art [digitale] Bibliothek vorgestellt“

nach Jorge Luis Borges

In Zeiten des Globalhaushaltes und der Sparmaßnahmen sind Bibliotheken zunehmend gezwungen, Einsparungen bei den Zeitschriftenabonnements vorzunehmen. Damit werden „Lehrenden und Studierenden wertvolle und forschungsrelevante Informationsquellen entzogen“. [1] So sehen sich die NutzerInnen immer wieder mit der Situation konfrontiert, einen wichtigen Artikel nicht mehr zur Verfügung gestellt zu bekommen. Wird jedoch ein englischsprachiger Aufsatz einer amerikanischen Zeitschrift benötigt, gibt es noch die Möglichkeit, auf das wissenschaftliche Zeitschriftenarchiv (Scholarly Journal Archive), besser bekannt als JSTOR [2] , zurückzugreifen, auf das einige große deutsche Bibliotheken ihren NutzerInnen Zugriff anbieten können. Orientiert an dem amerikanischen Vorbild, realisiert DigiZeitschriften etwas Vergleichbares in erster Linie für den deutschsprachigen Wissenschaftsraum. Das Ziel ist ein neuer Service von Bibliotheken für die Wissenschaft durch die Retrodigitalisierung und die kontrollierte Bereitstellung im Internet von wissenschaftlichen Zeitschriftentiteln. Anfang 2005 stehen den WissenschaftlerInnen und Studierenden rund 60 Zeitschriften aus unterschiedlichen Fachrichtungen mit insgesamt ca. drei Millionen Seiten von 5.000 Bänden zur Verfügung.

Im Folgenden soll das von der Deutschen Forschungsgemeinschaft (DFG) geförderte Projekt DigiZeitschriften vorgestellt werden. Es soll ein Überblick über die Ausgangslage, den aktuellen Projektverlauf sowie die Ziele und Perspektiven gegeben werden.

Die Ausgangslage – Realisierung einer Idee

In einer durch die DFG geförderten Machbarkeitsstudie wurde das inhaltliche Konzept für das künftige Angebot der digitalen Zeitschriftenbibliothek entwickelt. Hierzu schloss sich eine Gruppe von neun Sondersammelgebiets(SSG)-Bibliotheken zu einer Kooperation zusammen, deren Sammelschwerpunkte Grundlage für die Fachgebiete der auszuwählenden Zeitschriften waren. Die Partner dieser Initiativgruppe sind die Staatsbibliothek zu Berlin (SSG für Rechtswissenschaften), die Universitäts- und Landesbibliothek Bonn (SSG für Romanistik), die Staats- und Universitätsbibliothek Dresden (SSG für Kunst ab 1945), die Universitätsbibliothek Frankfurt am Main (SSG für Germanistik und Neuere Philologien), die Technische Universität Bergakademie Freiberg (SSG für Geologie), die Deutsche Zentralbibliothek für Wirtschaftswissenschaften in Kiel (SSG für Volkswirtschaft) sowie die Universitätsbibliothek Köln (SSG für Betriebswirtschaftslehre, Bevölkerungswissenschaft und Soziologie) und die Bayerische Staatsbibliothek München (SSG für Geschichte). Die Federführung liegt bei der Niedersächsischen Staats- und Universitätsbibliothek (SSG für Anglistik, Bibliothekswesen und Naturwissenschaften).

Die Zeitschriftentitel wurden somit aus den Fachgebieten der jeweiligen Sammelschwerpunkte der Bibliotheken ausgewählt. Neben den philologischen Fächern Anglistik, Germanistik, neuere Philologie und Romanistik werden Zeitschriften aus den Wirtschaftswissenschaften und der Soziologie ebenso berücksichtigt wie aus der Rechtswissenschaft. Abgerundet wird das Angebot durch die historischen Disziplinen Geschichte und Kunst ab 1945 sowie die Naturwissenschaften und Geologie. Es handelt sich hierbei um Fächer, in denen die deutsche Forschung eine lange Tradition aufweist, was sich auch in den entsprechenden Zeitschriften niedergeschlagen hat. Die Fächer weisen einerseits unterschiedliche Charakteristika auf, haben aber auch gewisse Berührungspunkte (zum Beispiel die verschiedenen Philologien), was die Attraktivität des Angebots erhöht. Der Schwerpunkt etwa bei den Geistes- und Sozialwissenschaften erwies sich bei der Auswahl der einzelnen Zeitschriften als sinnvoll. In den jetzt vertretenen Fächern wird überwiegend auf ältere Forschungsliteratur zurückgegriffen. Da die Grenzen zwischen den Disziplinen im ausgehenden 19. und beginnenden 20. Jahrhundert noch nicht so stark ausgeprägt waren, sind Zeitschriften aus den Nachbarfächern und interdisziplinäre Titel von großer Bedeutung.

Zuerst wurde die Auswahl der für eine Digitalisierung vorzusehenden Zeitschriften von den FachreferentInnen der Kooperationsbibliotheken ermittelt. Gemäß den Vorgaben der DFG sollte es sich dabei um forschungsintensive und viel genutzte Kernzeitschriften der jeweiligen Fächer handeln. Eine zeitliche Einschränkung der zu digitalisierenden Jahrgänge vorzunehmen erschien nicht sinnvoll, da so das Angebot zusätzlich an Attraktivität gewinnt. Die ausgewählten Zeitschriften sollten vielmehr analog zu JSTOR einen langen Erscheinungsverlauf aufweisen und bis möglichst dicht an die aktuellen Ausgaben heran bereitgestellt werden.

Die anschließende Expertenbefragung von rund 20 LehrstuhlinhaberInnen und sonstigen namhaften VertreterInnen des Faches bezog die wichtigste potentielle Nutzergruppe in die Auswahl mit ein. Die FachwissenschaftlerInnen haben die Titel ausgewählt, die innerhalb ihres Faches eine bedeutende Position innehaben. Aus der Gewichtung und Einschätzung der genannten Titel nach ihrer wissenschaftlichen Relevanz und der Option, weitere Zeitschriften zu nennen, ergab sich eine Rankingliste. Die Unterschiede in der Bewertung der Qualität der jeweiligen Zeitschriftentitel waren mit durchschnittlich zwei bis fünf Prozent sehr gering. Für das künftige Angebot wurden erst einmal bis zu fünf Titel pro Fachgebiet ausgewählt, um einerseits die Basis für das breit gefächerte Angebot zu legen und andererseits mit einer überschaubaren Auswahl von Titeln die Produktion starten zu können.

Neben der Liste der für die digitale Bereitstellung empfohlenen Titel ergab die Umfrage auch eine generell positive Resonanz bezüglich der Möglichkeit, forschungsrelevante Publikationen digital verfügbar zu machen. Gerade die VertreterInnen von Fächern, in denen es noch keine umfangreichen elektronischen Veröffentlichungen gibt, zeigten großes Interesse an dem künftigen Service von DigiZeitschriften. [3]

Projektvelauf – Der Aufbau eines Services von Bibliotheken für die Wissenschaft

Nach erfolgreichem Abschluss der oben erwähnten Machbarkeitsstudie schloss sich die erste Aufbauphase des von der DFG geförderten Projektes von DigiZeitschriften im Frühjahr 2001 an. Als erstes wurde die Geschäftsstelle des Vereins DigiZeitschriften in der Niedersächsischen Staats- und Universitätsbibliothek Göttingen als federführender Kooperationspartner eingerichtet und die Zusammenarbeit mit den Projektverantwortlichen der Partnerbibliotheken entwickelt.

Der Verein DigiZeitschriften e.V.

Um die Nachhaltigkeit des Services von DigiZeitschriften zu fördern, wurde die Gründung eines gemeinnützigen Vereins als optimale Rechtsform vorangetrieben. Am 12. Februar 2002 wurde dann von den Initiativgruppenmitgliedern der kooperierenden Bibliotheken der Verein zur Retrodigitalisierung von wissenschaftlichen Zeitschriften – DigiZeitschriften gegründet. Der eingetragene und gemeinnützige Verein dient der Förderung von Wissenschaft und Forschung, indem er Zeitschriften retrodigitalisiert und über das Internet öffentlich geförderten Bibliotheken, Hochschulen und anderen Forschungseinrichtungen zugänglich macht. Neben den Gründungsmitgliedern ist die Aufnahme von weiteren Mitgliedern erwünscht. In den Verein aufgenommen werden können Bibliotheken Kraft eigenen Rechts und juristische Personen des öffentlichen und privaten Rechts, insofern sie Träger einer öffentlichen Bibliothek sind.

Der Lizenzvertrag

Durch die Vereinsgründung erlangte die Initiativgruppe der Bibliotheken eine gemeinsame Rechtsform und schuf damit die Voraussetzung für den Abschluss von Verträgen mit den Verlagen. In gemeinsamer Arbeit mit Professor Melichar von der Verwertungsgesellschaft Wort (VG Wort) und Dr. Georg Siebeck, dem Vertreter des Börsenvereins des Deutschen Buchhandels (vom Verlag Mohr Siebeck) wurden ein trilateraler Lizenzvertrag entwickelt und die Lizenzeinnahmen für den Verlag vereinbart.

Auf die ausführlichen und kontroversen Diskussionen über die Novellierung des Paragrafen 52 a des Urhebergesetzes hat DigiZeitschriften also schon frühzeitig mit der Ausarbeitung dieses Lizenzvertrages reagiert und sichert jedem Vertragspartner den kontrollierten Zugriff der NutzerInnen auf die wissenschaftlichen Zeitschriften zu. [4]

DigiZeitschriften als Dienstleistungsangebot großer deutscher Bibliotheken ist somit vertraglich geregelt. In dem Lizenzvertrag von DigiZeitschriften wird der kontrollierte Nutzerzugriff über Abonnements innerhalb wissenschaftlicher Einrichtungen und Bibliotheken gesichert. Die aktuellen Ausgaben von Heften einer Zeitschrift kann der Verleger durch eine individuell festzulegende „Moving Wall“ schützen. Hierbei handelt es sich um eine gleitende Grenze, die festlegt, bis zu welchem Jahrgang eine Zeitschrift digitalisiert und im Internet zur Verfügung gestellt werden darf. Wurde zum Beispiel eine zweijährige „Moving Wall“ vereinbart, können alle Jahrgänge dieser Zeitschrift bis zum Erscheinungsjahr 2000 zugänglich gemacht werden. Nach Ablauf von 2003 kommt der Jahrgang 2001 dazu. So bietet DigiZeitschriften ein sich stets aktualisierendes und vergrößerndes Programm an.

Darüber hinaus ist es für den Verlag ein nicht unwesentlicher Vorteil, dass seine Bekanntheit und die seiner Zeitschriften ohne zusätzlichen Werbe- und Marketingaufwand erhöht wird. Durch die fachliche Zusammenführung namhafter Zeitschriften im Angebot von DigiZeitschriften [5] wird zudem eine größere Attraktivität der wissenschaftlichen Titel erzielt.

Mit der Unterzeichnung des Lizenzvertrages tragen die Verlage aktiv zum Erfolg des Projektes bei. Wichtige deutsche Wissenschaftszeitschriften erlangen durch das Angebot von DigiZeitschriften internationale Präsenz. Darüber hinaus wird nicht nur für die jeweiligen Zeitschriften des Verlages geworben, sondern durch Verlinkung auf dessen Homepage auch für sein weiteres Angebot.

Die Zeitschriftentitel der verschiedenen Fachgebiete

Eine Vertragspartnerschaft konnte DigiZeitschriften bereits mit den Verlagen Mohr Siebeck, Klostermann, Fink, Harrassowitz, Lucius & Lucius, Niemeyer, S. Hirzel und Franz Steiner sowie der Gutenberg-Gesellschaft und dem Kieler Institut für Weltwirtschaft schließen. Damit stellen die renommierten Zeitschriften dieser Verlage mit ihrer hohen wissenschaftlichen Relevanz das Basisangebot von DigiZeitschriften. [6] Exemplarisch seien einige dieser Titel aufgezählt. Aus dem Fachgebiet Geschichte sind es Vierteljahresschrift für Sozial- und Wirtschaftsgeschichte und Historia, die Zeitschrift für Alte Geschichte. Bei der Rechtswissenschaft handelt es sich um Archiv für die civilistische Praxis oder Archiv des öffentlichen Rechts oder Juristenzeitung. Neben der Zeitschrift für Soziologie der Gesellschaftswissenschaften sind die Wirtschaftswissenschaften vertreten mit Finanzarchiv und Jahrbücher für Nationalökonomie und Statistik und Journal of Instituional and Theoretical Economics (JITE) und Weltwirtschaftliches Archiv des Kieler Instituts für Weltwirtschaft. Die viel genutzten Zeitschriften des Bibliothekswesens sind Anzeiger für Literatur der Bibliothekswissenschaft, Bibliothek und Wissenschaft, Serapeum und Zentralblatt für Bibliothekswesen. Die namhaften Zeitschriftentitel der Philologie sind Zeitschrift für deutsches Altertum und deutsche Literatur und Romanische Forschungen sowie Zeitschrift für französische Sprache und Literatur.

Um das Angebot von DigiZeitschriften stets attraktiv zu halten, ist es nötig, das Zeitschriftenangebot kontinuierlich zu erweitern. Dafür stehen in erster Linie die Zeitschriftentitel zur Verfügung, die bereits während der Machbarkeitsstudie [7] ermittelt wurden, jedoch in dem ersten Angebot noch nicht realisiert werden konnten.

Darüber hinaus soll das Repertoire von DigiZeitschriften ausgeweitet werden auf weitere Fachgebiete, für die ein besonderes Interesse an deutschen Hochschulen und im Ausland zu erwarten ist. Vor allem können aber auch Bibliotheken als neue Mitglieder des Vereins das Programm durch Zeitschriften aus ihren jeweiligen Sammelschwerpunkten mit gestalten. Erste Überlegungen innerhalb der Initiativgruppe und Gespräche mit FachwissenschaftlerInnen ergaben ein Interesse an den Kernzeitschriften aus den Fachgebieten Altertumswissenschaften, Archäologie, Judaistik, Musikwissenschaft, Orientalistik, Pädagogik, klassische Philologie, Philosophie, Theologie, Psychologie und Ingenieurswissenschaften sowie der naturwissenschaftlichen Fächer Biologie, Chemie, Physik, Medizin und Forstwissenschaft.

Die Produktion der Digitalisate

Nachdem das Material für die Digitalisierung zur Verfügung stand und die technischen Grundlagen entwickelt waren, konnte mit der Produktion begonnen werden. Dafür wurden verschiedene Dienstleister ausgewählt und mit der Digitalisierung beauftragt.

Die Produktion der Digitalisate erfolgt nach unterschiedlichen Vorlagen, je nachdem, in welchem Zustand sich die Bände einer Zeitschrift befinden. So wird vom gebundenen Buch ebenso gescannt wie mit dem Einzelblatteinzugsscanner (Feeder). Für diese schnelle und preislich attraktive Methode stellen einige Verlage und Bibliotheken aus ihrem Bestand entsprechendes Material zur Verfügung. Aber auch das Scannen vom Mikrofilm ist möglich, da erst kürzlich abgeschlossene Verfilmungsprojekte innerhalb der Partnerbibliotheken gutes Material gewährleisten.

Die Images werden mit einem sehr hohen technischen Standard erstellt und grundsätzlich noch durch eine Bildbearbeitung optimiert. So erhalten die NutzerInnen später eine sehr gute Bildqualität.

Darüber hinaus wurde mit dem Berliner SatzRechenZentrum eine spezielle Software für die Belange von DigiZeitschriften konfiguriert. Mit dieser Software wird die inhaltliche Struktur der Zeitschrift auf Basis des Inhaltsverzeichnisses eines jeden Bandes bis auf die Artikelebene erfasst (Strukturdatenerfassung). Das fertige Digitalisat ist dann nach Abschluss der Strukturdatenerfassung und verschiedener Image- und Qualitätskontrollen fertig für den Import in den Demoserver, der den NutzerInnen einen ersten Einblick auf das künftige Angebot von DigiZeitschriften bietet. [8]

Hierbei handelt es sich um eine Auswahl von über 500 Zeitschriftenbänden mit circa 306.000 Seiten. Mit diesem repräsentativen Überblick über die verschiedenen Fachgebiete wird der künftige Service von DigiZeitschriften vorgestellt.

Obwohl DigiZeitschriften noch nicht in die aktive Werbephase eingestiegen ist, konnten seit Oktober 2002 (Online-Start) insgesamt über 53.000 Zugriffe verzeichnet werden. Im Mai 2003 waren es täglich mehr als 300 NutzerInnen aus dem deutschsprachigen (Österreich, Schweiz), europäischen (Italien, Polen und andere) und auch außereuropäischen (USA und Japan) Ausland.

Ziele und Perspektiven von DigiZeitschriften

In den nächsten zwei Jahren wird die Produktion kontinuierlich fortgeführt, so dass ab 2005 rund 3 Millionen Seiten führender deutscher Fachzeitschriften im Internet angeboten werden.

Über preislich gestaffelte Abonnements [9] sichert DigiZeitschriften den kontrollierten Nutzerzugriff. Verlage haben durch den trilateralen Vertrag (Verlag, VG Wort, DigiZeitschriften) zusätzliche Lizenzeinnahmen und profitieren ohne zusätzlichen Werbe- und Marketingaufwand von der Erhöhung der Bekanntheit ihres Verlages.

Der Zugriff auf das DigiZeitschriften-Archiv ist rund um die Uhr möglich und bietet die vollständige Verfügbarkeit wissenschaftlicher Zeitschriften mit überwiegend langem Erscheinungsverlauf. Durch elektronische Suchfunktionen erhalten die NutzerInnen zusätzliche Recherchemöglichkeiten wie die Volltextsuche, den gezielten Zugriff auf einzelne Aufsätze und die Option, diese herunterzuladen oder auszudrucken.

DigiZeitschriften wird die internationale Sichtbarkeit und Zugänglichkeit von in Deutschland erschienenen Veröffentlichungen erhöhen und leistet einen Beitrag zur besseren Akzeptanz der gegenwärtig erscheinenden Publikationen. Analog zu JSTOR mit seiner Beschränkung auf englischsprachige, vor allem amerikanische Titel, konzentriert sich das Angebot von DigiZeitschriften auf in Deutschland erscheinende Zeitschriften, auch unter Berücksichtigung ihrer internationalen Bedeutung. Das Angebot richtet sich an Institutionen, Forschungseinrichtungen und Bibliotheken, die es über ein Abonnement ihren NutzerInnen zugänglich machen können. DigiZeitschriften ist als nachhaltiger Service angelegt und ein zusätzliches Angebot der Bibliotheken. Es ist eine wichtige von der DFG geförderte Infrastrukturmaßnahme zum Nutzen der deutschen Wissenschaft und des deutschen wissenschaftlichen Publikationswesens.

Caren Barbara Schweder ist Mitarbeiterin in der Geschäftsstelle des DFG-Projektes DigiZeitschriften an der Niedersächsischen Staats- und Universitätsbibliothek Göttingen.


[1] Vgl. Traditionen – Visionen. 44. Historikertag in Halle an der Saale vom 10. bis 13. September 2002, Einführung des Tagungsprogramms: Wohin führt der Weg? Fachzeitschriften im elektronischen Zeitalter, Punkt 7.3.

[2] Vgl. <http://www.jstor.org/>.

[3] Vgl. hierzu auch Lossau, Norbert; Cramme, Stefan, DigiZeit (Digitising journals), in: Digitising journals: confernce on future strategies for European libraries, 13.-14.03.02 Copenhagen, S. 19-23.

[4] In der Gesetzesnovelle zur Gestaltung des Urheberrechts in der Informationsgesellschaft, der der Deutsche Bundestag am 11. April 2003 zugestimmt hat, regelt der neue Paragraf 52a des Urheberrechtsgesetzes insbesondere die Weitergabe von Teilen veröffentlichter Werke, Werke geringen Umfangs oder einzelne Artikel aus Fachzeitschriften in abgegrenzte, geschlossene Netzwerke (Intranets).Vgl. hierzu u.a. auch: Sietmann, Richard; Krempl, Stefan, Zaghaft nach Digitalien. Das neue Urheberrecht auf Probe, in: c't 9 (2003), S. 18.

[5] Vgl. auch das Auswahlprozedere der Zeitschriftentitel von DigiZeitschriften oben auf S. 2.

[6] Über das Angebot von DigiZeitschriften können Sie sich informieren und finden auf dem Demonstrationsserver eine Auswahl von Titeln angeboten unter <http://docserver.digizeitschriften.de:80/digi_docs/kollektionen.html>.

[7] Siehe oben.

[8] Der Demoserver findet sich unter: <http://www.digizeitschriften.de>.

[9] Die Staffelung der Abonnements richtet sich nach der Größe der subskribierenden Einrichtung.


Von Thesauriern und Indechsen
Historische Lexikografie im Internet am Beispiel des Goethe-Wörterbuchs

Charlier, Robert

Der Beitrag [1] reflektiert das Verhältnis der historischen Lexikografie zum Internet und den neuen Medien. Am Beispiel des Goethe-Wörterbuchs (GWb) lässt sich zeigen, dass die lexikografischen Strukturen des 19. Jahrhunderts in der Kulturtechnologie des 21. Jahrhunderts fortleben. Geschichtlich sind dabei zwei Richtungen zu unterscheiden: Wörterbücher vom Typ Thesaurus bzw. Index. Geschichtlich handelt es sich dabei zunächst um gegensätzliche Entwicklungen innerhalb der Wortschatzforschung. In der zunehmenden Zahl von (retro)digitalen Wörterbüchern und lexikografischen Online-Ressourcen manifestiert sich jedoch eine zunehmende strukturelle und technische Konvergenz von historischer Semantik und korpusbasierter Lexikografie.

Historische Enzyklopädik und Lexikografie

Systematisch ist zunächst zwischen historischer Sach- und Sprachlexikografie zu unterscheiden. Der Anschaulichkeit halber spreche ich im ersten Fall von Enzyklopädik [2] , im zweiten von deutscher Wortschatz-Lexikografie (zum Beispiel die Wörterbücher von Adelung, Campe oder der Gebrüder Grimm).

Diese Unterscheidung ist keineswegs selbstverständlich. So bemerkt Goethe in seinen so genannten Maximen und Reflexionen: „Wenn einem Autor ein Lexikon nachkommen kann, so taugt er nichts”. [3] Diese Invektive diskreditiert keineswegs den zeitgenössischen Positivismus der Enzyklopädisten allein. [4] Vielmehr rührt Goethe hier an das Inkommensurable des autonomen Dichterwortes überhaupt: Dichtung ist letztlich nie rational oder eindimensional übersetzbar – weder in den Bereich analytischer Sacherklärung noch in den Wortschatz einer fremden Sprache. Versucht man, das Diktum spontan in eine Fremdsprache zu übertragen, zum Beispiel das Englische, wäre wohl zweigliedrig zu übersetzen, etwa mit „lexicon” und „dictionary”.

Im Übrigen bescherte das Erwachen bürgerlicher Öffentlichkeit im ausgehenden 18. Jahrhundert der Sachenzyklopädik und den Konversationslexika eine wahre Konjunktur. Dabei handelt es sich um ein Phänomen, das neben dem boomenden Zeitschriften- und Pressewesen für die Goethezeit symptomatisch war. Das 18. Jahrhundert schied also – zeitgenössisch gesprochen – ‘Diktionär’ [5] und ‘Lexicon’ nur sehr unscharf. Dies nicht zuletzt deshalb, weil es deren gemeinsamem Ursprung zeitlich noch näher war. Auf diese genetische Verwandtschaft von Lexikon und Wörterbuch verweist noch das enzyklopädische Epochenwerk von Denis Diderot und Jean Le Rond d'Alembert: Encyclopédie ou Dictionnaire raisonné des sciences, des arts et des métiers […], Paris 1751-80.

Historisch entwickelten sich die einsprachigen Wörterbücher aus den zweisprachigen. Die (früh)mittelalterliche Glossografie bildete den Ursprung des Diktionärs aus dem Geiste der zwei- oder mehrsprachigen Wortsynopse. Noch das Teutsch-Lateinische Wörterbuch von Johann Leonhard Frisch (1741) markiert als gleichsam erster Wortschatz des Neuhochdeutschen und Dokument der Fremdsprachenlexikografie diesen Verzweigungsprozess. [6] Die fremdsprachenbezogene Herkunft aller Wörterbücher ist in der Goethe-Lexikografie noch deutlich zu erkennen. So besteht Paul Fischers Goethe-Wortschatz von 1929 – erster, noch unvollständiger Versuch eines Goethe-Wörterbuchs – aus zwei Teilen. Auf eine Lemmatisierung der deutschen Wörter im Hauptteil folgt ein separater, verknappter und ebenfalls alphabetisierter „Fremdwörterteil”. [7] Auch das neue, eigentliche Goethe-Wörterbuch basiert auf diesem Genotypus, indem es alle Vorlagenwörter der Übersetzungen und Bearbeitungen bucht, die Goethe ins Deutsche übertragen hat. Fremdsprachige Wörter, von Goethe appellativ oder terminologisch gebraucht, werden nach genau festgelegten Kriterien sogar eigens angesetzt.

Innerhalb der historischen Wortschatzforschung ist des Weiteren zwischen älteren, zumeist abgeschlossenen Wörterbüchern und jüngeren zu trennen, die sich noch in der Bearbeitung befinden. Allein diese neueren Projekte können die Möglichkeiten der neuen Medien progressiv nutzen. Neuauflagen oder -bearbeitungen mit (lokaler) digitaler Nutzungskomponente gehören inzwischen zum Nutzungsstandard einschlägiger ‘Seller’ unter den allgemeinsprachlichen Wörterbüchern wie Duden oder Kluge. [8] Insbesondere haben sich (retro)digitale Wörterbücher zu global verfügbaren Erkenntnishelfern und Informationsinstanzen entwickelt. Als feste Forschungsgrundlage dienen sie Netzphilologie, Kulturwissenschaften und interessiertem Fachpublikum. Zugleich garantieren sie eine stetig wachsende Wirksamkeit und Nützlichkeit der meist akademiegestützten Forschung in den Augen einer breiteren Öffentlichkeit. [9]

Nichts fordert das ganz Neue so wie das sehr Alte – nach diesem Grundsatz beeindruckt die historische deutsche Sprachlexikografie mit einer einmaligen Synthese von geisteswissenschaftlicher Tradition und technischer Innovation. Den konsequent beschrittenen Weg vom lexikografischen Monument zum gemeinnützigen Webwörterbuch dokumentiert hier nur eine Auswahl der wichtigsten Beispiele (Stand bei Drucklegung):

  • Johann Christoph Adelung, Grammatisch-kritisches Wörterbuch der Hochdeutschen Mundart mit beständiger Vergleichung der übrigen Mundarten, besonders aber der Oberdeutschen. Zweite, vermehrte und verbesserte Ausgabe, 4 Bände, Leipzig 1793-1801; elektronische Volltextedition auf CD-ROM (Digitale Bibliothek; 40), Berlin 2000; digitale Rekonstruktion der Ausgabe Wien 1808; [10] parallele Image- und Volltextversion derselben Ausgabe in der Auflage von 1811 (im Rahmen der „Verteilten digitalen Forschungsbibliothek” der Staatsbibliothek München). [11]
  • Deutsches Wörterbuch von Jacob und Wilhelm Grimm, 16 Bände, Leipzig 1854-1971; sehr anspruchsvolle Retrodigitalisierung unter anderem mit Gliederungsansicht; komplexere Suchfunktionen zudem als lokal nutzbare Version, die 2004 bei Zweitausendeins erschienen ist. [12]
  • Matthias Lexer, Mittelhochdeutsches Handwörterbuch, 3 Bände, Leipzig 1872-78; vernetzte Volltextdigitalisierung im Wörterbuchverbund (Benecke/Müller/Zarncke und andere). [13]
  • Wörterbuch der deutschen Gegenwartssprache, herausgegeben von Ruth Klappenbach und Wolfgang Steinitz, 6 Bände, Berlin 1961-77; restrukturiertes Volltextdigitalisat auf der Internetseite des Digitalen Wörterbuchs der deutschen Sprache des 20. Jahrhunderts. [14]
  • Goethe- Wörterbuch im Internet, hg. von der Berlin-Brandenburgischen Akademie der Wissenschaften, der Akademie der Wissenschaften in Göttingen und der Heidelberger Akademie der Wissenschaften. Band 1-3, Stuttgart u. a. 1978-89; anspruchsvolle Retrodigitalisierung der ersten drei Bände des größten Autorenwörterbuchs deutscher Sprache. [15]

Typologisch gruppieren sich innerhalb der einsprachigen historischen Lexikografie allgemein-, fach- und individualsprachliche Wörterbücher. [16] Genau genommen gliedern sich die Wörterbücher zu den großen Repräsentanten einer Nationalsprache (zu Shakespeare, Puschkin, Mickiewicz und anderen) wiederum in umfassende Autoren- bzw. selektive Werkwörterbücher. Die Forschungsgeschichte des Goethe-Wörterbuchs zeigt die seltene Genese eines vollständigen Autorenwörterbuchs aus Teilwörterbüchern zu einzelnen herausragenden Werken wie Götz, Werther oder Divan, aber auch zum Faust. Zu nennen sind hier vor allem Unternehmungen aus dem Umfeld der (Ost-)Berliner Akademie. [17]

Wortschatz-Sammlung als Ausdruck von Wertschätzung

Seit der Erschließung von Wortkonkordanzen zur Bibel im Paris des 13. Jahrhunderts war es, wie Katharina Mommsen erinnert, „die Überzeugung von der Kostbarkeit eines jeden Worts der Heiligen Schrift” [18] , die Schreiber und Gelehrte zur Verfertigung vollständiger Vers- und Verbalkonkordanzen motivierte. Der Begriff Wortschatz offenbart bereits eine etymologische Wahrheit: Thesaurus, griechisch thesaurós: „Schatzkammer” oder „Vorrat, Schatz”, kontextuell übertragen auch für alles Teure, Wertvolle. Vor diesem bedeutungsgeschichtlichen Hintergrund erweist sich Wortschatzsammlung als ein Ausdruck von ‘Wort-Schätzung’ im Sinne höchster kollektiver Wertschätzung eines sprachlichen (Kunst-)Werkes.

Die Wiederbegründung der Goetheforschung unmittelbar nach dem Zweiten Weltkrieg an der damaligen Deutschen Akademie der Wissenschaften zu Berlin wird erst vor dem Hintergrund einer besonderen Klassikerwertschätzung zur deutschen „Stunde Null” verständlich. Mit Blick auf humanistische Traditionen annoncierte der klassische Philologe Wolfgang Schadewaldt das Klassiker-Wörterbuch als „Magna Charta für das neuere Deutsch”. [19] In diesem Zusammenhang kann auf die noch junge Debatte um eine oppurtinistische Haltung Schadewaldts während der Gleichschaltung der Universitäten im Dritten Reich nur verwiesen werden. [20] Verstand sich Victor Klemperers LTI („Lingua Tertii Imperii”, 1946) noch als Versuch kritischer Sprachinventur ex negativo, so bildete das GWb den ersten nennenswerten Versuch der Nachkriegszeit, sich positiv auf das deutsche Sprach- und Kulturerbe zu besinnen.

Eine personelle Verbindung aus der Gründerzeit des Goethe-Wörterbuchs vergegenwärtigt diesen Impuls der Projektväter. Ulrich Pretzel, seit 1947 Leiter der Hamburger Arbeitsstelle, war der Bruder von Raimund Pretzel alias Sebastian Haffner (1907-1999). Das Pseudonym des Emigranten und Heimkehrers wurde zum Inbegriff der Kontinuität eines anderen, kritisch-intellektuellen Deutschland und seiner Sprache – als Heimat eines Johann Sebastian Bach und Wolfgang Amadeus Mozart.

Heute sind solche historischen Projektionen nur noch bedingt auf den Wortschatz eines Klassikers an der Schwelle zum modernen Informations- und Kommunikationszeitalter übertragbar. Denn trotz auflebender Überlegungen zur Kanonbildung in Bildungswesen und Publizistik: Der gegenwärtige Zeitgeist scheint eher beherrscht von dem Wunsch nach enthierarchisierter Allverfügbarkeit kulturellen und historischen Wissens. [21] Auch die Begriffe von ‘Klassik’ und ‘Klassizität’ scheinen wissenschaftlich weitgehend historisiert und nivelliert – damit aber auch im Diesseits der kanonkritischen Weltsicht angelangt. Ihre Berechtigung wahrt die kanonisierende Wertschätzung dennoch, zumindest im Sinne einer anthropologischen Konstante. Denn jede Epoche oder (Hoch-)Kultur kannte bislang ein personal oder textuell manifestes Heiliges oder Höchstes, eben ‘Klassisches’ – sei es eine Verkörperung durch ein – heroisches, auch vergöttertes – Individuum oder das Textkorpus eines berühmten Weisen oder Dichters.

Goethe: einziger Neunzigtausender der deutschen Literatur?

In ihrer monumentalen Masse und phänomenalen Bedeutungsfülle bleibt die Sprachwelt Goethes historisch unerreicht. Goethes Wortgebrauch, sein dichterisches Schöpfertum erscheinen einzigartig: Kein bekannt gewordenes individuelles Sprachvermächtnis vereint eine derartige Verwendungsvielfalt von Gemein-, Fach- und Poesiesprache. Dies manifestiert sich in einem Gesamtwortschatz von bis zu 90.000 einzelnen Wörtern. Dabei handelt es sich neben Wörtern wie „Wahlverwandtschaft“ oder „Weltliteratur“ um weitaus häufiger belegte Goethesche ‘Natur- und Wesenswörter’, aber auch zahlreiche Begriffe aus der Amts- und Rechtssprache oder naturwissenschaftliche Terminologie sowie Einmalbildungen und poetische Neologismen. [22] Goethes Wortschatz ragt aber nicht nur qualitativ in unerreichte Höhen. Denn die reiche Wortwelt seines schriftlichen Gesamtwerks, eine enorme Menge von Gedichten, dramatischen und Prosatexten, Privatbriefen, Amtsschreiben und wissenschaftlichen Schriften – mit erhaltenen Tagebüchern und (aufgezeichneten) Gesprächen aus vielen Jahrzehnten – bildet den bisher wohl einzig bekannt gewordenen ‘Neunzigtausender’ der deutschen Literatur. Zum Vergleich: Für das projektierte Schiller-Wörterbuch wurden zunächst ca. 70.000 Lemmata veranschlagt. [23] Die Aussagekraft rein zahlenmäßiger Betrachtungen ist allerdings sehr begrenzt. Die Größe eines erschlossenen Wortschatzes allein erlaubt noch keine fundierten Rückschlüsse. Schließlich bleibt der Fokus eines jeden Ansetzungsrasters fließend. So kannte die Goethezeit noch keine allgemein verbindliche Getrennt- und Zusammenschreibung. Ernsthafte orthografische Normierungsversuche datieren erst aus nachgoethischer Zeit oder setzten sich erst nach dem Tode des Dichters durch. [24] Singuläre Qualität und Quantität – dieses Merkmal von Klassizität ist auch für das GWb konstitutiv, indem es eine der historisch letzten universalen und künstlerisch nahezu unerschöpflichen individuellen Sprachleistungen nach dem Thesaurusprinzip vollständig zu beschreiben anstrebt.

Lexikografie als Meta-System

An den Akademien des deutschsprachigen Raums bilden neben einer Fülle wichtiger, oft international einmaliger Forschungsprojekte eigene Archive und Bibliotheken ein unverrückbares Fundament. Eckpfeiler der geisteswissenschaftlichen Grundlagenforschung sind unter anderem Großvorhaben vom Typ Bibliografie, Edition, Lexikon oder Wörterbuch. [25] Mit diesen Elementen kultivieren die Akademien gewissermaßen die Ordnungs- und Zugriffssysteme der modernen Medien- und Wissenswelt. Im technischen Sinn entspricht dies den Paradigmen ‘Inhalt/Speicher’ (content/memory) und ‘Zugriff/Abruf’ (retrieval).

Umgekehrt scheint die technische Medienwelt diese epistemischen Ordnungen verinnerlicht zu haben. Denn jeder Inhalt verlangt in der Welt der neuen Medien nach einer Verarbeitung im Sinne letztlich wissenschaftlicher Verfahren. Der Inhalt (nicht nur, aber in der Regel ein Text) muss elektronisch ediert, also in eine komplexe Struktur von Meta-Informationen eingebettet, formatiert und annotiert werden. Für Kataloge oder (kommentierte) Linklisten muss er bibliografierbar und für eine Suchmaschine indexiert, das heißt im Sinne eines virtuellen Wörterbuchs der Suchbegriffe oder Lexikons der Schlagworte lemmatisiert werden. Schließlich werden Text und Metatext im wissenschaftlich-technischen Verarbeitungsprozess wie jedes andere Datenobjekt in einem standardisierten Format archiviert.

Die Frage: Gehört ein (sprach)historisches Wörterbuch ins Internet? verdient deshalb vor diesem Hintergrund reverse Betrachtung: Trägt die Webwelt nicht eher umgekehrt die Signaturen der (Wörter-)Buchwelt von klassischer Bildungskultur und Wissenschaft? Aus der Sicht der historischen Lexikografie kann man dies bejahen. Zwar ist die Mehrzahl der retrodigitalisierten historischen Wörterbücher noch weitgehend von der Formensprache und den Nutzungsvorstellungen des 19. Jahrhunderts bestimmt. [26] Es zeigen sich aber bemerkenswerte Strukturparallelen mit der technologischen Morphologie des 21. Jahrhunderts. Das belegt eine sprechende Gegenüberstellung der Module eines Goethe-Wortartikels mit den typisierten Elementen des Fundstellen-Eintrags einer Suchmaschine (zum Beispiel Google). [27] Die Bausteine eines Wortartikels sind in der linken Spalte vereinfachend benannt: [28]

Lemma

Such-, Schlag-, Stichwort

Vorbemerkung

Meta-Information (Fundort, Seitenstatistik)

Leitbemerkung

Trefferkommentar

Zitat

referenziertes Dokument (Bild, Grafik, Ton)

Stellenangabe

virtuelle Ortsreferenz (URL)

Wortverweise

Hyperlinks

Synonyme

Angabe ähnlicher Seiten

Lemmaliste

Index

Internet und neue Medien haben die nutzerspezifischen Anforderungen und technischen Möglichkeiten der sprachhistorischen Lexikografie zweifellos revolutioniert. Allerdings haben sich die Schlüsselbegriffe historischer Wörterbuchkonzepte umgekehrt auch als unverzichtbare evolutionäre Konstituentien des weltweiten Wissensnetzes erwiesen. Beinahe mühelos lassen sich die ‘grammatischen’ Elemente der lexikografischen Beschreibungssprache als technische Morphologie der Internetwelt verstehen: Begriffsparallelen wie Lemma/Suchwort, Textkorpus/Volltext oder Verweis/Hyperlink, aber auch statthafte Analogisierungen wie Wortschatz = Volltextlemmatisierung oder semantische Bestimmung = kommentierter Wortindex belegen: Viele Schlüsselbegriffe aus der Welt der Search engines oder Web crawlers übersetzen Wörterbuchprinzipien in die Terminologie und Taxonomie der Suchmaschinen. Damit besetzen lexikalische Muster eine sehr wichtige Schnittstelle zwischen semantisch-natürlichsprachlicher und logisch-maschinensprachlicher Welt.

Konvergenz von Wissenschaft und World Wide Web

Die Affinität zwischen moderner Web- und historischer Wörterbuchwelt erlaubt drei kurze Ausblicke über den engeren Rahmen der lexikografischen Betrachtung hinaus.

Erstens: Lexikalische und lexikografische Techniken im medialen Umgang mit Wissen spiegeln auch eine Verwissenschaftlichung der Öffentlichkeit wider. Begriffe und Ordnungsstrukturen wie Archiv, Enzyklopädie, Katalog, Index, Register und andere mehr sind allen NetznutzerInnen unabhängig von ihrem Bildungsstand geläufig. Man könnte sagen: Das Internet hat die epistemische Formensprache in ähnlicher Weise popularisiert und demokratisiert wie Nomenklatur und Einheitensysteme der Naturwissenschaften und der Technik (z.B. „Megahertz”, „Kilobit”). Selbst usuelle Metaphorik des digitalen Zeitalters ist in weiten Bereichen der Kultur- und Wissensgeschichte entnommen. Man bedenke nur die Vorstellung des „Scrollens”, die auf die antike Schriftrolle zurückgeht [29] , das virtuelle Werkzeug des „Editors” oder die heuristische Vorstellung des Desktops als „Explorer” – in Anlehnung an den Begriff der wissenschaftlichen Entdeckerfahrt. Weitere Leitbegriffe der Web- und Medienwelt säkularisieren Elemente der Wissenschaftskultur: Fachwörter wie Software-Archiv, Digitale Bibliothek, elektronisches Buch, elektronische Edition, Viren-Enzyklopädie, Volltext-Index oder Internet-Katalog sind wahre Termini technici der neuen Medienwelt. Sie enthalten jeweils ein semantisches Zweitglied, das die jahrhundertealte Strukturwelt des Wissens aktualisiert.

Zweitens: Auch im Blick auf die Standardisierung von Datenformaten, Programmiersprachen und Auszeichnungssystemen hat die Internetwelt die Wissenschaft um eines ihrer größten historischen Verdienste beerbt. Denn erst die akademische Konventionalisierung des Lateinischen oder Englischen als wissenschaftliche Verkehrssprachen ermöglichten die Entstehung einer Scientific community. Dieses Prinzip der (sprachlichen) Standardisierung für die technisch schnelllebigen Windungen des kulturellen Gedächtnisses gewinnt in der digitalen Wissenswelt täglich an Bedeutung. Spezielle bibliotheks- und geisteswissenschaftliche Standards wie zum Beispiel die Vorgaben der Open Archive Initiative (OAI) oder der Text Encoding Initiative (TEI) bedienen sich, zumindest was die semantische Seite technischer Normierung betrifft, altbewährter szientistischer Konventionalisierung. Klassifikationssysteme wie die so genannte Dewey Decimal Classification (DDC) oder der Versuch einer Universalkodierung aller Schriftzeichen der Menschheit durch Unicode gehören ebenfalls in diesen Zusammenhang.

Drittens: Der populärwissenschaftliche Umgang mit Internet und neuen Medien lässt historische Erfahrungsmuster als neue mediale Mytho- und Theologeme wieder auf- und fortleben. So hat der Internetbeauftragte des Vatikans in Gestalt des verkündenden Boten- und Erzengels Gabriel schon vor längerem einen Schutzheiligen für das weltweite Wissensnetz vorgeschlagen. [30] Auch Software-EntwicklerInnen bedienen sich gerne biblischer oder mythologischer Figuren und Vorstellungen, um ihre Produkte in einen bedeutenden Namen zu bannen. In diesem Sinne konstituiert das datenbankgestützte Dokumentations- und Retrievalsystem Faust zwar keinen näheren Bezug zu seinem Namenspatron. Dafür empfiehlt sich die Lese-Software zum Thesaurus Linguae Graecae (TLG) mit ihrem sprechenden Namen in sehr ambivalenter Weise als (Büchse der) Pandora, die mit ihren Treffer- und Textmyriaden auch ein ‘Übel des Zuviel’ über die NutzerInnen ergießt. [31] Und der Korpusbrowser der Online-Bibliothek des Archimedes-Projektes, entwickelt am Berliner Max Planck-Institut für Wissenschaftsgeschichte, heißt nach der Geleiterin des Odysseus im Reiche des Phäakenkönigs Nausikaa. [32] Schließlich waltet die Muse der Geschichte gleich mehrmals als Namensgeberin für wissenschaftliche Online-Projekte im Bereich der Geschichtswissenschaften. [33]

Zur elektronischen Struktur des Goethe-Wörterbuchs

Ein kurzer geschichtlicher Rückblick auf die Forschungs- und Methodengeschichte der Goethe-Lexikografie verspricht Erkenntnisgewinn. So erscheint das bewährte Neben- und Miteinander von thesaurischem und indexierendem Arbeitsprinzip in der germanistischen Literatur- und Sprachwissenschaft auch für zukünftige technische und konzeptionelle Entwicklungen in der Wörterbuchlandschaft aufschlussreich.

Zunächst möchte ich am Beispiel der Literaturwissenschaft die Intentionen bestimmen, die die Anwendung linguistisch indexierender Verfahren auf ein literarisches Korpus motivieren können. Die literaturwissenschaftliche Korpusanalyse dient in der Regel:

  • der auktorialen Zuschreibung eines Textes oder Korpus,
  • der Ermittlung von Form-, Stil- oder Motivaffinitäten oder
  • der strukturellen Inhaltsanalyse.

Die erste, gleichsam forensische Motivation der korpuslinguistischen Arbeitsweise dient mit Blick auf einen Text allein der Frage: Wer ist der Verfasser oder die Verfasserin? Mittels entsprechender Wortschatz- und Stilanalysen konnte die ältere Forschung zum Beispiel die Autorschaft Goethes für die Literatur-Rezensionen aus den Frankfurter Gelehrten Anzeigen im Einzelnen bestimmen. [34]

Die zweite intertextuelle Untersuchungsweise erlaubt vergleichende Aussagen über Parallelen, Ähnlichkeiten oder Übereinstimmungen zwischen verschiedenen AutorInnen. Die dritte beschränkt sich auf die textimmanente Betrachtung, zum Beispiel zur Verwendungshäufigkeit oder Schreibweise eines Wortes oder einer Wortgruppe innerhalb eines Textes. Die Kulturinformatikerin Martina Schwanke bemerkt dazu in ihrem „Historischen Überblick über Versuche einer computergestützten Aufbereitung literarischer Texte”:

„Schon Ende der vierziger Jahre [des 20. Jahrhunderts, R. C.] wurde die Möglichkeit entdeckt, mit den neuen Rechenanlagen literaturwissenschaftliche Aufgaben zu lösen, von denen man wegen des immensen Personal- und Zeitaufwandes sonst zurückgeschreckt wäre. Damals begann man mit der automatischen Erstellung der ersten Werkindices und -konkordanzen, die wegen der noch geringen Leistungsfähigkeit der Anlagen zunächst einen nur bescheidenen Umfang haben konnten.” [35]

Die technischen Möglichkeiten der Verzettelung und „Textzerlegung” beflügelte auch die Goethe-Lexikografie. Das belegt eine Reihe entsprechender Publikationen und Projekte. [36] Für die Exzerptionsphase des GWb waren großrechnergestützte Verfahren der Korpusanalyse unverzichtbar. So bilanzierten Gerhard Stickel und Manfred Gräfe bereits im Erscheinungsjahr der ersten Lieferung des GWb die Debatte um „Natürliche Sprachen und elektronische Datenverarbeitung” mit ihrem nüchternen Bericht über Möglichkeiten und Mühsal der „[a]utomatische[n] Textzerlegung und Herstellung von Zettelregistern für das Goethe-Wörterbuch”. [37] Die Werkzeuge aus dieser Frühzeit beliefen sich dabei noch auf Flussdiagramme in der Programmiersprache Fortran, umgesetzt auf den Lochkarten einer Rechenanlage vom Typ IBM 7090. [38] Noch lange vor Einführung des Personal Computer wurde das Goethesche Werk mittels „Verlochung” einzelner Textkorpora erstmals vollständig ausgewertet und durchlemmatisiert. Da aber noch keine komplette elektronische Fassung des gesamten Œuvres vorlag, ergänzte die maschinelle Exzerption lediglich die manuelle. Auch bei den automatisierten Analysen blieb eine „useful man/machine interaction” unverzichtbar. [39] Die technikgeschichtlich bedingte Struktur der Arbeitsgrundlagen des GWb durch automatische Indexierung konstituiert auch die heutige Datenbasis des Wörterbuchs. Das veranschaulicht ein Blick auf die Arbeitsoberfläche GWb intern in Abbildung 1:

Arbeitsoberfläche GWb intern

Das markierte Beispiel „Goethit” in Abbildung 1 verdeutlicht: Die Wörterbuchartikel verstehen sich nicht nur als Erträge semantisch bestimmender interpretativer Arbeit, sondern sie bündeln auch eine Fülle von Informationen, die allein aus indexierenden Verfahren zu schöpfen sind. Bei einem historischen Belegwörterbuch wie dem GWb gehören dazu statistische Aussagen über die Verwendungsbereiche und die Gebrauchsgewichtung der einzelnen Wörter, aber auch Angaben zu (seltenen) Schreibungen oder Fehllesungen. Letztlich speisen sich fast alle Module des einzelnen Wortartikels aus einem Index als universeller ‘Text hinter dem Text’. Die angesetzte Lemmaform „Goethit” verweist dabei ebenso auf den Gesamtwortindex wie die Synonymen-Verweise am Artikelende. Die zahlreichen Abkürzungen, Werk- und Namenssiglen referenzieren die indexierten Listen mit den Auflösungen der Textkonventionen sowie der Werktitel und Namen der BriefempfängerInnen.

Voraussetzung für die Implementierung lokaler oder clientseitiger Indexierung ist die konsequente Auszeichnung der lexikografischen Ergebnisdaten. Dies geschieht bereits auf Ebene der Textverarbeitung. Im Beispiel von Abbildung 1 wird dies sichtbar an der horizontalen Funktionsleiste des Arbeitsfensters mit seiner Vielzahl von Buttons. Über diese Buttons aktiviert der Redaktor automatisierte VBA-Routinen (so genannte „Makros”) zur typografischen und SGML-kompatiblen Textauszeichnung (VBA steht dabei für die Programmiersprache „Visual Basic for Applications”). Eine nähere Betrachtung von Abbildung 2 erhellt die hierarchische Daten- und Navigationsstruktur.

Daten- und Navigationsstruktur GWb Intern

Der virtuelle lexikografische Arbeitsprozess reflektiert damit die Genese der semantisch-thesaurischen Intensivform aus der automatisch indexierten Extensivform. Das technische Layout visualisiert den Entstehungsprozess des Wörterbuchs als Aufstieg vom Index zum Thesaurus. Indexierungsverfahren sind innerhalb der elektronischen Redaktion des GWb auch nach Fertigstellung des ausformulierten Wortartikels ein wichtiges Werkzeug. Denn alle lexikografischen Arbeitsdaten (zum Beispiel Siglenlisten) und Ergebnisdaten (Wortartikel) werden im Intranet archiviert und im Volltext indexiert (siehe Abbildung 2). Dafür hat sich eine javabasierte Suchmaschinen-Technologie bewährt. Plattformübergreifend legt die entsprechende Software eine Indexdatei aller Datensammlungen an. Mit einem frei konfigurierbaren Java-Applet können die indexierten Textdaten dann mit Hilfe der einschlägigen Suchoperatoren durchsucht werden. Die javabasierte Suchtechnologie ermöglicht es dabei, die hierarchisierten Verzeichnisse von Arbeits- und Ergebnisdaten in beliebiger Verzweigungstiefe einzeln oder gebündelt zu indexieren. Dementsprechend kann der Redaktor über Hyperlinks beliebig viele weitere Applets mit selektiven Abfragemasken konfigurieren und je nach Suchwunsch aufrufen. Dies verdeutlicht Abbildung 3 beispielhaft anhand der Suchfunktion „Suche in Wortartikeln”:

Suche in Wortartikeln

Im Bereich lokaler und intranetgestützter Datensammlungen beruht diese javabasierte Suchtechnologie auf einer serverunabhängigen Schnittstelle (Application Programming Interface, API). Auch für komplexe textbasierte Datensammlungen sind also keine Serverschnittstelle (Common Gateway Interface, CGI) samt entsprechender Skripts oder Verzeichnisfreischaltungen erforderlich. Alle internen Abfragen werden ohne Webmaster oder Systemadministrator redaktionsintern bewältigt. Eine Aktualisierung der Indexdatenverzeichnisse für den Suchagenten ist jederzeit möglich. Schließlich bietet die Javawelt auch eine CGI-Version der verwendeten Suchmaschine. Dadurch wird das Retrieval einer künftigen Online-Publikation der Wörterbuchartikel modelliert und für die alltägliche lexikografische Praxis fruchtbar. Die intranetgestützte Arbeitsumgebung GWb intern dient damit zugleich als Modell für eine akkumulative Internetpublikation des Wörterbuchs. [40]

Von der historischen zur korpusbasierten Lexikografie

Ein Blick in die Geschichte der deutschen Wortschatzforschung ist aufschlussreich. Historisch betrachtet treten den älteren Thesauri heute zahlreiche moderne lexikografische Informationssysteme vom Indextyp gegenüber. Die Vertreter der traditionellen Lexikografie haben in der Regel den Namen ihrer großen Pioniere ein Denkmal gesetzt: Johann Christoph Adelung, Joachim Heinrich Campe, Jacob und Wilhelm Grimm – aber auch Moriz Heyne oder Hermann Paul. [41] Die Wörterbuchsysteme vom Indextyp dagegen sprechen mit mehr oder weniger klingenden Akronymen wie CISLEX, COSMAS, DWDS, GermaNet, LIMAS oder NEGRA. [42] Sie zeugen damit von ihrer Herkunft aus den anglo-amerikanischen Corpus linguistics. Anders als klassische Printwörterbücher rationalisieren diese digitalen Projekte den lexikografischen Produktions- und Rezeptionsprozess, und zwar von der elektronischen Textquellenerschließung über die Segmentierung und Annotierung ihrer Korpora bis zur Extraktion ihres Wissens über Wörter. Kontrastiv vertieft sich folgender Gegensatz von Thesaurus- und Indexprinzip:

  • Wörterbücher vom Thesaurustyp bestimmen Wortbedeutungen im Sinne der historischen Semantik. Sie gründen in der Regel auf einem (ab)geschlossenen Wortschatz (erfasst in einem umfangreichen Belegkartenarchiv) und bieten eine A- bis Z-Lemmatisierung. Ihre Redaktoren gleichen semantischen Archäologen, die ihre Worterklärungen vor allem an philologischer und sprachwissenschaftlicher Hermeneutik orientieren. Auf der Ebene der Wortartikel herrschen absolute Angabetypen, wie semantische, phonetische, morphologische, syntaktische oder pragmatische Aussagen, so zum Beispiel der Verweis auf ein Hapax legomenon oder eine Erstdatierung, vor. Es dominiert ein hierarchischer Artikelaufbau. Medium dieses Typs ist das Print- oder (retro)digitalisierte Online-Wörterbuch.
  • Wörterbuchsysteme vom Indextyp fokussieren weniger die ‘Bedeutung’ als die ‘Eigenschaften’ von Wörtern. Das betrifft vor allem das Verhalten von Wörtern im repräsentativen oder kontextabhängigen Massenverband. Sie basieren in der Regel auf großen elektronischen Textkorpora mit Millionen (oder sogar Milliarden) von Textwörtern und akkumulieren zumeist offene Wortschätze. Es dominieren relative Angaben, basierend auf der seriellen Feldstruktur der zugrunde liegenden Datenbanken. Komplexe Retrievalfunktionen ermöglichen hauptsächlich objektivierte Wissensextraktion und favorisieren statistische, systematische oder heuristische Fragestellungen: Treten Wörter musterbildend miteinander in Verbindung? Haben sie gesetzmäßige Beziehungen zu bestimmten Textsorten? Medium dieses Typs sind Volltextdatenbanken mit mächtigen Benutzerschnittstellen und virtuelle Wörterbuchsysteme mit verteilten Online-Ressourcen.

Diese Gegenüberstellung von Thesaurus und Index erhellt aber auch komplementäre Negativ-Tendenzen. So laufen nämlich die traditionellen Wörterbücher gelegentlich Gefahr, lediglich isolierte „Einzelwortschicksale” in arbiträrer Abfolge aufzulisten oder auf Artikelebene in unüberschaubare Wortmonografien auszuufern. [43] Auf der anderen Seite verkümmert die dynamische Datenausgabe lexikografischer Datenressourcen nicht selten zum bloßen Formular für Zahlen und Zeichen. Das Besondere und Interessante droht dabei in Myriaden von Textwörtern zu ertrinken.

Auch ist die Antinomie von Thesaurus- und Indextyp durch die technische Entwicklung in Bewegung geraten. Zum einen wurden einige historische Wörterbücher (retro)digitalisiert, wie zum Beispiel Adelung, Lexer, Grimm oder das Goethe-Wörterbuch. Soweit sie dabei im Volltext restrukturiert und annotiert vorliegen, werden sie dadurch selbst zum (Teil eines) Korpus. Dies dokumentieren Wörterbuchverbünde wie das Trierer Projekt „Mittelhochdeutsche Wörterbücher auf CD-ROM und im Internet” [44] oder das „Wörterbuchportal” der Berliner und Heidelberger Akademien der Wissenschaften. [45]

Andererseits haben korpuslinguistische Techniken im lexikografischen Arbeitsprozess historischer Wörterbücher längst Einzug gehalten. So wird das Belegarchiv des GWb (mit rund 3,2 Millionen Textbelegen) laufend ergänzt durch die Arbeit mit der Datenbank Goethes Werke auf CD-ROM. Es handelt sich dabei um eine SGML-kompatible Volltexterschließung des Gesamtwerkes nach der Großen Weimarer oder Sophien-Ausgabe in 143 Bänden. Die Auszeichnungstiefe dieser Datenbank ermöglicht unter anderem eine Kommandozeilensuche, die auch korpuslinguistischen Verfahren und Abfragen entgegenkommt. [46]

Auf diese Weise wachsen traditionelle und korpusbasierte Lexikografie zusammen. Mit der universellen Verfügbarkeit digitaler Werkzeuge konvergieren auch Produktions- und Präsentationsverfahren, und zwar vom elektronischen Volltextkorpus auf CD-ROM bis zum Portal für alle Wörterbuchtypen.

Diese Konvergenz von Thesaurus- und Indexprinzip illustriert ein letzter Blick auf die elektronische Struktur des GWb. Innerhalb der Online-Präsentation des Goethe-Wörterbuchs auf dem Goethe-Server der Bibliothek der Berlin-Brandenburgischen Akademie der Wissenschaften lässt sich das Frameset von GWb intern integrieren. Die Schachtelung der entsprechenden Framesets dokumentiert Abbildung 4. Die Darstellung reproduziert das Bildschirmbild des Hyperlinks in der oberen Menüleiste ‘Intern’ (siehe Cursorposition). Das enge Ineinander von Thesaurus und Index verdeutlicht dabei der Aufruf des Artikels ‘Index’ aus dem Wörterbuch der deutschen Gegenwartssprache (WDG). Dieses vollständige Wörterbuch des Deutschen, von 1952 bis 1977 erarbeitet an der Deutschen Akademie der Wissenschaften zu Berlin, befindet sich im Volltext auf der Internetseite des Digitalen Wörterbuchs der deutschen Sprache des 20. Jahrhunderts (DWDS): [47]

Konvergenz von Thesaurus- und Indexprinzip

Als Repräsentation eines Thesaurustyp-Wörterbuchs eröffnet die Online-Präsentation zugleich den Zugang zu einer korpusbasierten lexikografischen Ressource wie dem DWDS, das ein enormes Textvolumen für die anspruchsvolle Analyse aufbereitet. Das moderne ‘historische’ Wörterbuch der deutschen Gegenwartssprache sorgt wiederum für vollständige semantische Ausdifferenzierung in Form eines geschlossenen, von A bis Z durchlemmatisierten Thesaurus. Dabei handelt es sich um den Wortschatz der modernen Gegenwartssprache der 1950er bis 70er Jahre aus dem Blickwinkel der ostdeutschen Sprachwissenschaft. Das thesaurische WDG mündet damit in ein Referenzkorpus des Deutschen, das neben schöner und Gebrauchs-Literatur, Publizistik und Fachtexten ganze historische Wörterbücher in seinen Vorrat von über 100 Millionen laufenden Textwörtern inkorporiert. [48]

Diese Konvergenz von Thesaurus- und Indexprinzip möchte ich abschließend durch ein Thesenbild veranschaulichen. Es handelt sich dabei um die Übertragung eines naturgeschichtlichen Bildes in den Technikbereich. Als ‘evolutionsgeschichtlich’ ältere Daseinsform verkörpern demgemäß die historischen Wörterbücher die fiktive Spezies der ‘Thesaurier’. Digitale lexikografische Informationssysteme dagegen übernehmen gleichsam die Rolle imaginärer ‘Indechsen’. Während das thesaurische Prinzip die vernetzte Wissenswelt in ihrem Funktionskern modelliert, profitieren historische Korpora von den immer mächtigeren Möglichkeiten technischer Indexierung, und zwar, wie gezeigt, vom Markup bis zum Retrieval. Der (teil)automatisierte Index benötigt also semantische Erläuterung, der komplex kommentierte Wortschatz verlangt dagegen nach Umwandlung in einen abfragbaren Datenschatz. Thesaurier und Indechsen stehen in einem ko-evolutionären Verhältnis zueinander und optimieren sich gegenseitig.

Dr. Robert Charlier ist Wissenschaftlicher Mitarbeiter der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW), Akademienvorhaben Goethe-Wörterbuch.


[1] Aktualisierte und vor allem in der technischen Dokumentation erweiterte Fassung eines Beitrages für das Sonderheft des Archiv[s] für Begriffsgeschichte (20. Jg.): Synergie und Konvergenz. Tradition und Zukunft historischer Semantik am Beispiel des Goethe-Wörterbuchs. In: Müller, Ernst (Hg.): Begriffsgeschichte im Umbruch? Hamburg 2005, S. 167-183.

[2] Im deutschsprachigen Raum vor allem Johann Heinrich Zedlers Grosses vollständiges Universal-Lexicon aller Wissenschaften und Künste, 1732-54 und die Oekonomisch-technologische Encyklopädie von Johann Georg Krünitz (s. auch unter <www.kruenitz.uni-trier.de>). Das Mammutwerk des Berliner ‘Enzyklopädisten’ verstand sich zunächst als Übersetzung entsprechender französischer Vorbilder. Es erschien seit 1773 über eine Zeitspanne von 85 Jahren in 242 Teilen.

[3] „Maximen und Reflexionen über Literatur und Ethik. Aus dem Nachlaß“, Nr. 1059, in: Goethes Werke. Hg. im Auftrage der Großherzogin Sophie von Sachsen. 4 Abteilungen in 143 Bdn., Weimar 1887-1919. [im folgenden WA] I. Abteilung, Bd. 42.2, S. 252 (Erstdruck, 1907).

[4] Goethes Skepsis gegenüber dem Lexikon- und Wörterbuchwesen ist ambivalent. Zum einen bedenkt er die Enzyklopädik mit viel Spott. Andererseits ist Goethe ein fleißiger Benutzer der Hand- und Wörterbücher seiner Zeit (z.B. der Werke von Adelung, Bayle, Campe, Sulzer, Mellin oder Riemer u.a.). Allerdings wettert er vor allem gegen die enzyklopädische „Verewigung” von Irrtümern in naturwissenschaftlichen Lexika (vgl. z.B. Maximen und Reflexionen Nr. 1261 und 1293, Über Naturwissenschaft im Allgemeinen. In: Allgemeine Naturlehre, WA II, Bd. 11 (1893), S. 108f. bzw. 112). Dabei hat er aber in erster Linie Lehr- und Nachschlagewerke im Sinn, die z.B. Elemente der Newtonschen Physik als vermeintliche ‘Fehler’ perpetuieren – also Werke, die von Goethes teilweise eigenwilligen naturwissenschaftlichen Ansichten abweichen. So lässt er in seiner Bearbeitung der Vögel des Aristophanes die komische Hauptfigur lästern: „Hier sind die großen Lexica, die großen Krambuden der Literatur, wo jeder einzeln sein Bedürfniß pfennigweise nach dem Alphabet abholen kann!” (WA I, Bd. 17, S. 95).

[5] Goethe verwendet das eingedeutschte Neutrum „Diktionär“ im doppelten Sinn: „Enzyklopädie, (Real-)Lexikon” und „Wörterbuch” (vgl. Goethe-Wörterbuch. Hg. von der Berlin-Brandenburgischen Akademie der Wissenschaften [bis Bd. 1, 6. Lfg.: Deutsche Akademie der Wissenschaften zu Berlin; bis Bd. 3, 4. Lfg.: Akademie der Wissenschaften der DDR], der Akademie der Wissenschaften in Göttingen und der Heidelberger Akademie der Wissenschaften. 2. Bd. [Stuttgart u. a.] 1989, Sp. 1205,24ff.).

[6] Vgl. Haß-Zumkehr, Ulrike, Deutsche Wörterbücher – Brennpunkt von Sprach- und Kulturgeschichte, Berlin 2001, S. 100-105.

[7] Vgl. Fischer, Paul, Goethe-Wortschatz, 2 Teile, Leipzig 1929, S. 785-905.

[8] Z.B. Etymologisches Wörterbuch der deutschen Sprache, Neuauflage Berlin 2002 mit CD-ROM. Auch das für 2006 angekündigte Schiller-Wörterbuch, hg. von Rosemarie Lühr und Susanne Zeilfelder, ist als Hybridpublikation („Medienkombination“) auf fünf Bände und eine CD-ROM angelegt.

[9] Einen Überblick über die virtuelle Wörterbuchlandschaft bietet „Lexilinks – kommentierte Linkliste zur Lexikografie” unter <http://grimm.adw-goettingen.gwdg.de/lexilinks> (verantwortet von M. Schlaefer, M. Runte, W. Arndt und C. Hohmann) sowie <www.woerterbuch-portal.de>. Zum Forschungsüberblick über aktuelle netzgestützte Wörterbuchprojekte vgl. Städtler, Thomas (Hg.), Wissenschaftliche Lexikographie im deutschsprachigen Raum, Heidelberg 2003, S. 439-86 sowie Haß-Zumkehr (wie Anm. 5), S. 362-70.

[10] Vgl. <www.ub.uni-bielefeld.de/diglib/adelung/grammati/>.

[11] Vgl. <http://mdz.bib-bvb.de/digbib/lexika/adelung>.

[12] Vgl. <www.dwb.uni-trier.de/index.html> sowie die elektronische Volltextedition auf 2 CD-ROMs, u. a. mit komplexen Suchmöglichkeiten, rückläufigem Stichwortindex und sog. Random-Reading-Funktion: Der Digitale Grimm, hg. vom Kompetenzzentrum Trier in Verbindung mit der Berlin-Brandenburgischen Akademie der Wissenschaften, Frankfurt am Main (Zweitausendeins) 2004, vgl. <http://www.zweitausendeins.de/Grimm-Forum>.

[13] Vgl. <http://gaer27.uni-trier.de/MWV-online/MWV-online.html>.

[14] Vgl. <http://www.dwds.de/pages/pages_woebu/dwds_woebu.htm>.

[15] Kooperationsprojekt der Berlin-Brandenburgischen, der Göttinger und der Heidelberger Akademien der Wissenschaften mit dem Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften der Universität Trier, vgl. <http://germazope.uni-trier.de/Projects/WBB/woerterbuecher/gwb/wbwelcome/wbgui?lemid=JA00001>. Zur Online-Publikation aus der aktuellen Bearbeitung im Bereich I, J, K siehe unter <http://pom.bbaw.de/gwb>.

[16] Vgl. Storrer, Angelika; Freese, Katrin, Wörterbücher im Internet, in: Deutsche Sprache. Zeitschrift für Theorie, Praxis, Dokumentation, 2 (1996), S. 97-153, bes. S. 107-16.

[17] Vgl. Dill, Christa, Wörterbuch zu Goethes West-östlichem Divan, Tübingen 1987; Fischer (wie Anm. 7), Merker, Erna (u. a.), Wörterbuch zu Goethes Werther, begründet von E. Merker in Zusammenarbeit mit J. Graefe und F. Merbach, fortgeführt und vollendet von I. Engel, J. Graefe u. a. Berlin 1966; Neuendorff-Fürstenau, Jutta, Wörterbuch zu Goethes Götz von Berlichingen, Lfg. 1 und 2 (Aal-Glück). Berlin 1958-63; Strehlke, Friedrich, Wörterbuch zu Goethe’s Faust, Stuttgart u. a. 1891.

[18] Mommsen, Katharina (Hg.), Verskonkordanz zu Goethes ‘Faust, Erster Teil’. Bearbeitet von Steven P. Sondrup und David Chisholm (Indices zur deutschen Literatur; 18), Tübingen 1986, S. VII.

[19] Schadewaldt, Wolfgang, Das Goethe-Wörterbuch. Eine Denkschrift, in: Goethe. Neue Folge des Jahrbuchs der Goethe-Gesellschaft 11 (1949), S. 293-305, bes. S. 294.

[20] Vgl. Ott, Hugo: Wie Heidegger Rektor wurde. In: Martin Heidegger: unterwegs zu seiner Biographie. Durchges. u. mit einem Nachw. vers. Neuausg., Frankfurt am Main 1992, S. 140-43.

[21] Vgl. Fuhrmann, Helmut, Klassiker oder Computer? in: Goethe-Jahrbuch 113 (1996), S. 259-72, bes. S. 259f.

[22] Vgl. Pniower, Otto, Zu Goethes Wortgebrauch, in: Goethe-Jahrbuch 19 (1898), S. 229-47; 29 (1908), S. 147-56; ders., Goethe als Wortschöpfer, in: Euphorion 31 (1930), S. 362-83. Nach internen Schätzungen liefert die Lemmatisierung des literarischen Werkes ungefähr 40% des Goetheschen Gesamtwortschatzes. Entsprechend wortintensiv erweisen sich die gemeinsprachlich und terminologisch geprägten Abteilungen seiner schriftlichen Hinterlassenschaft wie Briefe, Tagebücher und naturwissenschaftliche Schriften. Zur Quantität historischer und literarischer Wortschätze können daher folgende Vergleichszählungen der Stich- bzw. Einzelwörter nur einen relativen Überblick gewähren: Adelung: 60.000 Wörter (Schätzung); Campe: 141.227 (Eigenangabe); Luther: 23.000 (auf der Grundlage der deutschen Schriften); Ibsen: 27.000; Storm (ohne Briefe): 22.400; Puschkin: 21.200; Shakespeare: 29.000; Milton: 12.500; Cervantes: 12.400 (vgl. Objartel, Georg: Semantische Individualisierung. Ansätze zu Goethe, in: Burkhardt, Armin; Cherubim, Dieter (Hgg.), Sprache im Leben der Zeit. Beiträge zur Theorie, Analyse und Kritik der deutschen Sprache in Vergangenheit und Gegenwart (Helmut Henne zum 65. Geburtstag), Tübingen 2001, S. 305-17).

[23] Das seit 1997 an der Friedrich-Schiller-Universität Jena bearbeitete Schiller-Wörterbuch soll als Autorenwörterbuch, vergleichbar dem Goethe-, Luther- oder Kantwörterbuch, den Wortschatz Friedrich Schillers aufschlüsseln. Laut einer ältereren Selbtdarstellung des Projekts avisierten die Wörterbuchmacher zunächst die lexikografische Aufarbeitung des Schillerschen Wortschatzes als Information „über etwa 70.000 Wörter“. In der aktuellen Verlagsankündigung wird dagegen wie folgt differenziert: „Das fünfbändige Schiller-Wörterbuch ist ein neuartiges Referenzwerk […], das […] den gesamten Wortschatz des Dichters lexikographisch abbildet und sprachwissenschaftlich erschließt. Mithilfe elektronischer Texkorpora wurde […] der Wortbestand aller Werke des Dichters lemmatisiert. Das Wörterbuch bietet zu ca. 32.000 Wörtern umfassende Informationen.“ (Verlag Walter de Gruyter: Germanistik, Sprach- und Literaturwissenschaft/German Studies, Linguistics and Literature 2005/2006, Berlin/New York 2005, S. 9). Diese Nuancierungen könnten auf die im vorliegenden Beitrag angestrebte Unterscheidung zwischen Wörterbüchern vom Typ Thesaurus bzw. Index verweisen. Einem vollständigen Thesaurustyp-Wörterbuch wie dem Goethe-Wörterbuch – alle Texte, alle Wörter, alle Bedeutungen eines sprachmächtigen Individuums – stünde mit dem Schiller-Wörterbuch ein kombiniertes Thesaurus-Indextyp-Wörterbuch gegenüber, das zwar den kompletten Dichterwortschatz technisch abbildet, in der semantischen Durchdringung jedoch selektiert. Denkbar sind in diesem Zusammenhang bestimmte Korpusbeschränkungen (z.B. nur Wiedergabe von Textbelegen aus dem dichterischen Werk) oder in der kommentierten Stichwortauswahl (z.B. Konzentration auf autorenspezifische Wörter oder auf Differenz- statt Gemeinwortschatz; s. dazu auch Anm. 22).

[24] Vgl. etwa Heyse, Johann Christian August, Handwörterbuch der deutschen Sprache mit Hinsicht auf Rechtschreibung, Abstammung und Bildung, Biegung und Fügung der Wörter, sowie auf Sinnverwandtschaft. Nach den Grundsätzen einer Sprachlehre angelegt, 3 Bde., Magdeburg 1833-49, aber auch Adelung, Johann Christoph, Vollständige Anweisung zur deutschen Orthographie, nebst einem kleinen Wörterbuch, 2 Teile, Leipzig 1835 [zuerst 1788].

[25] Diese Grobeinteilung kann keineswegs die enorme Vielfalt akademiegestützter Forschung restlos abdecken. Zu den Interdisziplinären Arbeitsgruppen als innovatives Forschungsinstrument der Berlin-Brandenburgischen Akademie der Wissenschaften vgl. Simon, Dieter, Akademie der Wissenschaften. Das Berliner Projekt. Ein Brevier, Berlin 1999, S. 100-04 bzw. 159-61.

[26] Vgl. Schlaefer, Michael, Standards retrodigitaler Wörterbücher, in: Lexikos (Afrilex-Reeks) 10 (2000), S. 157-72, insb. 165.

[27] Gemäss einer Selbstdarstellung des Produktes ‘Google’ ergibt sich der Name der zur Zeit erfolgreichsten Suchmaschine aus einem mathematischen Begriff, nämlich „Googol, einer 1 mit einhundert Nullen”. Vgl. Thomma, Norbert, Wie denkt das größte Hirn der Welt? in: Der Tagesspiegel vom 1. September 2002.

[28] Zur einführenden Orientierung vgl. „Vorläufige Anleitung zur Benutzung des Goethe-Wörterbuchs” in GWb Bd. 1 sowie die „Einführung” ebd. S. III-XV. Zur Dokumentation der einzelnen Artikelelemente vgl. GWb online (<http://bibliothek.bbaw.de/goethe-woerterbuch/fr_haupt.htm> Hyperlink ‘Artikelaufbau’). – Die Parallelität in der Mikrostruktur von Wörterbuchartikel und Fundeintrag gilt hier nur für die semantische Funktion der einzelnen Module. Bleibt der (gedruckte) Wörterbuchtext stets einer statisch-hierarchischen Dimension verhaftet, so sind die Datenbankfelder einer Fundstellenausgabe natürlich dynamisch und seriell organisiert. Vgl. dazu Meyer, Marc, Korpusbasierte Erstellung eines Wörterbuchs des Deutschen. Chancen und Schwierigkeiten [masch. Ms.], Marburg 2003, S. 57-59.

[29] „Der in unsere Sprache herübergewanderte Ausdruck ‘scrollen’ macht es deutlich: Wir sind dabei, die kaiserzeitliche Entwicklung von der Buchrolle zum Codex wieder umzukehren.” Markschies, Christoph, Digitalisierung antiker Texte, in: Gegenworte 8 (2001), S. 35-37, bes. S. 36.

[30] Vgl. Williams, Daniel, Das Internet sucht seinen Schutzpatron. Der Vatikan fahndet nach dem perfekten Heiligen für das Netz [...] (Übersetzung eines Beitrages für das Wall Street Journal), in: Der Tagesspiegel Nr. 18022 vom 3. Februar 2003 sowie unter <http://www.santiebeati.it>.

[31] Vgl. Markschies (wie Anm. 29), S. 35.

[32] Vgl. <http://nausikaa2.mpiwg-berlin.mpg.de/>.

[33] Als <www.clio-online.de>, „Fachportal für die Geschichtswissenschaften”, oder als Datenbank Kleio, eine Entwicklung des Instituts für Historisch-Kulturwissenschaftliche Informationsverarbeitung an der Universität zu Köln, unter <www.hki.uni-koeln.de>.

[34] Vgl. Wörterregister zu Goethes Rezensionen in den Frankfurter Gelehrten Anzeigen, hg. von der Deutschen Akademie der Wissenschaften zu Berlin, Goethe-Wörterbuch [masch. Ms.], Leipzig 1959, S. I-VII.

[35] Schwanke, Martina, Namen und Namengebung bei Goethe. Computergestützte Studien zu epischen Werken (Beiträge zur Namenforschung, Neue Folge, 38), Heidelberg 1992, S. 92.

[36] Vgl. Hohlfeld, A.R.; Joos, M.; Twaddell, W.F., Wortindex zu Goethes Faust, Madison (Wisconsin) 1940; Kittel, Paula M.; Fuerst, N., Der Wortschatz der Bühnenprosa in Goethes ‘Faust’. Ein Nachtrag zum „Wortindex zu Goethes Faust”, Madison (Wisconsin) 1946; Mommsen (wie Anm. 18); Schmidt, Peter, Der Wortschatz von Goethes ‘Iphigenie’ (Index-Beiheft). Analyse der Werk und Personensprache mit EDV-Hilfe. Mit Wortindex, Häufigkeitswörterbuch und Wortgruppentabellen (Indices zur deutschen Literatur), Frankfurt am Main 1970; Schwanke, Martina (Hg.), Indices zu Goethes Romanen und ‘Hermann und Dorothea’ (Stuttgarter Arbeiten zur Germanistik. Hg. von U. Müller, F. Hundsnurscher u. C. Sommer; Nr. 270-274). 5 Teilbde [I: Index zu ‘Wilhelm Meisters Lehrjahre; II: Index zu ‘Wilhelm Meisters Wanderjahre’; III: Lemmatisierter Index zu ‘Die Leiden des jungen Werthers’; IV: Lemmatisierter Index zu ‘Die Wahlverwandtschaften’; V: Lemmatisierter Index zu ‘Hermann und Dorothea’], Stuttgart 1994.

[37] Stickel, Gerhard; Gräfe, M., Automatische Textzerlegung und Herstellung von Zettelregistern für das Goethe-Wörterbuch, in: Sprache im technischen Zeitalter 19 (1966), S. 247-57, bes. 247.

[38] Ebd. (wie Anm. 37), S. 251; 255-57.

[39] Ebd. (wie Anm. 37), S. 254.

[40] Vgl. zur Online-Präsentation des interakademischen Projekts unter <http://bibliothek.bbaw.de/goethe/woerterbuch> bzw. <http://www.goethe-wortschatz.de>.

[41] Vgl. Steinbach, Christoph Ernst, Vollständiges Deutsches Wörter-Buch, 2 Bde., Breslau 1734; Frisch, Johann Leonhard, Teutsch-Lateinisches Wörter-Buch, Berlin 1741; Adelung, Johann Christoph, Grammatisch-kritisches Wörterbuch der hochdeutschen Mundart, 5 Bde, Leipzig 1774-86; Campe, Joachim Heinrich, Wörterbuch der deutschen Sprache, 5 Bde, Braunschweig 1807-11; Deutsches Wörterbuch von Jacob Grimm und Wilhelm Grimm, 16 Bde, Leipzig 1854-1971; Sanders, Daniel, Handwörterbuch der deutschen Sprache, 2 in 3 Bdn., Leipzig 1869; Heyne, Moriz, Deutsches Wörterbuch, 3 Bde, Leipzig 1890-95; Paul, Hermann, Deutsches Wörterbuch, Halle 1897; Wörterbuch der deutschen Gegenwartssprache von Ruth Klappenbach und Wolfgang Steinitz, hg. von der Deutschen Akademie der Wissenschaften zu Berlin [seit 1972: Akademie der Wissenschaften der DDR], 6 Bde., Berlin 1961-77.

[42] Cislex (Projekt eines vollständigen elektronischen Wörterbuchs des Deutschen): <http://www.cis.uni-muenchen.de/projects/CISLEX.html>; Cosmas I und II (s. Institut für deutsche Sprache); DWDS (Digitales Wörterbuch der deutschen Sprache des 20. Jahrhunderts; Korpus, Online-Wörterbuch, Kollokationsprojekt): <http://www.dwds.de>; DWDS CORPUS (Textbasis des DWDS, Referenzkorpus des Deutschen): <http://dwdscorpus.de>; Elexiko – Wissen über Wörter (lexikografisches Informationssystem des Instituts für deutsche Sprache): <http://www.ids-mannheim.de/elexiko/>; GermaNet (lexikalisch-semantisches Netzwerk): <http://www.sfs.nphil.uni-tuebingen.de/lsd>; Institut für deutsche Sprache, Mannheim (diverse Korpora, Analysemodule): <http://corpora.ids-mannheim.de>; Klassikerwortschatz, Freiburg (Projekt eines korpusbasierten historischen Wörterbuchs): <http://www.klassikerwortschatz.uni-freiburg.de>; Limas (Quellenkorpus): <http://linux-s.ikp.uni-bonn.de/Limas/index.htm>; Negra Corpus Version 2 (Textsortenkorpus): <http://www.coli.uni-sb.de/sfb378/negra-corpus/negra-corpus.html>; Wörterbuchnetz des Trierer Kompetenzzentrums für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften: <http://germazope.uni-trier.de/Projects/WBB/woerterbuecher/>; Wörterbuchportal der Berliner und Heidelberger Akademie(n) der Wissenschaften (Korpus, Online-Wörterbücher, Wörterbuchverbund): <http://www.woerterbuch-portal.de>; Wortschatzlexikon (laufend aktualisierte Wortschatz-Datenbank, elektronisches Wörterbuch): <http://wortschatz.uni-leipzig.de>.

[43] Vgl. Gloning, Thomas; Welter, R., Wortschatzarchitektur und elektronische Wörterbücher: Goethes Wortschatz und das Goethe-Wörterbuch, in: Lemberg, Ingrid; Schröder, Bernhard; Storrer, Angelika. (Hgg.), Chancen und Perspektiven computergestützter Lexikographie. Hypertext, Internet und SGML/XML für die Produktion und Publikation digitaler Wörterbücher (Lexicographica Series Maior; 107), Tübingen 2001, S. 117-32, hier S. 118.

[44] Vgl. <http://gaer27.uni-trier.de/MWV-online/MWV-online.html>.

[45] Vgl. <http://www.woerterbuch-portal.de>.

[46] Der junge Goethe in seiner Zeit. Texte und Kontexte auf CD-ROM [Eibl, Karl; Jannidis, Fotis; Willems, Marianne (Hgg.), Der junge Goethe. Sämtliche Werke, Briefe, Tagebücher und Schriften bis 1775, 2 Bde. und eine CD. Frankfurt am Main u. a. 1998]; Goethes Werke (Weimarer Ausgabe) auf CD-ROM. Vollständige elektronische Edition im Sinne eines Nachdruckes der sog. Sophien-Ausgabe der Werke Johann Wolfgang Goethes. Cambridge (Chadwyck-Healey) 1995; Goethes Werke auf CD-ROM. Weimarer Ausgabe. Benutzerhandbuch IBM/PC-Version. Cambridge (Chadwyck-Healey) 1995; Goethes Werke auf CD-ROM [Rezension von Fotis Jannidis]. In: Arbitrium 16 (1998), S. 192-201.

[47] Vgl. <http://www.dwds.de>.

[48] Vgl. <http://www.dwdscorpus.de>.


Klassifikation und Standardisierung
Das Beispiel des Heidelberger Hypertext-Servers

König, Peter

Seit etwa zwei Jahren entsteht in Heidelberg, im Rahmen eines von der Deutschen Forschungsgemeinschaft (DFG) geförderten und von der Heidelberger Akademie der Wissenschaften getragenen Projekts, eine kulturhistorische Datenbank, die auf eine Vernetzung von digitalen historischen Bedeutungswörterbücher und ihren digitalen Ressourcen abzielt und ein Instrument zur Erschließung der mitteleuropäischen Kulturtradition(en) werden soll. [*] Der Heidelberger Hypertext-Server (HDHS) basiert auf dem Gedanken, dass eine Vernetzung von digitalen, im Internet zugänglichen Wörterbüchern relativ zwanglos möglich ist, wenn man bei den in den Wörterbüchern ausgewerteten zum Teil gemeinsamen Quellen ansetzt und diese als zentrale Referenzobjekte für die angestrebten Vernetzungen wählt. Zum gegenwärtigen Zeitpunkt sind an dem Projekt das Deutsche Rechtswörterbuch (DRW) und das Frühneuhochdeutsche Wörterbuch (FWB) beteiligt, von denen das eine in Teilen bereits in einer Internetversion vorliegt, das andere in absehbarer Zukunft über eine solche Version verfügen könnte. Der Quellenbestand des DRW beträgt circa 8.000 Quellen; der des FWB circa 800; gemeinsam sind beiden Wörterbüchern circa 500 Quellen. Mit der Schnittmenge der Quellen von DRW und FWB einerseits, mit den am häufigsten mit Belegen im DRW vertretenen Quellen andererseits ist im wesentlichen der Objektbereich vorgegeben, der zur Zeit in HDHS erfasst wird. Man erhält eine Vorstellung von der Dimension des zu bearbeitenden Materials, wenn man sich vor Augen führt, dass der Quellenbestand des DRW Texte aus dem gesamten deutschen Sprachraum zwischen 479, dem Beginn der schriftlichen Überlieferung in lateinischen Urkunden der Völkerwanderungszeit, und 1832, dem Todesjahr Goethes, einschließt, und literarische Texte ebenso wie Gebrauchstexte im engeren Sinn umfasst, auch wenn der Natur der Sache nach ein gewisses Schwergewicht auf Texten liegt, die dem Bereich des Rechts angehören. [1]

Dass HDHS in den Mittelpunkt der angestrebten Vernetzung der digitalen Wörterbücher die Quellentexte stellt, eröffnet zahlreiche Möglichkeiten, die im Augenblick vor allem aus praktischen Erwägungen und Zwängen nicht voll ausgeschöpft werden können. Sie werden in Zukunft jedoch an Bedeutung gewinnen. HDHS erstellt zu jedem der Quellentexte eine eigene Dokumentation, in die unterschiedliche Informationen eingetragen werden. Diese Textdokumentation dient als Träger für verschiedene Verknüpfungen mit anderen Dokumentationen, mit den Wörterbüchern und schließlich auch mit den Digitalisaten der erfassten Texte. Häufig besteht in der Verfügbarkeit von digitalisierten Texten ein primäres Interesse der Benutzer des Internet: statt irgendwelcher Informationen über das Hamburger Stadtrecht von 1497, die mühselig über verschiedene Suchmaschinen aus dem Netz zusammengesucht werden müssen und deren Qualität häufig nicht leicht einzuschätzen ist, wird der Text selbst gewünscht, um sich den Weg zur nächsten Bibliothek zu sparen, um ihn auszudrucken und eigene Recherchen darin anstellen zu können. Gegenüber diesem berechtigten Interesse an der Verfügbarkeit von Digitalisaten ist jedoch darauf hinzuweisen, dass HDHS mit den Textdokumentationen den digitalisierten Texten eine wissenschaftliche Dimension hinzufügt und damit etwas leistet, was von anderen Anbietern digitalisierter Texte, etwa dem Projekt Gallica der französischen Nationalbibliothek, nicht geleistet wird. Es handelt sich bei den Anbietern von Digitalisaten in der Regel um Bibliotheken, die in den semantic header ihrer digitalisierten Texte nicht mehr als die üblichen bibliografischen Angaben aufnehmen können oder wollen. Über die Textdokumentionen, die in HDHS zu den Quellentexten der Wörterbücher erstellt werden, können dagegen die Digitalisate dieser Texte in vielfältiger Weise, in denen sich häufig die Ergebnisse der Bemühungen vieler Wissenschaftler spiegeln, aufgeschlüsselt und mit anderen Texten über Rezeptions- und Wirkungsbeziehungen verknüpft werden. Darüber hinaus bietet der Ansatz von HDHS die Möglichkeit, auch Angaben zur Sekundärliteratur, Bibliografien, Bestandsnachweise und Lexika einbeziehen.

Weil die Auswahl der Texte, die in HDHS erfaßt werden, im Wesentlichen durch die in das Projekt eingebundenen Wörterbücher festgelegt ist, stellt HDHS keine Serviceeinrichtung für Digitalisierungsvorhaben anderer Einrichtungen dar. Es geht weder darum, dass HDHS im Sinn einer Arbeitsteilung auf Anfrage Informationen für die semantic headers beliebiger Digitalisate bereithält, noch darum, dass HDHS selbst eigene Digitalisate anfertigt und ins Internet stellt. Das besondere Potential von HDHS besteht darin, dass es auf einen überschaubaren, wissenschaftshistorisch gut begründeten Kanon von Texten zurückgreifen kann. An der Auswahl des Quellenbestandes des DRW etwa waren Rechtshistoriker, Historiker und Germanisten über einen Zeitraum von über 70 Jahren beteiligt, darunter in der Anfangsphase – das DRW wurde 1896/97 begründet - so angesehene Wissenschaftler wie Karl von Amira, Heinrich Brunner, Ferdinand Frensdorff, Otto von Gierke, Richard Schröder, Ernst Dümmler, Karl Weinhold und Eberhard von Künßberg. Auch wenn aus heutiger Sicht bei der Zusammenstellung der Quellentexte manches der Modifikation und Ergänzung bedürfte, kann grundsätzlich an ihrer Qualität und ihrem repräsentativen Charakter kein Zweifel bestehen. Man kann bereits heute vermuten, dass die in HDHS angelegte Datenbank nach ihrer Fertigstellung zu einem wichtigen Arbeitswerkzeug in den historischen Wissenschaften avancieren wird und einen nicht unerheblichen Beitrag zur Erschließung mitteleuropäischer Kulturtradition(en) leisten kann. [2] Zugleich können von HDHS Impulse an Bibliotheken, Archive, Akademien oder andere wissenschaftliche Einrichtungen ausgehen, die Handschriften und Drucke der Quellentexte, die den von den Wörterbüchern verwendeten Editionen zugrunde liegen, wie auch diese zum Teil schwer zugänglichen Editionen selbst zu digitalisieren und über HDHS in den Hypertext der schriftlichen Überlieferung (zumindest eines wesentlichen Teils) der mitteleuropäischen Kulturtradition(en) einzubetten. Und im Rahmen des zunächst von der Berlin-Brandenburgischen und der Heidelberger Akademie der Wissenschaften initiierten und realisierten Wörterbuchportal wird HDHS auf einer in der Lexikografie bislang völlig neuen Ebene für Wörterbuchvernetzungen sorgen können.

Klassifikation und Standardisierung

Die Dokumentationen, die HDHS zu den Quellentexten der Wörterbücher anlegt, haben die Aufgabe, diese Texte unter verschiedenen Gesichtspunkten zu charakterisieren. Sieht man von im engeren Sinn bibliografischen Daten ab, etwa zum Bestandsnachweis einzelner Textausgaben und ähnlichem, dann handelt es sich darum, Angaben zu folgenden Aspekten zusammenzustellen:

  • zum Titel des Textes
  • zu an der Entstehung des Textes beteiligten Personen
  • zur Entstehungszeit des Textes
  • zum Entstehungsort des Textes
  • zu den Entstehungsumständen des Textes
  • zur Sprache des Textes
  • zur Textintention
  • zur Textsorte
  • zum Inhalt des Textes
  • zur Gliederungsart des Textes
  • zur Relation des Textes zu anderen früheren oder späteren Texten
  • zur Überlieferung des Textes
  • zur Wirkung des Textes
  • zu den Textzeugen
  • zur Herkunft der Angaben
  • zur Sekundärliteratur

Nicht jedem dieser Gesichtspunkte kann bei der Erstellung der Textdokumentationen angesichts der knappen Zeit und der nur begrenzt zur Verfügung stehenden personellen Mittel gleiche Aufmerksamkeit gewidmet werden, aber, positiv gewendet, liegt darin das schon angesprochene, nicht ausgeschöpfte Potential von HDHS. Nicht jeder der Gesichtspunkte dient auch dem Zweck einer Klassifizierung der Texte. Angaben etwa zur Sekundärliteratur oder zum Titel betreffen den Einzelfall. Sie stellen ihn nicht in den übergreifenden Kontext einer Menge von Texten, die durch gewisse gemeinsame Eigenschaften verbunden sind und eine Klasse bilden. Für die Mehrzahl der aufgeführten Beschreibungsparameter gilt dies jedoch. Im Hinblick auf sie ergeben sich für HDHS unterschiedliche Probleme der Klassifikation, die zum Teil mit der Klassifikationserstellung, zum Teil mit dem Klassifikationssystem und zum Teil mit der Klassifizierung zusammenhängen. Nicht jedes dieser Probleme ist bislang in zufriedenstellender Weise gelöst worden. [3]

Relativ unproblematisch ist die sprachliche Einordnung der Texte. Die Aufgabe des Klassifizierens ist von den an HDHS beteiligten Wörterbüchern oder den von den Wörterbüchern verwendeten Texteditionen häufig bereits übernommen worden. Wo dies nicht der Fall ist, kann HDHS auf ein voll entwickeltes und seit langem etabliertes sprachgeschichtliches und linguistisches Klassifikationssystem zurückgreifen, auch wenn es immer wieder Grenzfälle gibt, deren genaue Zuordnung Schwierigkeiten bereitet. Auch hinsichtlich der Textintentionen kann HDHS auf ein Klassifikationssystem zurückgreifen, das von Oskar Reichmann für das FWB entwickelt worden ist und neun unterschiedliche Einträge vorsieht. [4]

Größere Schwierigkeiten für die Klassifikation der Texte ergeben sich dagegen unter einigen anderen Gesichtspunkten. Schon bei der Klassifikation der Rolle der an der Entstehung der Texte beteiligten Personen, aber auch des Verhältnisses der Texte zu anderen Texten kann sich HDHS nicht ohne weiteres auf ein ausgearbeitetes und etabliertes Klassifikationssystem stützen. HDHS steht hier vor der Aufgabe, für seine Zwecke geeignete, eigene Klassifikationssysteme zuerst zu erstellen. Um dieses Ziel zu erreichen, wurde bei HDHS in der ersten Projektphase den einzelnen Mitarbeitern bei der Beschreibung der entsprechenden Klassifikationsfelder eine gewisse Freiheit gelassen, nicht zuletzt im Hinblick darauf, dass es zunächst vor allem darauf ankam, eine möglichst große Zahl von heterogenen Materialien zu bearbeiten und so die empirischen Voraussetzungen für eine Klassifikation zu legen. Der auf diese Weise entstandene „Wildwuchs“ an möglichen klassifikatorischen Einträgen muss in der noch bevorstehenden zweiten Projektphase beseitigt, die Einträge müssen so vereinheitlicht und vereinfacht werden, dass sie den klassifizierten Sachverhalten keine Gewalt antun und zugleich einen möglichst hohen informativen Gehalt bewahren.

So haben sich beispielsweise bei der Rollenbeschreibung der an der Entstehung der Texte beteiligten Personen vor allem folgende Einträge mit einer gewissen Häufigkeit herausgebildet: ‚Abschreiber‘, ‚Auftraggeber‘, ‚Aussteller‘, ‚Bearbeiter‘, ‚Berater‘, ‚Beschluss durch‘, ‚Besitzer‘, ‚Beteiligter‘, ‚Drucker‘, ‚Empfänger‘, ‚Erlass durch‘, ‚Gesetzgeber‘, ‚Herausgeber‘, ‚Initiator‘, ‚Kompilator', ‚Landfriedenspartei‘, ‚Redaktor‘, ‚Schreiber‘, ‚Siegler‘, ‚Übersetzer‘, ‚Verfasser‘, ‚Widmungsempfänger‘. Dass diese Liste der Überarbeitung bedarf und simplifiziert werden kann, ist offenkundig. ‚Redaktion‘ und ‚Bearbeitung‘ lassen sich beispielsweise zu einer Beschreibung zusammenfassen, ebenso ‚Erlass durch‘ und ‚Gesetzgeber‘. Diese Vereinfachung und Vereinheitlichung der Einträge wird vermutlich relativ schnell zu leisten sein. Dennoch ergeben sich auch hier Schwierigkeiten, die sich nicht so einfach lösen lassen werden. Als Ergebnis der Bearbeitung sollte ja nicht nur eine standardisierte Liste möglicher Einträge für eine Klassifikation unter dem Gesichtspunkt „Rolle der an der Textentstehung beteiligten Personen“ zustande kommen, sondern es sollten auch die Anwendungskriterien der jeweiligen Einträge festgelegt sein. Dies kann zur Folge haben, dass der Wandel der historischen Semantik eines Begriffs nicht oder nur unzureichend berücksichtigt werden kann. Wenn man an das angesehene Amt des städtischen Schreibers denkt, so erlebte dieses bekanntlich im Mittelalter und in der frühen Neuzeit eine Differenzierung der Funktion. Im Mittelalter war der Stadtschreiber derjenige, der für die schriftliche Fixierung in allen möglichen Bereichen des städtischen Lebens zuständig war, in denen sich eine solche Fixierung als notwendig erwies. In der frühen Neuzeit trat dem Stadtschreiber die Person des Syndicus zur Seite, des juristisch gebildeten Fachmanns, dem häufig die Ausformulierung und Abfassung von Schriftstücken, aber auch von Gesetzestexten übertragen war. Während im Mittelalter der Schreiber eines Textes häufig auch sein Verfasser war, trennte sich mit dem Aufkommen des Syndicus die konzeptionelle von der bloß fixierenden Tätigkeit. Sollen diese sich ausdifferenzierenden Funktionen nun in dem zu entwickelnden Klassifikationssystem unterschieden und auf die Begriffe ‚Schreiber‘ und ‚Verfasser‘ verteilt werden? Was verbürgt dann aber mit Sicherheit, dass eine Person, die in einem älteren Text als Schreiber angegeben wird, auch tatsächlich nur die dem Begriff zugewiesene fixierende Funktion hatte? Theoretisch wäre eine Klassifikation der Personen, die an der Entstehung einer Rechtsnorm beteiligt waren, höchst wünschenswert. Praktisch aber würde dies die Rezeption der Diskussion um die Geschichte der Gesetzgebung, den Rechtssetzungscharakter vertraglicher Einungen wie etwa der Landfrieden und anderes mehr voraussetzen, und das ist in diesem Rahmen schlichtweg nicht zu leisten.

Solche und ähnliche Fragen und Probleme stellen sich auch in anderen Bereichen, die für die Absicht und den Nutzen von HDHS vielleicht noch wichtiger sind als die Klassifizierung der Rollen der an der Entstehung der Texte beteiligten Personen. So gehört zu den Zielen von HDHS auch eine Klassifizierung der Texte nach Textsorte und Textinhalt. Was die Einordnung nach der Textsorte betrifft, so ist HDHS angesichts des ausgewerteten Quellenbestandes um die Zusammenstellung eines Thesaurus bemüht, der die Erfassung einer möglichst großen Bandbreite von Texten zulässt. Bei der Entwicklung eines solchen Thesaurus muss natürlich auf Vorarbeiten aus den Geschichtswissenschaften und der Germanistik zurückgegriffen werden. In vielen Fällen kann jedoch nicht die Rede davon sein, dass sich hinsichtlich der Einteilungen und Einteilungsgesichtspunkte eine bestimmte wissenschaftliche Auffassung als Standard herauskristallisiert hätte, auch wenn Gegenteiliges behauptet wird. Wenn man beispielsweise an die Gattung des Stadtbuchs denkt, dann kann man nicht umhin, die Vielzahl seiner Erscheinungsformen zu registrieren, die sich in einer mindestens ebenso großen Vielfalt von zum Teil synonymen (Eigen-)Bezeichnungen niederschlägt. „Allein aus dem Bereich der Zivilgerichtsbarkeit begegnen in Sachsen circa 60 Bezeichnungen für Stadtbücher im weitesten Sinne“, stellt Hellfritsch fest. [5] Stadtbücher, das können Denkelbücher, Erbebücher, Gerichtsbücher, Statutenbücher, Marktbücher, Privilegienbücher usw. sein, wobei die Bezeichnungen sich zum Teil vom aufgenommenen Inhalt, zum Teil von der Funktion des entsprechenden Buches herleiten.

Im Hinblick auf diese Fülle von Erscheinungsformen sind verschiedene Versuche einer Einteilung unternommen worden; Konrad Beyerle etwa glaubte, dass sich sinnvoll fünf Bereiche unterscheiden lassen, andere haben diesen Gliederungsvorschlag kritisiert und statt dessen eine Dreiteilung favorisiert, die sich – so Dieter Geuenich in einem Aufsatz aus dem Jahr 2002 – „weitgehend durchgesetzt“ hat. Man könnte noch andere Einteilungsversuche erwähnen, so etwa die zehngliedrige Einteilung, die der Inventarisierung aller erhaltenen Stadtbücher vom Mittelalter bis zum Jahr 1800 in der ehemaligen DDR zugrunde gelegt wurde. [6] Für ein Projekt wie HDHS sind solche Einteilungen jedoch aus verschiedenen Gründen nur beschränkt brauchbar. Zunächst ist eine Klassifikation nach genus proximus und differentia specifica einer mehrfach gestaffelten Klassifikation vorzuziehen - nicht zuletzt, um den Bearbeitern den Überblick sicherzustellen -, und da wäre die Klassifikation eines Textes einerseits als Stadtbuch, andererseits als Denkelbuch [7] oder als Gerichtsbuch usw. ausreichend. Die Benutzer der Datenbank könnten sich aufgrund einer solchen Klassifikation entweder alle Stadtbücher oder alle Exempel eines besonderen Typs des Stadtbuchs aufführen lassen, die von den Wörterbüchern verwendet worden sind. Hier gegenüber der einzelnen Gattung und den spezifischen Formen noch abstraktere Zwischeneinteilungen einzuführen, wie Beyerle oder Geuenich es vorschlagen, erscheint als überflüssiger, ja hemmender Luxus. Zum anderen muss man bedenken, dass die Quellen, die in HDHS erfasst und beschrieben werden, primär ja nicht die Originale sind, die in den Archiven und Bibliotheken aufbewahrt werden. Es handelt sich dabei vielmehr durchweg um edierte Quellen, bei denen gerade in den älteren Editionen häufig lediglich Auszüge oder einzelne Texte präsentiert werden, nicht aber – um bei unserem Fall zu bleiben – das ganze Stadtbuch. Die Klassifikation wäre dementsprechend um Textsorten noch anderer Art, nämlich etwa um Satzung, Privileg, Ordnung und vieles mehr zu ergänzen, die in Stadtbüchern inkorporiert waren und durch die Editoren herausgefiltert worden sind. In solchen Fällen ginge es weniger um die Klassifikation des ganzen Textes (des „Stadtbuchs“), als um die von einzelnen, dem Ganzen inkorporierten Teilen („Satzung“ qua Bestandteil eines „Stadtbuchs“).

Bei der Beantwortung der Frage, wie genau die Klassifikation der Textsorte in HDHS sein sollte, spielen also vor allem pragmatische Überlegungen eine Rolle. In HDHS muss bei begrenztem Personalbestand in einem vertretbaren Zeitraum eine große Zahl von Quellen aufgenommen und beschrieben werden, wobei die Angaben zum Teil auf den Editionen selbst, zum Teil auf der Sekundärliteratur, zum Teil auf dem eigenen Urteil der Redakteure beruhen. Diese Arbeit würde sehr erleichtert, wenn man sich auf eine einfache Klassifikation beschränkte, also etwa alle Texte, die irgendwie mit dem städtischen Rechtsleben in Zusammenhang stehen, als Stadtrecht klassifizieren könnte, ohne sich noch um weitere Details zu kümmern. Eine solche einfachen Klassifikation käme vielleicht auch Benutzern der Datenbank entgegen, weil sie sich nicht lange durch verästelte Gliederungen durcharbeiten müssen, um am Ende mit den Texten fündig zu werden, die sie von Anfang an gesucht haben. Aber mit gleichem Recht könnte man vermutlich unterstellen, dass Benutzer gerade an einer feinen objektnahen Klassifikation der Texte interessiert sind, wie sie sich in den vielfältigen, nur zum Teil synonymen Bezeichnungen der einzelnen Gattungen herausgebildet hat. Daraus scheint sich als pragmatisch sinnvollste Lösung zu ergeben, dass man versuchen muss, mit einer Kombination aus einigen wenigen übergreifenden Gattungen und einer sich relativ nahe an den Objekten haltenden, an den gewachsenen Bezeichnungen orientierten Detaileinteilung zu arbeiten.

In HDHS ist noch eine weitere Klassifikation von Texten vorgesehen, mit der allerdings erst ein Anfang gemacht ist. Gemeint ist die Klassifikation der Texte unter inhaltlichen Gesichtspunkten. Gerade hier wird man am stärksten mit den Schwierigkeiten konfrontiert, die Klassifikationen nicht nur im Bereich historischer Datenbanken aufwerfen. Jede Klassifikation muss eine Grundlage in den klassifizierten Objekten haben, sie darf nicht beliebig sein, aber das heißt nicht, dass sie nicht stets durch ein gewisses Interesse motiviert ist, und zwar zunächst von Seiten derer, die eine bestimmte Klassifikation vornehmen, dann aber auch von Seiten derer, die als mögliche Benutzer einer Datenbank ins Auge gefasst werden. Es ist klar, dass kein Klassifikationsansatz diese subjektive Beschränkung, die sich aus der Interessenbedingtheit der Selektion der Klassifikationsgesichtspunkte ergibt, gänzlich ablegen kann: den einen wird nun einmal dies, die andere jenes interessieren, und in beiden Fällen mag die Enttäuschung groß sein, wenn weder das eine noch das andere im ausgeworfenen Netz der Klassifikation hängenbleibt. Auch hier muss also ein Mittelweg gesteuert werden, der es sicherlich nicht allen recht machen kann und dessen einzige Rechtfertigung in den erzielten Resultaten besteht.

Versuche einer inhaltlichen Klassifikation beschränken sich in HDHS bislang im wesentlichen auf die juristischen Texte, die ja den größten Teil des zu erfassenden Quellenbestandes bilden. Die Hoffnung, mit der Ausarbeitung einer Topik rechtlicher Materien beginnen und mit Hilfe einer solchen Topik an eine inhaltliche Erfassung der Texte herangehen zu können, musste bald aufgegeben werden. Weder war klar, wie eine übergreifende systematische Klassifikation der Rechtsmaterien aussehen, noch worauf sich ihre relative historische „Neutralität“ stützen könnte. Auch schien es wenig sinnvoll, ja methodisch illegitim, die Systematik des modernen Rechts oder des Römischen Rechts Texten des Mittelalters oder der Frühen Neuzeit überzustülpen. Die Konsequenz hieraus war, dass bei der Erstellung eines Inhalts-Thesaurus zumindest der Rechtstexte von den Texten selbst ausgegangen werden musste. Vielfach weisen diese Texte aus funktionalen Gründen interne, zum Teil sehr detaillierte inhaltliche Gliederungen auf, die für die Erstellung eines solchen Thesaurus ausgewertet werden können. Hinzu kommt, dass viele dieser Texte in Editionen vorliegen, die über ein ausführliches Sachregister verfügen. Durch Auswertung der textinternen Gliederungen und der Sachregister ließ sich relativ schnell eine lange Liste von inhaltlichen Charakterisierungen zusammenstellen, in der sich so unterschiedliche Einträge finden wie: ‚Ankern‘, ‚Ankern im Hafen‘, ‚Ansegelung bei Nacht‘, ‚Anwerbung von Schmiedleuten‘, ‚Armenfürsorge‘, ‚Arrestverfahren‘, ‚Aufbrechen von Gräbern‘, ‚Ausbruch einer Grippeseuche‘, ‚Ausschank von Obstwein‘, ‚Barchent‘, ‚Bevollmächtigung‘, usw. Man kann diese Liste wie eine Art erweitertes Sachregister durchgehen und auf diese Weise zu jedem Stichwort mindestens einen Text herausgreifen, auf den der Eintrag zutrifft. Allerdings unterliegt dieses ‚Hyper-Register‘ drei schwerwiegenden Einschränkungen. Zunächst ist Vollständigkeit nicht gesichert. Über den Ausbruch einer Grippeseuche mag sich auch in anderen Texten des Quellenbestandes außer den aufgeführten etwas finden. Sodann kann nicht jedes Sachregister ausgewertet werden. Die Fülle der Einträge würde den Rahmen des Möglichen sprengen; es muss folglich eine Auswahl getroffen werden und damit potenziert sich das mit dem Register selbst bereits verbundene Problem der Selektivität. Und schließlich fehlt es an einer Hierarchisierung der Einträge bzw. an einer Herausarbeitung übergreifender Kategorien. Abgesehen von der damit einhergehenden Unübersichtlichkeit bleibt ohne die Entwicklung einer systematischen Ordnungsstruktur unter den Registereinträgen auf Dauer auch die induktive Ermittlung weiterer Einträge ziellos.

Um diese Einschränkungen zu beheben, bieten sich zwei Möglichkeiten:

  1. Andere Projekte, die sich Ähnliches zur Aufgabe gestellt haben, können bei der Lösung der Frage vorangehen. Man denke etwa an das von Karl Härter und Michael Stolleis herausgegebene Repertorium der Policeyordnungen der Frühen Neuzeit. [8] Im ersten Band dieser Edition wird der Versuch einer systematischen Klassifikation der „Policeymaterien“ vorgestellt, die hierarchisch gegliedert ist und aus 27 Gruppen, 200 Policeymaterien und 1.200 Materiebetreffen besteht. Auf der Ebene der Gruppeneinteilung findet man etwa das Schlagwort ‚Religionsangelegenheiten‘, auf der Ebene der ‚Policeymaterien‘ die Rubriken ‚Bettelmönche‘, ‚Geistlichkeit‘, ‚Sonntagsheiligung‘, auf der Ebene der Materiebetreffe schließlich Einträge wie ‚Bettelbriefe‘, ‚Bettelverbot‘ oder ‚Amtsausübung‘, ‚Amtsführung‘ usw. Indem die Verschlagwortung der Inhalte der Policeyordnungen durch diesen „vorgegebenen, standardisierten und hierarchisierten Sachindex der Policeymaterien“ erfolgt, soll „ein einheitliches Sachregister für alle Bände des gedruckten Repertoriums als auch eine zuverlässige Basis für vergleichende und quantitative Analysen“ gewährleistet werden. [9] Grundlage des Klassifikationssystems bildet ein Aktenplan aus dem 19. Jahrhundert, seine tragenden Pfeiler sind die Unterscheidung einzelner (Lebens-) Bereiche, die einer Regelung durch die Polizeigesetzgebung unterliegen, einzelner darauf bezogener Verwaltungsaufgaben sowie einzelner Delikte. Das Ergebnis der Inhaltserschließung ist beachtlich und entspricht den in ein solches Vorhaben gesetzten Erwartungen. Dennoch stellt sich die Frage, ob im Fall von HDHS eine solche detaillierte systematische Klassifikation durchführbar ist. Denn die schlagwortmäßige Erfassung jedes Textes unter dem Gesichtspunkt eines solchen Systems ist mit einem kaum zu rechtfertigenden Zeit- und Personalaufwand verbunden. Hinzukommt, dass der Textbestand, mit dem HDHS arbeitet, nicht das Maß an Homogenität aufweist, das sich aus der Beschränkung auf eine Textsorte (‚Policeyordnung‘) ergibt. Insofern kommt die vollständige Übernahme eines Klassifikationssystems wie des von Härter und Stolleis entwickelten am Ende vermutlich für HDHS nicht Frage. Die Tatsache, dass andere Arbeitsgruppen vor ähnlichen Klassifikationsproblemen stehen, könnte jedoch Anlass sein, über eine stärkere Zusammenarbeit unter einschlägig interessierten einzelnen Historikern und Forschungseinrichtungen nachzudenken. Anders als bei Datensammlungen, die auf teure Printmedien zur Publikation angewiesen sind, muss bei einer Datenbank wie HDHS das Erfassungsraster, mit dem Texte inhaltlich erschlossen werden, nicht vorweg ein für alle Mal festgesetzt werden. Klassifikationen können daher auch nachträglich noch vorgenommen werden und müssen sich nicht auf den ganzen Textbestand erstrecken. Damit eröffnet sich die Gelegenheit, kooperative Formen der Texterschließung zu erproben.
  2. In gewisser Weise findet eine inhaltliche Erschließung der in HDHS dokumentierten Texte durch die am Projekt beteiligten Wörterbücher bereits statt. Wer sich beispielsweise für die Rolle des Pferdes in der mitteleuropäischen Kulturgeschichte interessiert, wird im DRW unter dem Stichwort ‚Pferd‘ zahlreiche Belege finden, angefangen vom Sachsenspiegel von 1224/25 bis hin zu Gecks Topografisch-historisch-statistischer Beschreibung der Stadt Soest und der Soester Börde von 1825. Neben dem Eintrag ‚Pferd‘ verzeichnet das DRW darüber hinaus Belege unter anderem zu: ‚Pferdamt‘, ‚Pferdbüchlein‘, ‚Pferdchensgeld‘, ‚Pferdedieb‘, ‚Pferdefutter‘, ‚Pferdefütterung‘, ‚Pferdejude‘, ‚Pferdekötter‘, ‚Pferdmiete‘ , ‚Pferdestellen‘, ‚Pferdezoll‘. Insofern stellt sich die Aufgabe einer inhaltlichen Klassifikation für HDHS vielleicht in einem ganz anderen Sinn, nicht als einheitliche, alle Texte umfassende Verschlagwortung nach einem übergreifenden Schlagwortkatalog, sondern als detaillierte Erschließung einzelner besonders wirkungsmächtiger Texte, die einen prototypischen Charakter besitzen. [10] Dass einige Texte im Quellenbestand der Wörterbücher von größerer Bedeutung und Wichtigkeit sind als andere, schlägt sich nicht zuletzt an der Zahl der ihnen entnommenen Wörterbuchbelege nieder. Oftmals ist diese Belegzahl ein direktes Indiz für den (kultur-)geschichtlichen Rang der betreffenden Quelle. Texte wie das Lübische Recht, das Magdeburger Recht, das Hamburger Stadtrecht, das Seerecht von Wisby, das Preußische Landrecht und andere haben darüber hinaus eine häufig jahrhundertealte Wirkungsgeschichte begründet, die wesentlich, wenn auch nicht ausschließlich durch ihre modellhafte Funktion bei der Ausgestaltung lokaler Stadt-, Land- und Seerechte bedingt ist. Durch eine Konzentration der inhaltlichen Erschließung auf diese Texte ließen sich folglich ganze Traditionslinien mit erfassen und voneinander abheben.

Zusammenfassend wäre zu sagen, dass bei HDHS zwar ein großer Bedarf an Klassifikationen besteht, dass in vieler Hinsicht jedoch etablierte Klassifikationssysteme fehlen oder aus praktischen Gründen nicht anwendbar sind. Es bleibt daher zur Zeit – wie überall, wo sich das menschliche Systematisierungsstreben und die unabschließbare Vielfalt der Geschichte hart im Raum stoßen - nur eine Gratwanderung und die Hoffnung, dass möglichst viele Benutzer von HDHS schwindelfrei genug sind, sich dieser Wanderung anzuschließen.

Dr. Peter König ist apl. Professor am Philosophischem Seminar der Ruprecht-Karls-Universität Heidelberg. Er war beim HDHS für die Betreuung der rechtshistorischen Quellen zuständig.


[*] Ich danke dem Forschungsstellenleiter des Deutschen Rechtswörterbuchs, Herrn Dr. Speer, für zahlreiche Anregungen und Hilfestellungen.

[1] Zudem bestehen viele der Quellen genau genommen aus Quelleneditionen und enthalten in der Regel mehrere Texte. So wird beispielsweise das Rigaer Stadtrecht im DRW als eine Quelle geführt, obwohl die verwendete Edition von Napiersky ganz unterschiedliche Texte zum Abdruck bringt.

[2] In der gegenwärtigen Arbeitsphase ist HDHS im Internet nur in einer Version mit statischen Html-Seiten offen zugänglich. In einer zweiten Projektstufe soll die Datenbank von HDHS jedoch in eine dynamische Version überführt werden, die verschiedene, auch komplizierte Recherchemöglichkeiten erlauben wird. Der Prototyp einer solchen dynamischen Version läuft zur Zeit auf dem Server des Kölner Instituts von Professor Manfred Thaller, ist allerdings nur intern, per Passwort zugänglich.

[3] Zum Thema „Klassifikation“ im Rahmen der dokumentarischen Informationserschließung siehe Burkart, Margarete, Dokumentationssprachen, in: Buder, Marianne; Rehfeld, Werner; Seeger, Thomas (Hgg.), Grundlagen der praktischen Information und Dokumentation. Ein Handbuch zur Einführung in die fachliche Informationsarbeit, 3. völlig neugefasste Ausgabe. Bd. 1, München 1990, S. 143-182.

[4] Reichmann, Oskar; Wegera, Klaus-Peter, Frühneuhochdeutsches Lesebuch, Tübingen 1988, S. 1, 26, 52, 72, 117, 147, 170, 191, 212.

[5] Siehe auch Hellfritzsch, Volkmar, Stadtbücher in Sachsen und die Herausbildung des Systems der Personennamen, in: Debus, Friedhelm (Hg.), Stadtbücher als namenkundliche Quelle, Stuttgart 2000, S. 178.

[6] Vgl. dazu Kluge, Reinhard, Das Stadtbuch als onomastische Quelle, in: Debus (Hg.) (wie Anm. 5), S. 42.

[7] Ein Denkelbuch dient der Aufzeichnung einer Akte der öffentlichen Verwaltung des städtischen Rates.

[8] Härter, Karl; Stolleis, Michael (Hgg.), Repertorium der Policeyordnungen der Frühen Neuzeit. Bd. 5: Reichsstädte I: Frankfurt am Main, hg. v. Halbleib, Henrik; Worgitzki, Inge (=Studien zur europäischen Rechtsgeschichte Bd. 169), Frankfurt am Main 2004.

[9] Härter, Karl; Stolleis, Michael (Hgg.), Repertorium der Policeyordnungen der frühen Neuzeit. Bd. 1: Deutsches Reich und geistliche Kurfürstentümer (Kurmainz, Kurköln, Kurtrier), Frankfurt am Main 1996, S. 18.

[10] Zum Begriff einer auf Prototypen gerichteten Klassifikation vgl. Holenstein, Elmar, Klassifikation in natürlichen Sprachen, in: Studien zur Klassifikation 19 (1989), S. 97-118, sowie Holenstein, Elmar, Sprachliche Universalien. Eine Untersuchung zur Natur des menschlichen Geistes, Bochum 1985, S. 194-210.


Urkundenforschung und Urkundenedition im digitalen Zeitalter

Sahle, Patrick; Vogeler, Georg

Seit dem Jahr 2000 begleitet für die "Virtual Library Geschichte" die Sektion "Historische Hilfswissenschaften" in der Rubrik "Diplomatik" referenzierend und kommentierend eine zunehmende Zahl digitaler Ressourcen aus dem Bereich der Urkundenforschung. In der Unterrubrik "Urkundenbücher" werden gezielt Projekte referenziert und besprochen, die mittelalterliche Diplome in elektronischer Form bereitstellen. [1] Die Erfahrungen aus dieser fortlaufenden Verzeichnungsarbeit sollen hier in Verbindung mit grundsätzlichen Überlegungen zu digitalen Erschließungs- und Publikationsformen zu einer umfassenden Evaluation solcher Projekte zusammengefasst werden. Außerdem wollen wir von den jeweiligen Problemen der verschiedenen Strategien – in einem eigentlich zu stärkerer Homogenität fähigen Teilbereich der geisteswissenschaftlichen Grundlagenarbeit – zur Entwicklung einiger Zukunftsperspektiven fortschreiten, mit denen die langfristige Nutzbarkeit solcher digitaler Ressourcen zu verbessern wäre.

Dazu werden im Folgenden

  1. der Entwicklungsstand der Urkundenforschung, der traditionellen Urkundenpublikation und neuerer digitaler Publikationsformen grob skizziert;
  2. die in der Virtual Library Geschichte verzeichneten mehr als 40 Projekte anhand einiger Parameter tabellarisch evaluiert und die verwendeten Untersuchungskriterien systematisch ausformuliert. Dabei werden die Projekte in eine konzeptionelle Systematik eingeordnet, die zu einer verallgemeinernden Perspektive führt; und
  3. Perspektiven entwickelt, wie die Nutzbarkeit der verfügbar gemachten digitalen Daten durch Konzepte aus dem Bereich übergreifender Portale und gemeinsamer Datenstandards langfristig gesichert und verbessert werden kann.

Mittelalterliche Urkunden zwischen traditionellen und digitalen Erschließungsformen

Entwicklungsstand "Urkundenforschung und Urkundenbücher"

Bei der "Diplomatik" handelt es sich bekanntlich um eine der traditionsreichsten und renommiertesten Spezialdisziplinen innerhalb der Geschichtswissenschaft. Mit etablierten Modellen versehen, als Grundwissenschaft allgemeinen Fragestellungen zuarbeitend oder einer Vielzahl ganz eigener Fragestellungen nachgehend, hat sie ihre Methoden in den letzten zweihundert Jahren so weit verfeinert und ins Detail getrieben, dass böse Zungen zuweilen behaupten, die Urkundenforschung sei manchmal schon l'art pour l'art. Grundlage und Ziel diplomatischer Arbeit, wie auch weiterer Bereiche der allgemeinen Geschichts- und Sprachforschung, sind kritische Quelleneditionen, in diesem Falle die Urkundenbücher, die seit über hundert Jahren methodisch ausgereiften und in der Praxis verfestigten Regeln folgen.

Mit dem Grundziel thematisch oder auf einen Aussteller bezogener erschöpfender Volltexterschließung, unter Zugabe von Informationen zur Echtheitskritik, zum Äußeren der Urkunden, zur Literatur und zur archivischen Überlieferung, sind die Standards doch recht hoch gesetzt und führen inzwischen allenthalben dazu, dass dieses Erschließungskonzept an seine Grenzen stößt. Im Fortschritt der meist chronologischen "Abarbeitung" der Überlieferung eines Ausstellers, einer Region, eines Fürstengeschlechts usw., bei der viele Editionsreihen inzwischen vom Früh- und Hochmittelalter kommend im Spätmittelalter angelangt sind, scheint die Menge der vorhandenen Dokumente die verfügbaren Ressourcen weit zu übersteigen. Mit dem Massenproblem geht das Problem der Abgrenzung einher: Wird der zu edierende Bestand nach dem Betreff oder nach der Provenienz abgegrenzt? Bezieht man sich auf moderne geografische Einheiten oder auf historische, bzw., wenn man sich auf historische Grenzen bezieht, Grenzen welchen Zeitpunkts? Sind Briefe und Schreiben mit aufzunehmen oder konzentriert sich die Edition auf Diplome und Mandate? Und sollte man vom streng chronologischen und sachlichen Prinzip grundsätzlich zu einer Erschließung nach Archivfonds übergehen? Das Massenproblem führt manchmal zu einer Anpassung der Editionsmethode: Regesten an Stelle von Volltexten scheinen Erschließungsprojekte wieder handhabbar zu machen. Allerdings stößt diese Rücknahme der Erschließungstiefe nicht überall auf Gegenliebe, schränkt sie die Auswertungsmöglichkeiten doch erheblich ein. Das eigentliche Ziel, den aufwändigen Rückgriff auf die Originale in den Archiven überflüssig zu machen, wird für einen großen Teil der historischen Fragestellungen so jedenfalls nicht erreicht. [2]

Drängt die editorische Praxis mit einem solchen Strategiewechsel auf ein Absenken des Erschließungsniveaus, so stehen auf der anderen Seite alte und neue Anforderungen an Urkundeneditionen, die trotz ihrer bisherigen Nicht-Beachtung nicht an Berechtigung verlieren. Zu erinnern ist hier zunächst an die Forderung der SprachwissenschaftlerInnen, die grafematisch differenziertere Textwiedergaben brauchen, um sprachhistorische Forschungen durchführen zu können, die von der üblichen Praxis der historischen normalisierenden Edition ausgeschlossen werden. Verallgemeinernd läßt sich dies als eine Facette der Forderung nach Quellennähe und Bewahrung strikter Authentizität und Historizität beschreiben. Diese Forderungen kommen auch aus jener Forschungsrichtung, die die Urkunden selbst nicht nur als Textträger, sondern insgesamt als (auch visuelle) Zeichen einer bestimmten Rechts- und Herrschaftspraxis lesen wollen. Hier können nur Abbildungen der Urkunden – oder extrem genaue Beschreibungen aller äußeren Merkmale – die Grunddaten zur wissenschaftlichen Analyse liefern.

Auch wenn die editorische Tradition der Urkundenbücher so von zwei Seiten her an die Grenzen einer typografischen Kultur stößt, sind doch bis jetzt Erschließungsleistungen von erstaunlichem Ausmaß zu verzeichnen. Nach einem ersten groben Überblick schätzen wir, dass allein im deutschsprachigen Raum circa 2.000 Urkundenbuchbände mit rund einer Million Seiten veröffentlicht sind. Dass die Forschung damit bei weitem noch nicht zufrieden ist, zeigen die weiterhin laufenden Editionsprojekte. [3] Selbst in zentralen Bereichen stehen den beeindruckenden Zahlen des Vorhandenen noch erstaunliche Lücken gegenüber: An den Urkunden Kaiser Friedrichs II. (1198-1250) wird zum Beispiel seit 1982 an einer eigenen Münchener Arbeitsstelle gearbeitet, die erst vor kurzem mit dem ersten Teilband in die Druckphase eintreten konnte. [4]

Auf dem Weg zu digitalen Urkundeneditionen?

Digitales Edieren ist mehr als die Übernahme typografischer Konventionen in ein neues Medium. Konzepte und Möglichkeiten der neuen Technologien verändern den Editionsprozess selbst. Die etablierten Editionstechniken haben zwar einerseits zu Publikationen geführt, die für die weitere Benutzung in einer digitalen Welt zu konvertieren sind und sollten andererseits selbst als Tradition in die neuen Methodologien aufgenommen werden. Bei der Entwicklung dieser digitalen Verfahren muss aber – da sie eben nicht nur auf ein neues Publikationsmedium zielen, sondern auf Datenstrukturen jenseits spezieller Präsentationsweisen – die traditionelle Methode in informationstheoretischer Abstraktion wahrgenommen werden. "Zusatzangaben" zu gedruckten Urkunden sind in diesem Sinne näher zu klassifizierende und zu formalisierende "Metadaten". "Variantenapparate" signalisieren "Textschichten" und Register kumulieren Textelemente, die inhaltlich expliziert worden sind.

Die allgemeinen Vorteile digitaler Erschließung und Präsentation sind bis zur Trivialität wiederholt worden. [5] Diese Vorteile gelten auch für die spezifischen Probleme der Urkundenedition: Auf das Problem der langen Erarbeitungszeiten für Urkundenbücher antwortet der grundsätzlich inkrementelle Charakter digitaler Formen: Es wird immer sofort verfügbar gemacht, was gerade erschlossen ist. An die Stelle der punktuellen Publikation unveränderlicher Produkte tritt die unmittelbare Auseinandersetzung der Fachgemeinschaft mit den Quellen. Dies schließt die Option ein, externes Fachwissen anzulagern. Selbst gute Bibliotheken halten nicht alle (zum Beispiel landesgeschichtlichen) gedruckten Urkundenbücher vor, das Internet bietet aber unabhängig von Zeit und Ort einen problemlosen Zugriff auf alle digitalen Urkundenbücher und macht sie so leichter verfügbar. Die einmal erstellten elektronischen Formen können im Gegensatz zu ihren typografischen Pendants jederzeit nicht nur reproduziert, sondern auch in unterschiedlichen Präsentationsformen oder multiplen Nutzungsformen (Interfaces) geboten werden. All dies bedeutet einen qualitativen Zuwachs an Nutzungsmöglichkeiten.

UrkundenforscherInnen ist schon relativ früh bewusst geworden, dass digitale Präsentationsformen einerseits die Probleme der Arbeit an Urkundenbüchern verringern können und andererseits als neuartige Publikationsformen Nutzungsvorteile gegenüber ihren gedruckten Vorläufern bieten. Karsten Uhde (1999) [6] und Michele Ansani (2000) [7] haben bereits allgemeinere Überlegungen publiziert. Darin thematisieren sie zugleich konzeptionelle Fragen, die in einer Reihe weiterer Aufsätze – in der Regel zu einzelnen Projekten, manche aber auch zu elektronischen Analyseverfahren – ebenfalls von verschiedener Seite aus besprochen wurden und werden. Zu nennen wären hier insbesondere die Beiträge von Dienst (1987) [8] , Declercq und anderen (1987) [9] , Gervers (1990/2000) [10] , Fiebig (2000) [11] , Rapp (2000) [12] , Jenks (2002) [13] , Sahle/Schaßan (2000) [14] und Betrand und anderen (2002) [15] . Hinzu kommen dann noch jene methodischen Äußerungen, die nicht gedruckt, sondern digital als Dokumentation zu den einzelnen Projekten vorliegen.

Bereits die allgemeineren Arbeiten von Uhde und Ansani zeigen allerdings deutlich, wie bei beiden die eigene praktische Arbeit mit Urkunden auf kurzem Wege zu digitalen Erschließungs- und Präsentationsformen geführt haben. Da auch andere "Digitalisierer" sich nach langen Jahren traditioneller Urkundenforschung recht bald den neuen Technologien zugewandt haben, stellt sich die Frage, wieso gerade mittelalterliche Urkunden zu einem solchen Wechsel des Mediums zu verleiten scheinen. Folgende Faktoren könnten dabei eine Rolle gespielt haben:

  • Urkundenbücher waren immer schon Zusammenstellungen einer Vielzahl ähnlich strukturierter Einheiten, das heißt, sie wiesen gemeinsame Grundstrukturen auf, die sich zum Beispiel mit relationalen Datenbanken oder anderen formalen Datenstrukturen abbilden lassen.
  • Die Bedeutung formaler Beschreibung und eindeutiger Metadaten ist bei der Arbeit mit Urkunden traditionell hoch. Auch dies erleichtert ihre Er- oder Verarbeitung in Computersystemen.
  • Die ”normale” Nutzung von Urkunden entspricht kaum dem Konzept des (sequentiellen und vollständigen) ”Lesens” im engeren Sinne. ForscherInnen ”lesen” bzw. benutzen Urkunden häufig nicht einzeln intensiv, sondern punktuell oder seriell extensiv. Sie greifen mittels bestimmter Ordnungskriterien (zum Beispiel Chronologie) oder Informationsfilter (Register) ganz gezielt und selektiv auf Urkundentexte oder deren (Vor-)Verarbeitungsformen (zum Beispiel Regesten) zu.
  • Hinzu kommt, dass die Diplomatik eine traditionell sehr methodenorientierte Spezialdisziplin ist. Diese Methodenreflexion kann in einer erweiterten technischen und medialen Umgebung, die auf der expliziten Formulierbarkeit von Regeln basiert, aufgegriffen und weiter entwickelt werden.

Diese Bedingungen haben nicht nur in Deutschland zu zahlreichen Experimenten mit digitalen Urkundenpräsentationen geführt. Auch in anderen traditionell in der Diplomatik aktiven Ländern wie Italien, Frankreich oder England sind auffallend ähnliche Konzepte entwickelt und getestet worden. Diese Konvergenz liegt nicht nur an der Gleichförmigkeit des Materials, sondern auch an den gemeinsamen Traditionen und inhaltlichen Überschneidungen. Angesichts der politisch-geografischen Strukturen des europäischen Mittelalters, deren Überlieferung sich so gar nicht in den Grenzen der modernen Nationalstaaten erschließen läßt, ist die Fortsetzung bisheriger Zusammenarbeit [16] bzw. Arbeitsteilungen [17] naheliegend. Die Urkunden des „europäischen” Mittelalters reizen in diesem Sinne auch dazu, die nationalen Beschränkungen der Druckkultur durch die grenzenlose Zugänglichkeit und transnationale Vernetzung digitaler Medien zu überwinden. Die bisherigen Reflexionen digitaler Urkundenpräsentationen haben dieses Fernziel noch nicht formuliert: Wenn die verschiedenen Urkundenprojekte mit europäischem Material zusammengeschaltet werden, dann fördert dies auch eine transnationale europäische Sicht auf das gemeinsame Mittelalter.

Bei all den offenkundigen Vorteilen sollte aber ein Problem nicht verschwiegen werden: Die ungelöste Frage der langfristigen Sicherung und Verfügbarkeit digitaler Daten. Wir denken, dass die Antwort auf diese Herausforderung einerseits in der Verwendung offener Standards liegt, mit der einer Inkompatibilität mit zukünftigen Formen vorgebeugt werden kann, und dass andererseits die Anbindung digitaler Publikationsformen an bestehende Institutionen (Bibliotheken, Archive, Institute), die im besten Falle auch die fortlaufende Betreuung der Inhalte gewährleisten, die dauerhafte Verfügbarkeit sichern.

Die Projekte (Evaluation nach Virtual Library – Geschichte (Historische Hilfswissenschaften)

In der Virtual Library waren zu Beginn des Jahres 2003 mehr als 40 Projekte aus zwölf Ländern zusammengestellt, die circa 44.000 Urkunden nachweisen. Die im Anhang gegebene Tabelle bietet eine Übersicht über die Unternehmen nach einer ganzen Reihe von Gesichtspunkten. Die Projekte verarbeiten "ihre" Urkunden in sehr unterschiedlicher Weise. Diese Arbeit mit den Urkunden kann in einem Vierschichtenmodell analysiert werden:

  • Die Urkunde(n) selbst: Wie werden die Urkunden als solche repräsentiert?
  • Die Erschließung: Welche Informationen ergänzen die eigentliche Urkundenrepräsentation und verbessern die Zugriffsmöglichkeiten?
  • Die Benutzerschnittstelle: Wie wird die Urkunde den BenutzerInnen präsentiert?
  • Die Zielgruppen: Was erwarten die BenutzerInnen bzw. von welchen Nutzungsformen geht man auf Seiten des Digitalisierungsprojektes aus?

Da die Projekte über ihren Umgang mit der Urkunde hinaus sich auch ganz pragmatisch unterscheiden, haben wir noch eine fünfte Kriteriengruppe hinzugefügt, die die praktischen Besonderheiten der Projekte anspricht:

  • Praxis: Wer bearbeitet welchen Fundus mit welchen Zielsetzungen?

Nachfolgend werden die einzelnen Beschreibungsparameter der Projekte, so wie sie für die Übersichtstabelle erhoben worden sind, näher erläutert. Dabei sollen sie vor allem als potentielle Module innerhalb eines umfassenden Modells digitaler Urkundenbücher vorgestellt werden. Teilweise wird zum besseren Verständnis jeweils auch auf einzelne Projekte verwiesen, die einen bestimmten Aspekt besonders paradigmatisch realisieren.

Wiedergabe der Urkunde

Volltext: Die meisten Nutzungsarten von Urkunden beziehen sich auf die vollständigen Texte. Dabei ist zwischen mehreren Text-Wiedergabestufen zu unterscheiden, die in unterschiedlicher Weise aus den grafischen Zeichen der Vorlagen einen "typografischen" Text machen. Während in historischen Editionen traditionell eine weitgehend normalisierte, geglättete Fassung geboten wird [18] , die dem inhaltsorientierten schnellen Lesen entgegen kommen soll, verlangen andere Nutzergruppen quellennähere Formen. Annegret Fiebig (41) [19] wertet an den deutschen Urkunden der Kuenringer auch grafische Merkmale aus, die vorher elektronisch kodiert worden sind. Auch das "Trierer Korpus mittelfränkischer Urkunden des 14. Jahrhunderts" (31) nimmt Textphänomene auf, die für SprachwissenschaftlerInnen relevant, für traditionelle HistorikerInnen aber eher lästig sind.

Digitale Urkundeneditionen können auf gedruckten Vorlagen aufbauen, wobei sich Erstaunen darüber einstellt, dass die elektronischen Formen einen geringeren Informationsgehalt haben können als ihre gedruckten Vorbilder, wenn sie, wie zum Beispiel die elektronische Monumenta Germaniae Historica (eMGH) (4), die Urkundenbücher aller diplomatischen und editorischen Expertise entkleiden und sie auf die bloße Transkription und noch dazu in einem simplifizierenden Zeichencode (hier: ASCII) reduzieren. [20] Sicher kann nicht erwartet werden, dass vornehmlich retrospektiv ausgerichtete Projekte über das in den gedruckten Werken versammelte Wissen erneut hinausgehen. Es sollte aber darauf geachtet werden, dass wenigstens die dort bereits vorhandenen Informationen vollständig erfasst und verfügbar gemacht werden, da ein Rückgriff auf die Druckfassungen oder eine erneute Digitalisierung binnen kurzer Zeit eigentlich überflüssig gemacht werden sollten. Diesen Anspruch erfüllen auf der anderen Seite bereits Projekte mit ausdrücklich geringem technischem und materiellen Aufwand, wie das "Preußische Urkundenbuch" (35) oder der "Codice Diplomatico Langobardo" (43). [21]

Die Grazer "Fontes Civitates Ratisponensis" (FCR, 42) bieten Texte an, die weit über das vom Druck gewohnte hinausgehen: Rohtexte (”präedierte” Texte), in denen noch paläografische Details enthalten sind, sind die Basis für normalisierte Formen (edierte Texte), die den Lesegewohnheiten der historischen Laufkundschaft entgegen kommen. Im Normalfall beschränken sich auch digitale Urkundenprojekte allerdings auf nur eine Textfassung – meistens in der jeweiligen fachlichen Tradition, in der dann mehr oder weniger stark normalisierend und modernisierend in den tatsächlichen Zeichenbestand eingegriffen wird. Der Ansatz, die Texte mit digitalen Daten tiefer zu beschreiben als es der Druck bisher zuließ, kann auch auf andere diplomatische und editorische Bereiche ausgeweitet werden: Textstrukturen oder Sachidentifikationen (insbesondere für Orte und Personen) können dem Text hinzugefügt werden, ohne die Publikation einer normalisierten, geglätteten Fassung zu behindern.

Aus diplomatischer Sicht drängt sich noch eine weitere Vertiefung elektronischer Textstruktur auf: Mittelalterliche Urkunden folgen dem gemeinsamen, wenn auch zeit- und ortstypischen, diplomatischen "Urkundenformular". Viele Fragestellungen richten sich speziell auf einzelne Teile dieses Formulars: Wirtschaftsgeschichte wird vor allem aus der Narratio und Dispositio gewonnen, personale Netzwerke ergeben sich aus den Zeugenlisten, die Arengenforschung fragt nach Spuren der Kanzleiarbeit, nach Texttraditionen und nach dem herrschaftlichen Selbstverständnis und der Haltung zu Verschriftlichungsformen. Diktatuntersuchungen zielen auf Begriffsvorkommen, die bereichsabhängige Bedeutung haben. In einer digitalen Arbeitsumgebung, die auf gezielte selektive Zugriffe ausgerichtet ist, liegt eine Berücksichtigung solcher Strukturen und ihre Nutzbarmachung für das Retrieval und die auswählende Anzeige nahe. Einige Projekte haben ihre Texte bereits nach dem Urkundenformular erschlossen: Die Konzeptstudie von Assmann (39) zeigt es am Beispiel der Diplome Heinrichs IV. für Speyer, im Thesaurus Diplomaticus (3) und im Preußischen Urkundenbuch (35) sind die einzelnen Textteile gekennzeichnet. Die experimentellen Urkundenaufnahmen von WW-Index (19) planten ebenfalls eine entsprechende Durchgliederung. In die Präsentation weiter integriert ist das Urkundenformular bei Annegret Fiebig (41) und im "Codice Diplomatico digitale della Lombardia medievale" (CDLomb, 43), bei dem es auch zu einem Teil des Datenmodells gemacht worden ist. Nur eine Verwendung im Retrieval im Sinne zum Beispiel einer Suchanfrage wie "Suche X im Urkundenformularteil Y" scheint noch nicht exemplarisch realisiert zu sein.

Regest: Urkunden können auch weitgehend vom Text losgelöst repräsentiert werden: Regesten konzentrieren sich auf den Inhalt der Urkunde, den sie – je nachdem ob als Kopf- oder Vollregest – unterschiedlich um Informationen über das Stück selbst erweitern. Regestensammlungen sind häufig Ergebnis von archivischen Erschließungsarbeiten: Das Hauptstaatsarchiv in Stuttgart arbeitet an den Württembergischen Regesten 1301-1500 (23). Das Stadtarchiv Passau hat die Regesten seines Bestands Urkunden I 1 im Internet recherchierbar gemacht (14). Das digitale Archiv Duderstadt (15) liefert umfangreiche Regesten. Die Urkundendatenbank des Ungarischen Staatsarchivs (13) bietet Regesten an. Die im Internet zugängliche Regestendatenbank der Urkunden der niederösterreichischen Stifte und Klöster (MOM, 18) schließlich ist ein Gemeinschaftsprojekt der niederösterreichischen Archive. Auch als Vorarbeiten zur Urkundenpublikation sind Regesten, wie zum Beispiel beim Liechtensteinischen Urkundenbuch ab 1417 (24), ein Erschließungsmittel, dessen elektronische Repräsentation sich lohnt.

Regestensammlungen sind so einerseits ein Erschließungsmittel, das die BenutzerInnen auf die Spur des eigentlichen Urkundentextes setzt, andererseits aber auch – und der Dokumentationsumfang eines Vollregests macht das deutlich – eine selbständige Repräsentationsform der Urkunden, die die Stücke sehr weitreichend beschreibt. Das renommierteste Beispiel digitaler Vollregesten sind sicherlich die "Regesta imperii" (RI), die für die älteren Bände als Retrodigitalisierung im Internet vorliegen (2), für die Regesten Friedrichs III. auch als CD-ROM (1).

Bild: Wiedergaben von Urkunden als elektronisches Faksimile des Originals können unter zwei Aspekten sinnvoll sein. Auf den Text bezogen bieten sie eine Grundlage, den Ersatz oder die Kontrollmöglichkeit einer Transkription. Daneben können sie – zum Beispiel aus kulturhistorischer Sicht – weitere Informationen enthalten. Die "Urkunde als Zeichen" ist zunächst nur optisch wieder zu geben. Das gleiche gilt auch für die Siegel: eine textliche Beschreibung mag für verschiedene Fragestellungen sinnvoll und wichtig sein – die Fülle der visuellen Informationen kann aber wohl nur durch eine Abbildung bewahrt werden.

Jenseits bloß erster impressionistischer Eindrücke, um zum Beispiel über eine genauere Untersuchung zu entscheiden, verlangen alle Nutzungsarten möglichst hoch aufgelöste und farblich differenzierte Bilder. Aus Kostengründen und zur Vermeidung kurzfristig kaum handhabbarer großer Dateien wurden und werden vielfach digitale Aufnahmen gemacht, die nicht nur die oft als Maß für "gute" Digitalisate genannten 200-300 dpi unterschreiten, sondern die auch an oder unter der Grenze vieler Nutzungsformen liegen.

Ganz auf Abbildungen, deren Qualität durchaus erträglich ist, stützt sich die große und ständig wachsende Serie der CDs zum Urkundenregister der päpstlichen Kurie (9). [22] Hier dienen die Bilder, die nur über die Seitenzahl des Originalbandes zugänglich sind, als Ersatz für Transkriptionen, die wegen der Masse des Materials in naher und mittlerer Zukunft nicht zu erwarten sind. Auch die Retrodigitalisierung der Kaiserurkunden in Abbildungen (20) konzentriert sich auf die Bilder der Urkunden, sind doch die begleitenden Texte von Sybel und Sickel zu guten Teilen durch moderne Bearbeitung überholt. Auch hier zeigen sich die Vorteile inkrementellen Arbeitens, indem die Regesta imperii online (2) mit den Abbildungen im Werk von Sybel und Sickel beidseitig verlinkt werden und so moderne Referenzen zu den Bildern verfügbar sind.

In vielen Projekten haben Abbildungen eine beispielhaft illustrierende Funktion. [23] Während der Nutzen für die ernsthafte Forschung hier begrenzt ist, können sie doch als allgemeine Verständnishilfe zu den Transkriptionen dienen. Die Abbildung aller zu einem Projekt gehörenden Urkunden in möglichst guter Qualität wird in Zukunft hoffentlich eine selbstverständliche Forderung sein, sie wird derzeit aber nur von wenigen, am ehesten noch den archivisch ausgerichteten Unternehmungen realisiert. [24]

Zurückhaltung und sogar offener Widerstand resultieren dabei auch aus juristischen Fragen zu den Bildrechten und dem irrationalen Versuch der Institutionen, über die Bildrechte die "Herrschaft" über ihre Bestände zu wahren. Hier bleibt nur zu hoffen, dass sich die Einsicht durchsetzen wird, dass es sich bei Archivalien um kulturelles Gemeingut handelt, das der Öffentlichkeit ohne eine doppelte Bezahlung zur Verfügung stehen sollte. [25]

Erschließung (Metadaten)

Der Zugriff auf digitale Ressourcen folgt – neben dem Paradigma der Volltextsuche – vor allem dem aktuellen Zauberwort von den "Metadaten". Kulturelle Objekte (und dazu gehören auch die Urkunden) und ihre Inhalte werden erschlossen und damit zunächst auffindbar und zugänglich gemacht durch beschreibende und klassifizierende Informationen, die über den Textbestand der Urkunden hinausgehen. Das war auch bei den gedruckten Vorläufern schon so: Stücknummer, Datierung, Aussteller, Empfänger, Kurzregest, Archivsignatur, Echtheitsvermerk usw. bildeten bereits einen typografischen "Header", einen Informationskopf aus jenen Metadaten, die für elektronische Publikationen ebenfalls essentiell sind. Diese Angaben müssen deshalb, wie zum Beispiel im CDLomb (43), in der elektronischen Fassung übernommen oder neu erstellt werden. Zusätzlich ist ihr hohes Maß an gleichmäßiger Struktur und Formalisierung durch datenbankähnliche Werkzeuge nutzbar zu machen. Schließlich sind sie über das für eine Volltextsuche nötige Maß ja bereits vorverarbeitet, um nach speziellen Aspekten durchsucht oder zu Auswahl-Listen zusammengestellt zu werden, die dann einen "stöbernden" Zugriff auf das Material ermöglichen.

Zu den genannten elementaren Erschließungsinformationen bzw. Metadaten kommen häufig noch weitere "Kontextinformationen", die bereits in den gedruckten Editionen geboten wurden. Diskussion der Echtheit, Verweise auf andere Drucke und Regesten, diplomatischer Kommentar unter Einbezug von Referenzen auf andere Stücke, mit seiner kritischen Analyse von Datierung, Besiegelung, anderen inneren und äußeren Merkmalen sowie inhaltliche Erläuterungen liefern wertvolle Informationen über die Stellung der Urkunde im historischen und wissenschaftlichen Kontext und helfen so beim Verständnis von Inhalt, Form und Überlieferung. Diese wertvollen intellektuellen Begleitarbeiten sollten aber im Medienwechsel nicht nur erhalten bleiben, sondern sie ermöglichen nun auch einen gezielteren Zugriff, wenn sie als zusätzliche Auswahlkriterien für das Retrieval bereitgestellt werden.

Derartige Informationen sind in allen Retrodigitalisierungsprojekten enthalten, die Ausgangsmaterial auf hohem Editionsstand verarbeiten, so zum Beispiel im Diplomatarium Norvegicum (29). Um so enttäuschender ist es, wenn sie in Unternehmungen, die wichtiges Material mit ursprünglich hohen Editionsstandards präsentieren, wie dies gerade bei den eMGH (4) der Fall ist, nicht enthalten sind. Ganz anders dagegen die Neuedition der Arnulfingerurkunden durch Ingrid Heidrich (32), die die ganze Breite der Informationsbereiche auch für die digitalen Medien anbietet. Allerdings haben sie hier nur Text-Charakter, werden also nicht als formale Datenstrukturen für das Retrieval nutzbar gemacht. Wieder anders gehen die Fontes Civitatis Ratisponensis (FCR, 42) vor, die neben Suchen im Volltext, Einschränkungen nach Textsorte, Inhalt und Sprache auch komplexe Abfragen der Datierung oder äußerer Merkmale wie Schrift, Duktus oder Liniierung ermöglichen.

Zu den Kontextinformationen als Spielart von Metadaten können auch Identifikationen und Zuschreibungen von Orten, Personen, Sachen oder sachthematischen Zugehörigkeiten in einer Urkunde gezählt werden. Diese Auflösungen wurden traditionell in Registern als zusätzliche Zugriffsmöglichkeit geboten und lösten bis zu einem gewissen Grade auch das Problem der doppelten Erscheinungsweise von Begriffen in historischer und normalisierter Schreibweise, indem das normalisierte Register auf die authentischen Begriffe im Text verwies. Die außerordentlichen Erschließungsleistungen gedruckter Register können – gerade weil sie bereits eine formalisierte Struktur abbilden – mit oft nur geringem Aufwand auch in digitalen Formen recodiert und für den Zugriff über Suchmechanismen und reale Hyperlinks nutzbar gemacht werden. [26]

Zur Funktionalitätserweiterung durch Suche in feldorientierten Datenbanken und automatischer Verlinkung mit den Texten oder Bildern kommt hierbei ein weiteres Szenario, das zum Beispiel Stuart Jenks in seinem "Preußischen Urkundenbuch" (35) durchgespielt hat: Die BenutzerInnen können selbst Orte, Personen identifizieren oder die Sachthemen, von denen die Urkunde handelt, angeben und den BearbeiterInnen zur Integration in die Edition vorschlagen. Zur Retrodigitalisierung und der projektinternen Neuerschließung von Urkunden kommt so als dritter Aspekt die interaktive Erschließung durch die Mitarbeit der NutzerInnen von digitalen Urkundenprojekten.

Nutzungsmöglichkeiten (Benutzerinterface)

Integration über Bandgrenzen hinweg: Gedruckte Bücher bilden abgeschlossene Einheiten. Dieses Ordnungsmodell widerspricht offensichtlich dem Inhaltskonzept umfangreicher Erschließungsunternehmen. Gerade bei langen Reihen von Regesten- oder Urkundenbüchern ist die bandweise Zersplitterung des Materials als lästig kritisiert worden. Digitale Projekte lösen dieses Problem fast immer durch eine Integration der Regesten oder Urkunden in einen Gesamtdatenpool, der unabhängig von buchtechnischen Vorgaben ist.

Bei der CD-ROM-Ausgabe der Regesta Imperii Friedrichs III. (1) zeigt sich dieser große Vorteil digitaler Urkundenpräsentationsformen: Die Regesten Ludwigs des Bayern und Friedrichs III. werden ja bekanntermaßen zunächst regional zusammengestellt. Dieses Konzept ist nicht ohne Kritik geblieben – die Regesten-CD mildert aber zumindest die Vorbehalte: Die einzelnen Teile sind digital schnell und ohne Probleme über die Bandgrenzen hinweg integriert zu benutzen. Die CD zeigt also, wie eine inkrementelle digitale Publikation funktionieren kann, wie also aus Teilprodukten schnell ein gemeinsames Ganzes wird. Es ist zu hoffen, dass die Arbeiten eines Marburger Archivkurses an den Urkunden König Wenzels (22) diese Möglichkeiten erneut zeigen werden, indem sie zum Grundstock der Regesta imperii dieses Königs werden, die Ivan Hlavacek mit seinen MitarbeiterInnen vorantreibt. Die Trennung der Einzelveröffentlichungen ist auch bei den eMGH (4) aufgehoben. Endlich kann man auch hier Suchoperationen über alle (bereits digitalisierten) Teilbände durchführen. Die Integration von Ressourcen – nicht nur über Band- sondern auch über Projektgrenzen hinweg – wäre eine konsequente Fortsetzung dieses Weges. Sie wird unten erneut diskutiert.

Materialsammlung oder Metamodell: Digitale Ressourcen können auf verschiedene Weise auf CD oder im Netz verfügbar gemacht werden. Einfache Text- oder Bilddateien können auf einem Server abgelegt und von anderen Seiten referenziert werden. Über Formate wie PDF lassen sich ganze Bücher mit gewissen Grundfunktionalitäten verfügbar machen, oder es kann im weiteren Ausbau einfacher HTML-Seiten ein komplexeres Informations-Netz angelegt werden, das vielleicht auch durch einfache Suchmaschinen erschlossen wird. Irgendwann aber gibt es dann einen fließenden Übergang zwischen solchen "low-tech"-Ansätzen zu jenen Projekten, die vor allem anderen ein umfassendes Datenmodell konzipieren, in das die Materialien eingefügt werden, um anschließend durch eine geeignete Software-Umgebung benutzbar gemacht zu werden.

Beschreiben wir diese Spanne anhand konkreter Projekte: Die einfache Bereitstellung von Text- oder Bilddaten betreiben zum Beispiel das "Mittelrheinische Urkundenbuch" (7), einfache Textsammlungen enthalten die "Historical Documents of the Orders founded by St. Francis" (8), der "Codex Chronologico-Diplomaticus Episcopatus Ratisbonensis" (27) ist die PDF-Umsetzung eines gedruckten Werkes. Ganz auf die unmittelbaren Möglichkeiten von HTML setzt das "Preußische Urkundenbuch" (35), bei dem immerhin große Mengen von Urkunden in einer technisch zwar einfachen, aber konzeptionell durchaus komplexen Struktur verwaltet werden. Letztlich handelt es sich hier aber um vernetzte, flach ausgezeichnete elektronische Texte (bzw. Textteile).

Die Nutzungsoptionen sind bei solchen materialorientierten Unternehmen allerdings deutlich geringer als bei jenen strukturorientierten Projekten, die von Anfang an auf ein umfassendes datentechnisches Inhaltsmodell ausgerichtet sind, das eine zentrale Verwaltung und Verarbeitung aller Materialien unterstützt. Hier wären zunächst jene Projekte zu nennen, die aus einer Datenbank-Sicht heraus eine feste Datenstruktur vorgeben, in die alle Ressourcen integriert sind und aus der sich dann auch die verschiedenen Nutzungsoptionen im Bereich der Anzeige und des Zugriffs (Retrieval) ergeben. Ein solches Datenbank-Paradigma kann sowohl für CD-ROMs wie die eMGH (4) oder die Regesta-Imperii Friedrichs III. (1) verwendet werden, als auch für eher interne Projekte wie DEEDS (12), die erst abschließend eine Internetschnittstelle hinzufügen wollen. Oft – zum Beispiel beim Diplomatarium Norvegicum (29) – wird dieser Ansatz auch verwendet, um eine Datenbank auf einem Server zu betreiben, die einerseits von außen zum Beispiel über Suchmasken angesprochen werden kann und die andererseits jene Seiten erst "generiert", die die BenutzerInnen zu Gesicht bekommen.

Zu unterscheiden wäre bei diesen datenbankbasierten Konzepten noch zwischen relationalen Modellen und anderen Ansätzen wie zum Beispiel dem von Kleio, das für die Realisierung des digitalen Archivs Duderstadt (15) verwendet wird. In den letzten Jahren ist jenseits der Strukturen bestimmter Datenbankmanagementsysteme die eindeutige Tendenz zu SGML und XML festzustellen. Beide "Metastandards" erlauben für unseren Fall die Definition von Datenmodellen, die unabhängig von jeder Hard- und Software zunächst nur die zugleich konsistente, beliebig komplexe und beliebig tiefe Erschließung von Urkunden sicherstellen. Erst in einem zweiten Schritt werden die strukturierten Daten dann durch weitere Software zu – variablen und gegebenenfalls multiplen – Ausgabeformaten verarbeitet oder durch Datenbankmanagementsysteme und ähnliche Schnittstellen für interaktive Such- und Selektionsprozesse zugänglich gemacht. Typisch für diesen Ansatz sind (1.) in einer eher internen, analytisch ausgerichteten Weise das "Urkundentext"-Projekt von Annegret Fiebig (41) und (2.) das SGML-orientierte "Trierer Korpus" (31) oder der XML-basierte CDLomb (43).

Technologien: Wir hatten bereits darauf hingewiesen, dass für digitale Projekte zuweilen einfache Publikationsformate wie HTML oder PDF verwendet werden. Daneben stehen Datenbanken, die mit dazu passender Retrieval-Software zum Beispiel sehr schnell auf CD-ROMs verfügbar gemacht werden können, wie etwa bei den Regesta imperii Friedrichs III (1), dem Thesaurus Diplomaticus (3) oder den eMGH (4). Diese CD-Publikationen machen sich damit eine seit langer Zeit verfügbare und erprobte Kombination von relationaler Datenbank und Retrieval-Software zu Nutze, die darauf ausgerichtet ist, große Datenmengen in kürzester Zeit abfragbar zu machen und zur Anzeige zu bringen. Auf Datenbanken basieren auch Projekte, die über das Internet zugänglich sind, wie DEEDS (12), das Diplomatarium Norvegicum (29), die Regesten der Anglosaxon Charters (11), Urkundenindex von WW-Person (experimentell) (19), die Regesten des Urkundenbestandes aus dem Stadtarchiv Passau (14) oder die ARCHIM des französischen Nationalarchivs (17). Diese Datenbanken, die intern oder auf einem Internet-Server Urkunden verwalten, haben gegenüber den auf CD fixierten Datenbanken die Möglichkeit, nicht nur interaktiv Suchanfragen zu bedienen und als Antwort einen spezifischen Output zu generieren, sondern sie können die Internet-Publikation insgesamt aus den Daten in verschiedenen Formen herstellen. Damit ist selbstverständlich ein deutlich höheres Maß an Flexibilität und gestalterischer Freiheit möglich, als bei statischen Publikationsformaten oder geschlossenen Datenbanken mit anhängender Standard-Anzeige-Software.

Diese Unabhängigkeit wird durch die Verwendung von SGML/XML noch weiter gesteigert. Zum einen können damit deutlich komplexere Datenmodelle realisiert werden, die zugleich eine sequentielle (textorientierte), eine feldorientierte und eine hierarchische Struktur ermöglichen. Zum anderen ist die Verbindung zu einer bestimmten Software aufgehoben. Die verwendete Retrieval-Software kann ebenso jederzeit ausgetauscht werden, wie die Anzeigeformen je nach Bedarf aus den gleichen Daten in unterschiedlicher Weise neu generiert werden können. So basieren zum Beispiel sowohl der CDLomb (43) als auch das Cartulaire blanc de Saint-Denis (36) oder die Analyse der Kuenringer Urkunden von Annegret Fiebig (41) auf XML-Daten, bieten jedoch völlig unterschiedlich gestaltete Zugriffe: Die lombardischen Urkunden können zum Beispiel selektiv angezeigt werden. Die Daten von Annegret Fiebig sind sowohl in einer Volltextversion als PDF zugänglich wie auch als XML-Rohtext, eine Form, in der auch Urkunden aus den lombardischen Daten angezeigt werden können.

Suchen: Die Urkunden werden unter anderem deshalb digital aufbereitet, weil ForscherInnen am Rechner komfortabel und schnell umfangreiche Textmengen durchsuchen können. Suchfunktionen bieten gezielte Abfragemöglichkeiten. Die Urkunden lassen sich für eine genau formulierbare Frage auswählen. Suchfunktionen bereiten damit systematische und formale Analysen vor.

Volltextsuchen sind inzwischen bei den meisten Projekten möglich, die mehr als nur Faksimiles anbieten. Bei ganz einfachen HTML-Seiten wie den Langobarden-Urkunden (33) kann die Suchfunktion des Browser als Hilfsmittel dienen, komplexere Anwendungen, wie zum Beispiel der CDLomb (43), haben eine eigene Suchmaschine eingebaut, die Untermengen der edierten Urkunden als Ergebnislisten liefert.

Weniger selbstverständlich sind komplexere Suchen: Leider sind dabei nicht einmal immer alle maschinenlesbar ausgewiesenen Strukturen einbezogen: Der Thesaurus Diplomaticus (3) hat seine Volltexte durch Formularteile strukturiert, bietet aber keine Suche, die auf bestimmte Urkundenteile beschränkt werden kann. Keines der Projekte bietet den BenutzerInnen die Möglichkeit, Anfragen mit einer Standardsuchgrammatik wie SQL oder XPath zu formulieren. Um so wichtiger ist es, dass maskenorientierte Suchanfragen die Möglichkeit bieten, bei chronologischen Suchen Zeiträume beschreiben zu können (wie es etwa im CDLomb (43) und MOM (18) der Fall ist, bei den Regesta imperii im WWW (2) aber nicht) oder auf die sehr individuellen Orthographien von Eigennamen auch über deren normierte Fassungen zuzugreifen (wie es unter anderem bei MOM (18) vorbereitet wird).

Stöbern / Browsing: Eine Beschränkung nur auf Suchfunktionen hat gravierende Nachteile: Formale Suchanfragen erfordern genaue Kenntnis des Projektes, seiner Inhalte und der Datenstrukturen auf Seiten der BenutzerInnen und damit hohen Einarbeitungsaufwand. Ein traditioneller Zugang zu den Texten, der auch in der Benutzung gedruckter Urkundenbücher fast immer am Anfang steht, darf deshalb nicht übersehen werden: Das Stöbern – heute auch "Browsing" genannt.

In der technischen Euphorie, gezielt nach individuellen Datensätzen suchen zu können, ist nämlich in verschiedenen Projekten ein Zugriff auf die Unterlagen verbaut worden, der doch meistens der erste und wesentliche Zugang zu Informationsbeständen ist. Insbesondere wenn das Material den ForscherInnen noch nicht genau bekannt ist, ist der Zugriff über wohlgeordnete Listen der beste Weg, die Quellen kennen zu lernen. Genaue Kenntnisse über Projekt, Inhalte und Datenstrukturen sind dann nicht nötig, sondern können langsam erworben werden. Es ist grundsätzlich unsinnig, überhaupt keinen Browsing-Zugang anzubieten, wie zum Beispiel bei den eMGH (4) oder den Urkunden des Stadtarchivs Passau (14) (der wohl verstecktesten Ressource überhaupt), zumal ein Browsing-Zugang aus den vorhandenen Informationen meist mit geringem Aufwand herzustellen ist. Die Aufgabe der BearbeiterInnen ist es also auch, die Urkunden in sachgemäße Listen zu ordnen, die im Regelfall regelgeleitet und automatisch vom Computer erstellt werden können, oder aber den BenutzerInnen die Möglichkeit zu geben, diese Listen anhand eigener Kriterien erstellen zu lassen. Ein Browsing nach Band/Seite oder Nummer kann dabei nur eine primitive Notlösung sein, da es zwar auf die bisherigen Publikationen und Zitationen verweist, aber keinen von ihnen unabhängigen Zugang bietet. Den sachgemäßen Grundzugang böten Aufstellungen nach Datum, Aussteller, Empfänger (und gegebenenfalls Archiv, Art der Urkunde usw.). Nur wenn Band/Seite/Nummer eine chronologische Ordnung bilden, erscheinen sie als vertretbare Zwischenlösung. Die chronologische Ordnung ist deshalb auch in den meisten Projekten der wichtigste Browsing-Zugriff, bei ganz einfachen Projekten wie den Franziskaner-Urkunden ebenso wie bei anspruchsvolleren Projekten wie den Wenzel-Regesten (22) oder dem CDLomb (43).

Multiple Präsentationsformen: Bei der Diskussion der verwendeten Technologien ist die Möglichkeit angesprochen worden, identische elektronische Editionsinformationen in unterschiedlichen visuellen Präsentationsformen zugänglich zu machen. Das ist der wesentliche Unterschied zu herkömmlichen Editionsformen: Eine Edition in Buchform ist dadurch bestimmt, dass es nur eine Präsentationsform gibt. Reihenfolge, Informationsbezug, Informationsauswahl usw. sind festgelegt. Inhalt und Form sind damit identisch. Digitale Medien können dagegen Inhalt und Form insofern trennen, als dass aus den (gleichbleibenden) Daten algorithmisch (also nach veränderlichen Regeln) immer wieder andere Präsentationsformen generiert werden können.

In den untersuchten digitalen Projekten sind etliche in diesem Sinne noch dem Buch-Paradigma verhaftet, wie zum Beispiel die statischen HTML-Seiten des Preußischen Urkundenbuches oder die retrodigitalisierend gewonnenen PDFs der Urkundenedition der Alten Kapelle in Regensburg (26). Aber auch komplexer organisierte digitale Projekte sind durch die verwendete Software beschränkt: die CD-ROM-Retrievalsoftware zum Beispiel der eMGH (4) ermöglicht ebenso wie die ASP/HTML-Präsentation der Arnulfinger-Urkunden (32) oder die festgelegte Oberfläche der Urkunden aus den niederösterreichischen Klöstern und Stiften (18) nur eine Art und Weise, die Urkunden zu betrachten. Derzeit arbeitet sogar noch die Mehrheit der digitalen Projekte so: Intern werden zwar unterschiedlich hoch strukturierte Daten erfasst, aus denen dann eine Präsentationsform generiert und den BenutzerInnen angeboten wird, auf die Vorbereitung multipler Präsentationsformen wird aber verzichtet. Diese wären zum Beispiel:

  • Nutzerspezifische Zusammenstellung des Materials. Die NutzerInnen können dabei aus den Daten jene selektieren, die sie benötigen und sich so gewissermaßen ihr eigenes Urkundenbuch generieren. Die Suchen, die bei den datenbankgestützten Projekten angeboten werden, verwirklichen diese Möglichkeiten zumindest vom Ansatz her. Der nächste Schritt, weitere Prozeduren auf ein einmal ausgewähltes Subset der Daten beschränken zu können, ist allerdings noch alles andere als selbstverständlich.
  • Multiple (gegebenenfalls auf Benutzerwunsch) generierte Ausgabeformen. Paradigmatisch verwirklichen das die FCR (42): die oben erwähnten unterschiedlichen Stufen der Edition (vom Bild über den präedierten Text und die eigentliche Edition bis zum Regest) können eingesehen werden. Bildete die gedruckte Edition immer nur eine Distanz zur Quelle ab, so erscheinen die Wiedergabeformen jetzt als Punkt auf einer differenzierten Skala zwischen Quellennähe und Benutzernähe. Von den digitalen Abbildungen ausgehend wären aus informationsreichen diplomatischen Abschriften über verschiedene editorische Verarbeitungsregeln Fassungen herzustellen, die zum Beispiel über einen Normalisierungsprozess den NutzerInnen und ihren Bedürfnissen entgegen kommen würden. Weiter reichende Interaktionsmöglichkeiten mit den BenutzerInnen sind hier aber ebenfalls denkbar: Ergänzende und kommentierende Informationen könnten auf Wunsch ein- und ausgeblendet oder die Formatierung im Detail festgelegt werden.
  • Bereitstellung von "Werkzeugen" zur Bearbeitung und Veränderung der Ausgabeformen. Typisches Beispiel sind hier die Zoom- und Bearbeitungsfunktion bei Bildern, wie zum Beispiel bei den Kaiserurkunden in Abbildungen (20), die jedoch ebenso wie der CDSR (6) ein Plug-In auf der Nutzerseite brauchen und deshalb nur eingeschränkt empfehlenswerte Lösungen sind.
  • Ausgabeformen zur Weiterverarbeitung. Multiple Präsentationsformen können auch durch Abspalten von Daten aus der Anwendung entstehen: Druck- und Exportfunktionen sind nicht nur ein mediales Zugeständnis durch den Rückgriff auf typografische Gewohnheiten angesichts angeblich defizitärer digitaler Publikationsformen, so dass die Nachteile der Webpräsentation für den Druck durch eine eigene Druckfassung ausgeglichen werden. Diese Funktionen dienen auch der Arbeitseffizienz, indem vorverarbeitete Daten zur Weiterverarbeitung zur Verfügung stehen, und Unabhängigkeit von der vom Anbieter konzipierten Anwendung herstellen, so dass die Daten also in andere Datenbestände integriert oder mit Software ausgewertet werden können, die nicht Teil der ursprünglichen Anwendung ist. Dass der Output des Thesaurus Diplomaticus (3) hier gegenüber den XML-Rohtexten eines CDLomb (43) weniger nützlich ist, liegt mehr am verwendeten Datenmodell als an der Exportfunktion als solcher.

Urkunden einzeln ansprechbar?

Aus Sicht der Drucke erscheint es banal – aber um auf digitale Quellen in wissenschaftlicher Arbeit verweisen zu können, muss das Benutzerinterface es zulassen, die Urkunden einzeln anzusprechen. Dazu gehört auch, dass die Stücke nachvollziehbar bezeichnet und adressierbar sind, dass sie also aus der Forschungslogik (und nicht aus einer rein internen technischen Logik) heraus angesprochen werden können. So verwendet das Digitale Archiv Duderstadt (15) die Signatur als Identifikationsmerkmal, das Preußische Urkundenbuch (35) – wie in Urkundeneditionen üblich – eine festgelegte Nummerierung. Projekte, die ihre Stücke technisch nur über die buchlogische Einheit Band/Seite identifizieren, nutzen die Möglichkeiten des Mediums nicht aus und unterstützen keine sachgemäße, sondern nur eine medial vermittelte Zitationsmöglichkeit.

Zielgruppen

Fragen der HistorikerInnen, DiplomatikerInnen, SprachwissenschaftlerInnen: Die digitale Erschließung und Präsentation von Urkunden bietet Rationalisierungspotentiale und verspricht, die Effizienz und die Analysemöglichkeiten der Wissenschaften zu verbessern, die mit Urkunden arbeiten. Evaluation und weitere Entwicklung digitaler Erschließungsformen müssen sich also auch und vor allem mit den Nutzungssituationen und -erwartungen beschäftigen. Diese zu erfassen ist umso wichtiger, wenn sie, wie im vorliegenden Fall, ganz unterschiedliche Fachinteressen umgreifen. Die Interessen liegen zwischen den Extremfällen der "EreignishistorikerInnen", die hoch vorverarbeitete Informationen über den Inhalt der Urkunden suchen, der SprachwissenschaftlerInnen, die eine extrem genaue Transkription wünschen und den DiplomatikerInnen und KulturhistorikerInnen, die einerseits gute Abbildungen brauchen und andererseits alle Informationsebenen verfügbar gemacht wünschen.

Innerhalb der Geschichtswissenschaft nutzen ganz unterschiedlich ausgerichtete HistorikerInnen urkundliches Quellenmaterial für ihre Forschungen. Beginnen wir mit der traditionellen ereignisgeschichtlichen Orientierung: Hier wird zumeist gefragt, "wer wem wann was getan hat". Die Urkunde ist dann eine Überrestquelle, die einen Rechtszustand festhält und dabei Existenznachweise von Personen, Orten, geografischen Umständen, Sachen und Beziehungen zwischen diesen (Besitz, Verwandtschaftsbeziehungen, Anbaumethoden ...) in besonders glaubwürdiger Form dokumentiert. Die benutzenden HistorikerInnen interessieren sich dabei für einzelne Sachinformationen, während sie zum Beispiel den formularhaften Teil in der Regel ignorieren werden. Die für sie zentralen Aussagen möchten sie eventuell in weitere Kontextdaten (Echtheit, Datierung, Lokalisierung usw.) eingebettet sehen, die die EditorInnen ebenso vorbereitet haben sollten, wie die Register als Zugriffsinstrumente auf bereits identifizierte Personen und Orte oder die Regesten als leichter zu erfassende Zusammenfassung des dokumentierten Vorgangs. Die in den digitalen Projekten angebotenen Verarbeitungsformen sind noch ausbaufähig: Kumulierte Register, Volltextsuchen beispielsweise in Regestsammlungen, Ausblenden von Formularteilen, Normalisierung von Texten, Datenbank-gestützte Sammlung von Zusatzinformationen oder kombinierte Suchen (Suche nach X unter der Bedingung, dass Y) stünden wohl auf dem Wunschzettel ereignisgeschichtlich ausgerichteter HistorikerInnen. Die angelsächsischen Urkunden des Anglo-saxons-net (11) zeigen besonders gut, wie viele Informationen alleine in einer übergreifenden Ressource zusammengeführt werden können: Sawyer (Ein Standard-Werk als Referenzpunkt), Editionen, Regesten, Abbildungen, wissenschaftliche Texte sind über Links mit einander verknüpft. Auch beim Cartulaire blanc de Saint Denis (36) hat man sich die Mühe gemacht, geografische Informationen aus anderen Quellen zu integrieren.

Zunächst nicht viel anders als die EreignishistorikerInnen gehen strukturgeschichtliche WissenschaftlerInnen etwa der Sozial- oder Wirtschaftsgeschichte vor, auch wenn sie sich für weitere Inhalts-Teile der Urkunden interessieren. Aufbauend auf den vereinheitlichenden Prozessen der sprachlichen Normalisierung und Identifizierung bzw. den Registern, können serielle Daten gesammelt und zum Beispiel für statistische Analysen aggregiert werden. Damit können dann Zeitverläufe, räumliche Muster oder Personen- und Sachgruppen näher untersucht werden. Auch hier würden wohl Verarbeitungsformen und komplexe Suchfunktionen (auch in den Urkundentexten selbst; auch nach Strukturinformationen) der Praxis der Forschung entgegenkommen, wobei neben möglichst großer (und vollständiger) Materialmengen und möglichst homogenem Erschließungsstand ein noch höherer Grad an Vereinheitlichung gefragt wäre, als bei ereignisgeschichtlichen Untersuchungen. RechtshistorikerInnen interessieren Rechtskonstrukte mit spezifischer Orts- und Zeitbindung. Sie erforschen unter Umständen das Auftreten und die genaue Verwendung einzelner Begriffe, daneben auch den juristischen und pragmatischen Kontext der in den Urkunden festgehaltenen Vorgänge. Ihr Bedarf richtet sich auf gute Volltexte und zuverlässige editorische Erschließungsinformationen zum Beispiel zur Echtheit und dem weiteren historischen Kontext einer Quelle. Sie brauchen weiterhin komplexe Suchmechanismen, die Schreibungen ausgleichen, Abstandssuchen oder strukturell eingegrenztes Retrieval erlauben.

Die besonders in jüngster Zeit wieder vermehrt anzutreffenden KulturhistorikerInnen wollen schließlich ganz andere Interessen bedient sehen. Richten sich ihre Fragestellungen etwa auf Phänomene im Bereich Mündlichkeit-Schriftlichkeit, auf die Urkunde als visuelles Zeichen von Herrschaftspraxis und Rechtsstrukturen mit spezifischen Layoutmustern oder auf Gebrauchsspuren der Urkunde als realem "Gegenstand" zum Beispiel vergangener Kommunikation, dann brauchen sie möglichst gute optische Wiedergaben dieser Quellen. Sie benötigen außerdem Informationen zur äußeren Erschließung und Kontextualisierung der Urkunden. Sie brauchen neben einem gezielt suchenden Zugriff auch das "Stöbern" (Browsen) in den Materialsammlungen, um mit einem ersten Schritt impressionistischer Heuristik ihre Fragestellungen entwickeln und testen zu können.

Zu den zahlreichen allgemein-historischen Fragen, die an Urkunden gerichtet werden, kommen noch die Untersuchungen der quellengattungsspezifischen Spezialdisziplin. Im Vordergrund steht für die DiplomatikerInnen zunächst die Echtheitskritik, die nach formalen Regeln durchgeführt wird, und für die eine ganze Reihe von Kontext-Informationen (zum Beispiel über die Praxis der ausstellenden Kanzlei), insbesondere aber ausreichendes Vergleichsmaterial benötigt werden. Aus der Echtheitskritik hervorgegangen sind Fragen nach den Entstehungszusammenhängen der Diplome und damit auch eine hoch-entwickelte Kanzleiforschung. Hier richtet sich der Bedarf sowohl auf Abbildungen, und auf gute vollständige Texte, als auch auf reichhaltige Zusatzinformationen, ergänzt noch von dem Anspruch möglichster Vollständigkeit der Erschließung aller überlieferten Urkunden einzelner Aussteller. Nicht nur als Grundlagenarbeit für weitere Nutzergruppen richtet sich das Interesse der Diplomatik stark auf die Beschreibung äußerer Merkmale. Der Beschreibstoff, die Schrift, die Besiegelung (Siegelbild, Siegeltechnik), spezielle Zeichen (wie Monogramm, Rota, Chrismon usw.), die Gestaltung des Schriftraums und sogar die Faltung sind nicht nur Indizien für andere Fragestellungen (zum Beispiel Echtheitskritik), sondern können auch Gegenstand eigener systematischer Untersuchungen sein. Bedingung für letztere sind neben qualitativ hochwertigen Abbildungen auch diplomatische Beschreibungen, die jene Informationen liefern, die keine Abbildung übermitteln kann. Digitale Präsentationsformen sollten nicht hinter die für gedruckte Editionen erreichten Standards zurückfallen. Im Gegenteil zeigen die Fontes Civitatis Ratisponensis (FCR) (42), dass sie sogar ein Mehr an diplomatisch interessanten Informationen liefern können, indem paläografische Informationen höherer Dichte, wie zum Beispiel Buchstabenformen durchsuchbar gemacht werden. Einen gelungenen Kompromiss zwischen Informationsbedarf und Arbeitsökonomie stellen Regesten mit hochqualitativen Abbildungen dar, wie wir sie etwa in der Internetpräsentation des Stadtarchivs Duderstadt (15) finden.

In gleichem Maße auf genaue Volltranskriptionen sind Forschungen zu den "inneren Merkmalen" der Urkunde angewiesen. Das Urkundenformular, das Diktat, bestimmte Formeln und Wendungen, Zitate und Anlehnungen, der Sprachstil, Verschreibungen und dialektale Eigentümlichkeiten sind ohne buchstäbliche Wiedergaben, ergänzt von Informationen zum Aussteller und zur Entstehungszeit nicht sinnvoll zu untersuchen. Die Urkunden des DEEDS-Projektes (12) zum Beispiel sind genau mit diesem Ziel erfasst und fruchtbar gemacht worden. [27] Es erscheint grundsätzlich nicht unmöglich, dass eine komplexere Erschließung der Daten und elaboriertere Suchstrategien auch Hyperbata oder offene Wortkombinationen erfassen können, was die weitere Arbeit an DEEDS hoffentlich beweisen wird.

Die historische Sprachwissenschaft und Lexikografie hat sich längst auch den Zeugnissen des sogenannten Geschäftsschriftguts zugewandt, ist doch gerade für das Mittelalter hier ein reicher Quellenkorpus verfügbar, der die "Literatursprache" durch die "Alltags-" bzw. "Geschäftssprache" einer spezifischen Textgattung ergänzen und kontrastieren kann. Die Erforschung regionaler (Schreib-)Sprachen in ihrer historischen Entwicklung ist dabei angewiesen auf eine Wiedergabe des Zeichenbestandes, der noch über das historische Verständnis von Buchstabentreue hinausgeht und weitere grafematische Differenzierungen verlangt. Fast alle geschichtswissenschaftlichen gedruckten Editionen sind für solche Fragestellungen unbrauchbar, vernichten sie relevante Informationen doch durch Normalisierung und Modernisierungen. Brauchbar sind deshalb vor allem die diplomatischen Vorarbeiten zur (raum-zeitlichen) Einordnung der jeweiligen Diplome. Liegen keine verwertbaren Transkriptionen vor, dann sollten für solche Fragestellungen wenigstens genaue Faksimiles geboten werden, mit denen die notwendig detaillierten Textfassungen gegebenenfalls innerhalb der Forschungen selbst angefertigt werden könnten.

Aus dem Blickwinkel der Nutzerinteressen ergeben sich aus den vorliegenden Projekten drei Perspektiven:

Erstens fordert die Arbeit an den Urkunden des frühen und hohen Mittelalters eine besonders tiefe Erschließung, die mit Hilfe digitaler Präsentationsformen geleistet werden kann: Die Vernetzung von Bild und Text, genauere Aufnahme der paläografischen und visuellen Phänomene in einer Tiefenerschließung des Textes oder umfangreiche Referenzen auf vorliegende Arbeiten sind Elemente einer digitalen Aufbereitung, die viele Forscherinteressen befriedigen wird.

Zweitens erweisen sich die Vorteile digitaler Erschließung in einem besonderen Maße an spätmittelalterlichen Massenquellen wie den Urkunden: Ihre digitale Präsentation hebt den Zwang auf – aus der zwangsweisen Einheitlichkeit des Buches heraus – das gesamte Material gleichmäßig zu bearbeiten. Die neuen Medien lassen eine abgestufte Erschließung, sowohl im Sinne einer Differenzierung wie einer inkrementellen Aufbereitung zu. Damit werden Großunternehmen wieder realistisch und effizienter. Die zuerst verarbeitete Urkunde muss der Forschung nicht verschlossen bleiben, bis 30 Jahre später auch die letzte Urkunde des Teilbandes ediert ist. Solche schnell veröffentlichten Zwischenstände können unmittelbar den Nutzen der geleisteten Arbeit zeigen. Andererseits sind digitale Präsentationsformen wohl die einzige Möglichkeit, die ins Unübersehbare wachsenden Datenmengen überhaupt zu bewältigen. Das an sich überzeugende Konzept der Regesta imperii Ludwigs des Bayern und Friedrichs III. ist in der Druckform nur wenig befriedigend – im ”Nebenprodukt” eines integrierten Zwischenstandes in der CD der Regesten Friedrichs III. (1) aber deutlich nutzbarer.

Die dritte Perspektive ergibt sich aus den Möglichkeiten, mit Hilfe der EDV große Datenmengen schneller auswerten zu können. Der elektronische Diktatvergleich wie im DEEDS-Projekt (12) und sprachliche Untersuchungen wie die von Annegret Fiebig (41) haben Datierungs- und Echtheitsvermutungen ermittelt, die in nichts Forschungen mit traditionellen Methoden nachstehen – und doch gänzlich anders zustande gekommen sind, ja auf traditionellem Weg kaum zustande gekommen wären. Umfangreiche elektronische Aufbereitung von Urkundentexten wie zum Beispiel die Arbeiten an der Digitalisierung des Corpus altdeutscher Originalurkunden (30) und seiner (regionalen) Fortsetzung im Trierer Urkundencorpus (31) könnten weitere Analysen in dieser Richtung befördern.

Nutzungsgewohnheiten

Mit der Erörterung der Nutzungsmöglichkeiten der untersuchten Projekte sind einige spezifische Publikationsoptionen aufgezeigt worden, die angeboten werden und sicher auch sinnvoll sind. Projektkonzeptionen können und sollten sich jedoch sowohl von der Technik als auch – und vor allem – von den Gewohnheiten der NutzerInnen leiten lassen. Von der Notwendigkeit eines stöbernden Zugriffs (”Browsing”) als Orientierungseinstieg haben wir gesprochen. Viele Projekte berufen sich auf etablierte Internettechnologien, wie zum Beispiel die aktuelle Link-Rhetorik der blauen und unterstrichenen Textteile als Hypertextverweise, Frames als Konzept paralleler Textdarstellung oder die Möglichkeiten der Back/Forward-Button des Browsers zur Navigation, um ansprechende Produkte zu präsentieren, die den BenutzerInnen nicht erst abverlangen, projektspezifische Vorgehensweisen zu erlernen.

Problematischer ist der Zugang über Datenbankinterfaces. Zwar kann man bei den BenutzerInnen inzwischen einige Datenbankerfahrung voraussetzen, Formulare, Masken und Buttons als Orientierungs- und Interaktionselemente sind aus vielen anderen Kontexten geläufig. Doch gerade hier ist die Gefahr, dass die individuellen Strukturierungsmodelle nicht davon ausgehen, wie die NutzerInnen gewöhnlich ihre Fragen formulieren: Eine chronologische Eingrenzung fehlt häufig und rein formale Zugriffswege zum Beispiel über Provenienzen behindern den Überblick über umfangreiche Bestände unter sachlichen Gesichtspunkten. Dass es sich lohnt, FachwissenschaftlerInnen an der Projektentwicklung zu beteiligen, wird schließlich klar, wenn es um die Terminologie der Nutzung geht, die sich an dem etablierten Wortschatz der Disziplin orientieren muss, wie er etwa im Vocabulaire internationale de la diplomatique [28] zusammengestellt worden ist.

Praxis

Retrodigitalisierung / Neuerschließung: Eine wichtige Unterscheidung für die Arbeitspragmatik ist bislang noch nicht genannt worden: Projekte beschäftigen sich entweder mit schon gedruckt vorliegenden Urkundenbüchern oder bereiten bislang noch ungedruckte Urkunden digital auf. Diese Unterscheidung ist unter anderem deshalb relevant, weil der Erschließungsaufwand bei neuem Material deutlich höher ist als bei retrodigitalisiertem. Hinter die Standards der Druckeditionen kann man auch in digitalen Neuerschließungen nicht gut zurückfallen und in den gedruckten Ausgaben liegen die Ergebnisse ja bereits fertig vor – allerdings werden sie dann oft noch nicht einmal in ihrer ganzen Breite nutzbar gemacht. So überwiegen die Retrodigitalisierungsprojekte im Überblick auch ungefähr im Verhältnis 2:1. Die eigentlichen Vorteile, die bei der digitalen Retro-Aufbereitung von schon erschlossenem Material zu erreichen wären, werden jedoch immer wieder durch die Projektkonzeption stark geschmälert: Solange die Erschließungsinformationen nicht elektronisch verarbeitet werden können, sind sie digital nicht besser verwendbar als in gedruckter Form. Das reine Faksimile eines gedruckten Buches hat nur den Vorteil erhöhter Verfügbarkeit. Die Digitalisierung des ”Urkundenbuch Cur-Rätien und Graubünden” (5) oder des "Codex Diplomaticus Saxoniae Regiae" (CDSR, 6) liefert so zwar sehr viel mehr Texte – ist aber nicht so gut nutzbar wie die "Urkundenregesten des Kollegiatstifts U.L. Frau zur Alten Kapelle in Regensburg" (26), die auch nur den schon vorhandenen Text digitalisieren, aber die Register automatisch verlinken und den Text maschinell durchsuchbar machen. Eine durch Erschließungstiefe und Vernetzung besonders beeindruckende digitale Präsentation liefert das Anglo-Saxons.net (11), in dem sich auch Sekundärliteratur digitalisiert findet.

Dabei sind diese retrodigitalisierenden Projekte scharf abzugrenzen von Angeboten, in denen die Texte nur als Bild wiedergegeben werden und nicht als elektronischer, also maschinenlesbarer Text. Zwar stellt die Recodierung gedruckter Texte in elektronischer Form einen erheblichen Arbeits- und Kostenaufwand dar, während digitale Abbildungen leicht und kostengünstig gewonnen werden können, doch ist nur mit digitalen Texten ein entscheidender funktionaler Mehrwert zu erreichen, der über die leichtere Verfügbarkeit gedruckter Bände hinausgeht. Projekte wie die Digitalisierung des mittelrheinischen Urkundenbuches (7), dessen elektronisches Faksimile auch noch fast unleserlich ist, oder des CDSR (6) sind so von sehr begrenztem Nutzen und bringen nur ansonsten nicht überall verfügbare Bücher über das Netz auf jeden Schreibtisch. Arbeiten im eigentlichen, über das Lesen hinausgehenden Sinne, kann man damit aber nicht. Die Volltextsuche, als die wohl häufigste Zugriffsart, und ein Export sind in diesem Fall nicht möglich.

Für Neubearbeitungen stellen sich die meisten dieser Probleme nicht. Wie die Forschung hier aber mit dem unterschiedlichen Aufbereitungsstand der Inhalte umgehen wird, dessen Tolerierung auch einen großen Vorteil des neuen Mediums bedeuten kann, wird sich erst noch zeigen müssen. Gleichmäßigkeit, Qualitätssicherung und Vollständigkeit sind durchaus ein Problem bei Neuerschließungsprojekten, das nur durch genaue Dokumentation des Arbeitsstandes, der Auswahlkriterien, der Digitalisierungsstrategie oder der Transkriptionsrichtlinien einerseits und durch eine medienadäquate Rezeptionshaltung auf der anderen Seite gelöst werden kann. Auch bei gedruckten Editionen waren die BenutzerInnen ja gezwungen, die jeweilige Vollständigkeit, Aktualität und Zuverlässigkeit der Ausgabe kritisch in Rechnung zu stellen.

AkteurInnen: Die Herangehensweise an das Urkundenmaterial ist stark von der Ausrichtung der Akteure bestimmt. Die Bibliotheken sind es, die sich vorrangig auf Retrodigitalisierungen des Materials konzentrieren, das sie in gedruckter Form in ihren Beständen haben. Das Angebot von "Austrian Literature Online" (5) ist so nur Teil einer umfassenden Digitalisierungskampagne, während bei der Bayerischen Staatsbibliothek (2, 20) etwas mehr Bezug zu wissenschaftlichen Fragen sichtbar wird, die sich zum Beispiel in der Vernetzung der Angebote der Regesta imperii und der Kaiserurkunden in Abbildungen niederschlagen. Deutlich anders ist der Ansatz jener Institutionen, die die Originale verwahren. Die Archive sind in der Untersuchung mit zahlreichen Urkundenprojekten vertreten. Die Stadtarchive Passau (14) und Duderstadt (15), die staatliche Archivverwaltung Baden-Württemberg (23), das ungarische Nationalarchiv (13) oder die Archivschule Marburg (21, 22) gehen dabei wiederum von den archivischen Erschließungskonzepten aus und beginnen die Urkundenpräsentation häufig mit Regestensammlungen. Die Stadtarchive Passau und Duderstadt zeigen dabei, dass man hier nicht stehen bleiben muss, sondern die Findbücher um Bilder erweitern und so eine Art virtuelles Archiv entstehen lassen kann, das nicht nur manche Reise überflüssig macht, sondern auch Instrumente für die weitere Arbeit mit den Urkunden anbietet.

Die verschiedenen historischen Interessen münden in unterschiedliche Ergebnisse: während einzelne HistorikerInnen wie Professor Heidrich (Bonn) sich mit der Edition der Arnulfingerurkunden (32) an etablierten Editionsformen orientieren und tiefergehend arbeiten, ist das Interesse der Landesgeschichtsforschung wie zum Beispiel beim CDSR (6) auf den schnellen Zugriff von sonst mühsam zu beschaffenden Büchern ausgerichtet. Die jeweiligen historischen Interessen bestimmen dabei aber insbesondere die Auswahl der Urkunden. Rein illustrative Zwecke sind selten, auch wenn es Editionen im Anhang von Online-Publikationen, wie im Falle der "Unpublished Documents of Latinate Wills in Mediterranean Spain, 1250–1350" (28) oder populärwissenschaftliche konzipierte Seiten wie die "Historical Documents of the Orders founded by St. Francis" (8) gibt, wobei die letzteren sogar noch die englische Übersetzung gegenüber dem Originaltext in den Vordergrund rücken.

Eine besondere Variante digitaler Verarbeitung von Urkunden durch HistorikerInnen sei hier noch erwähnt, die jedoch nicht Teil unserer Evaluation ist: Die Ausrichtung auf das Medium Buch als Produkt historischer Arbeit schließt ja beileibe nicht aus, digitale Techniken zu verwenden. So ist die DEEDS-Datenbank (12) selbst bislang nicht vollständig öffentlich, die Forschungsergebnisse aus der Arbeit mit der Datenbank aber vielfältig gedruckt zugänglich. [29] Einzelarbeiten, die ihr Urkundenmaterial mit digitaler Hilfe verarbeitet haben [30] , das digitale Rohmaterial aber nicht zugänglich gemacht haben, sind vermutlich häufiger als bekannt.

Gründlichkeit ist das Merkmal von sprachwissenschaftlichen Projekten, wie das Trierer Urkundencorpus (31), die Arbeit von Annegret Fiebig (41) oder die Retrodigitalisierung des CAO (30) mit ihrer semantisch-grafematischen Tiefenerschließung wohl am besten belegen. Ähnliche Genauigkeit legen auch die Projekte, die aus historischer Grundlagenforschung ihren Antrieb ziehen, an den Tag. Die FCR (42) werden vom Forschungsinstitut für Historische Grundwissenschaften in Graz betreut und legen deshalb hohen Wert auf tiefgehende paläografische und diplomatische Erschließung. Gleichzeitig sind sie jedoch auch ein Pilotprojekt geisteswissenschaftlicher Informationsverarbeitung (Professor Kropac), von der auch das Duderstädter Projekt (15) getragen wurde (Professor Thaller, Köln). Hier werden technische Konzepte getestet und Konzeptstudien an ausgewähltem Material erstellt (zum Beispiel Assmann, Heinrich IV für Speyer (39)), die zwar die Perspektiven der Technologien aufzeigen, aber ihren Nutzen für die Arbeit mit den Urkunden selbst erst entfalten können, wenn sie auf größere Bestände übertragen werden.

Von diesen historisch-grundwissenschaftlich ausgerichteten Akteuren sind schließlich noch Projekte von technischen InformatikerInnen abzugrenzen, die zum Beispiel "WW-Person" (19), DEEDS (12) oder dem von der Abteilung für Informatik der Universität Oslo aufgebauten Diplomatarium norvegicum (29) ihren Stempel aufgedrückt haben. Hier stehen oft pragmatische Lösungen mit etablierten Techniken und Datenmodellen im Vordergrund, die allerdings den inhaltlichen Besonderheiten und Anforderungen des Materials keinerlei Verständnis entgegen bringen und die Urkunden nicht unter einem adäquaten Datenmodell nutzbar machen.

Ziele (Inhalt, Konzept): Viele der Projekte sind eher als konzeptionelle oder technische Studien anzusprechen. Teilweise verzichten sie sogar darauf, die beschriebenen Möglichkeiten auch zu realisieren (Assmann (39), Schaßan und Sahle (40)). Teilweise sind noch keine Zugriffe möglich, weil die Projekte wie beim CAO (30) noch in den Anfängen stecken. Manche Arbeiten, wie die von Annegret Fiebig (41), demonstrieren an einem ausgewählten Corpus die Möglichkeiten der Nutzung digitaler Urkundenpräsentationen und zeigen dadurch Wege für andere auf.

Etliche Projekte aber sind schon längst aus dem Konzeptionsstadium herausgewachsen – oder haben es einfach übersprungen. Der CDLomb (43) hat – von einem hohen Maß konzeptioneller Reflexion ausgehend – inzwischen einen Umfang erreicht, der ihn zu einem respektablen Arbeitsmittel für Fragen der Geschichte der Lombardei macht. Von Anfang an am Inhalt ausgerichtet sind vorläufige Arbeitshilfsmittel wie die Liechtensteiner Regesten (24) oder der CDLang (33). Auch die Retrodigitalisierungsprojekte wie zum Beispiel die RI (1, 2), der CDSR (6), die Regensburger Arbeiten (26, 27), gehen von einem direkten Bedarf der ForscherInnen an ihren digitalisierten Materialien aus – weniger an den technischen Konzepten. So sind auch die archivischen Datenbanken Erschließungshilfsmittel für die BenutzerInnen der Archive – keine Konzeptstudien.

Gerade diese inhaltsorientierten Projekte lassen jedoch häufig aus arbeitsökonomischen Gründen manche systematische Frage außer Acht: MOM (18) kann sich erst jüngst dem Problem der Namensnormalisierung widmen, der CDSR (6) übersieht, dass reine Faksimiles kaum einen Mehrwert bringen. Der CDLomb (43) ist vielleicht das beste Gegenbeispiel dafür, mit welcher Qualität umfangreiche Projekte verwirklicht werden können und sollte ein Ansporn sein, die Ergebnisse konzeptioneller Arbeit für die spezifischen inhaltlichen Interessen zu berücksichtigen.

Bilanz und Ausblick

Die Vielfältigkeit und Komplexität des Untersuchungsrasters deutet an, dass im Bereich mittelalterlicher Urkunden eine große Zahl von Ansätzen, Zielen und Funktionen nur schwer in ein übergreifendes abstraktes Modell oder gar ein technisches System zu integrieren sind.

Diesem Eindruck wollen wir abschließend Möglichkeiten der inhaltlichen und technischen Integration gegenüberstellen durch:

  • Einer systematischen Sicht auf Urkunden-Digitalisierungsprojekte, die möglicherweise auch bei der Planung neuer Unternehmungen hilfreich sein könnte;
  • Einer Argumentation für die Integration bestehender Projekte in übergreifenden Portalen;
  • Einem Plädoyer für die Entwicklung gemeinsamer Standards zur Erschließung und Publikation von Urkunden.

Ein gemeinsames Analysemodell?

Das für die Evaluation verwendete Vierschichtenmodell macht die bestehenden Projekte vergleichbar: Die Projekte müssen sich alle mit Fragen auseinandersetzen, wie die Urkunde selbst repräsentiert wird, wie man sie mit zeitgenössischem Wissen erschließt, wie die BenutzerInnen auf die Urkunde zugreifen können und an welche Zielgruppe vorrangig gedacht ist. Die Evaluation der Projekte auf diesen vier Ebenen liefert einige Hinweise, die bei Konzeption neuer Projekte helfen:

  • Wie sollte ein Projekt die Urkunden bereitstellen? Bilder, Volltexte, Regesten haben ihre jeweiligen Funktionen, die zum Gesamtkonzept des Projektes passen müssen. Volltexte können unterschiedliche Informationsdichte haben – und sollten so konzipiert sein, dass Vertiefungen möglich sind.
  • Wie sollte das Urkundencorpus erschlossen werden? Auch die ergänzenden Informationen zu jeder Urkunde müssen nicht abgeschlossen erfasst sein – vielmehr ergeben sich immer weitere Erschließungsbedürfnisse, die später angefügt werden könne, sei es als Teil einer offenen Datenstruktur, sei es als Referenz auf externe Daten. Ein minimaler Satz an Metadaten, bestehend aus Aussteller, Empfänger und Datierung gehört jedoch zum Minimum strukturierter Erschließung, durch die Urkunden auch schon in der analogen Welt beschrieben werden müssen.
  • Wie sollen die BenutzerInnen auf die Urkunden zugreifen können? Induktives Vorgehen, wie es ein akzeptierter Teil historischer Arbeit ist, fordert einen stöbernden Zugang, der nicht fehlen darf. Größere Datenmengen jedoch erfordern zusätzlich einen strukturierten Zugriff, der Selektionen, Aggregationen und gezielte Suchen ermöglicht. Ob die in den Urkunden erschlossenen Informationen über externe Register oder datenbankartige Suchstrategien zugänglich gemacht werden, ist zwar vielleicht eher eine Frage der Nutzungsgewohnheiten, für Informationsselektionen sind letztere jedoch die beste Lösung. Multiple Präsentationsformen und Verwendungsformen sind als essentieller Mehrwert digitaler Präsentationsformen anzustreben. Die Möglichkeiten des Zugriffs sind stark von der verwendeten Technik bestimmt: Erstens haben Retrodigitalisierungen ihren Wert ebenso wie Neubearbeitungen, aber es ist bei Retrodigitalisierungen unbedingt darauf zu achten, dass das ausschließliche Faksimile nur geringen funktionalen Mehrwert gegenüber der gedruckten Version liefert, weil die elektronische Suche unmöglich ist. Zweitens erscheint uns XML als das derzeit beste Datenformat für die strukturierte Erschließung, die textorientierte Verarbeitung, den Datenaustausch usw. Software zur Präsentation von XML-Daten stehen in immer breiterer Auswahl zur Verfügung (zum Beispiel eXist [31] , xindice [32] , DynaWeb [33] , Webbrowser [34] ). Sie müssen aber in hohem Maße ebenso wie die (teilweise frei verfügbaren) Werkzeuge zur bequemen Erstellung solcher Daten erst an die individuellen Bedingungen angepasst werden. Der Traum von einer übergreifend einsetzbaren Editionssoftware für XML-Daten ist angesichts der unterschiedlichen Anforderungen der Akteure, der Vielschichtigkeit der zu edierenden Materialien und der potentiellen Komplexität von Auszeichnungssprachen jedenfalls nicht leicht zu realisieren.
  • An welche Zielgruppe ist vorrangig gedacht? Es ist selbstverständlich, dass die Projektkonzeption bei den Fragen nach spezifischen Realisierungsoptionen immer die NutzerInnen im Auge haben muss. Erschließungstiefe, Form der Textpräsentation, Nutzungsmöglichkeiten können aus den Interessen und Gewohnheiten der Zielgruppe abgeleitet werden. Dabei darf aber nicht übersehen werden, dass die Urkunden selbst nicht zielgruppenabhängig sind, das heißt die Konzepte Schnittstellen zu den Interessen anderer Zielgruppen anbieten müssen. Ein wichtiger Vorteil digitaler Erschließungen bleibt das inkrementelle Arbeiten: Ob man mit dem Regest oder dem Bild anfängt, eine Urkunde digital zu präsentieren, ist nur dem primären Nutzungsinteresse geschuldet: Die (Ereignis-orientierten) HistorikerInnen werden mit Regesten zufrieden sein, die MedienhistorikerInnen werden vielleicht das Bild für ausreichend erachten. Aber immer können zum Beispiel die SprachwissenschaftlerInnen eine diplomatische Transkription hinzufügen. So ist zwar auch die Auswahl der digital zu präsentierenden Stücke abhängig vom Forschungsinteresse: Ob ein Corpus einer bestimmten Kanzlei, eine gesamte Provenienz oder ein Corpus eines bestimmten inhaltlichen Bezuges ausgewählt werden, ist jedoch solange nicht wichtig, solange das Präsentations- und Erschließungskonzept in eine übergreifendes Metamodell integrierbar ist.

Die Zukunft: Urkundenportale?

"Portale" als erste Orientierungspunkte sind die naheliegende Antwort auf die ständig wachsende Zahl von digitalen Projekten. Sie bieten einen Lösungsansatz, mit dem das Problem geringer Übersichtlichkeit und schlechter Auffindbarkeit in Zukunft gelöst werden könnte. Um die Übersicht angesichts rapide wachsender Datenvolumen und verstreuter Einzelangebote im Internet nicht zu verlieren, gibt es schon jetzt kommentierte Linksammlungen, wie sie beispielsweise die Virtual Library anbietet. Dabei handelt es sich bereits um eine Form von inhaltlich bestimmten "Portalen", die thematisch verbundene Materialien durch eine zentrale Sammelstelle besser zugänglich machen. Auflistung und kurze Kommentierung leisten eine erste Integration von Ressourcen, die durch technische Mittel weiter ausgebaut werden kann. Zu denken ist hier vor allem an eine einheitliche Oberfläche, die – zum Beispiel als Interface eines sogenannten "Datenbank-Brokers" - den gezielten Zugriff nicht auf die Projekte, sondern auf ihre Inhalte erlaubt – in unserem Falle auf die Urkunden selbst. Für eine solche zentrale Nutzung(soberfläche) müssten allerdings zwei Grundbedingungen erfüllt sein:

Erstens: Die Urkunden der (externen) Projekte müssen einzeln ansprechbar sein. Der Weg, auf dem man zu einer bestimmten Urkunde in einem bestimmten Projekt kommt, muss soweit eindeutig formalisierbar sein, dass er von einem Software-System vollzogen werden kann. Im einfachsten Fall ist eine Urkunde entweder über eine (P)URL [35] ansprechbar oder aber durch eine Datenbankabfrage, die sich aus der Adresse der Datenbank und der Syntax der Abfrage zusammensetzt. Im ungünstigen Fall – und wenn der Aufwand trotzdem gerechtfertigt erscheint – kann auch aus einer unspezifischen Sammlung von Urkunden ein Einzelstück mittels entsprechender Algorithmen herausgezogen werden. Voraussetzung dafür ist wiederum, dass die Daten selbst hinreichend klar strukturiert sind, um maschinell ausgewertet werden zu können.

Zweitens: Das zentrale Portal muss die wichtigsten (externen) Metadaten über die Urkunden verwalten können, um einen ersten (Browsing-)Zugriff zu erlauben. Dazu gehören vor allem die zentralen Informationen Datum, Aussteller und Empfänger. Sind diese vorhanden (oder maschinell extrahierbar), dann können – die Probleme unterschiedlicher Terminologie zunächst ignorierend – zumindest registerartige Zusammenstellungen generiert werden, die einen ersten Überblick und den direkten Zugang zu allen Urkunden ermöglichen. Die Suche in den Urkunden oder den weiteren Daten und Materialien selbst kann entweder durch den Aufruf der jeweiligen projektspezifischen Suchmechanismen realisiert werden, oder durch die Spiegelung und Indizierung aller erreichbaren Daten der Projekte auf der Seite des Portalservers.

Für digitale Urkundenprojekte ergeben sich daraus Forderungen bzw. Wünsche, die so im Grunde für alle digitalen Publikationen gelten: Eindeutigkeit und Stabilität der Adressierung der Inhalte und standardisierte Dokumentation durch Metadaten.

Ob und wie ein solches Portal realisiert werden kann und sollte, ist durch eine Abschätzung der Aufwand-Nutzen-Relation zu entscheiden. Für den gegenwärtigen Stand der Entwicklung dürfte die Zahl jener Projekte, die einerseits eine ausreichend interessante Menge an Materialien anbieten und andererseits mit vertretbarem technischen Aufwand durch ein externes System ansprechbar sind, noch zu gering sein. Von den über 40 untersuchten Projekten fallen all jene weg, die nur experimentellen bzw. konzeptionellen Charakter haben, die eine ”kritische Masse” nicht erreichen oder wissenschaftlichen Ansprüchen nicht genügen. Je nach Mindest-Ansprüchen, die man als Hürde einer Einbeziehung definieren möchte, bleiben dann nur rund 25 Projekte übrig. Und selbst diese können angesichts ihrer unterschiedlichen Gegenstände, Ausgangslagen und Zielsetzungen noch kaum zu einem homogenen Bild zusammengefügt werden. Dies muss grundsätzlich allerdings auch langfristig toleriert werden: zum Methodenrepertoire in den Geisteswissenschaften wird es auch in Zukunft gehören, den Status und die Qualität von einzelnen Informationsquellen – auch unterhalb eines gemeinsamen Daches – immer in Rechnung zu stellen.

Die Zukunft: gemeinsame Standards?

Den anspruchsvolleren, umfangreicheren und langfristigeren Erschließungsprojekten liegen Datenstrukturen zugrunde, die versuchen, den zu digitalisierenden Gegenstand in einer logischen Form abzubilden. Je mehr sich diese Strukturen ähneln, um so leichter ist eine Integration in übergreifenden Portalen möglich und um so effizienter wird eine gemeinsame Nutzung unterschiedlicher Projekte sein. Immerhin handelt es sich bei diesen Strukturen um semantisch signifikante Modellierungen der Eigenschaften von Urkunden. Wenn man hier zu einer gemeinsamen Sprache finden könnte, was in welcher Form eigentlich der Gegenstand der Erschließung ist, welche Teile wie zu bezeichnen sind und wie sie sich zueinander und in einem umfassenden Modell verhalten, dann können digitale Urkundenbücher nicht nur von außen her und nachträglich digital zusammengebunden werden, sondern auch auf einer gemeinsamen Grundlage entstehen. Zwar ist es auch in der Welt gedruckter Editionen nie zur Ausbildung einheitlicher und verbindlicher Standards gekommen, an dem Fernziel aber ist grundsätzlich festzuhalten.

Dass dies neuerdings sogar wieder realistischer wird, zeigt das Beispiel der "Text Encoding Initiative" (TEI) [36] , die für elektronische Fassungen geisteswissenschaftlicher Texte im allgemeinen zwar keine expliziten "Editionsrichtlinien" vorgibt, wohl aber ein umfangreiches Regelwerk für ihre Strukturierung und für die Benennung, die semantische Deutung und die Bezüge ihrer Elemente. An diesen inzwischen etablierten Datenstandard, eine Anwendung von SGML/XML, wäre auf jeden Fall anzuknüpfen. Die TEI-Richtlinien sind modular aufgebaut und enthalten gesonderte Regelwerke für allgemein zu verwendende (Teil-)Datenstrukturen (zum Beispiel Metadaten), für bestimmte Textgattungen und für unterschiedliche Auswertungsinteressen. So konnte die Edition der ”Letters of Clemency from the Chancery of Brittany” auch auf diesem Standard aufbauen. Ein weiterreichendes Beschreibungsmodul "Diplomatik" müsste sich so nah wie möglich an den bereits definierten TEI-Elementen orientieren und diese um die noch fehlenden Aspekte ergänzen. Anleihen im Sinne möglichst großer Kompatibilität wären dann gegebenenfalls noch bei weiteren Standards wie der "Encoded Archival Description" (EAD), eBind oder "Dublin Core" (DC) zu machen. [37] Dies entspricht auch der Integration der unterschiedlichen Sichten beteiligter Akteure oder Nutzergruppen: EAD repräsentiert zum Beispiel eine archivarische Perspektive auf die Überlieferung, während eBind in einem bibliothekarischen Sinne die Struktur bibliografischer Einheiten und der dazu gehörenden digitalen Abbildungen wiedergibt und DC einen Grundset allgemeiner Metadaten für die Bereitstellung im Internet vorgibt. Zur Entwicklung eines solchen Standards müsste ein wechselseitiger Prozess von Struktur-Definition und praktischen Anwendungstests in Gang gesetzt werden, der mit einem ersten Expertengespräch an der Archivschule Marburg im Oktober 2003 initiiert werden soll und dem dann hoffentlich weitere Schritte folgen werden.

Nachtrag

Der Beitrag ist zu Beginn des Jahres 2003 vollendet worden. Die digitale Welt verändert sich schnell, so dass nicht nur die erwähnten Projekte sich verändert haben, sondern inzwischen auch viele weitere Projekte hinzugekommen sind, die mindestens wegen der Relevanz des Materials erwähnenswert wären. Diese sind so weit als möglich auf den Seiten der Virtual Library Geschichtliche Hilfswissenschaften - Diplomatik nachgewiesen. An den grundsätzlichen Überlegungen des Beitrags ändern sie jedoch wenig.

Anderes gilt für eine Initiative, die nach mehrjährigem informellen Vorlauf im April 2004 auf einer Tagung in München einen konkreteren Projektcharakter gewonnen hat: Die "Charters Encoding Initiative" (http://www.cei.lmu.de) unternimmt den Versuch, Grundlagen zum Beispiel für das im Beitrag erwähnte Urkundenportal zu legen, indem sie Möglichkeiten zur vertiefenden standardisierten elektronischen Erschließung im Bereich der Urkundenforschung auslotet. Dabei rücken auch wieder die verschiedenen Akteure in den Vordergrund. Archiv, Bibliothek und Wissenschaft haben für das ihnen anvertraute Material (Bücher, Originale oder sachliche Textcorpora) je eigene Konzepte und technische Praktiken entwickelt, in denen der gemeinsamen Gegenstand "Urkunde" erst wieder identifiziert werden muss. Ein gemeinsames Portal mittelalterlichen europäischen Urkundenerbes müsste deshalb zwischen EAD/EAC, bibliografischen Metadaten, Imagedigitalisierung von Büchern, komplexen TEI-Editionen und anderen Formen digitaler Urkundenerschließung vermitteln. Ob sich dabei ein gemeinsamer technischer Standard oder wenigstens eine gemeinsame Semantik durchsetzen wird, ist eine noch offene Frage, die weiter diskutiert werden muss.

Anhang

Tabellarische Übersicht der im Beitrag erwähnten Projekte

Dr. Georg Vogeler ist Wissenschaftlicher Mitarbeiter am Historischen Seminar der Ludwig-Maximilians-Univeristät in München.

Patrick Sahle ist Wissenschaftlicher Mitarbeiter im Bereich Historisch-Kulturwissenschaftliche Informationsverarbeitung an der Universität zu Köln.


[1] Vgl. die Virtual Library – Geschichte (Historische Hilfswissenschaften): <http://www.vl-ghw.uni-muenchen.de/>, die Subrubrik Urkundenbücher, Regestensammlungen usw.: <http://www.vl-ghw.uni-muenchen.de/chartularia.html>. Der Beitrag beruht auf dem Stand der VL von Anfang 2003.

[2] Zu diesen Problemen modernen Urkundenedierens vgl. Schieffer, Rudolf, Neuere regionale Urkundenbücher und Regestenwerke, in: Blätter für Deutsche Landesgeschichte 127 (1991), S. 1-18; Irgang, Winfried; Kersken, Norbert (Hgg.), Stand, Aufgaben und Perspektiven territorialer Urkundenbücher im östlichen Mitteleuropa, Marburg 1998 (=Tagungen zur Ostmitteleuropa Forschung 6) und Jenks, Stuart, KISS (Keep It Simple, Stupid). Elektronische Quelleneditionen mit einfachsten Mitteln, in: Jenks, Stuart; Schmieder, Felicitas (Hgg.), Quellen und Quellenedition im neuen Medienzeitalter, Göttingen 2002 (=Fundus - Forum für Geschichte und ihre Quellen 2), S. 33-43 (online: <http://webdoc.sub.gwdg.de/edoc/p/fundus/html/heft_2.html>).

[3] Grundsätzlich gelten nur die wenigsten Urkundenbuchreihen als "abgeschlossen”. Als willkürlich herausgegriffene Beispiele mögen dienen: Urkundenbuch des Klosters Walkenried, bearb. v. Josef Dolle, Bd. 1: Von den Anfängen bis 1300, nach Vorarb. von Walter Baumann, Hannover 2002 (=Historische Komission für Niedersachsen und Bremen 210; Quellen und Forschungen zur Braunschweigischen Landesgeschichte 38); Ziegler, Hans-Ulrich, Das Ebersberger Urkundenbuch. Ein Großprojekt historischer Forschung im Landkreis Ebersberg, in: Land um den Eberberger Forst 4 (2001/2002), S. 8-37; Bündner Urkundenbuch, bearb. v. Otto P. Clavadetscher; Lothar Deplazes, Neuberabeitung, Sigmaringen 1997ff.; Irgang; Kersken (Hgg.) (wie Anm. 2).

[4] Die Urkunden Friedrichs II. Bd. 1: 1198-1212, bearb. v. Walter Koch, unter Mitwirkung von Klaus Höflinger und Joachim Spiegel und unter Verwendung von Vorarbeiten von Charlotte Schroth-Köhler (†), Hannover 2002.

[5] Siehe zum Einstieg z.B. die Beiträge in Thaller, Manfred (Hg.), Quellen und Quelleneditionen im neuen Medienzeitalter, Göttingen 2002, oder in Kamzelak, Roland (Hg.), Computergestützte Text-Edition, Beihefte zu editio 12, Tübingen 1999, oder die Einzelbeiträge von Kamzelak, Roland, Edition und EDV, Neue Editionspraxis durch Hypertext-Editionen, in: Nutt-Kofoth, Rüdiger; Plachta, Bodo; van Vliet, H.T.M.; Zwerschina, Hermann (Hgg.), Text und Edition – Positionen und Perspektiven, Berlin 2000, S. 65-80 oder auch den Beitrag von Robinson, Peter, New Directions in Critical Editing, in: Sutherland, Kathryn (Hg.), Electronic Text – Investigations in Method and Theory, Oxford 1997, S. 145-172. Eines der "älteren", aber immer noch lesenswerten Standardwerke ist Finneran, Richard (Hg.), The Literary Text in the Digital Age, Ann Arbor 31996 und der Die Debatte zu den Vorteilen elektronischer Formen gegenüber gedruckten war insbesondere in der ersten Hälfte der 1990er Jahre Gegenstand zahlreicher Aufsätze, siehe in diesem Sinne z.B. Herberger, Maximilian, Plädoyer für eine ”elektronische Edition” – zusätzlich zur gedruckten, in: Heinekamp, Albert (Hg.), Mathesis rationis, Festschrift für Heinrich Schepers, Münster 1990, S. 337-348; Hoffmann, Dirk; Jörgensen, Peter; Foelsche, Otmar, Computer-Edition statt Buch-Edition, Notizen zu einer historisch-kritischen Edition – basierend auf dem Konzept von hypertext und hypermedia, in: editio 7 (1993), S. 211-220, oder Morgan, Paul, Hypertext and the Literary Document, in: Journal of Documentation 47 (1991), S. 373-391. Eine bloße Wiederholung (damit aber auch eine Zusammenfassung) alter Positionen bietet neuerdings Steding, Sören, Warum noch drucken? Über die Nachteile gedruckter Editionen, in: Jahrbuch für Computerphilologie 3 (2001), S. 149-160.

[6] Uhde, Karsten, Urkunden im Internet - Neue Präsentationsformen alter Archivalien, in: Archiv für Diplomatik 45 (1999), S. 441-464.

[7] Ansani, Michele, Diplomatica (e diplomatisti) nell’arena digitale, in: Archivio Storico Italiano 158 (2000), S. 349-379 (auch in: Scrineum 1 (1999), S. 1-11, online: <http://www.storia.unifi.it/asidspt/ASI/Testi_online/ansani.htm>).

[8] Dienst, Heide, Traditionsbücher. Editionsprobleme, Inhaltsanalysen und EDV-Einsatz am Beispiel der Klosterneuburger Traditionen, in: Datennetze für die Historischen Wissenschaften? Graz 1987, S. 51-62.

[9] Declercq, Georges; Demonty, Philippe; Naessens, Katrien; Trifin, Guy, L'informatisation de la 'Table chronologique' d'A. Wauters. Méthodologie du nouveau répertoire des documents diplomatiques belges antérieurs à 1200, in: Bulletin de la Commission Royale d'Histoire 153 (1987), S. 223-302.

[10] Gervers, Michael, The DEEDS Database of Mediaeval Charters: Design and Coding for the RDBMS Oracle 5, in: History & Computing 2/1 (1990), S. 1-11; Gervers, Michael, The DEEDS Project and the Development of a Computerized Methodology for Dating Undated English Private Charters of the Twelfth and Thirteenth Centuries; Fiallos, Rodolfo, An Overview of the Process of Dating Undated Medieval Charters: Latest Results and Future Developments, in: Gervers, Michael (Hg.), Dating Undated Medieval Charters, Woodbridge 2000, S. 13-50.

[11] Fiebig, Annegret, Urkundentext. Computergestützte Auswertung deutschsprachiger Urkunden der Kuenringer auf Basis der eXtensible Markup Language (XML) (=Schriften zur südwestdeutschen Landeskunde 33), Leinfelden-Echterdingen 2000.

[12] Rapp, Andrea, Computergestützte Verfahren zur Erfassung, Katalogisierung, Bearbeitung und Edition mittelfränkischer Urkunden des 13. und 14. Jahrhunderts, in: Moser, Stephan; Stahl, Peter; Wegstein,Werner; Wolf, Norbert Richard, Maschinelle Verarbeitung altdeutscher Texte V. Beiträge zum Fünften Internationalen Symposium Würzburg 4. - 6. März 1997, Tübingen 2001, S. 247-247-261; Rapp, Andrea, Die elektronische Edition, Erschließung und Vernetzung des Trierer Korpus mittelfränkischer Urkunden des 14. Jahrhunderts, in: Braungart, Georg; Eibl, Karl; Jannidis, Fotis, Jahrbuch für Computerphilologie, Paderborn 2000, S. 147-161; Rapp, Andrea, Die elektronische Edition, Erschließung und Vernetzung historischer Quellen und Grundlagenwerke. Das Trierer Korpus mittelfränkischer Urkunden des 14. Jahrhunderts, in: Castrillo Benito, Nicólas; Stahl, Peter, TUSTEP educa. Actas de congreso des Internationals Tustep User Group. Penaranda de Duero (Burgos) Octubre 1999, Burgos 2001, S. 99-123.

[13] Jenks, wie Anm. 2.

[14] Sahle, Patrick; Schaßan, Thorsten, Das Hansische Urkundenbuch in der digitalen Welt. Vom Druckwerk zum offenen Quellenrepertorium, in: Hansische Geschichtsblätter 118 (2000), S. 133-155 (siehe auch die weitere Dokumentation dazu: <http://www.hki.uni-koeln.de/projekte/hub/inhalt.htm>); Sahle, Patrick, Vom editorischen Fachwissen zur digitalen Edition. Der Editionsprozeß zwischen Quellenbeschreibung und Benutzeroberfläche, in: Fundus - Forum für Geschichte und Ihre Quellen 2 (2000), S. 75-102. (online: <http://webdoc.sub.gwdg.de/edoc/p/fundus/html/heft_2.html>).

[15] Gemeint sind die insgesamt fünf Beiträge zur Analyse von Urkunden mittels Datenbanken in: Keats-Rohan, K.S.B. (Hg.), Resourcing Sources, Oxford 2002. Im einzelnen: Bertrand, Paul, La base de donées 'Cartulaires' de la section de diplomatique de l'Institut de recherche et d'histoire des textes (Orléans) et l'enterprise du Répertoire des Cartulaires Français, S. 145-152; Tock, Benoît-Michel, La base de donées des chartes originales antérieures à 1121 conservées en France, S. 153-163; Gervers, Michael, Identifying irregularities and establishing chronology in medieval charters, S. 164-178; Spencer, Amanda, Dating charters using textual evidence, S. 179-194; Juhász-Ormsby, Ágnes, Changing legal terminology in dated private documents in England in the twelfth and thirteenth centuries: a case study – quitclaims, S. 195ff.

[16] Vgl. z.B. die intensive Kooperation deutscher und italienischer ForscherInnen in der Arbeit am Registerfragment Kaiser Friedrichs II, das von deutscher wie italienischer Seite erforscht und nach Ansätzen deutscher ForscherInnen jetzt von italienischer Seite ediert vorliegt: Il Registro della cancelleria di Federico II del 1239-1240, bearb. v. Cristina Carbonetti Venditelli, 2 Bde., Rom 2002 (=Fonti per la Storia D'Italia medievale - Antiquitates 19) .

[17] Siehe z.B. die Aufgabenteilung bei der Erschließung der Papsturkunden im Censimento: Bartoloni, Franco, Per un censimento dei documenti pontifici da Innocenzo III a Martino V (escluso). Relazione, discussione e voto finale al Convegno internazionale di studi per le fonti del medio evo europe, Rom 1955; Commission Internationale de Diplomatique (Hg.), Index actorum Romanorum pontificum ab Innocentio III ad Martinum V electu, Città del Vaticano 1975 – 1993; Pratesi, Alessandro, Problemi e prospettive del censimento dei documenti pontifici, in: Ders. (Hg.), Tra carte e notai. Saggi di diplomatica dal 1951 al 1991, Roma 1992 (=Miscellanea della società romana di storia patria 35), S. 549-557; Ders., Il censimento dei documenti pontifici dal 1198 al 1417, in: ebd., S. 559-564.

[18] Seine Merkmale sind: Ausgleichung der Schreibungsvarianz, Korrektur von "Fehlern", Angleichung an gesetzte Sprachstufen, Auflösung der Abkürzungen, Einführung einer quellenfremden Groß-Kleinschreibung und Interpunktion.

[19] Die zu den einzelnen Projekten angegebenen Ziffern entsprechen den Ordnungsnummern der Übersichtstabelle im Anhang.

[20] Siehe dazu die Rezension von Assmann, Bernhard; Sahle, Patrick in: Zeitschrift für Bibliothekswesen und Bibliographie 49/5-6 (2002), S. 337-340 bzw. die ungekürzte Online-Fassung unter <http://www.klostermann.de/zeitsch/osw_495.htm>.

[21] Vgl. <http://www.oeaw.ac.at/gema/lango_urkorg2.htm>.

[22] I Registri Vaticani su CD-ROM, vgl. <http://www.vatican.va/library_archives/vat_secret_archives/docs/documents/vsa_doc_20051999_cd_it.html>, z.Zt. 788 CD-ROMs, schätzungsweise 200.000 Seiten, Auflösung ca. 300 dpi.

[23] Z.B. Thesaurus Diplomaticus, CD-ROM mit Handbuch, erstellt v. Demonty, Philippe u.a., Turnhout 1997; Regesten Kg. Wenzel (HessStA Marburg): <http://www.uni-marburg.de/archivschule/wenzel/wenzelhome.html>.

[24] So im digitalen Archiv Duderstadt, wo die Bilder zwar nur in Graustufen, aber in guter Auflösung angeboten werden. Die Bilder der Fontes Civitatis Ratisponensdis liegen in 24bit Farbtiefe vor und können mit vertretbarer Qualität auf etwa Originalgröße angezeigt werden.

[25] Schließlich werden die Archive ja bereits durch öffentliche Mittel finanziert, um für den Erhalt der Bestände zu sorgen und sie für die Allgemeinheit (über Erschließung und Veröffentlichung) zugänglich und nutzbar zu machen.

[26] Siehe z.B. Schaßan; Sahle (wie Anm. 14).

[27] Vgl. Anm. 10.

[28] Milagros Cárcel Ortí, Maria (Hg.), Vocabulaire international de la diplomatique, 2. verb. Aufl. València 1997 (Collecció Oberta).

[29] Z.B. Dating undated Medieval Charters, wie Anm. 10.

[30] Z.B. Lucha, Gerda Maria, Kanzleischriftgut, Kanzlei, Rat und Regierungssystem unter Herzog Albrecht III von Bayern München 1438-1460, (zugl. Diss. München 1990), Frankfurt am Main 1993.

[31] Vgl. <http://exist.sourceforge.net/>.

[32] Vgl. <http://xml.apache.org/xindice/>.

[33] Wie z.B. in den Digitalisierungsprojekten der Bayerischen Staatsbibliothek angewendet.

[34] Der IE ab Version 5 und Netscape 6ff. bzw. Mozilla 1.3ff. können das DOM von XML-Daten einlesen und darstellen. Die Softwarehersteller arbeiten daran, auch Formatierungen (css, XSL etc.) in den Browser zu integrieren.

[35] PURL = Persistent URL: der Versuch, zu stabilen Internetadressen zu kommen. An die stabile Server-Adresse wären dann – möglichst ebenfalls unveränderliche – Dateiadressen oder Software-Aufrufe anzuhängen.

[36] Vgl. <http://www.tei-c.org/>.

[37] Zu EAD siehe <http://www.loc.gov/ead/>. Zu eBind = Electronic Binding DTD <http://sunsite.berkeley.edu/Ebind/>. Zu Dublin Core <http://dublincore.org/>.


Preußische Rechtsquellen Digital

Federbusch, Maria

Entstehungsgeschichte

Die Staatsbibliothek zu Berlin - Preußischer Kulturbesitz (SBB) besitzt aufgrund ihrer Geschichte und Tradition als Königliche Bibliothek bzw. Preußische Staatsbibliothek seit jeher einen umfassenden Bestand an juristischer Literatur. Speziell die Quellen zur preußischen Rechtsgeschichte sind zahlenmäßig stark vertreten. Zudem betreut die Bibliothek in dem von der Deutschen Forschungsgemeinschaft (DFG) geförderten überregionalen Literaturversorgungssystem [1] unter anderem das Sondersammelgebiet der Rechtswissenschaft. Zu ihren Aufgaben gehört neben der Erwerbung entsprechender Literatur auch die Erschließung und Vermittlung genannter Bestände. Es lag nahe, auch mit der Digitalisierung von Werken eines Fachgebietes zu beginnen, für das die SBB besonders prädestiniert erscheint.

Gegenstand

Im Mittelpunkt des von der DFG geförderten Projektes steht die hervorragende und umfassende Zusammenstellung preußischer Gesetze von 1298 bis 1810: Corpus Constitutionum Marchicarum (CCM) [2] und des Novum Corpus Constitutionum Prussico-Brandenburgensium Praecipue Marchicarum (NCC). [3]

Titelseiten

Diese bibliografisch voneinander unabhängig erschienenen mehrbändigen Werke müssen im Zusammenhang betrachtet werden, da sie inhaltlich aufeinander Bezug nehmen. Die so genannte „Academische Sammlung“ (Novum Corpus Constitutionum, NCC) stellt den zeitlichen Anschluss an die bis 1755 erschienene „Myliussche Sammlung“ (Corpus Constitutionum Marchicarum, CCM) her und führt somit die Idee vom möglichst vollständigen Sammeln und Edieren der Edikte fort. Die in beiden Werken veröffentlichten Edikte und Verordnungen sind bis heute Quelle rechtshistorischer Forschung und geben einen guten Überblick über die politische, gesellschaftliche, wirtschaftliche und juristische Situation der Zeit. Sie ermöglichen detaillierte Einblicke in das tägliche Leben der verschiedenen Gesellschaftsschichten. Damit sind sie auch für SoziologInnen, PolitikwissenschaftlerInnen, HistorikerInnen und HeimatforscherInnen nach wie vor von großem Interesse. [4]

Der geheime Justizrat und Generalauditeur Christian Otto Mylius hatte 1715 vom preußischen König Friedrich Wilhelm I. das Privileg erhalten, „auch die in Unserer Chur und Marck Brandenburg, und in dem Fürstenthum Halberstadt emanirte Ordnungen, Edicta“ [5] zu sammeln und zu veröffentlichen. Mit der territorialen Ausdehnung Preußens im Verlaufe des 18. Jahrhunderts gingen auch vereinzelt Edikte anderer Preußischer Provinzen in die Sammlung ein. So findet man gleichfalls Edikte und Verordnungen mit Bezug auf Ostpreußen und Schlesien. Allerdings blieb die Mark Brandenburg Hauptsammelgebiet für Mylius, sodass die Vollständigkeit hier sicherlich am höchsten ist. Der Natur der Sache geschuldet, handelt es sich in erster Linie um textbasierte Quellen, die zweispaltig angeordnet, in Fraktur gesetzt und teilweise durch kleinere Kommentare ergänzt wurden. Nichtsdestotrotz finden sich auch mehrseitige bildliche Darstellungen, beispielsweise für verschiedenartige Münzen oder Werkzeuge. Zu einem großen Teil setzt sich die Sammlung aus Tabellen und Formularen zusammen.

Verschiedene Seiten aus dem CCM und NCC: NCC Theil 5A, Sp. 47/48; CCM Theil 4, Abth. 1, Fig. III, Münzdarstellung nach Sp. 1314; NCC Theil 5B, Sp. 187/188.

Methodik

Die 25.120 im Folioformat vorliegenden Seiten wurden bitonal mit einer Auflösung von 600 dpi im Format TIFF 6.0 gescannt. Neben technischen wurden dabei auch bibliografische Daten in den TIFF-Headern abgelegt. Diese Arbeiten wurden von einem Dienstleister durchgeführt. Im Anschluss erfolgte die strukturierte Erfassung der Repertorien in XML unter Nutzung der Dokumenttypdefinitionen der Text Encoding Initiative (TEI), speziell TEI dictionary. [6] Auch diese Erfassungsarbeiten wurden von einer Firma erbracht. Von besonderer Bedeutung für die Qualität erwiesen sich die guten Frakturschriftkenntnisse der eingesetzten FirmenmitarbeiterInnen.

Spezielle Erfassungsproblematik

Aufgrund der starken Hierarchisierung der Werke (vor allem des CCM) weisen die einzelnen Bände unzählige Paginierungen auf, die ihre Benutzung erschweren. Soll eine bestimmte Spalte zitiert oder referenziert werden, so ist es zur Eindeutigkeit notwendig, die verschiedenen Hierarchiestufen mitzuführen. Zur Normierung dieser Angaben wurde ein achtstelliger Seitenschlüssel (zum Beispiel T1200345) entworfen. Während des Scannens wurde dieser im TIFF-Header einer jeden Seite eingetragen. Ebenso erfolgte jede Spaltenangabe der Repertorien zusätzlich in normierter Form. Eine eindeutige Referenzierung der Seiten wird mithilfe einer Konkordanz zwischen Seitenschlüssel und dazugehörigem Image hergestellt.

Die folgenden nach TEI dictionary ausgezeichneten Beispiele (Eintragung im Inhaltsverzeichnis, sowie Beginn eines Sachregistereintrages) demonstrieren die Tiefe der strukturierten Erfassung. Sie zeigen außerdem die oben erläuterte Wirkungsweise des Seitenschlüssels, der hier fettgedruckt erscheint. Ebenso erkennbar ist das zusätzlich normiert erfasste Veröffentlichungsdatum. Ihre Wiedergabe erfolgt in XML-Auszeichnung und daher im UNICODE-Format.

Zwei Beispiele mit xml Kodierung

Ziele

Die durch die Erfassung von Inhaltsverzeichnissen und Registern abgebildete Struktur und differenzierte Auszeichnung dient dem verbesserten Zugriff auf die einzelnen Quellen. War bisher die Suche nach einem bestimmten Edikt nur chronologisch oder über gewisse Schlagwörter möglich, so ist es zukünftig auch der Nachweis einzelner Edikte auf Titelebene. Es ist beabsichtigt, unter verschiedenen Suchaspekten mit einzelnen Titelstichwörtern sowie nach Hauptschlagwörtern des Realregisters suchen zu können. Außerdem soll eine kombinierte Suche mit dem Veröffentlichungsdatum realisiert werden. Eine Volltextsuche, die alle Daten einbezieht, ergänzt die genannten Sucheinstiege. Eine besondere Schwierigkeit beim Retrieval stellt jedoch die historisch begründete Varianz der deutschen Rechtschreibung dar, wurden doch die Quellen entsprechend ihrer Vorlageform wiedergegeben. Beispielhaft genannt seien hier Wörter wie Münze (Müntze), Ernte (Erndte), Strafe (Straffe) und Holz (Holtz). Zur Entschärfung dieser Problematik sollen Softwareangebote, die eine systemseitige Berücksichtigung unterschiedlicher historischer Schreibweisen im Deutschen beim Retrieval realisieren, geprüft und weiterentwickelt werden.

Wesentliches Anliegen der Digitalisierungsbemühungen ist die Verbindung zu anderen Projekten, speziell zum Deutschen Rechtswörterbuch (DRW) der Heidelberger Akademie der Wissenschaften. [7] Dieses Belegwörterbuch der germanischen Rechtssprache verweist auf viele, zum Teil digitalisierte Quellen. Mit Förderung der DFG werden ausgewählte Quellenwerke durch die Arbeitsstelle des DRW digitalisiert. Die bearbeiteten Werke CCM und NCC stellen bedeutende und häufig zitierte Quellen dieses Wörterbuchs dar. Folgerichtig wird im Rechtswörterbuch an bisher über 1.400 Stellen auf die erstellten Digitalisate der betreffenden Seiten im Angebot der Staatsbibliothek verwiesen. Über eine Verknüpfung gelangt man unmittelbar auf die Seite mit den zitierten Belegen, deren Kontext hierdurch offensichtlich wird. Damit ist in einem ersten Schritt auf sinnfällige Weise die Verknüpfung beider DFG-Projekte realisiert.

Beispiel einer Verlinkung zwischen dem Deutschen Rechtswörterbuch und dem CCM

Ergänzend dazu kann es BenutzerInnen der „Preußischen Rechtsquellen“ sinnvoll erscheinen, das eine oder andere Wort im Rechtswörterbuch nachzuschlagen, um eine kurze Erläuterung der Bedeutung zu erhalten oder auch die Verwendung des Wortes mit anderen Belegen zu vergleichen. Zur Unterstützung dieses Anliegens ist eine Verknüpfung der Hauptschlagwörter von CCM- und NCC-Realregister zu Eintragungen des DRW geplant. Vorstellbar wäre die Weiterleitung einer Suchanfrage. In einem separaten Fenster erscheinen dann die gefundenen Informationen des Rechtswörterbuches. Im Beispiel wird es am Eintrag Mahlmetze/Metze verdeutlicht.

Stand

Im Februar 2003 wurden die beiden im Projekt geförderten Arbeitsphasen der Digitalisierung (Scannen und Erfassen) abgeschlossen. Bereits seit Sommer 2002 stehen die Images und sukzessive auch die erfassten Strukturdaten den interessierten BenutzerInnen über das Internet in einer Arbeitsversion zur Verfügung. [8] Grundlage dafür bildet das von Thomas Stäcker (Herzog August Bibliothek Wolfenbüttel) entwickelte javascriptbasierte Blättertool. Die derzeit angebotene Arbeitsversion erlaubt es, in den 25.120 Images zu blättern sowie durch Navigieren über die Inhaltsverzeichnisse gezielt auf einzelne Edikte zuzugreifen. Die Quellensammlung wurde dafür bibliografisch und sachlich nachvollziehbar in 32 (CCM) bzw. 62 (NCC) „Portionen“ entsprechend den vorliegenden Abteilungen bzw. Jahrgängen eingeteilt, zu denen über ein Pull-Down-Menü jederzeit unkompliziert gewechselt werden kann. Dazu passend wurden Informationen aus Inhaltsverzeichnissen und chronologischen Registern zu 9.525 Edikten gruppiert, deren Angaben browserseitig durchsucht werden können. Die jeweils angeführte Spaltenangabe wurde mit einer Verknüpfung zum betreffenden Image hinterlegt und weist somit direkt auf die gewünschte Seite.

Im Einzelnen wurden für diese Präsentation die in XML gelieferten Strukturdaten zu den Inhaltsverzeichnissen und chronologischen Registern mit Hilfe von Makroroutinen in einfache HTML-Tabellen umgewandelt, die folgende Inhalte zur Anzeige bringen: Nummer, Titel, Veröffentlichungsdatum und Spaltenangabe der Edikte in Vorlageform. Die Zuordnung von Seitenschlüsseln zu den Dateinamen der Images erfolgt über Konkordanzen.

Die auf 20 Prozent komprimierten und nach JPEG konvertierten Images werden derart angezeigt, dass die volle Bildschirmbreite genutzt wird. Horizontales Scrollen wird demzufolge vermieden; vertikales Scrollen ist unausweichlich, da aufgrund der mit kleiner Schrifttype eng bedruckten Folioseiten eine ganzseitige Darstellung nicht sinnvoll ist. Das Format einer Seite mit ihrem dichten Informationsgehalt führt daher auch zu Dateigrößen von durchschnittlich 250 KB. Eine browserseitige Vergrößerung bzw. Verkleinerung wird standardmäßig angeboten. Zur Orientierung und notwendigen Information für Zitationen wird eine Überschrift generiert, die neben der abgekürzten Angabe des Teilbandes auch den Imagenamen enthält (zum Beispiel Preußische Rechtsquellen Digital/Teilband: NCCT101796 Bild: 20397).

Beispiel der Onlinedarstellung aus dem NCC

Ausblick

Solange die Staatsbibliothek zu Berlin mit den Vorbereitungen einer Ausschreibung ihres Dokumentenmanagementsystems und der sich anschließenden Auswahlprozedur befasst sein wird, stellt die derzeitige Arbeitsversion der Preußischen Rechtsquellen die Präsentation der Projektergebnisse im Internet dar. Der Zeitplan sieht für den Ausbau dieser Seiten die Einbindung der erfassten Einträge aus den Realregistern sowie die Realisierung einfacher Suchfunktionen vor. An der Verwirklichung der im Projekt angestrebten Suchstrategien (ausgefeilte kombinierte Suche; softwareseitige Regulierung von Rechtschreibvarianten beim Retrieval) wird im Zusammenhang mit dem Dokumentenmanagementsystem weitergearbeitet werden.

Weiterhin wird die Entwicklung von OCR (Optical Character Recognition)-Software zur Frakturschrifterkennung beobachtet, da viele NutzerInnen Volltexte wünschen. In diesem Zusammenhang konnten einer Firma ausgewählte Images zu Testzwecken übergeben werden. Konkrete Ergebnisse der recht hoffnungsvollen Softwareentwicklung stehen noch aus. Die Thematik wird jedoch kontinuierlich verfolgt.

Die digitalisierten Quellenwerke CCM und NCC stellen eine gute Ausgangsbasis zur Digitalisierung weiterer preußischer Rechtsquellen dar. So bieten sich zeitlich und regional ergänzende Rechtsquellen anderer preußischer Provinzen an, beispielsweise die ebenfalls von Mylius edierte Magdeburger Sammlung sowie schlesische und ostpreußische Ediktensammlungen. Zur Herstellung des zeitlichen Anschlusses ist die Konzentration auf die Preußischen Gesetzblätter denkbar, die von 1810 bis 1945 erschienen sind. Auf diese Weise kann ein vollständiges Corpus preußischer Rechtsquellen im Internet geschaffen werden. Die Staatsbibliothek zu Berlin strebt diesbezügliche Folgeprojekte an, für die jeweils die Voraussetzungen einer Volltexterfassung geprüft werden sollen.

Maria Federbusch ist an der Staatsbibliothek zu Berlin verantwortlich für IT- und Wissenschaftsmanagement Historischer Buchbestände.


[1] Neuer Verteilungsplan der überregionalen bibliothekarischen Schwerpunkte in dem von der Deutschen Forschungsgemeinschaft geförderten System der Literaturversorgung, siehe: <http://webis.sub.uni-hamburg.de/ssg/text/ssgliste2.html>.

[2] Kompletter Titel: Corpus Constitutionum Marchiarum, Oder Königl. Preußis. und Churfürstl. Brandenburgische in der Chur- und Marck Brandenburg, auch incorporirten Landen publicirte und ergangene Ordnungen, Edicta, Mandata, Rescripta [et]c. : Von Zeiten Friedrichs I. Churfürstens zu Brandenburg, [et]c. biß ietzo unter der Regierung Friderich Wilhelms, Königs in Preußen [et]c. ad annum 1736. inclusivè /... colligiret und ans Licht gegeben von Christian Otto Mylius. - Berlin und Halle, Zu finden im Buchladen des Waysenhauses, [1737]-1755. - 2°

[3] Kompletter Titel: Novum Corpus Constitutionum Prussico-Brandenburgensium Praecipue Marchiarum, Oder Neue Sammlung Königl. Preußl. und Churfürstl. Brandenburgischer, sonderlich in der Chur- und Marck-Brandenburg, Wie auch andern Provintzien, publicirten und ergangenen Ordnungen, Edicten, Mandaten, Rescripten ... Vom Anfang des Jahrs 1751 und folgenden Zeiten ... / [Samuel von Coccejus] [Hg.]. - Zu Berlin und auswärtigen Orten zu bekommen, bey den Factoren der Königl. Preußischen Academie der Wissenschaften, 1753-1822 Ab Bd. 3 im Verl. Decker, Berlin, ab Bd. 5 im Verl. Kunst, Berlin erschienen.

[4] Pogodda, Adelheid, Christian Otto Mylius und seine Ediktensammlung (CCM), siehe:<http://altedrucke.staatsbibliothek-berlin.de/Rechtsquellen/inhaltccm.html>.

[5] Friedrich Wilhelm <Preußen, König, I.>: Dr. Christian Otto Mylii Privilegium über den Verlag einiger Constitutionen etc. im gantzen Königreiche und Landen, in: CCM Theil 1. 1715. - Vorbericht

[6] Text Encoding Initiative, The XML Version of the TEI Guidelines, 12: Print Dictionaries, siehe: <http://www.tei-c.org/P4X/DI.html>.

[7] Deutsches Rechtswörterbuch der Heidelberger Akademie der Wissenschaften, siehe: <http://www.rzuser.uni-heidelberg.de/~cd2/drw/>.

[8] Preußische Rechtsquellen digital, siehe: <http://altedrucke.staatsbibliothek-berlin.de/Rechtsquellen>.


'Corpus der altdeutschen Originalurkunden bis zum Jahr 1300'
Ein Retrodigitalisierungsprojekt

Gniffke, Andreas; Rapp, Andrea

Einleitung

Im Folgenden soll ein Retrodigitalisierungsprojekt vorgestellt werden, dessen Ziel die Verfügbarmachung von Primärquellen ist, die für verschiedene historisch-kulturwissenschaftliche Traditionsdisziplinen von größter Bedeutung sind. Bereits die Buchedition des 'Corpus der altdeutschen Originalurkunden' bietet neben den Editionen der Urkundentexte selbst umfangreiche Erschließungsmaterialien, deren Potential durch die Digitalisierung verbessert werden kann. [1]

Da das Projekt noch am Anfang steht, kann noch nicht auf eine fertige Umsetzung verwiesen werden, stattdessen erläutern wir die folgenden Punkte: Zunächst soll das 'Corpus' selbst vorgestellt werden, anschließend wenden wir uns der Bedeutung für die Forschung zu, geben einige kurze Informationen zu bereits bestehenden Kooperationen, erläutern die eigentliche Umsetzung – sowohl konzeptionell als auch technisch - und zeigen zum Abschluss ein erstes vorläufiges Umsetzungsbeispiel.

Das Corpus

Das 'Corpus der altdeutschen Originalurkunden' – Charakterisierung

Das von Friedrich Wilhelm begründete 'Corpus der altdeutschen Originalurkunden bis zum Jahr 1300' umfasst (annähernd) vollständig alle deutschsprachigen Urkundenausfertigungen von den Anfängen bis zum Ende des Jahres 1299, insgesamt 4.422 Stücke mit etwa 1,3 Millionen Belegwörtern, die im Wörterbuch der Mittelhochdeutschen Urkundensprache (WMU) derzeit lexikografisch erschlossen werden. [2] Die Struktur des 'Corpus' ist komplex und nicht immer ganz einheitlich, was zum einen durch eine relativ lange Erarbeitungs- und Erscheinungsdauer mit wechselnden HerausgeberInnen, zum andern durch die Komplexität der Umfeldinformationen zu jeder Urkunde bedingt ist. Die einzelnen Komponenten, die das Informationssystem 'Corpus' ausmachen, müssen in der elektronischen Version abgebildet und zum Teil zusammengeführt und homogenisiert werden, um den BenutzerInnen einen komfortablen Zugang zu ermöglichen.

Zunächst soll also die Struktur des 'Corpus' vorgestellt werden. Aus dieser Struktur mit den verschiedenen Informationskomponenten ergeben sich die Konzeption der Vorgehensweise bei der Digitalisierung sowie Such- und Benutzungsmöglichkeiten.

Die Bände I bis IV enthalten in chronologischer Anordnung 3.598 Urkunden, wobei Parallelausfertigungen unter einer gemeinsamen Identifizierungsnummer mit Unterscheidungsbuchstaben gezählt werden. Der Nachtragsband V enthält wiederum in chronologischer Ordnung und neuer Zählung 824 Urkunden, bei denen es sich zum Teil um Parallelausfertigungen von Urkunden der Bände I bis IV, aber auch um neue Stücke handelt.

Jeder einzelne Band enthält verschiedene Register: jeweils ein Verzeichnis der heutigen Lagerorte, ein Verzeichnis der älteren Lagerorte, ein Verzeichnis der Ausstellungsorte sowie ein Verzeichnis der Urheber, Empfänger und Aussteller. Band V enthält über diese Register hinaus noch Berichtigungen und Ergänzungen der Datierungen, ein Verzeichnis der geänderten Archivsignaturen, Berichtigungen und Ergänzungen zu den Urkunden und Registern der Bände I bis IV sowie Berichtigungen und Ergänzungen zu den Regesten.

Der erste Regestenband zu Band I bis IV enthält auch ein Abkürzungs- und Literaturverzeichnis. Der Regestenband zu den Nachtragsurkunden war bislang unvollständig; die Regesten reichen bis Urkunde Nr. N674.

Besonders relevant für die inhaltliche Erschließung des Urkundenmaterials ist neben den Registern und Regesten das Schreibortverzeichnis zum WMU. In fast 60 Prozent der Urkunden werden der Schreibort und/oder die Urkundspartei (Aussteller, Empfänger) genannt, was eine erste Lokalisierung ermöglicht.

Die einzelnen Textbände enthalten umfangreiche Vorworte der jeweiligen HerausgeberInnen, die zum Stand der Urkundensprachenforschung und der Editionsphilologie ihrer Zeit Bilanz ziehen und wissenschaftsgeschichtliche sowie methodengeschichtliche Dokumente ersten Ranges darstellen. Besonders die Positionen Wilhelms, die er streitbar gegen die zünftige Germanistik verteidigte, sind nach wie vor aktuell und nicht nur von wissenschaftsgeschichtlichem Interesse.

Gegenüber der bisherigen Druckversion liegen eine Reihe von Aktualisierungen und Ergänzungen vor, die vor allem von der WMU-Arbeitsstelle eingebracht werden können. Dies sind Korrigenda, aktualisierte Archivlagerorte, ein aktualisiertes Abkürzungsverzeichnis, ein Vorwort zum Regestenband von Helmut de Boor und die fehlenden 150 Regesten.

Weitere Ergänzungen, die in die elektronische Version eingebracht werden, sind anderweitig publizierte Nachträge zum 'Corpus' [3] , die aus der Forschungsliteratur exzerpierten Schreiberzuweisungen sowie des weiteren eine Bibliografie zur Urkundensprache. [4]

Die Aufstellung des Informationskomplexes macht deutlich, dass das Werk für eine Digitalisierung geradezu prädestiniert ist, denn eine Recherche im Buch-'Corpus' – nach allen Urkunden einzelner Aussteller oder allen Urkunden einer Provenienz zum Beispiel – kann eine komplexe und zeitaufwändige Angelegenheit sein. In einigen Bereichen leistet das Schreibortverzeichnis zwar bereits gute Dienste, eine Zusammenführung aller Teil-Register in ein Gesamtregister beispielsweise wird ebenso wie eine Aktualisierung von Archivlagerorten und die Einbindung von Ergebnissen aus der verstreuten Sekundärliteratur die Recherchemöglichkeiten aber erweitern und effizienter machen.

Bedeutung des Urkundenmaterials für die Forschung

Das 'Corpus der altdeutschen Originalurkunden' ist geradezu ein Paradebeispiel für Interdisziplinarität zwischen Sprach- und Geschichtswissenschaft. Die Bedeutung für die historische Forschung liegt gewissermaßen auf der Hand, viele Teildisziplinen der historischen Wissenschaften profitieren von den Materialien des Corpus, so zum Beispiel die Landes-, Territorial-, Kanzlei- oder die Verwaltungsgeschichte. Im folgenden Überblick werden wir jedoch vor allem auf die Bedeutung für die sprachwissenschaftliche Forschung eingehen.

Die 'Corpus'-Urkunden sind für sprachwissenschaftliche, in erster Linie schreibsprachgeschichtliche, aber zum Beispiel auch namenkundliche Analysen eine besonders geeignete Quellengattung. Das „authentischere“ Bild mittelhochdeutscher Schreibsprachwirklichkeit, das die Analyse der 'Corpus'-Urkunden bieten kann, entspricht der ursprünglichen Intention des 'Corpus'-Initiators Friedrich Wilhelm, der der Ansicht war, dass eine wissenschaftliche Grammatik des wirklich verwendeten und bezeugten Mittelhochdeutschen im Gegensatz zu dem von ihm polemisch so genannten ‚Esperantomittelhochdeutschen‘ im Corpus-Material eine optimale Quellenbasis findet. [5] Aus diesem Grund ist seine Edition streng diplomatischen Gepflogenheiten und paläografischer Genauigkeit verpflichtet und bietet einen Ausschnitt der mittelhochdeutschen Sprachepoche in erstaunlichem Variantenreichtum, der das durch Abstraktion geschaffene 'Normalmittelhochdeutsche' der kritischen Ausgaben nach dem Vorbild Karl Lachmanns in erheblichem Maße relativiert. Schließlich kann dieses differenziert aufbereitete Quellenmaterial einen neuen fundierten und repräsentativen Einblick in die Entwicklung des Deutschen als Schreibsprache und in die mittelalterliche Schreibwirklichkeit ermöglichen, der weit über das hinausgeht, was bislang in der Forschung über eine manuelle und daher extrem zeitaufwändige Belegexzerption zu bestimmten Erscheinungen möglich war. Durch die Kontrastierung mit den Befunden aus der Literatursprache differenziert und vervollständigt sich die wissenschaftliche Beschreibung des Mittelhochdeutschen entscheidend dadurch, dass in der elektronischen Version auch hochfrequente Erscheinungen der Morphologie und Phonologie gezielt und effizient untersucht werden können. [6]

Die historischen Umfeldinformationen sind notwendig zur Einordnung und Bewertung der in den Urkunden fassbaren Schreibsprachvarianz. Da Urkunden fast immer sicher datiert und häufig auch genau lokalisierbar sind, erlauben sie nicht nur eine chronologische, sondern auch eine räumliche Fixierung sprachlicher Varianz. Zudem sind vielfach auch die Urkundsparteien bzw. die als Aussteller oder Empfänger genannten Personen bekannt, was in begrenztem Maße zum Beispiel auch die Berücksichtigung sprachsoziologischer Faktoren bei der Bewertung der Sprachvarianz erlaubt. Von besonderem Forschungsinteresse ist die Bildung von Schreiberkorpora: Im 'Corpus' wurden nur Originalurkunden, keine Kopialüberlieferungen aufgenommen, daher handelt es sich bei den einzelnen Urkundentexten praktisch um Autografe, bei denen Vorlageninterferenzen (von Entwürfen vor der Mundierung) kaum ins Gewicht fallen. Die aufgrund der paläografisch gesicherten Schreiberzuweisungen erfolgte Zusammenstellung von zum Teil umfangreichen Schreiberkorpora ermöglicht vielfältige Recherchen zu individuellen, regionalen und überregionalen Konstanten und Inkonstanten in der Herausbildung der deutschen Schreibsprachvarietäten.

Kooperationen und Integration in weitere Vorhaben

Die Bedeutung des 'Corpus' für die Forschung bestätigt sich nicht zuletzt durch bereits im Vorfeld vereinbarte Kooperationen; die jeweiligen Kooperationspartner erhalten die Texte des 'Corpus' für ihre Vorhaben in einem möglichst frühen Stadium. Kooperationspartner sind als Entwicklungspartner zunächst das Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften an der Universität Trier sowie der Erich Schmidt-Verlag. Das 'Corpus' liefert ferner Quellentexte für die Artikelherstellung des Wörterbuchs der Mittelhochdeutschen Urkundensprache, weiter für das Deutsche Rechtswörterbuch, das Projekt 'Wortbildung in der deutschen Urkundensprache des 13. Jahrhunderts', die Neue Mittelhochdeutsche Grammatik auf Basis der Primärquellen, das Neue Mittelhochdeutsche Wörterbuch, das Digitale Mittelhochdeutsche Textarchiv sowie das Informations-Netzwerk zur Geschichte des Rhein-Maas-Raumes (RMnet). [7]

Umsetzung

Konzeption der Recherchemöglichkeiten

Keine andere Textsorte bietet die extralinguistischen Fakten eines mittelalterlichen Sprachzeugnisses in einer vergleichbaren Fülle und Präzision wie die Urkunde. Beim 'Corpus' liegt der Glücksfall vor, dass diese Umfeldinformationen in den Regesten und den Sachregistern zu den jeweiligen Bänden bereits in vorbildlicher Weise zusammengetragen und auf die Urkundentexte bezogen zusammengestellt worden sind. Diese Fülle der vorhandenen Umfeldinformationen kann in der in mehrere Bände aufgeteilten Buchausgabe jedoch nur mühsam genutzt werden, weil es beispielsweise kein Gesamtregister gibt, sondern jeder Band ein eigenes Register hat. Da die elektronische Version nicht auf die lineare Anordnung der Urkunden in der Buchversion angewiesen ist, obwohl die Abbildung der Buchversion prinzipiell möglich sein muss, können die getrennten Text- und Informationskomponenten übersichtlich zusammengeführt werden, zum Beispiel durch die Einordnung von Nachträgen und Neufunden an chronologisch exakter Stelle und die Zusammenführung der Register zu einem Gesamtregister. Auch die Berichtigungen und Aktualisierungen sollen entsprechend berücksichtigt werden. Durch diese Aufbereitung im EDV-Medium können das komplexe Beziehungsgeflecht und die 'vernetzte Struktur' des Urkundencorpus für BenutzerInnen ideal transparent und handhabbar gemacht werden. [8] Erleichtert bzw. überhaupt erst ermöglicht wird auch eine Recherche nach ausgewählten sprachlichen Erscheinungen, die das Gesamtcorpus berücksichtigt, was sonst manuell kaum mit vertretbarem Aufwand zu bewältigen wäre.

Die strukturelle Erfassung und Markierung der Kategorien Urkundennummer und Seiten-Zeilenreferenz, Ausstellungsdatum, Ausstellungsort, Archivlagerort sowie Personen (Aussteller, Empfänger, Zeugen und sonstige Beteiligte), des weiteren Orte und Schreiber in den verschiedenen Komponenten ermöglicht individuell motivierte Teilkorpora, so zum Beispiel nach Regionen, Herrschaften, Städten und Schreibern. Dieser Punkt ist sicherlich ebenfalls für die HistorikerInnen von Interesse.

Die Texte sollen also so aufbereitet werden, dass alle nötigen Umfeldinformationen zu den einzelnen Urkunden rasch und übersichtlich bereitgestellt werden. Anhand der mit den Einzelurkunden verknüpften Umfeldinformationen werden Suchroutinen erstellt, die eine gezielte Textauswahl aus dem gesamten 'Corpus' ermöglichen. Durch die elektronische Aufbereitung und Verknüpfung der Informationskomponenten untereinander entsteht ein umfassendes und vielfältig nutzbares Informationssystem zur mittelhochdeutschen Urkundensprache sowie zur Landes-, Kanzlei-, Verwaltungs- und Territorialgeschichte des 13. Jahrhunderts.

Konkrete Umsetzung und Erfassung: Die eigentliche Projektarbeit

Grundvoraussetzung für die Umsetzung des 'Corpus' ist, dass das Projekt zwei Anforderungen zu genügen hat. Zum einen bildet unsere Erfassung die Grundlage für einen Neudruck des 'Corpus', zum anderen soll auf Basis dieses Materials eine anspruchsvolle elektronische Version entstehen.

Das 'Corpus' wurde aus diesem Grund zunächst Eins zu Eins in China erfasst und dann zur weiteren Verarbeitung nach Trier weitergeleitet. Dieser Prozess ist mittlerweile abgeschlossen. Um eine möglichst fehlerfreie Erfassung zu gewährleisten, waren jedoch umfangreiche Vorbereitungen erforderlich, die die erste Projektphase bestimmten.

Um viele mögliche Fehlerquellen von vornherein auszuschließen, ist eine sorgfältige Dokumentanalyse unverzichtbar. Es wurden Musterseiten der einzelnen Textsorten (Vorworte, Register, Regesten und vor allem für den Urkundentext) angefertigt, um sowohl den ErfasserInnen wie auch den späteren BearbeiterInnen Layout-Varianten sofort vor Augen zu führen.

Es liegt auf der Hand, dass ein über viele Jahrzehnte gewachsenes 'Corpus' nicht an jeder Stelle völlig einheitlich gestaltet ist. Besonders groß ist die Varianz im Bereich der Anmerkungen, diese Beobachtung hat sich bereits bei den ersten Korrekturen des erfassten Materials bestätigt. So ist zum Beispiel die Position der Anmerkungen auf der einzelnen Seite nicht systematisch festgelegt. Sie können sich zusammengefasst am Seitenende befinden, weiterhin unter der zugehörigen Urkunde in der Seitenmitte oder, bei mehrspaltigem Urkundentext, ein- oder mehrspaltig unter diesen Urkunden. Für die Erstellung der elektronischen Version stellt die korrekte Verknüpfung von Anmerkungsnummer und zugehöriger Anmerkung eine große Schwierigkeit dar, vor allem weil in den ersten Bänden keine eindeutige Zuordnung von Anmerkung und Urkunde gegeben ist.

Ein zweites, durch den Gegenstand begründetes Problem stellen die Sonderzeichen dar. Auch hier wurden Listen erstellt, in welchen den Sonderzeichen sofort eindeutige TUSTEP-Codierungen zugeordnet wurden. Neben dem üblichen Zeichenvorrat des Mittelhochdeutschen lassen sich nahezu alle denkbaren Formen von Akzenten und Gliederungszeichen finden, doch in den ersten Korrekturen hat sich gezeigt, dass längst nicht alle Sonderzeichen im Voraus erkannt wurden. Hier muss also ständig nachgebessert werden. Durch verhältnismäßig einfache TUSTEP-Routinen stellt dies aber kein großes Problem dar, so dass eine vollständige Sonderzeichenliste in Kürze zur Verfügung stehen dürfte. Das so entstandene immense Zeicheninventar soll später dem Unicode Consortium zur Standardisierung vorgeschlagen werden, was zukünftigen Projekten, die sich mit der Digitalisierung mittelalterlicher Quellen beschäftigen, eine große Hilfe und Arbeitserleichterung sein dürfte.

Auszug aus der Sonderzeichenliste

Das vielleicht vordringlichste Problem in der Frühphase des Projekts stellte die Erstellung einer präzisen und eindeutigen Erfassungsreihenfolge dar. Grund hierfür war die Tatsache, dass dem chinesischen Erfassungsbüro keine 'Corpus'-Version in Einzelbänden zur Verfügung gestellt werden konnte, sondern auf die ursprünglich herausgegebenen Einzellieferungen zurückgegriffen werden musste, insgesamt über fünfzig Hefte. Da diese Lieferungen nicht die korrekte Reihenfolge des 'Corpus' abbilden, musste für jeden Textteil eine individuelle Signatur vergeben werden, da in einem einzelnen Heft bis zu vier verschiedene 'Corpus'-Teilstücke enthalten sein konnten. Nur eine sorgfältige Erfassungsreihenfolge kann also gewährleisten, dass aus diesem Puzzle eine komplette Corpusausgabe entstehen kann.

Nach diesen umfangreichen Vorbereitungen wurden die Einzellieferungen nach China geschickt und dort zweimal abgeschrieben ('Double-Keying'). Für die ersten Teile eines Bandes wurde sogar ein 'Triple-Keying'-Verfahren gewählt, um so bereits frühzeitig Fehlerquellen zu erkennen. Die Dateien wurden dann im Word-Format zurück nach Trier geschickt und dort automatisch in TUSTEP-Dateien umgewandelt, um so eine optimale Weiterverarbeitung zu gewährleisten. Ebenfalls automatisch wurden diese Versionen dann miteinander verglichen und die Differenzen in einem Prüfprotokoll festgehalten. Diese Protokolle wurden von Hilfskräften mit dem Original verglichen und endgültig korrigiert zur Weiterverarbeitung abgelegt. Diese Arbeiten sind nunmehr (Stand: Juli 2003) abgeschlossen, so dass eine weitestgehend fehlerfreie 'Corpus'-Version für die Kooperationspartner und auf Anfrage für Zwecke von Forschung und Lehre zur Verfügung steht. Für die folgenden Arbeitsschritte ist die Zusammenarbeit mit InformatikerInnen dringend erforderlich. Zu ihren Hauptaufgaben gehören die Erstellung einer grafischen Oberfläche, die Überführung der Daten in eine Datenbank sowie die Einbindung der Sonderzeichen in den Urkundentext. Hierfür bieten die gewachsenen Strukturen innerhalb des Kompetenzzentrums beste Voraussetzungen, da auf einen großen Erfahrungsschatz zurückgegriffen werden kann. Insbesondere die enge Zusammenarbeit mit den MitarbeiterInnen des bereits erwähnten 'RM-Net'-Projekts bietet große Möglichkeiten, da im Rahmen dieser Projektarbeit bereits intensiv an einer digitalen Urkundenedition einschließlich indexbasierter Recherchen gearbeitet wurde.

Arbeiten am Schreibortverzeichnis

Das Schreibortverzeichnis ist der Bestandteil, bei dem mit dem inhaltlich-strukturellen Markup begonnen wurde, da der Erich Schmidt-Verlag dankenswerterweise die Satzdateien aufbewahrt hatte und dem Projekt zur Verfügung stellte. Sie wurden in TUSTEP konvertiert, wobei alle Layout- und Character-Encoding-Informationen erhalten blieben, da diese die Basis für die weitere Auszeichnung bilden.

Hauptbestandteile des Schreibortverzeichnisses sind zwei miteinander korrespondierende Listen: Die erste Liste ist nach Urkundennummern sortiert und bietet zu jeder Urkunde die für deren Herkunft relevanten Angaben. Die zweite Liste ist nach Orten alphabetisch sortiert und gebündelt und fasst die Königs-, Landfriedens-, Hofgerichts- und Stadtrechtsurkunden zu Gruppen zusammen. Diese beiden Listen wurden in einem ersten Schritt inhaltlich ausgezeichnet, das heißt die verwendeten Tags sind nicht standardisiert, sondern dienen nur der internen Orientierung und Weiterverarbeitung. Jedem Eintrag wurde eine Kennziffer zugewiesen ('entry'), um so eine eindeutige Identifizierung zu gewährleisten. Auf den eigentlichen Ortseintrag folgen die mit <ref> bezeichnete Urkundennummer sowie die sich anschließenden Positionen Ortsangabe, untergeordnete Ortsangabe, zugehörige Ortsangabe, Funktion beim Urkundsgeschäft sowie interne Verweise. Die auf die Urkundennummer folgenden Informationen bilden dabei vollständig die Einträge der Nummernliste ab. Zwei Beispiele sollen dies verdeutlichen:

1. Standardeintrag

<entry n="0833">

<ortseintrag>#f+Seckau#f-/Steiermark</ortseintrag>

<subentry>

<ref n="1301">1301</ref>

<funk n="UP">#/+UP#/-</funk> + <funk n=“AO”>

#/+AO#/-</funk>

<zuordnung>Ebf von Salzburg</zuordnung>

<funk n="UP">#/+UP,#/-</funk>

</subentry>

<subentry>

<ref n="2187">2187</ref> …

<subortseintrag>#f+Bf:#f-</subortseintrag> …

2. Eintrag mit internem Verweis

<entry n="0839">

<verweis>

<ortseintrag>#f+Seligenthal#f-, Kl.</ortseintrag> #..

<verweisziel n="0493">Landshut/NB</verweisziel>

</verweis>

</entry>

Auf der Basis dieser ersten Auszeichnung wurde ein Skript erstellt, das eine HTML-Darstellung des Schreibortverzeichnisses – die zunächst vor allem für interne (Test-)Zwecke gedacht ist – erlaubt. Diese HTML-Version dient auch dazu, das Projekt auf Tagungen vorzustellen und dabei erste Verknüpfungswege innerhalb des Informationssystems 'Corpus' zu erproben. Durch die Verknüpfung der Einzelregister zu einem Gesamtregister und der Hinzuziehung des Schreibortverzeichnisses entsteht ein mächtiges Rechercheinstrument, welches die große Textmenge des 'Corpus' nahezu ideal durchsuchbar und damit auch nutzbar macht.

Fazit

Mit dem digitalisierten Urkundencorpus wird der Geschichts- und Sprachwissenschaft eine wichtige Quellensammlung samt komfortablen Recherchemöglichkeiten zur Verfügung gestellt. Neben den im Internet bereits zahlreich vorhandenen Nachschlagewerken sind wissenschaftlich aufbereitete und verlässliche Volltextquellen noch unterrepräsentiert. Wir hoffen daher, mit der Digitalisierung eines für verschiedene Disziplinen zentralen Textcorpus aufzuzeigen, wie die "neuen Medien" die alltägliche Forschungsarbeit an den Quellen erleichtern können.

Andreas Gniffke betreute als Mitarbeiter des Kompetenzzentrums für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften an der Universität Trier von 2003 bis 2005 die Retrodigitalisierung des 'Corpus der altdeutschen Originalurkunden'. Er ist derzeit in der Geschäftsführung des Historisch-Kulturwissenschaftlichen Forschungszentrums (HKFZ) Mainz-Trier.

Dr. Andrea Rapp war bis September 2004 Leiterin des Göttinger Digitalisierungszentrums an der Niedersächsischen Staats- und Universitätsbibliothek Göttingen; sie ist derzeit Akademische Rätin im Fach Germanistik/Ältere deutsche Philologie und Geschäftsführerin des Kompetenzzentrums für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften an der Universität Trier.


[1] Homepage des Projekts: <http://www.corpus.uni-trier.de>. Eine fehlerfreie Version des Gesamttextes noch ohne Markup steht mittlerweile zur Verfügung. Auf Anfrage können Texte daraus für Forschung und Lehre zur Verfügung gestellt oder einfache Rechercheanfragen beantwortet werden.

[2] Corpus der altdeutschen Originalurkunden bis zum Jahr 1300. Bd. I: 1200-1282, hg. v. Wilhelm, Friedrich, Lahr 1932; Bd. II: 1283-1292, hg. v. Wilhelm, Friedrich; Newald, Richard, Lahr 1943; Bd. III: 1293-1296, hg. v. Newald, Richard; de Boor, Helmut; Haacke, Diether, Lahr 1962; Bd. IV: 1297-(Ende 13. Jahrhundert), hg. v. de Boor, Helmut; Haacke, Diether, Lahr 1963; Bd. V: Nachträge, hg. v. de Boor, Helmut; Haacke, Diether; Kirschstein, Bettina, Lahr 1986; Regesten, hg. v. de Boor, Helmut; Haacke, Diether; Kirschstein, Bettina, Lahr 1963ff. (Inzwischen fertig gestellt sind die letzten 150 Regesten zu Bd. V: Nachträge, die sowohl in die elektronische Version als auch in einen Nachdruck eingehen, so dass das 'Corpus' nun erstmals komplett vorliegt.); Verzeichnis der Abkürzungen und der in den Regesten abgekürzt angeführten Literatur, bearb. u. erg. v. Mittring, Wilhelm, Lahr 1983; Schreibortverzeichnis zum Wörterbuch der Mittelhochdeutschen Urkundensprache, geleit. v. Kirschstein, Bettina; Schulze, Ursula, erarb. v. Ohly, Sibylle; Schmitt, Peter, Berlin 1991, Wörterbuch der Mittelhochdeutschen Urkundensprache auf der Grundlage des Corpus der altdeutschen Originalurkunden bis zum Jahr 1300, geleit. v. Kirschstein, Bettina u. Schulze, Ursula, erarb. v. Ohly, Sibylle, Schmitt, Peter (bis 16. Lfg.) u. Spengler, Nicole (ab 17. Lfg.), Berlin 1986ff. (WMU).

[3] Bohn, Thomas; Rapp, Andrea, Nachträge zum 'Corpus der altdeutschen Originalurkunden'. Mit Editionen und Untersuchungen, in: Gärtner, Kurt; Holtus, Günter (Hgg.), Beiträge zum Sprachkontakt und zu den Urkundensprachen zwischen Maas und Rhein (Trierer Historische Forschungen 29), Trier 1995, S. 215-283.

[4] Im DFG-geförderten Projekt 'Trierer Korpus mittelfränkischer Urkunden des 14. Jahrhunderts' sowie im ebenfalls in Trier ansässigen 'Informations-Netzwerk zur Geschichte des Rhein-Maas-Raumes' sind hierfür bereits wichtige Grundlagen erarbeitet worden.

[5] Corpus der altdeutschen Originalurkunden bis zum Jahr 1300, Bd. I (vgl. Anm. 2).

[6] Vgl. dazu Bender, Sabine; Rapp, Andrea, Die elektronische Edition des Trierer Korpus mittelfränkischer Urkunden des 14. Jahrhunderts. Eine Projektbilanz, in: Rheinische Vierteljahrsblätter 65 (2001), S. 184-196; Rapp, Andrea; Rosenberger, Ruth, Das Trierer Korpus mittelfränkischer Urkunden des 14. Jahrhunderts. Möglichkeiten der EDV-gestützten Auswertung, in: Gärtner, Kurt; Holtus, Günter; Rapp, Andrea; Völker, Harald (Hgg.), Skripta, Schreiblandschaften und Standardisierungstendenzen. Urkundensprachen im Grenzbereich von Germania und Romania im 13. und 14. Jahrhundert (Trierer Historische Forschungen 47), Trier 2001, S. 131-145.

[7] Deutsches Rechtswörterbuch unter <http://www.rzuser.uni-heidelberg.de/~cd2/drw/>. WMU unter <http://www.germanistik.fu-berlin.de/projekte/projekt-schulze.html>. Kompetenzzentrum unter <http://www.kompetenzzentrum.uni-trier.de>. RMnet unter <http://www.rmnet.uni-trier.de>. Textarchiv unter <http://www.mhgta.uni-trier.de>.

[8] In einem zukünftigen Schritt, der in der aktuellen Projektphase noch nicht vorgesehen ist, können die Urkundentexte mit den elektronischen Faksimiles der Originale verknüpft werden.


Hinweis:

In den Texten der Artikel wird der Unicode-Zeichensatz verwendet. Falls Ihr Browser nicht automatisch die richtige Codierung einstellt, d.h. wenn die deutschen Extrazeichen nicht korrekt angezeigt werden, drücken Sie bitte den Reload-Knopf (Refresh oder Aktualisieren) oder ändern Sie die Zeichensatz-Einstellung selbst unter Ansicht -> Codierung -> Unicode (UTF-8).