Band 7 • 2005 • Teilband II | ISBN 3-86004-199-1 | Geschichte und Neue Medien in Forschung, Archiven, Bibliotheken und Museen |
| Historische Datenbanken | |
HISTAT Eine Online-Datenbank zur Historischen Statistik im ZHSF Metz, Rainer; Sensch, Jürgen
Abstract: The availability of historical statistical data of high quality in machine-readable form for Germany is in a lamentable condition. The existing data are scattered over numerous publications. They are only partially available in machine-readable form and only a small part of them is stored in public archives. But not only that most of the existing machine-readable data are not archived, for Germany we also miss a statistical handbook for the history of economy, society and state - in printed as well as in electronic form - which presents the relevant figures in a systematic way. The online database HISTAT tries to offer the historical statistical data to the scientific community. This database does not only present the numerous figures and time series, it also documents the various annotations which help to understand the figures and the sources that have been the basis for creating the figures by the researcher, and, last but not least, it contains the literature which was consulted when editing the data. The final goal of this database is to present the data in a systematic way. Like the Statistical Yearbook, the online data bank must offer the categorized time series for different regions and branches, together with all information that are necessary to understand and evaluate historically the meaning of these statistical data.
[1]
I. Einleitung
Eine „Historische Statistik“ von Deutschland ist ein Desiderat der Forschung. Die umfangreichen Datenbestände, die von der Forschung aufbereitet und zusammengestellt wurden, sind zwar in zahlreichen, thematisch orientierten Bänden publiziert, ein Statistisches Handbuch, das modernen Ansprüchen genügen würde, fehlt jedoch. Zudem sind die zugrunde liegenden elektronischen Daten entweder überhaupt nicht oder nur unter erschwerten Bedingungen verfügbar. Hier setzen die Bemühungen des Zentrums für Historische Sozialforschung (ZHSF) an und zwar in drei Stufen. Es wird erstens versucht, die Daten der „Historischen Statistik“, sofern sie noch maschinenlesbar vorliegen, zu archivieren und damit langfristig zu sichern. Zweitens werden bereits am ZHSF archivierte Daten in moderne Datenformate überführt, um so ihre schnelle und unkomplizierte Verwendung für Sekundäranalysen mit moderner Statistiksoftware zu gewährleisten. Schließlich sollen drittens die Daten unterschiedlicher Studien systematisch verknüpft werden. Ziel ist ein Handbuch zur „Historischen Statistik“ Deutschlands in elektronischer Form. Bevor wir uns mit diesen Vorhaben im Abschnitt III im Detail auseinandersetzen, soll im nächsten Abschnitt (II) kurz das ZHSF vorgestellt werden. In den Abschnitten IV und V wird die EDV-technische Umsetzung der einzelnen Arbeitsschritte dargestellt.
II. Das Zentrum für Historische Sozialforschung
Das ZHSF wurde 1987 auf Empfehlung des Wissenschaftsrates in das Zentralarchiv für Empirische Sozialforschung an der Universität zu Köln (ZA) eingegliedert. Das ZA ist ein Institut der Gesellschaft sozialwissenschaftlicher Infrastruktureinrichtungen (GESIS), die wiederum Mitglied der Wissenschaftsgemeinschaft Gottfried Wilhelm Leibniz (WGL) ist.
Das ZHSF will im Grenzbereich zwischen Sozialwissenschaften und Geschichte infrastrukturelle Service- und Forschungsleistungen erbringen, die für eine qualitativ bessere und effizientere empirisch-methodische Forschung erforderlich sind. Eine der wichtigsten Aufgaben des ZHSF ist die Archivierung, Aufbereitung und Dokumentation maschinenlesbarer Forschungsdaten, die im Rahmen historischer Studien entstanden sind. Damit ist sichergestellt, dass dieses EDV-Material, das häufig unter großem finanziellen Aufwand aus den Archiven erhoben und aufbereitet wurde, für die wissenschaftliche Nutzung auch langfristig zur Verfügung steht. Neben der Archivierung der Daten wird vom ZHSF eine Dokumentation erstellt, die Entstehungszusammenhang und Inhalt der Studie dokumentiert. Damit ist eine problemlose spätere Verwendung dieser Daten gewährleistet. Im ZHSF sind gegenwärtig annähernd 187 historische Studien – darunter auch sehr umfangreiche – archiviert, von denen circa 140 Studien über eine standardisierte Kurzbeschreibung recherchierbar sind.
[2]
Neben Daten zur kollektiven Biografik, prozess-produzierten Daten und ökologische Wahldaten bilden Daten der „Historischen Statistik“ einen Schwerpunkt der Datenkollektion des ZHSF.
III. Daten der Historischen Statistik
Was versteht man unter Daten der „Historischen Statistik“? Wie grenzen sich diese von den Daten der amtlichen Statistik einerseits und andererseits von historisch-quantitativen Daten schlechthin ab? Geht man dieser Frage nach, stellt man schnell fest, dass der Begriff der „Historischen Statistik“ nirgendwo eindeutig definiert ist und in unterschiedlichen Kontexten mit verschiedenen Inhalten belegt wird. Ganz allgemein kann man sagen, dass die „Historische Statistik“ quantitative Daten zur demografischen, wirtschaftlichen, sozialen, rechtlichen, politischen und kulturellen Entwicklung eines Landes vermittelt und dabei unterschiedliche, sowohl geografische wie auch institutionelle Ebenen berücksichtigt. Allerdings kann man „quantitative“ Daten und Daten der „Historischen Statistik“ nicht generell gleichsetzen, letztere sind vielmehr eine Teilmenge der ersteren. Man sollte nämlich nur dann von Daten der „Historischen Statistik“ sprechen, wenn es sich um quantitative Daten handelt, die über die Ausprägungen von inhaltlich genau definierten Begriffen informieren, die dann in Variablen operationalisiert werden, und die in historischen Untersuchungen aus zeitgenössischen amtlichen oder privaten Quellen systematisch erhoben, oder aus solchen Quellen geschätzt wurden. Damit ergibt sich eine wichtige Abgrenzung zu den Daten der amtlichen Statistik – diese werden nämlich nicht im Rahmen historischer Untersuchungen quasi im Nachhinein, sondern immer aktuell aus der jeweiligen Gegenwart erhoben.
[3]
Eine weitere Einschränkung hat der Begriff der „Historischen Statistik“ durch das Schwerpunktprogramm der Deutschen Forschungsgemeinschaft (DFG) erfahren, das seine primäre Aufgabe darin sah, vorwiegend Langzeitreihen zu wirtschaftlichen und sozialen Variablen zu ermitteln.
[4]
Die „Historische Statistik“ von Deutschland wurde dabei konzipiert als ein zeitlich möglichst weit zurückgreifendes, regional tief gegliedertes und thematisch breit angelegtes Dienstleistungsunternehmen, um für zukünftige Forschungen unterschiedlichster Art quellenkritisch kommentierte Daten aus den Bereichen Bevölkerung, Wirtschaft, Gesellschaft und Staat bereitzustellen. Besonderer Wert wurde darauf gelegt, die ermittelten Daten in ihrem Entstehungs- und Bedeutungszusammenhang kritisch zu erläutern und zu kommentieren. Ein Vorhaben, das natürlich umso bedeutsamer wird, je weiter die Daten in die Geschichte zurückreichen.
Sieht man einmal davon ab, dass die Definition dessen, was man unter einer „Langzeitreihe“ verstehen soll, immer problematisch sein wird, erscheint uns eine Beschränkung der „Historischen Statistik“ auf lange Zeitreihen wenig sinnvoll, da damit wichtige Datenkollektionen, die kurze Zeiträume umfassen, von vorne herein ausgeklammert würden. In unserem Zusammenhang sollen deshalb unter Daten der „Historischen Statistik“ Zeitreihendaten verstanden werden, die den oben genannten Bedingungen historischer Statistikdaten genügen. Für die historische Sozial- und Wirtschaftsforschung sind zeitreihenfähige Daten seit jeher von besonderer Bedeutung. Erst sie ermöglichen es, Zustände und deren kurz- und langfristige Veränderungen systematisch darzustellen und statistisch zu analysieren. Daten einer so definierten „Historischen Statistik“ sind für Deutschland zahlreich publiziert. So sind aus dem DFG-Schwerpunkt bis zum Jahr 2001 26 Statistikbände mit unterschiedlichen Schwerpunkten veröffentlicht worden. Eine Vielzahl thematisch breit gestreuter Daten der „Historischen Statistik“ findet sich darüber hinaus in Datenhandbüchern, Monografien und Aufsätzen, die entweder im Rahmen größerer Forschungsprojekte oder im Kontext von wissenschaftlichen Qualifikationsarbeiten entstanden sind.
[5]
Leider ist nur ein kleiner Teil dieser Daten in maschinenlesbarer Form am ZHSF archiviert. Dies hat mehrere Gründe: Erstens sind zahlreiche Daten, deren Generierung schon länger zurückliegt, überhaupt nicht mehr in maschinenlesbarer Form vorhanden. Zweitens kommt es vor, dass sich die vorhandenen Daten nicht mehr verarbeiten lassen, da die Datenträger defekt bzw. nicht mehr lesbar sind. Ein dritter Grund ist in der Tatsache zu sehen, dass es nicht selten auch an der Bereitschaft seitens der PrimärforscherInnen fehlt, ihre Daten an das ZHSF zur Archivierung und Aufbereitung weiterzugeben. Ein wichtiges Ziel des ZHSF ist es deshalb, alle Daten der „Historischen Statistik“, sofern sie bei den PrimärforscherInnen noch maschinenlesbar vorliegen, zu archivieren und damit langfristig zu sichern. Entsprechende Bemühungen haben hier zu ersten Teilerfolgen geführt. Ein weiteres Ziel des ZHSF ist es, bereits archivierte Daten, sofern sie in alten Formaten gespeichert sind, entweder in aktuelle Datenformate (Excel, SPSS) oder in Datenbanken zu überführen.
Eine besondere Bedeutung haben in diesem Zusammenhang Daten aus dem Projektverbund „Deutsche Bildungsstatistik 1800-1945“, der von 1977 bis 1981 von der DFG gefördert wurde. Die Projekte hatten das Ziel, auf breiter empirisch-statistischer Grundlage den langfristigen Strukturwandel des Bildungswesens in Deutschland zu rekonstruieren und zu analysieren. Das Datenmaterial, das in zwei Datenhandbüchern
[6]
dokumentiert ist, umfasst die historische Studierendenstatistik in Form von Langzeitreihen. Im ersten Teilband sind die aggregierten Daten für den Hochschulbesuch auf gesamtstaatlicher Ebene dokumentiert. Über die Universitäten hinaus sind vor allem auch die Technischen Hochschulen einbezogen worden. Im zweiten Teilband sind die Daten für den langfristigen Universitätsbesuch in Deutschland auf der Ebene der einzelnen Hochschulen dokumentiert.
Im Rahmen eines vom Bundesministerium für Bildung und Forschung geförderten Projektes, das sich speziell mit historischen Innovationsindikatoren beschäftigte, wurden die Daten in eine MS Access-Datenbank überführt.
[7]
Die Datenbank stellt eine digitale Kopie der zwei Datenhandbücher dar. Aus der Datenbank können die Daten in zwei verschiedenen Arten ausgewählt werden: Erstens als vollständige oder Teiltabelle mit denselben Daten, wie sie in einem der beiden Datenhandbücher zu finden sind und zweitens als Tabelle, deren Zeitreihen von den BenutzerInnen selbst zusammengestellt werden können.
[8]
Es sei an dieser Stelle aber ausdrücklich betont, dass eine Entschlüsselung der auf FORTRAN basierenden, heute eher kryptisch anmutenden Datenformate, in dem die Daten 1995 an das ZHSF abgegeben wurden, ohne die Unterstützung durch einen der Primärforscher (Volker Müller-Benedict, Leipzig), kaum oder mit einem vertretbaren Arbeitsaufwand nicht möglich gewesen wäre. Dies sei hier deshalb erwähnt, weil dieser Umstand für den künftigen Umgang mit älteren Datenbeständen der „Historischen Statistik“ ein wohl generelles Problem darstellen dürfte.
Nachdem die Daten in eine Access-Datenbank überführt waren, lag es nahe, diese auch online verfügbar zu machen, um so ihre direkte Nutzung über das Internet zu ermöglichen. Das Ergebnis dieser Bemühungen ist die Online-Datenbank HISTAT
[9]
, die im Folgenden ausführlich dargestellt wird.
IV. Merkmale der Online – Datenbank HISTAT
Mit HISTAT wird seit dem Frühjahr 2004 ein Online-Datenservice zur Historischen Statistik von Deutschland angeboten, der Daten ausgewählter Studien in einem direkten webbasierten Zugang recherchierbar und verfügbar macht. Die Datenbank ist themen- und studienorientiert aufgebaut, das heißt es gibt verschiedene Themen, wie zum Beispiel „Bildung und Wissenschaft“, „Demografie“, „Kommunikation und Verkehr“, „Unternehmen und Arbeitsstätten“ usw., denen einzelne Studien zugeordnet werden. So sind zum Beispiel die Daten der Studie von "Titze, H. unter Mitarbeit von Herrlitz, H.-G., Müller-Benedict, V. und Nath, A., 1987, 1995: Das Hochschulstudium in Preußen und Deutschland, 1820-1944. Datenhandbuch zur deutschen Bildungsgeschichte, Band I: Hochschulen, 1. u. 2. Teil. Göttingen: Vandenhoeck & Ruprecht" in dem Thema „Bildung und Wissenschaft“ eingeordnet. Innerhalb einer Studie ist eine sachliche Untergliederung der Zeitreihen vorgenommen, zum Beispiel in der genannten Studie die "Fächer/Fakultäten" der Studierenden. Die letzte Stufe in dieser hierarchischen Baumstruktur beinhaltet dann eine einzelne Zeitreihe aus einer Datentabelle, etwa die Zeitreihe „Gesamtzahl der Studierenden der Betriebswirtschaftslehre“ an der Universität zu Köln. Neben den Zeitreihendaten enthält die Datenbank auch die notwendigen Studienbeschreibungen und Datendokumentationen, das heißt Angaben zu den in einer Studie verwendeten Quellentypen. Diese Angaben sind in den „Studiendetails“ zusammengefasst. Die Quellenhinweise und Anmerkungen zu einzelnen Zeitreihen sind in gesonderten Textfeldern zusammengestellt. Die Abbildung 1 fasst die wesentlichen Merkmale der Online-Datenbank zusammen.
| 
| | |
Merkmale der Online-Datenbank HISTAT
| |
Zur Realisation der Datenbank wurde das ERM (Entity Relationship Modell) verwendet und auf der technischen Grundlage eines LAMP-Systems entwickelt (Linux als Betriebssystem, Apache als Webserver, MySQL als Datenbank und PHP als Programmiersprache). Die Datenbank nutzt ausschließlich Open-Source-Software (Linux, Apache, MySQL, PHP).
Die Datenbank enthält, wie oben erwähnt, nicht nur die Zeitreihen verschiedener Studien, sondern auch die durch das ZHSF erstellten Studienbeschreibungen bzw. Kontextinformationen (verwendete Quellen bei der Erhebung der Zeitreihen, ausführliche Anmerkungen zur Methodik der Studie sowie Kommentare zu einzelnen Zeitreihen).
Ohne größeren Aufwand ist es möglich, im ZHSF archivierte Studien zur „Historischen Statistik“ bzw. Neuzugänge in die Internet-Datenbank zu importieren, sofern die PrimärforscherInnen die Genehmigung dazu erteilen. Auch ist in der Datenansicht einer Studie darauf geachtet worden, dass die zitierpflichtige Publikation in Verbindung mit den Daten ausdrücklich hervorgehoben ist. In dem Download einer Zeitreihenauswahl wird der Titel der Publikation mit exportiert.
Die Daten müssen als Excel-Dateien oder in nach Excel importierbaren Formaten (zum Beispiel Lotus 1-2-3, SPSS, csv) vorliegen. Die Excel-Datentabellen sind nach einem speziellen Grundaufbau zu strukturieren. Ein VB.net-Modul übernimmt dann den direkten Import der bearbeiteten Excel- Tabellen in die MySQL-Datenbank, das heißt die Transformation der Daten in das Format der Datenbank und die Übertragung via ODBC (Open DataBase Connectivity) auf den Linux-Server. Die Grundstruktur des Imports einer Einzelstudie in die Datenbank lässt sich in drei Komponenten zerlegen:
- Import der Studiendetails: Studientitel, AutorIn(nen), Studienbeschreibung, Publikation, verwendete Quellentypen sowie ein Quellenverzeichnis und ein Anmerkungsteil.
- Import einer PDF-Datei zum Download mit ergänzenden Texten zur Studie, die von den PrimärforscherInnen zur Verfügung gestellt werden. Die PDF-Datei ist unter den Studiendetails hinterlegt und kann von den NutzerInnen geöffnet werden.
- Import einer Auswahl von Excel-Dateien, die den Datenbestand einer Einzelstudie in den thematischen Untergliederungen (Teilthemen) erfassen.
In der Abbildung 2 ist diese Grundstruktur des Studienimports in den wesentlichen Elementen grafisch veranschaulicht.
| 
| | |
Grundstruktur des Imports einer Einzelstudie in die Datenbank HISTAT
| |
Eine Einzelstudie wird für den Import in die Datenbank in zwei grundlegende Informationsblöcke aufgeteilt: Die Textbausteine – unter der Überschrift „Studiendetails“ zusammengefasst - enthalten eine Studienbeschreibung und (optional) ein ausführliches Quellenverzeichnis sowie einen Anmerkungsteil zur Gesamtstudie. Der Einzelstudie zugeordnet ist eine Gesamtheit von Tabellen mit Zeitreihendaten, die im Excel–Datenformat aufbereitet werden, allgemein: Excel-Datei (1) bis Excel-Datei (k). Die Gesamtheit dieser (k) Datentabellen ist in der Regel in thematische Schwerpunkte untergliedert. Die thematischen Schwerpunkte bilden die Untergliederungen einer Studie. Der jeweilige Titel einer Untergliederung ist mit der Tabellenüberschrift der entsprechenden Excel-Datentabelle identisch.
Eine Datentabelle besteht aus zwei Hauptbereichen: Dem eigentlichen Datenbereich (Zahlenteil), das heißt den Tabellenfeldern, in die die Zeitreihendaten eingefügt werden und dem Kennzeichnungsbereich, in dem die eingetragenen Daten beschrieben bzw. bezeichnet werden. Zum Kennzeichnungsbereich gehören Tabellentitel, Tabellenkopf (Bezeichnungen der Ausprägungen von Gliederungsmerkmalen und die Namen der Zeitreihen), die Vorspalte (Bezeichnungen der Gliederungsmerkmale, Zeilenbeschriftungen), Quellenhinweise und Anmerkungen für jede einzelne Zeitreihe. Die Datenorganisation in dem Datenbereich der einzelnen Excel-Tabellen erfolgt im Hinblick auf die Zeitangaben zeilenweise. Ausschließlich die erste Spalte der Datentabelle enthält in dem Datenbereich die Angabe der Zeitpunkte für die Zeitreihen-Variable(n). Es sind folgende Zeitangaben in HISTAT vorgesehen: Jahresintervalle (zum Beispiel 1845-1850); Jahresdaten (zum Beispiel 1845); Semesterangaben (zum Beispiel 1875 SS; 1875 WS); Quartalsdaten (zum Beispiel 1845/IV); Monatsdaten (zum Beispiel 1845/01); Wochendaten (zum Beispiel 1845/KW01); Tagesdaten (zum Beispiel 1845/02/09);
In der Abbildung 3 ist der Ablauf des Aufbereitungsprozesses einer Studie für den Import in die Datenbank zusammengefasst.
| 
| | |
Einzelschritte der Studienaufbereitung durch das ZHSF
| |
V. Nutzung der Datenbank HISTAT
Die Datenbank bietet den NutzerInnen die Möglichkeit, Zeitreihen aus verschiedenen Studien der Historischen Statistik von Deutschland sowie allgemein aus der Wirtschafts- und Sozialgeschichte zu recherchieren und downzuloaden. Der Zugang zur Datenbank ist kostenlos und findet sich auf den Internet-Seiten des Zentralarchivs für Empirische Sozialforschung.
[10]
Die Nutzung erfordert zunächst eine Registrierung. Nach Anmeldung über das Registrierungsformular, das in dem Menüpunkt „DB HISTAT: Zugang“ geöffnet wird, erhalten die NutzerInnen individuelle Nutzererkennungen und das dazugehörige Passwort per E-mail.
HISTAT bietet zwei verschiedene Möglichkeiten, schnell und zielgerichtet nach Daten aus dem weit gefächerten Studienangebot zu suchen: (1) Hierarchisch nach Themen und Einzelstudien (Option: „Auswahl“); (2) mit Hilfe von Stichworten (Option: „Suche“). Der gesamte Datenbestand lässt sich über die Option „Auswahl“ direkt über den Einstieg in ein bestimmtes Thema nach einzelnen Studien abfragen. Über die Option „Suche“ kann der Datenbestand mit Hilfe einer studienübergreifenden Suchfunktion in Form einer Volltextrecherche erschlossen werden. Die Zeitreihenauswahl ist variabel und kann innerhalb einer Studie jeweils im Excel- oder Textformat als Download lokal abgespeichert werden. Damit lassen sich die recherchierten Zeitreihen direkt in eigene Untersuchungen einbeziehen, mit Hilfe anderer Software grafisch darstellen (zum Beispiel in Excel) oder unter neuen Gesichtspunkten auswerten.
In der Abbildung 4 ist die hierarchische Baumstruktur der Studienorganisation in der Datenbank veranschaulicht. Dieser Baum kann von der Startseite aus innerhalb eines gewünschten Themenblockes nach Studien durchsucht werden. Innerhalb einer Studie sind die thematischen Untergliederungen in einer Auswahlliste zusammengestellt, aus der sich die NutzerInnen die dazugehörigen Zeitreihen anzeigen lassen können. Die studienübergreifende Stichwortsuche führt dagegen direkt zu den Zeitreihen, die den Suchbegriff enthalten.
| 
| | |
Darstellung der Studienorganisation und der Auswahloptionen
| |
Hierarchische Suche nach Themen und Studien (Option „Auswahl“):
| 
| | |
Themenbereiche und Anzahl der Studien
| |
Für jede Studie innerhalb eines Themenbereichs stehen den NutzerInnen zwei Anzeigeoptionen zur Verfügung: Die Option „Studiendetails“ öffnet eine Textansicht mit der Studienbeschreibung (einschließlich der ausführlichen Quellenhinweise und einem Anmerkungsteil). Die Option „Zeitreihen auswählen“ führt zu den Untergliederungen einer Studie. Innerhalb einer studienspezifischen Untergliederung werden – nach individueller Auswahl der NutzerInnen - die entsprechenden Zeitreihen angezeigt. Aus dieser Zeitreihenansicht erfolgt auch der Download.
Volltextsuche mit Hilfe von Stichworten (Option „Suche“):
Die Volltextsuche kann wahlweise in sämtlichen Studienbeschreibungen oder in dem Kennzeichnungsbereich der Zeitreihen aus dem gesamten Datenbestand erfolgen. Der Kennzeichnungsbereich der Zeitreihen umfasst die Textbausteine zur Beschreibung der einzelnen Zeitreihen in dem Tabellenkopf der Datentabellen: Name der Datentabelle (das heißt den Titel der zugehörigen Untergliederung) sowie die Bezeichnungen der einzelnen Zeitreihen-Variablen. Die Abbildung 5 zeigt das Menü der Stichwortsuche in der Datenbank HISTAT.
| 
| | |
Menü der studienübergreifenden Stichwortsuche
| |
Für die Unterstützung der Stichwortsuche kann ein spezieller Thesaurus mit einem kontrollierten Vokabular aktiviert werden. Bei der Suche nach einem Begriff wird damit die Möglichkeit geschaffen, gleichzeitig sinnverwandte Begriffe in die Suche einzubeziehen. Der in HISTAT verwendete Standard-Thesaurus Wirtschaft (STW) ist ein systematisch und hierarchisch gegliedertes Verzeichnis von genormten Themen-Schlagworten.
[11]
Fachlich lassen sich mit diesem Thesaurus sämtliche ökonomische Themenfelder abdecken. Als Ergänzung sind in diesem Thesaurus wesentliche Nachbarthesauri integriert worden, zum Beispiel wichtige geografische Begriffe und Begriffe aus der Soziologie, der Technik und der Politik. Die Ergänzung dieser fachspezifischen Schlagwortdatei um ein erweitertes Begriffsrepertoire für die inhaltliche Erschließung der gesamten Datenbestände der Historischen Statistik ist in Arbeit.
Die Anzeige der Ergebnisse einer Stichwortsuche in den Studienbeschreibungen oder in den Datentabellen erfolgt jeweils getrennt nach Einzelstudien, die den Suchbegriff enthalten. Die Suchergebnisse in den Datentabellen mit den einzelnen Zeitreihen werden nach Studien geordnet und jeweils innerhalb der Studien nach deren Untergliederungen getrennt aufgelistet (siehe Abbildung 6 für den Suchbegriff „Erwerbspersonen“). Zeitreihen mit dem Suchbegriff können einzeln oder als Gruppe individuell ausgewählt und - innerhalb einer Studie - gemeinsam angezeigt und als Download zur Verfügung gestellt werden (siehe Abbildung 7). Eine Auswahl und Zusammenstellung von Zeitreihen nach gleichen oder verschiedenen Suchbegriffen aus verschiedenen Einzelstudien ist derzeit nicht vorgesehen, das heißt es gibt grundsätzlich in HISTAT keine „Add“-Funktion für Zeitreihen aus verschiedenen Studien. Der eindeutige Bezug zur Einzelstudie muss im Interesse der PrimärforscherInnen erhalten bleiben!
Als Ergebnis einer Datenrecherche erhalten die NutzerInnen auch eine individuelle Trefferliste, die eine tabellarische Darstellung der von ihnen zusammengestellten Studien und ihre Untergliederungen umfasst, in denen die eingegebenen Suchbegriffe gefunden wurden. Aus diesem Rechercheprotokoll kann jederzeit ein zuvor erzieltes Suchergebnis wieder aktualisiert werden.
| 
| | |
Studien und ihre Untergliederungen mit dem Suchbegriff „Erwerbspersonen“
| |
| 
| | |
Auswahl der ersten Untergliederung aus der Studie von Reinhard Stockmann (VASMA-Projekt, Univ. Mannheim) mit Suchergebnissen für „Erwerbspersonen“ (angezeigt wird die erste Untergliederung mit 9 Zeitreihen)
| |
Beispiel für eine Datenansicht:
In der Datenbank sind unter dem Thema „Demonstrationsbeispiele“ stark gekürzte Studien aus dem Datenbestand zusammengestellt, die den generellen Aufbau von Excel Datentabellen für den Import einer Studie illustrieren. Die Beispiele sind mit dem Ziel gewählt, typische Datenstrukturen in ihrem tabellarischen Aufbau abzubilden. Das erste Demonstrationsbeispiel zeigt im Ausschnitt eine Studie mit demografischen Zeitreihen – Variablen zum Bevölkerungsstand und zur Bevölkerungsbewegung von 1871 bis 1910. Die Daten dieses Beispiels sind in zwei sachliche Untergliederungen (das heißt in zwei getrennte Excel–Datentabellen) aufgeteilt: Tabelle (1): Bevölkerungsstand, mit dem Gliederungsmerkmal „Bundesstaat“ und Tabelle (2): Bevölkerungsbewegung, ohne Berücksichtigung eines Gliederungsmerkmals. In der Abbildung 7 ist als Beispiel für eine Datenansicht die Untergliederung „Ausgewählte demografische Reihen für Deutschland: Bevölkerungsstand (1871-1900)“ aus dem ersten Demonstrationsbeispiel in HISTAT wiedergegeben.
| 
| | |
Beispiel für eine Datenansicht in HISTAT (Demonstrationsbeispiel 1 in HISTAT)
| |
Der Tabellentitel setzt sich zusammen aus der Bezeichnung des übergeordneten Sachverhalts aller Zeitreihen-Variablen und der zeitlichen Bestimmung. Jeder Tabellentitel ist zugleich auch die Bezeichnung der Untergliederung in der Gesamtstudie. Die zweite Zeile enthält die Definition eines Gliederungsmerkmals („Bundesstaat“) und die berücksichtigten Ausprägungen. Die dritte Zeile (mit der Zeilendefinition „Variable“) enthält die Bezeichnungen der Zeitreihen – Variablen „Bevölkerungsdichte“ und „Mittlere Bevölkerung in 1000“. Der Quellenhinweis in der Tabelle enthält die genaue Titelangabe der Publikation, aus der die Tabellenwerte entnommen sind. Die Anmerkungen in der Tabelle beinhalten in diesem Beispiel die Hinweise zur Definition der einzelnen Zeitreihen-Variablen.
VI. Ausblick
Die themen- und studienorientiert aufgebaute Datenbank bietet eine ideale Möglichkeit, die Daten der „Historischen Statistik“ mit einem relativ geringen Arbeits- und Zeitaufwand online verfügbar und recherchierbar zu machen. Die Vorteile einer solchen Konzeption liegen auf der Hand. So lässt sich das Spektrum der Themen, unter denen die einzelnen Studien eingeordnet werden, beliebig erweitern. Auch können jederzeit weitere Studien in die Datenbank aufgenommen werden. Voraussetzung ist natürlich, dass die in der Forschung mit hohem Aufwand erarbeiteten Daten auch an das ZHSF zur langfristigen Archivierung weitergegeben werden.
Allerdings sind mit dieser Datenbankkonzeption auch Nachteile verbunden. Das Ordnungssystem der Datenbank sind Themen und Studien, nicht aber eine Systematik der Zeitreihen-Variablen, wie zum Beispiel in dem „Statistischen Jahrbuch für die Bundesrepublik Deutschland“. Die Datenbank ist damit ein erster, aber wichtiger Schritt hin zu einem elektronischen Handbuch zur „Historischen Statistik“ von Deutschland, das die Bereiche Bevölkerung, Wirtschaft, Gesellschaft und Staat regional tief gegliedert und intertemporal vergleichbar erfasst.
Prof. Dr. Rainer Metz ist Leiter des Zentrums für Historische Sozialforschung, Universität zu Köln und Titularprofessor für Wirtschaftsgeschichte und Methoden der empirischen Wirtschaftsforschung an der Universität St. Gallen.
Jürgen Sensch ist Wissenschaftlicher Mitarbeiter am ZHSF an der Universität zu Köln.
[*]
[1] Der Beitrag stellt die erweiterte Fassung eines Vortrages dar, der im Rahmen der Tagung “.hist 2003: Geschichte und neue Medien“ am 10. April 2003 an der Humboldt-Universität Berlin gehalten wurde.
[2] Siehe unter <www.gesis.org/Datenservice/Suche/Daten/index.htm>.
[3] Vgl. Ehling, M., Historische Statistik – Probleme und Perspektiven der internationalen Zusammenarbeit, in: Statistisches Bundesamt (Hg.), Wirtschaft und Statistik 1996/7, S. 413-421.
[4] Vgl. den umfassenden Überblick in Kunz, A., Historische Statistik von Deutschland. Ein Forschungsschwerpunkt der Deutschen Forschungsgemeinschaft 1981-1991, in: Historical Social Research 22/2, 1997, S. 236-249 mit umfangreichen Literaturangaben.
[5] Vgl. auch Kaufhold, K. H., Neuere Quellen und Veröffentlichungen zur historischen Statistik von Deutschland, in: Historische Zeitschrift 262, 1996, S. 127-136.
[6] Titze, H. unter Mitarbeit von Herrlitz, H.-G., Müller-Benedict, V., Nath, A., Datenhandbuch zur Deutschen Bildungsgeschichte. Bd. 1: Hochschulen. Teil 1: Das Hochschulstudium in Preußen und Deutschland 1820-1944, Göttingen 1987 sowie Titze, H. unter Mitarbeit von Herrlitz, H.-G., Müller-Benedict, V., Nath, A., Datenhandbuch zur Deutschen Bildungsgeschichte. Bd. 1: Hochschulen. Teil 2: Wachstum und Differenzierung der deutschen Universitäten 1830-1945, Göttingen 1995.
[7] Metz, R., Watteler, O., Historische Innovationsindikatoren, in: Historical Social Research/Historische Sozialforschung, 27/1, 2002, S. 4-129.
[8] Auf Einzelheiten sowie die entsprechenden Ergebnisse dieses Vorgehens wird in dem Beitrag von Metz, R. und Berg, A., Datenbanken der Historischen Statistik im ZHSF, in: Historische Sozialforschung/Historical Social Research, 29/2, 2004, S. 160-171, eingegangen.
[9] Siehe unter <www.histat.gesis.org>. Der Name „HISTAT“ wurde erstmals Anfang der 1990er Jahre von Andreas Kunz und Ulrike Albrecht für eine zu entwickelnde Datenbank zur Historischen Statistik von Deutschland vorgeschlagen. Da das ZA/ZHSF an die damaligen Bemühungen anknüpft, erschien es nahe liegend und auch von der Sache her gerechtfertigt, für unsere Datenbank denselben Namen zu verwenden; vgl. Albrecht, U., Kunz, A., Building a Databank on German Historical Statistics, in: Metz, R., Van Cauwenberghe, E., van der Voort, R. (Hgg.), Historical Information Systems. Proceedings Tenth International Economic History Congress, Leuven, August 1990, Leuven 1990, S. 77-86. Kunz, A., Eine Datenbank zur Historischen Statistik von Deutschland, in: Diederich, N., Hölder, E., Kunz, A. u.a. (Hgg.), Historische Statistik in der Bundesrepublik Deutschland. Band 15 der Schriftenreihe des Statistischen Bundesamtes „Forum der Bundesstatistik“. Stuttgart 1990, S. 159-163.
[10] Siehe unter <http://www.gesis.org/Datenservice/ZHSF/Historische_Statistik/>.
[11] Mit dem Standard-Thesaurus Wirtschaft (STW) stellen das „Hamburgische Welt-Wirtschafts-Archiv“ (HWWA) und seine Partner-Einrichtungen „Deutsche Zentralbibliothek für Wirtschaftswissenschaften, Kiel“ (ZBW) und die „Gesellschaft für Betriebswirtschaftliche Information mbH, München“ (GBI) ein Instrument zur Verfügung, das die qualitativ hochwertige Erschließung von Quellen aus den Wirtschaftswissenschaften und der Wirtschaftspraxis unterstützt. Er dient als Hilfsmittel zum Finden von Begriffen und Ausdrücken im wirtschaftswissenschaftlichen Umfeld. „Der Standard-Thesaurus Wirtschaft (STW) ist ein systematisch und hierarchisch gegliedertes Verzeichnis von genormten Themen-Schlagworten (Deskriptoren). Er ist speziell für die Bedürfnisse von Information und Dokumentation im Bereich von Wirtschaft und Wirtschaftswissenschaft entwickelt worden, und dient der ZBW zur inhaltlichen Erschließung (Verschlagwortung) der Dokumente mit den Deskriptoren und den Benutzerinnen und Benutzern bei der Recherche für eine thematische Suche mit Schlagworten in der ECONIS Datenbank. Der STW enthält ca. 5.600 Deskriptoren und ca. 18.000 Hinweise bzw. Synonyme“ (Zitat aus: <http://www.zbw-kiel.de/ueberbib/info_az/thesaurus.html>; Stand: 2.11.2004). Der STW wird kostenfrei im Internet von GBI bereitgestellt. Zur Online-Version des STW: <www.gbi.de/thesaurus/>.
[*] Address all communications to: Rainer Metz, Zentralarchiv für Empirische Sozialforschung an der Universität zu Köln, Abt. ZHSF, Liliencronstr. 6, 50931 Köln, E-Mail: metz@za.uni-koeln.de; Jürgen Sensch, Zentralarchiv für Empirische Sozialforschung an der Universität zu Köln, Abt. ZHSF, Liliencronstr. 6, 50931 Köln, E-Mail: sensch@za.uni-koeln.de.
Ein Datenserver für die historischen Wissenschaften? Datenbanken in der deutschen Geschichtswissenschaft und das ARASS-Projekt Ebeling, Dietrich; Gorißen, Stefan
Vorbemerkung: Aufgrund vielfältiger Umstände, die hier nicht im Einzelnen ausgeführt werden sollen, konnte das ARASS-Projekt bislang nicht fortgesetzt werden. An dem Nutzen eines Internet basierten Dokumentationssystems besteht aber kein Zweifel, wie das parallel auf der Berliner Tagung vorgestellte Projekt des Kölner ZHSF zeigt. Die Bemerkungen zu der Arbeit des ZHSF geben den Kenntnisstand unmittelbar vor der Tagung wieder. Die beiden Konzepte weisen eine Reihe von Parallelen, aber auch gravierende Unterschiede auf. Leserinnen und Leser wird durch die Veröffentlichung die Möglichkeit gegeben, sich ein eigenes Urteil zu bilden.
Der vorliegende Beitrag stellt mit dem ARASS-System ein Projekt vor, das Ende der 90er Jahre an der Universität Trier entwickelt wurde und das die Funktion hat, den Zugriff auf digital gespeicherte Datensätze der deutschen historischen Forschung über einen Datenserver zu ermöglichen und damit die in zahlreichen kleineren Forschungsprojekten erhobenen Daten für Zwecke von Forschung und Lehre zugänglich zu machen.
Bevor das System und seine Benutzerschnittstellen vorgestellt werden, seien ein paar Bemerkungen zum gegenwärtigen Stand der Diskussion um die Bedeutung des Einsatzes von Datenbanken in der Geschichtswissenschaft und den sich hieraus ergebenden Anforderungen und Zielen eines solchen Datenservers vorangestellt.
Datenserver für die historischen Wissenschaften: Stand der Diskussion
Mit der sozialgeschichtlichen Neuorientierung der Geschichtswissenschaft in den 60er und 70er Jahren und dem hiermit einhergehenden ausgeprägten strukturgeschichtlichen Interesse wurden in zahlreichen Forschungsprojekten große Datenmengen über gesellschaftliche Strukturen erfasst, verarbeitet und zunehmend elektronisch als Datenbanken gespeichert. Erhoben wurden meist zweidimensionale Datenmatrizen, die überwiegend mit Mitteln der einfachen Deskriptivstatistik ausgewertet wurden.
[1]
Die Anwendung eines quantifizierenden Ansatzes ist bis heute in der bundesdeutschen Geschichtswissenschaft keine Selbstverständlichkeit. Mit den in mathematischen Modellen fundierten statistischen Methoden, die in den letzten Jahren kontinuierlich verfeinert und weiterentwickelt wurden, verfügt die quantifizierende Geschichtswissenschaft nur scheinbar über ein gegen methodische Kritik weitgehend unempfindliches Instrumentarium. Gerade für HistorikerInnen stellen sich Fragen der Validität, Qualität und Vollständigkeit der aus den Quellen erhobenen Daten, aber auch Probleme der Operationalisierung, der Ableitung übergeordneter Thesen aus den überlieferten historischen Informationen, mit besonderer Schärfe – oftmals sicherlich schärfer als in den Sozial- und Wirtschaftswissenschaften.
Neben solchen komplizierten, immer wieder aufs Neue zu diskutierenden methodischen Problemen sahen sich HistorikerInnen lange Zeit auch mit ganz banalen praktischen Problemen beim Umgang mit Massendaten konfrontiert. Zur fachwissenschaftlichen Ausbildung deutscher HistorikerInnen gehört keine Einführung in die Statistik. Häufig fehlte (und fehlt) deutschen HistorikerInnen das technisch-methodische Rüstzeug zur Anwendung quantifizierender Methoden.
[2]
Um diesem Missstand abzuhelfen, wurde 1975 die Arbeitsgemeinschaft für Quantifizierung und Methoden in der historisch-sozialwissenschaftlichen Forschung (QUANTUM) gegründet, die sich bald darauf mit dem Zentrum für Historische Sozialforschung (ZHSF) in Köln eine feste Institution schuf. Zu den wichtigsten Aufgaben des ZHSF gehören bis heute die Ausbildung jüngerer FachwissenschaftlerInnen in Sommerkursen und die Durchführung von Modellforschungen, welche die Möglichkeiten einer Adaption sozialwissenschaftlicher formaler Methoden in der Geschichtswissenschaft beispielhaft vor Augen führen sollen.
Gleichzeitig soll das ZHSF auch die Funktion eines umfassenden Datenarchivs für die Historischen Wissenschaften erfüllen. Die Archivierung und Bereitstellung von Datensätzen, die im Kontext kleinerer Forschungsprojekte erstellt wurden, soll Vergleichs- und Sekundäranalysen jenseits des ursprünglichen Forschungsinteresses ermöglichen.
[3]
Das ZHSF-Archiv ist in das umfassendere Zentralarchiv Sozialwissenschaften (ZA) integriert. Nach eigenen Angaben werden am ZHSF derzeit 160 Datensätze archiviert. Über die Website des ZA läßt sich ein Verzeichnis der Datensätze zur historischen Sozialforschung mit einer formalen Kurzbeschreibung einsehen, allerdings verzeichnet dieser Online-Katalog lediglich 140 Datensätze. Über die Website lassen sich einzelne Datensätze für eine Sekundäranalyse bestellen.
[4]
Insgesamt ist jedoch nur ein verschwindend kleiner Teil der Datensätze, die in den letzten Jahren in der Geschichtswissenschaft erstellt wurden, im Kölner Datenarchiv hinterlegt.
Schaut man sich an, welche Datensätze in Köln überhaupt verfügbar sind, so fällt zunächst die überragende Dominanz von Datensätzen zum 19. und 20. Jahrhundert auf. Knapp 70 Prozent aller im Archiv gespeicherten Datensätze betreffen die Neuere Geschichte. Entfallen auf die Frühe Neuzeit mit knapp 25 Prozent immerhin noch eine erkleckliche Zahl von Datensätzen, so handelt es sich bei den fünf Datensätzen zur mittelalterlichen Geschichte schon nur noch um einige wenige Einzelstücke. Völlige Fehlanzeige besteht schließlich im Bereich der Alten Geschichte.
Thematisch dominieren die klassischen sozialgeschichtlichen Themen: Mehr als jeder zweite Datensatz behandelt die Rekonstruktion von Gesellschaftsstrukturen und sozialen Prozessen. Von diesen entfiel wiederum ein knappes Drittel auf sogenannte Kollektivbiografien, wie sie lange Zeit gerne und häufig als Lehrmaterial in den Schulungskursen benutzt wurden. Hier sind nicht zuletzt die Arbeiten von MitarbeiterInnen des ZHSF zu den ParlamentarierInnen im Kaiserreich und in der Weimarer Republik zu nennen.
Die zweitstärkste Gruppe von Datensätzen im Kölner Archiv entfällt mit etwas mehr als 15 Prozent auf wirtschaftshistorische Studien, die ein breites Themenspektrum abdecken. Unter den Datensätzen zur politischen Geschichte, insgesamt 12 Prozent aller Datensätze des ZHSF, sind die Arbeiten zur Wahlforschung am bedeutendsten – hervorgehoben werden sollen vor allem die von Jürgen Falter und Dirk Hänisch Ende der 80er Jahre angelegten Datensätze zu den Wahlen in der Weimarer Republik.
Unter den übrigen Datensätzen verdient einzig noch der Bereich der Historischen Demografie Erwähnung, zu dem fünf Datensätze archiviert sind. Gerade dieser Befund ist insofern überraschend, als die Historische Demografie in den 70er, 80er und 90er Jahren zu den in zahlreichen Fallstudien intensiv empirisch erforschten Feldern gehörte.
Führt man sich schließlich vor Augen, wann die meisten Datensätze im Archiv hinterlegt wurden, ist eine deutlich nachlassende Motivation, das ZHSF als Datenarchiv zu nutzen, unverkennbar. In den ersten sechs Jahren seines Bestehens, zwischen 1974 und 1979, entstanden mehr als 45 Prozent der datierten Datensätze, in den 1980er-Jahren waren es immerhin noch 40 Prozent, und auf die 1990er-Jahre entfallen schließlich nicht einmal mehr 15 Prozent aller Datensätze.
Man wird festhalten dürfen, dass das ZHSF die Erwartung, die Institution könne zum Datenarchiv für die deutsche Geschichtswissenschaft werden, nicht erfüllen konnte. Die Gründe hierfür sind vielfältig. Zunächst fällt auf, dass die in Köln archivierten Datensätze alle ausschließlich einer zweidimensionalen einfachen Tabellenstruktur entsprechen und meist mit dem Programmpaket SPSS erhoben und ausgewertet wurden. Die in den 1970er-Jahren bereits spürbare Tendenz, komplexere relationale, semantische oder objektorientierte Datenmodelle auch in der Geschichtswissenschaft anzuwenden, spiegelt sich im Kölner Datenbestand nicht wider. Datensätze aus einem der in den 1980er- und 1990er-Jahren zahlreich durchgeführten Projekte etwa, die mit prosopografischen Methoden arbeiteten und hierbei oft heterogene, nur schwach strukturierte Informationsbestände in Datenbanken ablegten, finden sich im Kölner Archiv in keinem einzigen Fall. Das gilt beispielsweise für die zahlreichen Projekte, die das von Manfred Thaller am Max-Planck-Institut entwickelte Datenbanksystem kleio benutzten. Erst in den letzten Jahren werden am ZHSF im Rahmen der Herbstkurse auch methodische Schulungen zum Einsatz relationaler Datenbanken in der Geschichtswissenschaft angeboten, ohne dass sich dies jedoch im Archiv in Form hinterlegter Datensätze widerspiegeln würde.
Auffällig ist vor allem, dass in jüngster Vergangenheit nur noch wenige, in den letzten Jahren überhaupt keine Datensätze in Köln mehr hinterlegt wurden. Man mag darüber spekulieren, ob im Zuge der als „kulturalistische Wende“ bezeichneten methodischen Neuorientierung der Geschichtswissenschaft das Interesse an Quantifizierung und Datenbankanwendung in der Disziplin insgesamt zurückgegangen ist – eine These, die eine eingehendere Untersuchung zur Praxis der historischen Forschung in den letzten Jahren wert wäre. Bis zum Beleg des Gegenteils gehen wir jedoch davon aus, dass die Bedeutung des Datenbankeinsatzes auch in Zeiten neohermeneutischer Ansätze eher zugenommen hat. Die technologischen Voraussetzungen zum Einsatz von Datenbanken im Forschungsprozess haben sich so enorm verbessert, dass auch die Anforderungen an das technische Verständnis der BearbeiterInnen heute keine nennenswerte Hürde für die Anwendung von Datenbanken in Forschungsprojekten darstellen. Manche Datenauswertung, die noch vor zehn Jahren nur von durch kryptische Skriptsprachen gesteuerte Spezialsoftware auf mainframes durchgeführt werden konnte, läßt sich heute weitgehend problemlos mit spreadsheets, wie sie zur Standardausstattung jedes PC gehören, mit wenigen Mausklicks erledigen.
Wer auf diese Weise im Forschungsalltag seine aus Quellen erhobenen Informationen einfach in einer Datenbank ablegt, der weiß in vielen Fällen nichts oder zu wenig von der Existenz des Kölner Datenarchivs. Tatsächlich sind die meisten der in Köln hinterlegten Datensätze im Kontext von am ZHSF durchgeführten Schulungen entstanden. Eine breitere Fachöffentlichkeit jenseits der kleinen Gruppe von KursteilnehmerInnen vermochte das Zentrum nicht zu erreichen.
Festzuhalten bleibt, dass die gegenwärtige Praxis der Archivierung von Forschungsdatensätzen in der Bundesrepublik alles andere als zufrieden stellend ist. Der Bedarf, die im Forschungsprozess entstandenen Datensätze zu dokumentieren und auch in digitaler Form zu archivieren und sie so für Zwecke von Forschung und Lehre zugänglich zu machen, wurde bereits Mitte der 1980er Jahre festgestellt und methodisch intensiv diskutiert.
[5]
Während in den vergangenen Jahren in einzelnen europäischen Ländern aus größeren Forschungsprojekten heraus jedoch einzelne, teilweise auch Internet-gestützte Datenbankensysteme aufgebaut wurden (zum Beispiel BernHist, Essex), kamen entsprechende Bemühungen in der Bundesrepublik über Ansätze nicht hinaus.
Folgende Anforderungen an einen Datenserver für die historischen Wissenschaften lassen sich aus der skizzierten Momentaufnahme zur gegenwärtigen Situation ableiten:
- Der Datenserver muss grundsätzlich für alle Formen von digital gespeicherten Datenbanken offen sein. Es sollte keine Privilegierung bestimmter Datenmodelle oder -formate geben, der Begriff „Datenbank“ ist für den Server möglichst offen zu führen und darf nicht auf Quantifizierung im engeren Sinne eingeschränkt sein. Grundsätzlich sollte der Datenserver alle Datenbestände aufnehmen und einer breiteren Öffentlichkeit zugänglich machen, die über keine eigenen Publikations-Schnittstellen (offenes Webfrontend) verfügt.
- Der Zugriff auf die Datenbestände muss möglichst einfach und für die BenutzerInnen möglichst transparent erfolgen, etwa durch von einem Portal aus erreichbare Upload und Download-Funktionen.
- Grundsätzlich sollte der Datenbankserver ein intensives Arbeiten mit den archivierten Datensätzen in der Form erlauben, dass die BenutzerInnen aus den vorhandenen Datensätzen sich eigene Datenpakete zusammenstellen können, die Sekundär- oder Vergleichsstudien ermöglichen. Die Umsetzung dieser Anforderung setzt eine strukturelle Kongruenz voraus, die zunächst im Widerspruch zu der zuvor geforderten Offenheit für unterschiedliche Datenformate steht. Mittelfristig kann der Weg zur Umsetzung dieser Anforderung nur durch die umfassende Erhebung von Metadaten, durch ausführliche Datenbeschreibungen, geschehen, die nicht nur Projekt- und Bearbeiterdaten nennen, sondern Inhalt und Struktur der Datenbank von vorneherein offenlegen. Die BenutzerInnen, die auf dem Datenserver nach Daten suchen, müssen die Bestände nach inhaltlichen Kriterien durchsuchen können und unmittelbar die für sie relevanten Datensätze finden. Die Erfassung von solchen Metadaten kann dann ein erster Schritt in Richtung zunehmender Datenkongruenz sein: Über die Datierungen und geografische Verortung von Datensätzen lassen sich Datenbestände einfach und effektiv filtern. Das Fernziel, disparate Datensätze unter einer einheitlichen online verfügbaren Oberfläche direkt verfügbar zu machen, impliziert, dass ein Datenserver für die historischen Wissenschaften Datensätze nicht nur archiviert, sondern die verfügbaren Daten weiterbearbeitet und untereinander integriert werden.
- Die Verfügbarkeit von Datensätzen hängt natürlich vor allem von der Bereitschaft zur Abgabe von Datensätzen an einen Datenserver ab. Diese Bereitschaft wird vor allem dann zunehmen, wenn das Angebot des Servers bekannt, attraktiv und der Zugriff transparent gestaltet ist. Ein Datenserver kann seine Aufgabe nur dann erfüllen, wenn er innerhalb der Disziplin anerkannt ist und auf eine große Zahl von NutzerInnen trifft. Anzustreben ist ein Zustand, in dem die Abgabe von Datensätzen an den Server nicht nur selbstverständlich, sondern für öffentlich geförderte Forschungsprojekte und für Qualifikationsarbeiten zur Pflicht wird. Der gegenwärtige Zustand, dass eine Dissertation in ihrer narrativen Form jedermann zugänglich sein muss, die Daten, auf denen die Arbeit beruht, aber im Geheimwissen der VerfasserInnen verbleiben, kann Anforderungen an eine kritische Wissenschaft im elektronischen Zeitalter nicht mehr genügen. Dieser letzte Punkt berührt eine wissenschaftspolitische Frage, die mit der Einrichtung eines Datenservers aufgeworfen werden muss.
Das Datenbanksystem ARASS
Das Datenbanksystem ARASS (Advanced Research Application Science System), das im folgenden kurz vorgestellt werden soll, versteht sich als ein erster Beitrag zur Minderung der dokumentarischen Defizite. Das System wurde im Rahmen eines von der Stiftung Innovation und Technik des Landes Rheinland-Pfalz geförderten Projektes (1998-2000) an der Universität Trier entwickelt. Ziel war die Schaffung einer Plattform, die sowohl den Bedürfnissen der ‚produzierenden’ WissenschaftlerInnen nach einer unabhängigen Dokumentationsbasis wie auch den Interessen von SekundärnutzerInnen für Forschungs- und Lehrzwecke zu entsprechen hatte.
[6]
| 
| | |
Homepage von Arass
| |
Zu den Leistungsanforderungen zählten:
- allgemeiner und leichter Zugang über Internet
- umfassende Beschreibung von Daten und Projekten über recherchierbare Metadaten
- Unterstützung des Upload (online und offline)
- einfacher Download
- Kommunikationsmöglichkeit zwischen Datenlieferanten und Sekundärnutzern
- Datensicherheit
- geringer Administrationsaufwand.
ARASS verwaltet die drei Objekttypen Attributdaten, Vektorgeometrien und thematische Karten. In der Weiterentwicklung könnten weitere Objekttypen (historische Altkarten, Text-, Ton- und Filmdokumente usw.) ergänzt werden. Zu jedem Objekt wird ein spezifischer Metadatensatz bereitgehalten, der das Objekt beschreibt und als Register zur Recherche dient. Weiterhin sind Informationen über die Projekte, welche Daten bereitgestellt haben (Thema, MitarbeiterInnen, Publikationen usw.), für die Recherche verfügbar.
Attributdaten
Unter Attributdaten sind nach quellenkritischen Gesichtspunkten aufbereitete und datentechnisch bearbeitete Informationen aus zumeist seriellen Quellen zu verstehen, die als Tabellen oder Datenbanken in das System eingestellt werden. Verwendet werden können die Formatierungen gängiger Programme (EXCEL, SPSS usw.). Bei der Nutzung des CSV-Formats können Funktionen zur Auswahl von Variablen bzw. von Fällen aus einer Tabelle/Datenbank und die Kombination mit Variablen bzw. Fällen aus anderen Tabellen/Datenbanken genutzt werden. Die BenutzerInnen können sich somit aus dem gesamten, in ARASS gehaltenen Datenbestand diejenigen Daten extrahieren, welche sie tatsächlich benötigen. Bei Kombination verschiedener Tabellen/Datenbanken werden die Metainformationen für jeden einzelnen einbezogenen Datenbestand mitgeliefert. Mit der ersten durchgeführten Operation dieser Art wird eine neue Datenbank für den Download erzeugt; die BenutzerInnen haben keinen aktiven Zugriff auf die Originaldatensätze.
| 
| | |
Attributdaten bei Arass
| |
Vektorgeometrien
Unter Vektorgeometrien sind die innerhalb eines gewählten Koordinatensystems für Punkte, Linien und Flächen bei der Digitalisierung vergebenen Koordinatenpaare bzw. die Folge von Koordinatenpaaren einschließlich eines Schlüssels zur Verknüpfung mit den entsprechenden Attributdaten zu verstehen. Wie die Attributdaten verwaltet das System die Vektorgeometrien über recherchierbare Metadaten, deren Struktur sich an dem FGDC Metadaten Standard gemäß der SDTS-Metadaten-Konvention von 1994 orientiert.
| 
| | |
Vektorgeometrie bei Arass
| |
Thematische Karten
Unter thematischen Karten sind Rasterbilder in Standardformaten (tif, gif, usw.) zu verstehen, in denen auf einen Raumausschnitt und auf eine oder mehrere räumliche Kategorien (Fläche, Linie, Punkt) bezogene Attributdaten durch Symbole, durch grafische Darstellung von statistischen Befunden (zum Beispiel Histogramm, Kreisdiagramm) oder durch Farbgebung, Linienstärke oder Ähnliches dargestellt werden. Ist eine in der Datenbank vorhandene Vektorgeometrie oder ein Attributdatensatz Grundlage einer solchen Rasterkarte, wird beim Preview auf diese verwiesen.
| 
| | |
Thematische Karte bei Arass
| |
Recherche
Die Recherche erfolgt über den gesamten Informationsbestand entsprechend den Auswahlkriterien. Die drei Objekttypen können einzeln oder kombiniert recherchiert werden.
Suchabfragen in den Metainformationen zu den Attributdatensätzen erfolgen vor allem über die thematischen, teilweise jedoch auch über die quellenkritischen Informationen. So wird es den NutzerInnen ermöglicht, nach verschiedenen inhaltlichen Kriterien (ein Zeitraum, eine Region oder ein Sachverhalt), aber auch nach vergleichbaren Quellentypen oder den Arbeiten bestimmter ForscherInnen bzw. Forschergruppen zu suchen. Die Suchabfragen sind beliebig kombinierbar und werden gegenwärtig mit Hilfe von Auswahlmenüs und Editierfeldern realisiert. Geplant ist die zusätzliche Suche mittels Hotspot-Karten. Die Suchergebnisse werden als Liste aller gefundenen Objekte in einer ‚listbox’ abgelegt, die mit einer ‚preview’- und Info-Funktion ausgestattet ist und eine Einsichtnahme in den Metadatensatz gestattet.
| 
| | |
Suchformular bei Arass
| |
Der Suchlauf ermittelt zunächst alle für ein gewähltes Thema und/oder gewählten Raum/Zeitabschnitt usw. gefundenen Objekte im System und gibt diese in einer Listenübersicht aus. Zu Attributdaten werden neben den Metainformationen auch Informationen über den Datensatz und seine Struktur ausgegeben.
| 
| | |
Suchergebnisse
| |
Bei der Recherche thematischer Karten kann zusätzlich nach dem dargestellten Raumausschnitt (Ortschaften, administrative Einheiten, naturräumliche Einheiten) gesucht werden. Als Suchergebnis wird zunächst eine Liste der gefundenen Karten (AutorIn, Titel) geliefert. Nach einer Auswahl aus dieser Liste werden neben einem preview der Karte und den vollständigen Informationen zu Titel, AutorIn, Erstellungsdatum, Kartenmaßstab usw. die Größe der Bilddatei und die geschätzte Download-Dauer angezeigt.
| 
| | |
Ergebnisdarstellung
| |
Neben Karten im Rasterformat mit einer geringen Auflösung (Bildschirmauflösung) sollen weitere, nicht frei über das Netz zugängliche Bild- und Grafikdateien der abgelegten Karten gespeichert werden. Dabei handelt es sich um Rasterbilddateien mit hoher Auflösung, die je nach Freigabe durch die KartenautorInnen/-bearbeiterInnen kostenlos, gegen Entgelt oder nur für bestimmte Vorhaben abgegeben werden können. Gleiches gilt für gegebenenfalls vorhandene Systemformate (zum Beispiel macromedia freehand). Entsprechende Vermerke zur jeweiligen Karte werden den NutzerInnen bereits innerhalb der Meta-Informationen neben der Kartenvorschau angezeigt. Darüber hinaus wird in den Meta-Informationen vermerkt, ob die im Rasterkartenarchiv abgelegten thematischen Karten auf einer Basiskarte (Grundgeometrie im Vektorformat) und Attribut-Daten beruhen. Entsprechende Verweise führen zu den jeweiligen Dateien innerhalb des Systems.
Benutzungsanweisungen
Download
Über eine Warenkorb-Funktion werden die ausgewählten Objekte für den Download bereitgestellt. Die Metadaten, insbesondere die Code-Listen, werden in Form von Text-Dateien dem Datentransfer angefügt. Der Download von Objekten unterliegt den vom System verwalteten Restriktionen der jeweiligen ‚LieferantInnen’.
Upload
Der Upload ist projektbezogen aufgebaut, das heißt, alle Objekte (Geometrien, thematische Karten, Attributdatenbanken), die in einem thematischen Zusammenhang (wie zum Beispiel Forschungsprojekt, Dissertationsvorhaben usw.) stehen, werden als ein Projekt eingespielt. ARASS verfügt über ein Arbeits- und ein Hauptarchiv. Die im Arbeitsarchiv eingelagerten Daten stehen den Projekten für fortlaufende Ergänzungen und Korrekturen zur Verfügung. Das Datenbanksystem kann also auch als projektinternes Dokumentationssystem fungieren. Datenbestände können in den gängigen Tabellen-, Datenbank-, Vektor- und Bildformaten (online oder offline) geliefert werden. Die Überführung vom Arbeits- in das Hauptarchiv geschieht durch die AdministratorInnen nach Durchführung einer Reihe von Prüfroutinen (Vollständigkeit und Plausibilität der Metadaten, Viren- und Konsistenzprüfung der Datensätze).
Administration
Die Systemadministration übernimmt
- die kontrollierte Überführung von Projektdaten in das Hauptarchiv,
- die Vergabe von Zugangsberechtigungen für Projekte,
- die Vergabe von Zugangsberechtigungen zur Recherche nach Vorgaben der Projekte.
Die Zugriffe sowie die ‚Upload’- und ‚Download’-Vorgänge werden in einer Benutzerverwaltung protokolliert. Diese Protokolle können zur (automatisierten) Meldung von Zugriffen bzw. Download-Vorgängen an die jeweiligen ‚LieferantInnen’ per email verwendet werden.
Fazit
In der soeben geschilderten Arbeitsweise ist mit dem ARASS-System bereits ein wichtiger Baustein für einen zentralen Datenserver der historisches Wissenschaften begründet worden. Er ermöglicht den interaktiven und vor allem multimedialen Umgang mit historisches Daten, und ist eine effiziente Schnittstelle zu ihrer Verwaltung. Die Autoren hoffen, dass mit einer wachsenden Nutzung, größerer Akzeptanz innerhalb der Disziplin und gegebenenfalls Druck seitens der Mittelgeber das Datenbanksystem ARASS zu einem umfassenden Datenarchiv für die Historischen Wissenschaften werden kann.
Prof. Dr. Dietrich Ebeling ist apl. Professor für Wirtschafts- und Sozialgeschichte der Neuzeit an der Universität Trier. Dr. Stefan Gorißen ist Wissenschaftlicher Mitarbeiter an der Fakultät für Geschichtswissenschaft und Philosophie der Universität Bielefeld.
[1] Zur Methodik der hier praktizierten Form historischer Forschung vgl. Schröder, Wilhelm Heinz; Best, Heinrich, Quantitative historische Sozialforschung, in: Meier, Christian; Rüsen, Jörn (Hgg.), Historische Methode (=Theorie der Geschichte Beiträge zur Historik 5), Stuttgart 1988, S. 235-266.
[2] Die besten Einführungen in Methoden der Deskriptivstatistik stammen bezeichnenderweise aus England: vgl. etwa nach wie vor die viel benutzte Übersetzung der Arbeit von Floud, Roderick, Quantitative Methoden für Historiker, 2. Auflage Stuttgart 1980 sowie Hudson, Pat, History by numbers. An Introduction to quantitative approaches, London 2000.
[3] Zu den Aufgaben von QUANTUM und des ZHSF vgl. Schröder, Wilhelm Heinz, Historische Sozialforschung: Identifikation, Organisation, Institution (=HSR Beiheft 6), Köln 1994, bes. S. 36ff., S. 66ff.
[4] Der Online-Katalog ist verfügbar unter <http://www.gesis.org/Datenservice/Suche/Daten/dbvsrch.htm> (Stand: 15.6.2003). Die Datensätze zur historischen Sozialforschung sind mit den Studiennummern ab Nr. 8001 versehen. Eine gedruckte Liste der 110 Datensätze, die bis 1994 ins ZHSF gelangt waren, bei Schröder (wie Anm. 3), S. 88ff.
[5] Vgl. hierzu die Beiträge in Thaller, Manfred (Hg.), Datenbanken und Datenverwaltungssysteme als Werkzeuge historischer Forschung (=Historisch-sozialwissenschaftliche Forschungen 29), St. Katharinen 1986; Hausmann, Friedrich u.a. (Hgg.), Datennetze für die Historischen Wissenschaften? Probleme und Möglichkeiten bei Standardisierung und Transfer maschinenlesbarer Daten, Graz 1987.
[6] Eine ausführlichere Beschreibung des Systems wurde bereits publiziert in Ebeling, Dietrich u.a., ARASS - Ein Datenmanagementsystem als Grundlage eines offenen Geoinformationssystems mit dem Schwerpunkt auf den historischen Wissenschaften, in: Dietrich, Ebeling (Hg.), Historisch-thematische Kartographie. Konzepte - Methoden - Anwendungen, Bielefeld 1999, S. 181-196, 212-213.
An Institutional Internet-Laboratory The Croatian Database on Antiquity Gračanin, Hrovje; Tomorad, Mladen
Several initiatives within the Department of History at the Zagreb Faculty of Philosophy helped to get things started. First, in December of 2001, the Department of History organized an international science conference «Historical Research, Study of History and Computerization» to take stock of the ongoing changes in studies and education at the University of Zagreb. The conference offered a platform for the exchange of ideas and experiences. Second, the Deparment formed its own computor laboratory in order to foster the computerization of teaching and scientific research in the historical studies. Third, as a direct consequence of the previous initiative and supported by several other departments at the Zagreb Faculty of Philosophy, the Department of History turned two of its lecture halls into modern multimedia and computer classrooms/workshops for students of history, art history, archaeology, and ethnology. Finally, for the between 2000 and 2002, the Department of History at the Zagreb Faculty of Philosophy has been providing an institutional framework for two IT projects: Eurykleia, and Croato-Aegyptica electronica.
The main aim of the aforementioned conference «Historical Research, Study of History and Computerization» was to discuss and articulate computer innovation in four areas:
- The computerization of the historical research: the elaboration of textual, visual and serial sources; creation of archival, museum and bibliographical databases; computer strategies for research, defining approaches, selecting methods and working techniques; interpretation in historical science and computerization.
- The computerization of historical studies: planning and programming studies; university and inter-university networking of curricula; individualization of academic programs, initial computing education; computerization in lectures, seminars and exercises; individual study and computerization; evaluation of students' and teachers' performance, creation and usage of database and teaching software; computerized cataloging of book funds.
- Computer networking in historical research and historical studies: web pages; discussion lists in research and education; networking through the Internet with Croatian, European and global professionals in historical studies.
- The advancement of historical education and the culture of historical thinking through computers: scientific cognition and education; the education of history teachers; computerized transfer of scientific facts to public institutions and the media; computerization fo scientific production and the public, etc.
To implement this four-tiered aim, further computerization projects within the historical studies were proposed, and a special emphasis was placed on the need for interdisciplinary approach and co-operation between experts in various fields.
Based on the results of the conference, and in accordance with the new teaching and scientific research needs, the Department of History formed a specialized computer laboratory in January, 2002. It is run by Mladen Tomorad, who heads the lab, Hrvoje Gračanin, the deputy head, the secretary Kristina Milković, and a few students.
[1]
Its tasks are: providing basic computer education to teachers and students through courses; scanning and preparation of teaching materials; providing computer support for scholarly projects; coordinating computer projects between various departments; organizing specialist and scientific conferences; maintaning and updating the Department’s web-site
[2]
, and various tasks associated with the Department of History and the Institute of Croatian History's publishing activities. At the same time, the Department of History has invested much effort and substantial funds in furnishing the two computer classrooms together with the Departments of Archaeology, Ethnology, and Art History. The new conditions have enabled the reorganization of graduate and postgraduate studies that can center around the computer laboratory.
As part of its mission to apply computer technology in historical research, the Computer laboratory supports two IT projects on Egyptian and Classical Antiquity. These are, as already mentioned, Eurykleia – Written Sources from Antiquity for the Ancient History of the Croatian Historical Area I: Main Geographic Sources, and Croato-Aegyptica electronica – Database of the Egyptian Monuments in the Museum and Private Collections in Croatia. Eurykleia has its roots in the project Fontes rerum Illyricum – The sources for knowledge of history and geography of our country in Antiquity, begun in 1966. One of its main researchers was the late Professor Mate Suić. In 1989, the project was formally renewed on the basis of a survey entitled Monumenta Iugoslaviae historica periodum antiquam illustrantia – Scriptores by Suić and Professor Bruna Kuntić-Makvić. Eurykleia is an electronic chrestomathy encompassing excerpts from ancient sources relevant to the historical area of Croatia. The project offers four kinds of information: basic information on the writers and on the works, a bibliography of the sources and works relevant to their study, and – at its core – the texts themselves. Each text fragment is furnished with a short entry on its contents; the texts themselves are divided into sections and numbered, so that they correspond with standard printed editions and bibliographic references, and accompanied by necessary information on the writers and their works, and on the editions used in preparing the information. The text fragments were all obtained from standard electronic and printed editions. Unique to this database is the cross referencing of the texts with the various original manuscript citations found in the apparatus criticus of older editions of sources, but frequently not found in recent printed and electronic editions.
The project’s first phase included the preparation and processing of material for a general database that enables searching through the excerpts of geographical works from the Greek (Periplus by Pseudo-Scylax, Description of the World by Pseudo-Scymnus, Geography by Strabo and by Ptolemy, and Description of the Inhabited World by Dionysius Periegetes), and the Latin worlds (Chorographia by Pomponius Mela, Natural History by Pliny the Elder, Antonine Itinerary, Maritime Itinerary, Jerusalem (Bordeaux) Itinerary, Description of the World by the anonymous author of Ravenna, and Geography by Guidon). This selection covers the most valuable and frequently used geographical literary sources for the historical area of Croatia in the period from the 4th century BC (Pseudo-Scylax) to the 7th century AD (Guidon). The database guarantees completeness and enables a quick search for scholarly research, and can serve as the basis for a scholarly analysis of the entire corpus (translation, historical commentary). The system also enables printing selections from the original texts, with or without variants. A list of key words for a traditional search and search strings for an electronic search is also possible. The development of these tools will greatly facilitate the development of similar projects that contain considerably larger amounts of text (for example, historical sources) in the future. It should be noted that the database will be placed on the web site of the Zagreb Faculty of Philosophy. The project is being developed in close cooperation with the Departments of Computer Science and Classical Philology at the Faculty of Philosophy in Zagreb, as well as with the National and University Libraries.
The project Croato-Aegyptica Electronica – Database of the Egyptian artefacts in Croatia is still in its initial phase of development and is comparable to similar projects being carried out elsewhere, such as: EMCP – Egyptologica. Museum Collection Project
[3]
, the Totenbuch Project at the University of Bonn
[4]
, various projects located at the CCER (Centre for Computer-aided Egyptological Research) at Utrecht University, such as their Multilingual index of Egyptian treasures CD-ROMs, Prosopographia Aegypti, Links to the museums with Egyptian collections
[5]
, and The Global Egyptian Museum (GEM) on the Internet at the University of Leiden.
[6]
The project includes experts with qualifications in Egiptology, history, archaeology, classical philology, art history, museology, and computer science. The Croato-Aegyptica Electronica is designed as an aimed selective database of relevant archaelogical materials that pertain to the cultural influences of the Egyptian civilization in the Croatian region from institutional and private collections located within Croatia and offers various kinds of information on the artefacts (origin, date, material, techniques, description, inventory number, collection, inscriptions with transliteration and translation, image, and so on).
The project’s initial phase includes the development of a database that will enable manifold reuse of processed and digital content. Possible presentation forms will include web pages, printed catalogues, CD-ROMs, info-boxes at the museums, and so on. The project is also part of international trends in the computerization of museum collections. It will include all Egyptian collections in Croatia (museum and private) from the prehistoric period until the Arab conquest of Egypt in A.D. 642 and thus includes the holdings of 20 museums with approximately 3,560 artefacts, as well as over 1,000 artefacts in private collections. The largest collection comes from the Archeological Museum of Zagreb and there are significant holdings from a number of smaller collections, such as the Archaeological Museums in Dubrovnik and Split, the Istrian Archeological Museum in Pula, Museum Mimara in Zagreb, the Town Museum Varaždin, the Museum of Slavonia in Osijek and the St. Euphemia monastery in Kampor on the island of Rab. The project's first phase will include the selection of the material from Egyptian, Antique and Numismatic collections of the Archaeological Museum of Zagreb, Egyptian collection of Town Museum in Varaždin and collections from Museum Mimara in Zagreb.
These two projects represent the first phase in a long process of integrating online forms of presentation into historical scholarship and museum collections. They present IT technology as the basis for collaborative activity, enabling multiple institutions and researchers to be brought together for virtual projects that transgress traditional boundaries.
Mladen Tomorad is director of the Computer Laboratory at the Department of History, Zagreb University. He also heads the Croato-Aegyptica electronica project described above.
Hrvoje Gračanin is assistant at the Chair for the World and European History of Middle Ages at the Department of History, Zagreb University.
[1] Since 2005, the Computer Laboratory has two offical members: Mladen Tomorad, head of the Laboratory, and Davor Ilicic, the Laboratory's undergraduate student assistant.
[2] See, <http://www.ffzg.hr/pov>.
[3] See, <http://www.egyptologica.be/>.
[4] See, <http://www.philfak.uni-bonn.de/Philfak/aegypt/projekte.htm>.
[5] See, <http://www.ccer.nl/>.
[6] See, <http://www.globalegyptianmuseum.com>.
Hinweis:
In den Texten der Artikel wird der Unicode-Zeichensatz verwendet.
Falls Ihr Browser nicht automatisch die richtige Codierung einstellt,
d.h. wenn die deutschen Extrazeichen nicht korrekt angezeigt werden,
drücken Sie bitte den Reload-Knopf (Refresh oder Aktualisieren)
oder ändern Sie die Zeichensatz-Einstellung selbst unter Ansicht -> Codierung -> Unicode (UTF-8). |