| ↓2 |
Ein zentrales Problem des Information Retrieval ist die Vagheit zwischen der Anfrage eines Benutzers und den Indexierungsbegriffen, die den Inhalt der im Informationssystem gespeicherten Dokumente beschreiben.
„Jedem Bibliothekar und jedem, der sich mit Information Retrieval befasst, war schon immer klar, dass zwischen den semantischen Termen, die in der Datenbank ein Dokument charakterisieren, und dem Term, den der Benutzer anwendet, nicht immer eine 1:1-Relation besteht.“ [18]
Traditionell wird die Vagheit zwischen Anfrage- und Dokumentebene durch Verfahren zur Termerweiterung behandelt, was ‚manuell’ durch den Nutzer (z. B. durch Verwendung eines Thesaurus2 mit Synonym- oder Ober-/Unterbegriffsbeziehungen) oder in ähnlicher Weise auch durch das Informationssystem (teil-)automatisch durchgeführt werden kann (z. B. durch Vorschläge für zusätzliche und alternative Suchbegriffe). Diese Vorschlagsfunktionalität findet sich inzwischen bei nahezu allen Internetsuchmaschinen. Handelt es sich bei den zu durchsuchenden Datenbeständen um homogen erschlossene Datenbanken, sind diese Verfahren ausreichend. Anders stellt sich die Situation aber bei heterogen erschlossenen Dokumentenbeständen dar. Durch die unterschiedlichen Thesauri und anderen kontrollierten Vokabulare entsteht Vagheit/Heterogenität bereits auf der inhaltlichen Beschreibungsebene der Dokumente. Stellt man die Datenbanken einander gegenüber und vergleicht, mit welchen Begriffen gleiche Dokumente oder solche mit ähnlichem Inhalt erschlossen sind, so stellt man fest, dass für gleiche semantische Konzepte je nach Erschließungsvokabular unterschiedliche Indexierungsbegriffe verwendet wurden, die sich in ihrer semantischen Präzision unterscheiden können (siehe dazu Deskriptorenbeispiele in Tab. 1 und [8]). Die Konsequenz ist, dass die Anfrage des Nutzers nicht nur auf ein Indexierungsvokabular, sondern parallel auf mehrere abgebildet werden muss (siehe dazu Abb. 1).
| ↓3 |
Grundsätzlich tritt auch bei der automatischen Indexierung [29] dieses Problem auf, allerdings hier zwischen dem Wortschatz des Informationssuchenden und dem der Autoren der Dokumente, also dem Volltext.
Zur Behandlung der Heterogenität zwischen Indexierungsvokabularen werden am Informationszentrum Sozialwissenschaften aktuell zwei Verfahren erprobt und eingesetzt [13; 18])3:
1. Intellektuell erstellte Crosskonkordanzen zwischen Klassifikationen und Thesauri: Crosskonkordanzen sind gerichtete relevanzbewertete Relationen zwischen Termen zweier Thesauri oder Klassifikationen. Sie ermöglichen eine Übersetzung von Anfragetermen eines Erschließungssystems in ein anderes. Die Erstellung der Relationen erfolgt intellektuell, d. h. ein Terminologie-Experte vergleicht verschiedene Begriffssysteme und setzt die Terme zueinander in Beziehung. Die Verknüpfung erfolgt dabei nach einem Verfahren, das im Projekt CARMEN[77[7] definiert wurde und verschiedene Arten von Relationen zwischen Termen unterschiedlicher Vokabulare festlegt [25].
| ↓4 |
2. Quantitativ-statistische Ansätze: Bei diesen Verfahren werden die semantischen Relationen mit Hilfe von statistischen Methoden automatisch erzeugt. Grundlage hierfür sind Parallelkorpora, d. h. Bestände, deren Dokumente gleichzeitig nach zwei Sacherschließungssystemen indexiert sind. (Weitere Informationen zu den quantitativ-statistischen Verfahren finden sich bei Hellweg et al. [13]).
| Abb. 1: Anfragetransformation bei heterogenen Datenbanken (aus [13]) | ||
Abbildung 1 zeigt abstrahiert den Ablauf einer Anfragetransformation für eine Deskriptorensuche mit einem kontrollierten Vokabular, an der drei Datenbanken beteiligt sind. Es soll angenommen werden, dass die angeschlossenen Datenbanken A, B und C mit drei verschiedenen kontrollierten Vokabularen erschlossen werden, also heterogen sind. Die Transformationskomponente unterhalb der Anfrage erkennt, dass der Anfrageterm aus dem kontrollierten Vokabular der Datenbank B stammt. Folglich transformiert der Algorithmus den Anfrageterm in die äquivalenten Deskriptoren der beiden verbundenen Vokabulare und generiert zwei weitere Anfragen Anfrage’ V2 und Anfrage’ V3, die an die zugehörigen Datenbanken A und C gehen.
| ↓5 |
Die qualitative Verbesserung der integrierten Suche in Datenbanken unterschiedlicher Fächer durch Heterogenitätsbehandlung hat sich erstmalig der Informationsverbund Pädagogik, Sozialwissenschaften und Psychologie (infoconnex)4 zum Ziel gesetzt. So ist jede der Fachdatenbanken in infoconnex mit einem eigenen Thesaurus erschlossen, der sich hinsichtlich Struktur, Scope und Spezialisierungsgrad wesentlich von den anderen unterscheidet. Um dem Benutzer die Möglichkeit zu geben, mit einem beliebigen – in der Regel dem ihm am besten bekannten – Thesaurus eine Anfrage zu formulieren, die dann auf die drei unterschiedlich erschlossenen Fachdatenbanken angewendet wird, wurden die Thesauri bilateral durch Crosskonkordanzen miteinander verknüpft. Die zwischen den Begriffen der Thesauri definierten Beziehungen (Relationen) erlauben es im Rechercheprozess, die Anfrage des Nutzers vom Vokabular des Ausgangsthesaurus automatisch auf andere Vokabulare abzubilden und mit den für die Zieldatenbank geeigneten Begriffen zu suchen. Die Verbesserung der Recherchesituation macht sich insbesondere durch den Gewinn an Zeit bei kurzen, allgemeineren Überblicksrecherchen von Nutzern wie z. B. Studenten, Journalisten, aber auch professionellen Rechercheuren bemerkbar.
| Abb. 2: Beispiel einer Anfragetransformation des Schlagworts „ökonomische Theorie“ (aus [41]) | ||
Die Abbildung 2 zeigt ein Beispiel einer Anfragetransformation durch Crosskonkordanzen. Übergreifend über alle drei Datenbanken wird eine Schlagwortsuche nach „ökonomische Theorie“ durchgeführt (mittlerer Bereich in Abb. 2). Im Thesaurus Sozialwissenschaften ist dieser Begriff ein gültiger Deskriptor. Die Anfrage „Schlagwort = ökonomische Theorie“ kann direkt an die Datenbank SOLIS weitergeleitet werden, wobei 1657 Dokumente gefunden werden. Im Thesaurus Psychologie hingegen ist dieser Begriff kein gültiger Deskriptor. Allerdings verweisen Crosskonkordanzrelationen auf äquivalente Terme in diesem Thesaurus, die stattdessen verwendet werden können. Die Anfrage des Nutzers wird für die Datenbank PSYNDEX zur Schlagwortkombination „Ökonomie + Theorien“ transformiert, und es werden 28 Treffer gefunden. Auch im Thesaurus Bildung findet sich der Deskriptor „ökonomische Theorie“ nicht, eine Transformation zu „Schlagwort = Wirtschaftstheorie“ ergibt jedoch 121 Treffer im FIS Bildung.
| ↓6 |
Derzeit werden in infoconnex lediglich Äquivalenzrelationen genutzt, da sie in jedem Fall automatisch – also ohne Nutzerinteraktion – verwendet werden können. Der Einsatz weiterer Crosskonkordanz-Relationen (Oberbegriff, Unterbegriff, Ähnlichkeit) soll dem Nutzer später über entsprechende Elemente auf der Benutzungsoberfläche schrittweise ermöglicht werden.
|
TheSoz |
SOLIS |
TheBild (CK) |
FIS Bildung |
PsyT (CK) |
Psyndex |
|
Krankheit |
6450 |
Krankheit |
1506 |
Erkrankungen |
2998 |
|
öffentliches Gesundheitswesen |
239 |
Gesundheitswesen |
628 |
Gesundheitsversorgungssystem |
1835 |
|
Arzt-Patient-Beziehung |
485 |
- |
- |
Ärzte + Patienten |
234 |
|
Ethnomedizin |
72 |
- |
- |
Volksmedizin |
204 |
|
körperliche Entwicklung |
75 |
Koerperliche Entwicklung |
160 |
Physische Entwicklung |
109 |
|
gesetzliche Krankenversicherung |
491 |
Krankenversicherung |
144 |
Krankenversicherung von Arbeitnehmern |
15 |
|
Knochenkrankheit |
- |
Knochenkrankheit |
2 |
Osteoporose |
13 |
|
Impfung |
7 |
Impfung |
33 |
Immunisierung |
12 |
|
Kinderlähmung |
5 |
Kinderlähmung |
7 |
Poliomyelitis |
7 |
|
geriatrische Rehabilitation |
1 |
- |
- |
Geriatrische Patienten+ Rehabilitation |
123 |
Die in Tabelle 1 aufgezeigten Beispiele sind dem Systematikbereich 3.4 Medizin und Gesundheitswesen des Thesaurus Sozialwissenschaften entnommen. Anhand einiger Deskriptoren (z. B. Ethnomedizin, Knochenkrankheit, Kinderlähmung und geriatrische Rehabilitation), die in den Sozialwissenschaften sicherlich ausgesprochene Randgebiete repräsentieren und für die z. T. im Thesaurus Bildung keine Entsprechungen gefunden werden konnten, wird sehr gut deutlich, warum die Crosskonkordanzen in Verbindung mit der interdisziplinären Suche eine entscheidende Verbesserung für den Nutzer bewirken. Für die oben genannten Deskriptoren, die in der Datenbank SOLIS kaum Treffer generieren, bringt gerade die Crosskonkordanz zur Psychologie eine bedeutende Erhöhung der Trefferzahlen, die einem sozialwissenschaftlichen Nutzer als Mehrwertleistung automatisch angeboten werden kann.
| ↓7 |
Gänzlich ausschließen lassen sich die semantischen Unterschiede zwischen den kontrollierten Vokabularen auch durch die Heterogenitätsbehandlung nicht. Dies hat zur Folge, dass künftige Evaluationen die Qualität bzw. den Ballast (Recall/Precision) der zusätzlichen Dokumente durch die Termtransformationsverfahren auf empirischer Basis nachweisen müssen. Weiterhin sind zusätzliche Mechanismen denkbar, die zu einem Ausgleich der durch die Heterogenitätsbehandlung entstandenen Unschärfe zwischen den Vokabularen (z. B. semantische Unterschiede der Deskriptoren und Indexierungspraxis) führen. Beispielsweise ließe sich die Kernzone der Bradford-Verteilung als Browsingüberstieg nach einer vorherigen Deskriptorensuche konzipieren (siehe dazu späteres Kapitel zu Bradford’s Law of Scattering).
Neben den Problemen bei der semantischen Überführung eines Vokabulars in ein anderes, die bei Doerr beschrieben werden [8], ergeben sich insbesondere bei der praktischen Arbeit Probleme, die in den strukturellen Unterschieden der beteiligten Vokabulare begründet sind. Beispielsweise ist es außerordentlich vage, einen Deskriptor aus einer unkommentierten Schlagwortliste, die keine Scope Notes und internen Verweisungen aufweist, mit einem semantisch klaren, also ausdefinierten Deskriptor eines Thesaurus zu verbinden (vgl. dazu Schwarz & Umstätter, [31] und deren Begriff des semiotischen Thesaurus [35]). Nikolai schlägt in diesem Zusammenhang vor, die Vokabulare vor der Integration (er spricht von Thesaurusföderationen) über unterschiedliche Metriken bzgl. ihrer Strukturen zu untersuchen [28]. Zu einer eher pragmatischen und groben Einteilung der in der Praxis vorkommenden Vokabulare bzw. Knowledge Organization Systems (KOS), kommt Hodge. Sie unterscheidet folgende Klassen von Vokabulartypen, die sie weiter unterteilt: “The descriptions given here provide an overview of possible systems for organizing digital libraries. The descriptions are based on characteristics such as structure and complexity, relationships among terms, and historical function. The list is not comprehensive; nor are the definitions of these terms contained in specific standards documents. They are grouped into three general categories: term lists, which emphasize lists of terms often with definitions; classifications and categories, which emphasize the creation of subject sets; and relationship lists, which emphasize the connections between terms and concepts.” [15]
Auf dieser konzeptuellen Grundlage der Einteilung von Hodge und der Einführung des abstrakten Begriffs KOS lassen sich möglicherweise Modellüberlegungen anstellen. Beispielsweise ist die Verbindung einer ausgereiften Klassifikation mit anderen KOS-Typen/kontrollierten Vokabularen keine Trivialität und setzt klare Regeln und viel Erfahrung beim Terminologie-Mapping voraus [5; 17]. Renardus5 und MACS6 sind Beispiele für Projekte, die Crosskonkordanzen erstellt und eingesetzt haben. Die Deutsche Bibliothek, die in unterschiedlichen Crosskonkordanz-Projekten beteiligt war [11], hat dieses Jahr mit dem CRISSCROSS-Projekt7 begonnen. Ziel ist hier, die Sachschlagwörter der Schlagwortnormdatei mit den Notationen der Dewey-Dezimalklassifikation (DDC) zu verbinden. Eine aktuelle Übersicht von Projekten zum Thema Interoperabilität zwischen KOS (Crosskonkordanzen und weitere Verfahren) findet sich bei Zeng & Chan [43] sowie McIlwaine [26].
2 Siehe dazu die Unterscheidung von Enduser-Thesaurus und Indexierungsthesaurus bei Blocks [3] sowie [6; 16].
3 „Die These ist, dass heterogene Dokumentenbestände zuerst durch Transfermodule bilateral miteinander verbunden werden sollten (Vagheitsmodellierung auf Dokumentenebene), bevor sie in den übergeordneten Prozess der Vagheitsbehandlung zwischen Dokumenten und Anfrage (das klassische IR-Problem) eingefügt werden.“ [18].
4 http://www.infoconnex.de.
5 http://www.renardus.org.
6 http://www.ddb.de/wir/projekte/macs.htm.
7 http://www.ddb.de/wir/projekte/crisscross.htm.
| © Die inhaltliche Zusammenstellung und Aufmachung dieser Publikation sowie die elektronische Verarbeitung sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung. Das gilt insbesondere für die Vervielfältigung, die Bearbeitung und Einspeicherung und Verarbeitung in elektronische Systeme. | ||
| DiML DTD Version 4.0 | Zertifizierter Dokumentenserver der Humboldt-Universität zu Berlin | HTML-Version erstellt am: 29.03.2007 |