Big Scholarly Data im Open Access Monitor: ein Werkstattbericht
Im Zusammenhang mit der Open-Access-Transformation rückt die Auswertung großer Datenmengen immer mehr in den Fokus von Bibliotheken, da die Anzahl der wissenschaftlichen Publikationen beständig ansteigt. Diese stetig anwachsende Datenmenge muss zuerst nutzbar gemacht werden, bevor fundierte Aussagen beispielsweise zu einrichtungsbezogenen Publikationsoutputs möglich sind. Hier setzt der Open Access Monitor (OAM) an, welcher als Schnittstelle zur Zusammenführung diverser Quellsysteme wie Unpaywall, Dimensions, Web of Science und Scopus fungiert. Dazu ist der OAM strukturell dreigeteilt: Die Daten befinden sich in der Datenbank (Backend), welche über die REST-Schnittstelle (API) abgefragt oder über die Weboberfläche (Frontend) präsentiert und visualisiert werden können.
Durch die Nachnutzung einer Vielzahl an Quellsystemen müssen die Daten homogenisiert werden, um vollständige Datenbestände ohne Dubletten zu realisieren. Dafür müssen Zeitschriftentitel oder Einrichtungsbezeichnungen vereinheitlicht werden, um die ursprünglichen Einträge aus den Quellsysteme den entsprechenden Datensätzen im OAM zuordnen zu können. Im Falle der Einrichtungsnamen werden diese mit persistenten Identifikatoren (PID) angereichert. Für die Daten von manchen Datenbanken können die dort hinterlegten Einrichtungsnormierungen nicht direkt auf Organisations-Identifier (ROR-IDs) gemappt werden, weshalb der Umweg über die Rohformen der Affiliationsangaben der Autor*innen gewählt wird.
Dieses Mapping der Affiliationsangaben ist eine umfangreiche und komplexe Aufgabe, da zum einen die gelieferten Angaben häufig nicht eindeutig sind und zum anderen eine klare Trennung der Einrichtungen, insbesondere bei Universitätskliniken, eine intellektuelle Bearbeitung erfordert. Der hochkomplexe Vorgang, aus einer Vielzahl an Datenquellen einen einheitlichen Datensatz zu generieren, wird im Beitrag aufgezeigt, wobei ein besonderer Schwerpunkt auf die Normierungsprozesse sowie die Vergabe der Open-Access-Kategorien gelegt wird.
Die Metadatenqualität bleibt eine beständige Herausforderung, gleiches gilt für das Thema der Verfügbarkeit und Nachhaltigkeit der angebundenen Quellsysteme. Die Anbindung offener Datenquelle wäre wünschenswert – es entspräche den Zielen der uneingeschränkten (Nach-)Nutzbarkeit der OAM-Daten. Ob beispielsweise OpenAlex als nicht-kommerzielle Datenbank als weiteres Quellsystem für den OAM in Frage kommt, wird abschließend diskutiert. In the light of the Open Access transformation, the analysis of large amounts of data is increasingly important for libraries, whereas the number of scholarly publications is constantly growing. Large amounts of data must first be made usable before any substantiated analysis can be made, e.g. regarding institution-related publication outputs. This is where the Open Access Monitor (OAM) comes in, which acts as an interface for merging data from various source systems such as Unpaywall, Dimensions, Web of Science and Scopus. For this purpose, the OAM is structurally divided into three parts: the backend hosts the data, which can be queried via the API, and is presented and visualized in the frontend.
All data, coming from various source systems, must be homogenized in order to realize complete data sets without creating duplicates. Journal titles or institution names have to be standardized to allow assigning the original entries from the source systems to the corresponding data records in the OAM. In the case of institution names, these are enriched with persistent identifiers. Given the way the data is organized in some of the source databases, the institution names cannot be mapped directly to organization identifiers (ROR-IDs) in some cases. Therefore, the raw forms of the author’s affiliation information are used in the mapping process.
Affiliation mapping is an extensive and complex task, since the data provided are often ambiguous and at the same time a clear distinction of institutions, especially in the case of university hospitals, requires intellectual processing. The highly complex process of generating a uniform data set from a multitude of data sources will be demonstrated, with a special focus on the normalization processes as well as the assignment of Open Access categories.
Metadata quality remains a constant challenge, as does the issue of availability and sustainability of the connected source systems. The use and integration of open data sources is generally desirable – it would be in line with the OAM’s goal of unrestricted (re-) usability of the OAM data. The pros and cons of using non-commercial databases are discussed using OpenAlex as an example.
Files in this item