FORSCHUNG
INTERNE ENTWICKLUNGSPROJEKTE
Für die Weiterentwicklung der Datenbankinfrastruktur werden durch das Kompetenznetzwerk Bibliometrie verschiedene Entwicklungsprojekte durchgeführt. Berichte zu beendeten Projekte sind in unserem Archiv abrufbar.
Komparative Analyse und Kuratierung Deutscher Metadaten in Offenen Bibliometriedaten (OPENBIB)
Projektlaufzeit: Mai 2023 – Dezember 2025
Ziel des Entwicklungsprojektes ist der Aufbau einer offenen Bibliometriedatenbank innerhalb des Kompetenznetzwerks Bibliometrie. Dadurch wird für die Wissenschafts- und Hochschulforschung die Möglichkeit geschaffen, zur Förderung des Open-Science-Gedankens offene Datenquellen als Alternative zu den proprietären Bibliometriedatenbanken zu nutzen. Gleichzeitig verspricht der Aufbau einer frei zugänglichen Bibliometriedatenbank ein eigenständiges Analysepotential im Hinblick auf solche Publikationsorte und ‑weisen, die in den proprietären Daten nicht abgedeckt sind.
Konkret wird innerhalb des Kompetenznetzwerks Bibliometrie eine offene Bibliometriedatenbank auf der Basis von OpenAlex kooperativ aufgebaut. Dabei verfolgt das Verbundprojekt der KB-Partner SUB Göttingen, Universität Bielefeld, FZ Jülich, GESIS und DZHW in Zusammenarbeit mit dem KB-Hosting Partner FIZ Karlsruhe und unter Einbezug weiterer KB-Partner folgende aufeinander abgestimmte Teilziele:
- Datenbankbereitstellung: Bereitstellung einer freien und maschinenlesbaren Entwickler-Instanz der Bibliometriedatenbank OpenAlex als Grundlage für die Kuratierung deutscher Publikationsdaten unter Nutzung einer offenen Lizenz.
- Datenbankvergleich: Vergleichende Analyse der Abdeckung und Qualität der offenen Bibliometriedatenbank OpenAlex gegenüber den proprietären Datenbanken.
- Datenkuratierung: Entwicklung und Anwendung technischer Verfahren zur Kuratierung der Metadaten von Publikationen, die unter Beteiligung deutscher Forschungseinrichtungen entstanden sind.
- Vernetzung und Verwertung: Identifizierung von nationalen und internationalen Nachnutzungsmöglichkeiten.
Ansprechperson: Najko Jahn (SUB Göttingen)
Weitere Informationen können im Blog des Projekts gefunden werden.
Dateninfrastruktur
Das Kompetenznetzwerk Bibliometrie betreibt eine qualitätsgesicherte Dateninfrastruktur. Diese wird am FIZ Karlsruhe gehostet. Im Zentrum der Dateninfrastruktur stehen die bibliografischen Datenbanken Scopus (Elsevier) und der Kernbestand des Web of Science (Clarivate Analytics). Die Datenbestände von OpenAlex werden im Laufe des Jahres 2025 gleichberechtigt zu den beiden anderen Datenbanken in die Infrastruktur integriert.
Die Datenbestände werden über eine Reihe von automatischen und semiautomatischen Prozeduren während der Ladeprozesse überprüft und eventuelle Fehler beim Laden und Mapping korrigiert sowie Irregularitäten an die Betreiber Elsevier und Clarivate gemeldet. Es werden einige Standardisierungen, insb. im Fall von Identifiern und Länderangaben, vorgenommen. Jede Datenbankversion wird von einem intern veröffentlichten Qualitätssicherungs-Report begleitet und einmal jährlich werden aggregierte Daten und Indikatoren mit dem Stand des Vorjahres verglichen und in einem frei zugänglichen Bericht veröffentlicht.
Die Schemata der Bibliometriedatenbanken sind für die Benutzung für bibliometrische Analysen konzipiert und optimiert, sie enthalten zudem auch Datenanreicherungen und vorberechnete Indikatoren.
Ein besonderer Mehrwert der vom Kompetenznetzwerk Bibliometrie betriebenen Dateninfrastruktur ist die implementierte Institutionenkodierung, die variierende Schreibweisen, die in den Adressfeldern der gelieferten Rohdaten enthalten sind, zusammenführt. Die Institutionenkodierung greift dafür zunächst auf Adress-Informationen in den Rohdaten von WoS, Scopus und OAL zu und liefert eine eindeutige Zuordnung der Publikationen zu Forschungseinrichtungen, wobei strukturelle Veränderungen der Institutionenlandschaft über die Zeit hinweg mittels zweier alternativer Mappings dargestellt wird. Die Institutionenkodierung wird für alle Publikationen aus Deutschland prozessiert, so dass bibliometrische Evaluationen deutschen Forschungseinrichtungen durch eine Datenbasis mit verbesserter Validität unterstützt werden. Die Institutionencodierung wird von I²SoS, Universität Bielefeld, in Zusammenarbeit mit FIZ Karlsruhe entwickelt und betrieben.
Schritte zu einer offenen, reproduzierbaren Infrastruktur
Um die Reproduzierbarkeit bibliometrischer Analysen zu unterstützen werden die vierteljährlich aktualisierten, qualitätsgeprüften Bibliometriedatenbanken zu einem definierten Zeitpunkt festgeschrieben und eingefroren. Die alten Versionen der Datenbanken werden archiviert. Ebenfalls zur Unterstützung von Reproduzierbarkeit und Transparenz der Dateninfrastruktur wurde 2024 ein Artikel geschrieben, der konzeptuelle Überlegungen zur technischen Infrastruktur und diese selbst beschreibt, das Datenbankschema und Lade- sowie Prozesse zur Datenkuratierung und Qualitätssicherung dokumentiert. Er wurde als Preprint auf Zenodo veröffentlicht sowie in QSS eingereicht. Das DDL-Script zur Erstellung der Tabellen ist ebenfalls auf Zenodo abgelegt.
Weitere Details werden in den zugehörigen Arbeitsberichten aufbereitet.
Eine Veröffentlichung von ausgewählten, kuratierten Datensegmenten aus dem OPENBIB-Projekt ist über Github sowie ebenfalls über Zenodo erhältlich.
Anwendung
Das Kompetenznetzwerk Bibliometrie wird vom BMBF darin gefördert, diese Dateninfrastruktur bereit zu stellen; dagegen werden Forschungsprojekte i.d.R. nicht im Rahmen des KB gefördert. Die Partnereinrichtungen des KB nutzen ihre Grundförderung oder anderweitig eingeworbene Drittmittel, um auf Basis der durch das KB bereitgestellten Daten zu forschen. In den vergangenen Jahren sind viele Publikationen und Vorträge entstanden, die sich sowohl mit methodologischen Fragestellungen der Bibliometrie beschäftigen als auch bibliometrische Daten für z.B. wissenschaftssoziologische oder innovationsökonomische Fragen benutzen.
PUBLIKATIONEN UND VORTRÄGE
Folgende Publikationen und Vorträge sind unter Verwendung der Infrastruktur des Kompetenznetzwerks Bibliometrie entstanden:
Akbaritabar, A., Theile, T., & Zagheni, E. (2024).
SCIENTIFIC DATA, 11(1). https://doi.org/10.1038/s41597-024–03655‑9
Akbaritabar, A., Torres, A. F. C., & Lariviere, V. (2024).
A global perspective on social stratification in science.
HUMANITIES & SOCIAL SCIENCES COMMUNICATIONS, 11(1). https://doi.org/10.1057/s41599-024–03402‑w
Aman, V., & Besselaar, P. V. D. (2024).
JOURNAL OF INFORMETRICS, 18(2), 101500. https://doi.org/10.1016/j.joi.2024.101500
Asanov, A.-M., Asanov, I., Buenstorf, G., Kadriu, V., & Schoch, P. (2024).
SCIENTOMETRICS, 129(4), 2389–2405. https://doi.org/10.1007/s11192-024–04952‑1
Backes, T., & Dietze, S. (2024).
Connected components for scaling partial-order blocking to billion entities.
JOURNAL OF DATA AND INFORMATION QUALITY, 16(1), 9. https://doi.org/10.1145/3646553
Boulanger, C., Creutzfeldt, N., & Hendry, J., (2024).
The Journal of Law and Society in Context: Network Analysis of Citations.
JOURNAL OF LAW AND SOCIETY. Journal of Law and Society Blog.
Bornmann, L., & Haunschild, R. (2024).
The Prize Winner Index (PWI): A proposal for an indicator based on scientific prizes.
JOURNAL OF INFORMETRICS, 18(4). https://doi.org/10.1016/j.joi.2024.101560
Donner, P. (2024).
Remarks on modified fractional counting.
JOURNAL OF INFORMETRICS, 18(4). https://doi.org/10.1016/j.joi.2024.101585
Haunschild, R., & Bornmann, L. (2024).
PLOS ONE, 19(12), e0308041. https://doi.org/10.1371/journal.pone.0308041
Leibel, C., & Bornmann, L. (2024).
SCIENTOMETRICS, 129(12), 7971–7979. https://doi.org/10.1007/s11192-024–05201‑1
Melnychuk, T., & Schultz, C. (2024).
JOURNAL OF PRODUCT INNOVATION MANAGEMENT. https://doi.org/10.1111/jpim.12750
Schmidt, M. (2024).
Why do some retracted articles continue to get cited?
SCIENTOMETRICS, 129(12), 7535–7563. https://doi.org/10.1007/s11192-024–05147‑4
Stephen D., & Stahlschmidt S., (2024):
SCIENTOMETRICS. https://doi.org/10.1007/s11192-024–05006‑2
Taubert, N., Hobert, A., Jahn, N., Bruns, A., & Iravani, E. (2024).
SCIENTOMETRICS, 129(5), 2801–2825. https://doi.org/10.1007/s11192-024–05003‑5
Taubert, N., Sterzik, L., & Bruns, A. (2024).
Mapping the German Diamond Open Access Journal Landscape.
MINERVA, 62(2), 193–227. https://doi.org/10.1007/s11024-023–09519‑7
Torres, A. F. C., & Akbaritabar, A. (2024).
The use of linear models in quantitative research.
QUANTITATIVE SCIENCE STUDIES, 5(2), 426–446. https://doi.org/10.1162/qss_a_00294
Wang, J., Frietsch, R., Neuhaeusler, P., & Hooi, R. (2024).
International collaboration leading to high citations: Global impact or home country effect?
JOURNAL OF INFORMETRICS, 18(4). https://doi.org/10.1016/j.joi.2024.101565
Wieczorek, O., Schmitz, A., Volle, J., Bayarkhuu, K., & Münch, R. (2024).
SOZIALE WELT, 26, 239–279. https://doi.org/10.5771/9783748925590–239
Wray, K. B., Paludan, S. R., Bornmann, L., & Haunschild, R., (2024).
SCIENTOMETRICS. https://doi.org/10.1007/s11192-024–05001‑7
Zhang, X. (2024).
JOURNAL OF INFORMETRICS, 18(4). https://doi.org/10.1016/j.joi.2024.101574