ARCHIVE

Internal development projects
2021
2020
2019
2018
2017
2016
before 2016

ARCHIVE OF INTERNAL DEVELOPMENT PROJECTS

2021

Mining Acknowledgement Texts in Web of Science (MinAck) (GESIS)

The focus of the project is the detection and quantitative analysis of acknowledged entities, i.e., named entity recognition (NER) task in a larger corpus of WoS articles which include acknowledgements. The analysis of acknowledgments is particularly interesting as acknowledgments may give an insight on such aspects of scientific society as reward systems, collaboration structures, and hidden research trends. The FLAIR NLP Framework will be used to perform the acknowledged entity recognition task.

Project Report: Mining Acknowledgement Texts in Web of Science (MinAck)

2020

Machbarkeitsstudie ‘Institutionen-Kodierung Dimensions’ (Universität Bielefeld, AG Bibliometrie)

In diesem Projekt wird die Anwendbarkeit der bestehenden Institutionen-Kodierung auf die Daten von Dimensions geprüft. Dies umfasst die Anwendung der Disambiguierungsroutinen auf die Dimensions-Daten und den Vergleich der von Dimensions angebotenen GRID-Daten.

Download Machbarkeitsstudie “Institutionen-Kodierung Dimensions”

Erkundung des Dimensions Zitationsnetzwerks als Datenquelle für das Kompetenzzentrum Bibliometrie (DZHW)

Im Projekt wird das Zitationsnetzwerk von Dimensions mit denen von WoS und Scopus verglichen, um einen möglichen Mehrwert der Datenquelle für zitationsanalytische Studien zu identifizieren. Es werden getrennt Teilmengen von Publikationen betrachtet, die in allen Quellen enthalten sind, nur in zwei Quellen enthalten sind und solchen, die nur in einer Quelle enthalten sind. Untersucht wird auch, inwiefern die gleichen Veröffentlichungen in den verschiedenen Quellen hinsichtlich ihres Zitationsimpact unterschiedliche Ergebnisse aufweisen.

Download Erkundung des Dimensions Zitationsnetzwerks als Datenquelle für das Kompetenzzentrum Bibliometrie

Dimensions – Evaluierung der Inhalte und bibliometrischen Datenbasis (FZ Jülich)

Die Studie untersucht die Inhalte von Dimensions im Vergleich zu den beiden bislang im KB verwendeten Quelldatenbanken. Dies umfasst die statistische Erfassung der Inhalte und Überprüfung auf mögliche Abdeckungslücken, die Prüfung der vorhandenen Datenfelder hinsichtlich Eignung für bibliometrische Studien, und Evaluierung der Datenkonsistenz.

Download Dimensions – Evaluierung der Inhalte und bibliometrischen Datenbasis

Based on the three projects the DZHW, FZ Jülich and Universität Bielefeld have compiled a summary of the main results and provide recommendations for the KB.

2019

Journal-Historisierung und Zugehörigkeit (I²SoS Bielefeld)

Die Veränderung von Zeitschriftentiteln wie zum Beispiel Gründung, Einstellung, Zusammenschluss, Aufspaltung und die Abänderung des Titels wird in der derzeitigen KB Datenbankstruktur nicht abgebildet. Des Weiteren wird zwar Auskunft über die derzeitige Zugehörigkeit von Zeitschriften zu Verlagen, nicht aber über die Veränderung der Besitzverhältnisse im Zeitverlauf gegeben. Je nach Projektkontext und Erkenntnisinteresse kann es von Bedeutung sein, die Identifizierung und Zuordnung von Journalentitäten und deren Zugehörigkeit zu Verlagen im historischen Verlauf zu berücksichtigen, so dass die Ergänzung dieser Informationen eine Aufwertung der KB-Datenbanken darstellt. Ziel des Kleinprojekts ist es, eine Datengrundlage zu schaffen, die eine Analyse der Zugehörigkeit von Zeitschriftentiteln zu Verlagen im Zeitverlauf erlaubt.

Download Journal-Historisierung und Zugehörigkeit. Endbericht

Scalable Disambiguation of Institutions for Web of Science (GESIS)

Ambiguity level of institution names is different in various data aggregators based on metadata provided. The Web of Science (WoS) supports basic structures such as university, street address, city, ZIP code and country name. Nevertheless different styles of filling the fields by authors are not avoidable. Often, it is not obvious whether two different references to institutions are variants of just one name or actually constitute different institutions. Authors enter their affiliation in different ways over various publications or introduce spelling errors. The aim of this study is to introduce a method to disambiguate the institution names in WoS, as a large scale bibliometric database. For this purpose, multiple variants of institutions name are grouped together. To evaluate the method, we will use the institution coding implemented by Bielefeld University.

Download Scalable Disambiguation of Institutions for Web of Science

2018

Analyzing Self-citations in Web of Science (GESIS)

As the h-index becomes the gold standard for measuring scholarly impact, the risk for gaming the system grows. This has spurred the proposal for reporting a self-citation index (s‑index), which aims to add much needed context to calculated h scores. It also is expected to promote good citation habits. A necessary step towards using the metric is validation. Here we propose to use the s-index to measure how self-citation patterns vary according to different fields, academic ages, countries, and institutions.

Report: Tracking self-citations in academic publishing

Applying Crossref license information to identify gold, hybrid and delayed open access publications in the KB publication corpus

The restricted access to published, peer-reviewed documents is enforced via a legal framework, which is predominately based upon copyright laws. In the publication process authors transfer the copyright (or solely the exclusive reproduction rights) to a publisher and the publisher uses these rights as a legal instrument to restrict access to an audience which is willing to pay for obtaining the right to access the content. Given this perspective any identification of OA publications must therefore also be based upon legal information, which defines the access character of the publication as imposed by the copyright holder, i.e. the publisher.

Inspired by the Hybrid OA Dashboard (Jahn, 2017) we therefore propose to apply licensing information supplied by publishers to the publisher association Crossref to identify OA publication. In detail, we propose to obtain the respective licenses of Web of Science (or Scopus) indexed publications and compare them with a whitelist of established OA licenses and annotate the thereby defined OA status of the publications in the KB infrastructure.

Report: Applying Crossref and Unpaywall information to identify gold, hidden gold, hybrid and delayed Open Access publications in the KB publication corpus

Effizientes Retrieval auf Web of Science-Daten mit Elasticsearch (GESIS)

Im Projekt “Effizientes Retrieval auf Web of Science-Daten mit Elasticsearch” ist geplant, die umfangreichen XML-Daten des Web of Science (WoS), die aktuell in einer SQL-Datenbank vorliegen, in einen performanten Elasticsearch Index3 zu überführen. Dadurch werden diese Daten effizienter recherchierbar und leichter zugänglich.

Abschlussbericht: Effzientes Retrieval auf Web of Science-Daten mit Elasticsearch

2017

Institutionenkodierung für weitere Länder (Universität Bielefeld)

Für verschiedene Anwendungen (z.B. fraktionierte Zählmethoden auf Basis von Institutionen) ist eine Institutionenkodierung notwendig. Die existierende Institutionenkodierung beschränkt sich auf deutsche Adressen/Institutionen und es besteht innerhalb des Kompetenzzentrums Bibliometrie (KB) ein Bedarf nach einer Ausweitung auf weitere Länder. Allerdings skaliert die für Deutschland angewandte Methode der Adress-Disambiguierung nicht auf größerem Maßstab. Daher ist es Ziel dieses Projektes, die Durchführbarkeit einer Institutionenkodierung für weitere Länder mit unterschiedlichen Methoden zu testen.

Institutional disambiguation for further countries – an exploration with extensive use of wikidata (project report)

Publisher: Disambiguierung und Historisierung (Universität Bielefeld)

Ziel des Projektes ist die Bereitstellung bereinigter und angereicherter Verlagsinformationen für die Bibliometrie-Datenbanken. Ähnlich wie bei Adressen zu Institutionen liegen auch im Fall von Verlagsbezeichnungen unterschiedliche Schreibweisen vor, es bestehen (Hierarchie-)beziehungen zwischen Verlagen und Strukturveränderungen über die Zeit.

Publisher. Disambiguierung und Historisierung. Projektbericht

Geo-Kodierung auf Grundlage der NUTS-Systematik (Universität Bielefeld)

In dem Projekt wird eine Zuordnung von Adressen zu NUTS-Codes erstellt.

NUTS Geocoding – project report

Research Level-Daten für die Bibliometriedatenbanken (DZHW)

Anwendung der automatischen Research Level-Klassifikation (Boyack et al. (2014), Journal of Informetrics, 8, 1–12) auf die Datenbestände des KB sowie Validierung der Zuordnungen anhand ausgewählter externer Datensätze. Diese Klassifikation ordnet einzelne Publikationen anhand der Begriffe im Titel und Abstract in vier Klassen nach ihrer Anwendungs- bzw. Grundlagenorientierung. Ergebnis der Projektes ist eine zusätzliche Datenbanktabelle mit Research Level-Angaben für die KB-Infrastruktur und ein interner Bericht zur Einschätzung der Validität der Verfahrens.

Bericht: Research Level-Daten für die Bibliometriedatenbanken

Kodierung internationaler Institutionen – eine Machbarkeitsstudie anhand von ausgewählten Ländern (Fraunhofer ISI)

Im Rahmen einer Machbarkeitsstudie werden mögliche Verfahren zur weltweiten Institutionskodierung entwickelt und getestet. Dabei soll das Verfahren soweit möglich automatisiert ablaufen. Es wird ein Bottom-Up-Verfahren auf Basis der zu kodierenden Daten entwickelt, wobei die bestehenden distinkten Organisationen zunächst wie einzelne Organisationsinstanzen behandelt werden, welche dann weiter zusammen gruppiert werden, um eine Unterscheidung in eindeutige Organisationsobjekte zu erzielen. Es wird zunächst eine Zuordnung auf Basis von identischen bzw. ähnlichen Namensvarianten der Organisationen getestet. Zur Evaluierung der Methode wurde zuerst ein Goldstandard-Datensatz entwickelt, auf dessen Basis die Ergebnisse unserer Methode schlussendlich analysiert werden sollen.

Abschlussbericht: Kodierung internationaler Institutionen – eine Machbarkeitsstudie anhand von ausgewählten Ländern

2016

Prüfung der Klassifizierbarkeit ‘Bereich Wirtschaft’ auf internationaler Ebene (DZHW)

Die Frage nach der Verschränkung von Wissenschaft und Wirtschaft, insbesondere in international vergleichender Perspektive, aber auch für einzelne Länder über die Zeit, ist eine wissenschaftspolitisch zunehmend wichtige Kenngröße. Derzeit erlaubt die Dateninfrastruktur des Kompetenzzentrums Bibliometrie eine Zuschreibung der Kategorie “Wirtschaft” für Institutionen mit deutschem Sitz. Diese institutionelle Disambiguierung erlaubt es annäherungsweise die Integration von Wissenschaft und Wirtschaftsakteuren über Ko-Publikationen zu analysieren. Jedoch nur für solche Fälle, in denen beide Akteure ihren Sitz in Deutschland haben. Es wird daher vorgeschlagen, Ansätze aus der Harmonisierung von Datenbeständen zu nutzen und deren Übertragbarkeit auf Publikationsdaten zu prüfen.

Bericht: There is no easy way around disambiguation to construct valid publicationbased indicators for science-industry linkage

Vergabe von eindeutigen Autoren-IDs in WoS: Teil 2 (GESIS)

Die Identifikation und Disambiguierung von Autorennamen ermöglicht es, über Personennamen die Suche von Publikationen im Datenbestand vorzunehmen, um präzise Auskünfte zu Verfassern und deren Veröffentlichungen zu erhalten. Diese Disambiguierung wird im KB u. a. für Fallstudien und Länderanalysen dringend benötigt. Im Vorläuferprojekt wurde ein Verfahren auf Basis von Co-Autoren-Analysen entwickelt, um Autorennamen in DBLP und WoS-Datensätzen zu disambiguieren. Die Effektivität des Verfahrens wurde anhand von einem eigens dafür erstellten Golddatensatz jeweils für DBLP und WoS untersucht. Die Präzision für Autoren-Homonyme im Fall von DBLP und WoS liegt in der prototypischen Implementation in einem erfreulich guten Niveau. Projektgegenstand von Teil 2 des Projekts ist die Weiterentwicklung und Optimierung des prototypischen Verfahrens zur Autorendisambiguierung.

Download Project Report: Author Identifiers Part II

Geokodierung (Universität Bielefeld)

Die Untersuchung wird zum einen eine statistische Auswertung zu Art und Vollständigkeit der in den Adressdatensätzen von Web of Science und Scopus enthaltenen Geoinformationen liefern (Verfügbarkeit von Ortsnamen, PLZ, Straßenangaben; fehlende City- und Country-Angaben bei Scopus etc.). Zum anderen wird eine Übersicht über verfügbare und geeignete Ressourcen zur Geokodierung erstellt, einschließlich exemplarischer Tests zu deren Leistungsfähigkeit (und Problemen). Darüber hinaus werden Grundzüge eines Verfahrens zur Geokodierung entwickelt und ein Vorschlag für die Struktur der Tabellen zur Integration der Ergebnisse in die KB-Datenbanken vorgestellt.

Geokodierung von Autorenadressen in Publikationsdatenbanken. Abschlussbericht einer Untersuchung für das Kompetenzzentrum Bibliometrie

Bibliometrische Indikatoren als gespeicherte Prozeduren (DZHW)

In diesem Projekt soll ein Schritt in Richtung der Harmonisierung der Arbeit der Mitgliedseinrichtungen mit den gemeinsam genutzten Daten getan werden. Dazu sollen für gängige bibliometrische Indikatoren auf der institutionellen Ebene, der Ebene von Ländern und der Ebene von beliebig zusammengestellten Mengen an Publikationen standardisierte Abfragen als gespeicherte Prozeduren direkt in der Bibliometriedatenbank bereit gestellt werden. Die Prozeduren sind dann sowohl zur Ausführung als auch zur Ansicht der Berechnung, d.h. des Quellcodes den Benutzern der KB-Oracle-Datenbank freigegeben.

Dokumentation Bibliometrische Indikatoren als gespeicherte Prozeduren

Before 2016

Vergabe von eindeutigen Autoren-IDs in WoS

Problemstellung und Ziel
Eine Identifikation und Disambiguierung von Autorennamen ermöglicht es, über Personennamen die Suche von Publikationen im Datenbestand vorzunehmen, um präzise Auskünfte zu Verfassern und deren Veröffentlichungen zu erhalten. Ziel des Projektes ist es zunächst seitens GESIS, einen Goldstandard-Datensatz für Autoren-Publikationen-Relationen zu erstellen. GESIS und ISI entwickeln unabhängig voneinander unterschiedliche Merging-Verfahren und Ähnlichkeitsrechnungen, die anschließend mit dem Goldstandard evaluiert werden.

Antragsteller
Fraunhofer ISI und GESIS

Download Project Report: Author Identifiers

Download Endbericht: Vergabe von eindeutigen Autoren-IDs in WoS

Hierarchische Artikelklassifikation

Problemstellung und Ziel
Die in Web of Science (WoS) und Scopus verfügbaren Journalklassifikationen sind nicht geeignet, interdisziplinäre oder dynamische Forschungsgebiete abzugrenzen, da die Klassen einen unterschiedlichen Spezialisierungsgrad aufweisen. Hierfür ist eine Artikelklassifizierung erforderlich. Zur Klassifizierung werden Co-Occurrences von Referenzen verwendet.

Hierarchische Artikelklassifikation. Bericht für das Kompetenzzentrum Bibliometrie

Antragsteller
GESIS

Maße der Heterogenität von Subject Categories in WoS und ihr Einfluss auf feldnormalisierte Zitationsindikatoren

Problemstellung und Ziel
Für die Feldnormalisierung von Zitationsindikatoren ist die innere Homogenität von Subject Categories (SC) in der Datenbank Web of Science (WoS) bezüglich der unterliegenden Publikations- und Zitationskulturen eine basale Voraussetzung, die jedoch nicht immer gegeben zu sein scheint. In diesem Projekt wird eine Methode entwickelt, mit der Heterogenität innerhalb von Subject Categories quantifizierbar gemacht und in der Form eines Fehlerintervalls in die Normalisierung integriert werden kann. Damit sollen insbesondere Klassen mit asymmetrischen Zitationsstrukturen (bspw. zwischen Grundlagenforschung und anwendungsorientierter Forschung zum gleichen Gegenstand) identifiziert werden.

Antragsteller
DZHW

Download: Measuring and analysing the internal, topical coherence of Web of Science Subject Categories

Auswirkung der KB-Institutionencodierung auf bibliometrische Indikatoren auf Institutionenebene

Problemstellung und Ziel
Ziel der Studie ist die Quantifizierung des Ausmaßes und der Bandbreite der Veränderungen von typischen bibliometrischen Indikatoren durch die Disambiguierung deutscher Institutionsadressen der Uni Bielefeld. Zu diesem Zweck sollen international als Standard anerkannte und aussagekräftige Kennzahlen des Publikationsoutputs, der nationalen und internationalen Kooperation sowie des Impacts von deutschen wissenschaftlichen Einrichtungen berechnet werden – einmal unter Berücksichtigung der bereinigten und zusammengeführten Adressdaten und, als Kontrast, über die typische in der Datenbank benutzte Institutionskennung.
Zusätzlich sollen auch Beispielrechnungen zum Effekt auf bibliometrische Maße von Einrichtungen durchgeführt werden, die eine Veränderung in der Organisationsstruktur durchlaufen haben (z.B. Fusion, Eingliederung) unter Nutzung der Historisierungskomponente der Adresscodierung.

Antragsteller
Universität Bielefeld I²SOS und DZHW

Download: Comparing institutional-level bibliometric research performance indicator values based on different affiliation disambiguation systems

Lässt sich Forschungsförderung bibliometrisch abbilden? Reliabilität und Validität von Angaben zu Funding Acknowledgements im Web of Science

Problemstellung und Ziel
Die Zuordnung des Forschungsoutputs zu den jeweiligen fördernden Organisationen ist nach wie vor aufwendig. Im Rahmen des Vorhabens sollen Methoden der Zuordnung von Publikationen zu Forschungsförderern verglichen werden. Ziel ist es insbesondere, zu einer Bewertung der Reliabilität und Validität der im Web of Science verfügbaren Angaben zu Funding Acknowledgements und Aussagen zu deren Nutzbarkeit in bibliometrischen Analysen zu kommen.

Projektbeschreibung
Im Rahmen des Projektes soll am Beispiel der DFG und der BMBF Forschungsförderung die Reliabilität und Validität der Angaben “Funding Acknowledgements” untersucht werden. Dazu werden die im Web of Science erfassten Funding Acknowledgements mit den Angaben zu Publikationen in den Abschlussberichten zu von der DFG und dem BMBF geförderten Projekten abgeglichen. Zusätzlich werden die Ergebnisse des Vergleichs im Rahmen von Kurzinterviews validiert. Dadurch sollen Rückschlüsse auf die Motivation für die Nennung der Förderorganisation, auf die Nennung von Förderorganisationen bei Mehrfachförderung und auf mögliche Verzerrungen, die sich aus dem von Thomson Reuters eingesetzten Erhebungsverfahren ergeben, gezogen werden. Basierend auf den Ergebnissen wird eine Einschätzung der Vollständigkeit und der Richtigkeit der Angaben zu Funding Acknowledgements im Web of Science gegeben.

Butler, L. / Biglia, B. / Bourke, P., 1998: Australian Biomedical Research: Funding Acknowledgments and Performance. Canberra: NHMRC.
Gilles, C. / Councill, I., 2004: Who gets acknowledged: Measuring scientific contributions through automatic acknowledgment indexing. PNAS 101 (51), 17599–17604.

Antragsteller
Institut für Forschungsinformation und Qualitätssicherung (iFQ)

Download: Bericht Funding Acknowledgement-Datenbereinigung Web of Science

Identifikation aufkommender wissenschaftlicher Gebiete

Problemstellung und Ziel
Die Information über die Abgrenzung verschiedener Themengebiete, den Wandel dieser Themengebiete über die Zeit und die Entstehung neuer Themengebiete kann sowohl für Wissenschaftler, Veranstalter von Konferenzen u.ä. als auch für Förderer von Forschungsprogrammen, ‑projekten und ‑einrichtungen von großer Wichtigkeit sein. Eine manuelle Identifikation von bestehenden und neu entstandenen Themengebieten ist jedoch aufgrund der Menge an Publikationen und der fehlenden Übersicht über diese kaum realisierbar. In diesem Projekt soll deshalb ein automatisches Verfahren zur Erstellung von Sammlungen solcher Publikationen zu einem Themengebiet, sogenannte Cluster, am aktuellen Rand erstellt werden. Dieses Verfahren nutzt die Kenntnisse über bereits bestehende Themengebiete und die Eigenschaften entstandener Themengebiete, um neue Themengebiete zu erkennen und als neue Cluster von den bestehenden abzugrenzen. Zusätzlich zur Erstellung dieser Cluster sollen diese von einem automatischen Verfahren benannt werden, das hierzu textuelle Informationen aus den Publikationen benutzt und aus diesen solche auswählt, die dieses Themengebiet spezifizieren und von den anderen hinreichend abgrenzt.

Projektbeschreibung
Am Anfang des Projekts werden die Attribute bestimmt, mit denen die Gebiete in bibliometrischen Datensätzen automatisch voneinander abgegrenzt werden können. Diese werden auf einem eigens dafür erstellten bereinigten Teildatensatz (aus der Oberklasse “Computer Science”) mit einem Machine Learning Ansatz auf ihre Eignung getestet. Auf diese Weise soll ein automatisches Verfahren zur Erstellung der Themencluster generiert werden. Darauf aufbauend wird ein zweites Verfahren zur Benennung dieser Cluster entwickelt. Hierdurch wird es möglich, die Entstehung und Entwicklung von Themenclustern über die Zeit genauer zu analysieren und das Verfahren zur Früherkennung von aufkommenden Gebieten zu verfeinern.

Antragsteller
Fraunhofer Institut für System- und Innovationsforschung (Fraunhofer ISI), Karlsruhe

Download: Emerging Topics in Science

Bibliometrische Ansätze zur Analyse des Brain Drains bei Wissenschaftlern

Problemstellung und Ziel
Der Brain Drain wissenschaftlicher Forscher ist offensichtlich ein erheblicher Verlust der besten Köpfe für die deutsche Forschung, es erweist sich jedoch als schwierig, das Ausmaß dieses Problems quantitativ zu fassen. Es gibt Statistiken zu Auslandsaufenthalten von Studierenden vor und während ihrer Promotion; andere Daten beschreiben die Emigration hoch qualifizierter Fachkräfte, sie unterscheiden jedoch nicht nach Berufsgruppen. Für wissenschaftspolitische Maßnahmen zur Begrenzung des Brain Drains wäre es wichtig, genauere Zahlen über dessen Umfang zu erhalten, insbesondere auch Angaben zu einzelnen Fächern und zu aufnehmenden Hochschulen, um geeignete Gegenmaßnahmen konzipieren zu können.

Projektbeschreibung
Es soll der Brain Drain aus Deutschland in die Vereinigten Staaten vertieft analysiert werden. Hierzu sollen für ein spezifisches Publikationsjahr alle Namen deutscher Autoren untersucht und für die Folgejahre geprüft werden, ob sie erneut als Autoren deutscher Einrichtungen in Erscheinung treten. Diese Untersuchung wird als Referenz verwendet, um das Niveau der Publikationsaktivitäten der Basisstichprobe in den nachfolgenden Jahren zu bestimmen. Dann wird geprüft, in welchem Ausmaß deutsche Autoren aus dem Basisjahr als Autoren amerikanischer Einrichtungen in Erscheinung treten. Da es in den Publikationsdatenbanken keine direkten Hinweise auf die Nationalität der Autoren gibt, sondern nur Adressen von Einrichtungen, werden zur eindeutigen Identifikation der in den Vereinigten Staaten arbeitenden deutschen Autoren neben dem vollen Namen weitere Kriterien benötigt, insbesondere das Fachgebiet. Die Analyse wird mit Hilfe der Datenbank Scopus realisiert werden. Im weiteren Zeitverlauf wird verfolgt, wie lange deutsche Autoren an amerikanischen Einrichtungen weiter publizieren und nach welcher Zeitdauer sie wieder nach Deutschland zurückkehren oder ob sie dauerhaft in den Vereinigten Staaten verbleiben. Eine analoge Analyse wird für Südafrika in Bezug auf Großbritannien durchgeführt, um den Vergleich mit den dortigen Erhebungszahlen zu ermöglichen.

Antragsteller
Fraunhofer Institut für System- und Innovationsforschung (Fraunhofer ISI), Karlsruhe

Download: Scientific mobility. An analysis of Germany, Austria, France and Great Britain

Institutionenkodierung

Problemstellung und Ziel
In den beiden interdisziplinären Literaturdatenbanken Web of Science (WoS) und Scopus sind pro Publikation zwar die institutionellen Adressen der Autoren erfasst, soweit diese im Original der jeweiligen Arbeit aufgeführt sind. Die Erfassung dieser Adressen lässt aber hinsichtlich Genauigkeit und Vollständigkeit sehr zu wünschen übrig. Dahinter verbergen sich verschiedene Probleme. Am bekanntesten ist das Problem der unterschiedlichen Schreibweisen von Adressen. Ein nicht zu unterschätzendes Problem stellen außerdem die Extremfälle von Publikationen dar, an denen Autoren von einer sehr großen Zahl von Institutionen beteiligt sind. Hinzu kommt, dass im Zeitverlauf die Institutionenlandschaft nicht stabil, sondern im Wandel ist. Vor diesem Hintergrund wäre es unzulässig, valide bibliometrische Indikatoren institutionsbezogen auf der Basis der unbereinigten, in WoS oder Scopus vorgefundenen Adressdatensätze generieren zu wollen. Das hier vorgeschlagene Teilprojekt zielt demgegenüber auf die Schaffung einer seriösen Basis für die bestmögliche Zuordnung der in WoS und Scopus erfassten Publikationen aller deutschen Institutionen.

Projektbeschreibung
Zunächst sollen die Adressdatensätze eines aktuellen Datenbankjahrgangs (2008) des WoS soweit wie möglich mit automatischen Prozeduren kodiert werden. Im nächsten Schritt sollen die gewonnenen Erfahrungen auf den Paralleljahrgang von Scopus übertragen werden. Die nach Durchführung der automatischen Kodierung verbleibende Restmenge von Problemadressen, die nicht ohne weiteres als zu einer deutschen Hauptinstitution gehörig zu identifizieren sind, werden einer manuellen Sichtung und Bearbeitung unterzogen. In einem weiteren Schritt werden jenseits einer bloßen Kodierung von Adressen nunmehr definitiv Publikationen zu (deutschen) Institutionen zugeordnet. Auf der Basis der gewonnenen Erfahrungen werden dann die Prozeduren zur automatischen Kodierung auf möglichst alle verfügbaren Jahrgänge von WoS und Scopus ausgedehnt. Im letzten Schritt schließlich soll ein Verfahren entwickelt werden, um die von den Datenbankherstellern eintreffenden Lieferungen neuer Daten kontinuierlich kodieren zu können.

Antragsteller
Universität Bielefeld

Download: Disambiguation of author addresses in bibliometric databases – technical report

Entwicklung von Methoden und Indikatoren zur Bewertung von Fehlern in der Bibliometrie (Fehlerlehre)

Problemstellung und Ziel
In der empirischen Sozialforschung übliche Methodenstandards und Fehlerlehren sowie darauf aufbauende Gütemaße sind in der Bibliometrie kaum entwickelt. Das ist nicht nur ein theoretisches Defizit, sondern zieht auch einen völlig unkritischen Umgang mit bibliometrischen Indikatoren, die nicht selten als „objektive Realitätsbeschreibungen“ betrachtet werden, nach sich. Dieses Teilprojekt soll daher zunächst die in der Literatur bereits diskutierten und aus vorhandenen bibliometrischen Studien und Publikationserhebungen bekannten Fehler- und Biasquellen aufarbeiten, sodann ansatzweise eine theoretisch begründete Fehlerlehre formulieren und zugehörige Gütemaße bereitstellen.

Projektbeschreibung
Ausgangspunkt dieses Projektes ist eine systematische Literaturanalyse, auf deren Basis eine Übersicht über die potenziell auftretenden Fehler und Interpretationsprobleme sowie deren Ausmaß und Auswirkungen entwickelt wird und Ansätze für Korrekturen und Gütemaße systematisiert werden. Die im Rahmen von Modulen entwickelten Gütemaße werden als Algorithmen in die bibliometrische Datenbank implementiert. Diese werden im Weiteren genutzt, um Indikatoren adäquat zu berechnen und deren Qualität und Aussagefähigkeit bewerten zu können. Parallel dazu sollen Algorithmen erstellt, geprüft und implementiert werden, mit deren Hilfe bei der Konstruktion der bibliometrischen Indikatoren die identifizierten Fehler und ihr Ausmaß adäquat berücksichtigt werden können.

Antragsteller
Institut für Forschungsinformation und Qualitätssicherung (iFQ)

Download: Measurement variation in bibliometric impact indicators

Feldabgrenzung und internationale Kollaborationen: Praktische Begleitforschung zum Pilotvorhaben zur Identifizierung internationaler Kooperationsmöglichkeiten

Problemstellung und Ziel
Im Rahmen eines Pilotprojekts entwickeln iFQ und IWT für das BMBF die Grundlagen für ein Monitoring-Instrument zur Identifizierung potentiell interessanter internationaler Kooperationspartner. Das Instrument soll fachunabhängig einsetzbar sein. Im begleitenden KB-Forschungsprojekt werden grundsätzliche methodische Fragen behandelt. Insbesondere geht es um die Entwicklung und Erprobung von Verfahren und Methoden, mit denen sich komplexe oder emergente Themengebiete bibliographisch abgrenzen lassen und um die Identifizierung geeigneter bibliometrischer Charakteristika, durch die sich entsprechende internationale Kooperationspartner auf verschiedenen Ebenen – Land, Institution und Person – auszeichnen, d.h. es geht darum, Indikatoren zur Identifizierung interessanter Kooperationspartner zu entwickeln und zu testen.

Projektbeschreibung
Mit Hilfe des vom ISN entwickelten Verfahrens wird versucht, Publikationen eines definierten Fachgebiets automatisiert aus einem großen Dokumentenbestand (WoS/Scopus) zu identifizieren und zu extrahieren. Der Algorithmus wird unter Nutzung der Abstracts einer zielgerechten Publikationsmenge trainiert. Auf dieser Basis wird ein sogenannter Fingerabdruck berechnet. Dieser lässt sich im Idealfall deutlich im Gesamtdatenbestand wieder finden und zur Feldabgrenzung verwenden. Für die Identifizierung von potentiellen Kooperationspartnern sollen Indikatoren entwickelt werden, die auf der Analyse von Kooperations- und Zitationsnetzwerken beruhen und die eine Bewertung der zeitlichen Stabilität der Indikatoren ermöglichen. Insbesondere geht es auch darum, skalenunabhängige Indikatoren zu entwickeln und zu erproben.

Antragsteller
Institut für Forschungsinformation und Qualitätssicherung (iFQ)

Kooperation
Institute for Science Networking Oldenburg GmbH (ISN), Oldenburg

Download: Feldabgrenzung und internationale Kollaborationen: Praktische Begleitforschung zum “Pilotvorhaben zur Identifizierung internationaler Kooperationsmöglichkeiten” des BMBF – Abschlussbericht

Klassifikation und Ähnlichkeitsanalyse von mathematischen Publikationen

Antragsteller
Universität Bielefeld

Nutzbarkeit bibliometrischer Indikatoren im Universitätsbenchmarking

Problemstellung und Ziel
Im Rahmen eines Projekts, welches organisatorisch von der HIS betreut wird, entwickeln mehrere Universitäten derzeit gemeinsam ein Kennzahlenset für ein internes Universitätsbenchmarking. Von den Universitäten werden Daten zur Internationalität, Leistungsfähigkeit der Lehre und Forschung sowie Gleichstellung erhoben. Ebenfalls im Benchmarking erfasst werden soll die Performanz in der Forschung. Hierzu wird das iFQ im Rahmen eines Pilotprojektes eine bibliometrische Analyse für zwei Fächer durchführen. Basierend auf Publikations- und Zitationsdaten werden Indikatoren bereitgestellt, die Aussagen zur Forschungsperformanz gestatten. Die Arbeiten des iFQ-Projektteams werden durch eine Arbeitsgruppe mit Vertretern und Vertreterinnen der Universitäten (u.a. den KanzlerInnen und WissenschaftlerInnen) begleitet. Dieses Pilotprojekt wird ergänzt durch ein KB-Projekt, in dem grundsätzliche methodische Fragen zur Eignung von bibliometrischen Indikatoren für das Benchmarking von Universitäten adressiert und bearbeitet werden, wie z.B. der Umgang mit Verzerrungen beim Vergleich der Einrichtungen, die Abgrenzung von fachlichen und organisatorischen Einheiten und die Normalisierung mit Personalstrukturdaten. Im Rahmen der Arbeitsgruppe und gegebenenfalls durch Interviews soll analysiert werden, ob und wie indikatorbasierte Aussagen mit den Einschätzungen der WissenschaftlerInnen korrespondieren. Ziel ist es, zu klären, unter welchen Voraussetzungen ein nationales Benchmarking möglich ist.

Projektbeschreibung
Publikationsdaten für die Fächer Physik und Chemie werden für den Zeitraum 2005–2010 für drei Universitäten erhoben. Abgegrenzt werden die Datensets auf der Grundlage der Institutionenadressen und Personennamen im Web of Science. Dieser Datenkorpus wird den Fachbereichen der Universitäten rückgekoppelt und von diesen verifiziert. Ergänzungen der Publikationsdaten werden mit dem Web of Science abgeglichen und Publikationsindikatoren für den gesamten Zeitraum sowie Zitationsindikatoren für den Zeitraum 2005–2007 ermittelt. Diese Analyse wird gegebenenfalls auf Non-Source-Items (Datensätze, die im Web of Science nur als Referenzen vorhanden sind) ausgeweitet.

Antragsteller
Institut für Forschungsinformation und Qualitätssicherung (iFQ)

Bibliometrische Indikatoren im Universitätsbenchmarking – Modifizierter übergreifender Bericht

Vollständige Erfassung von Patentanmeldungen aus Universitäten

Problemstellung und Ziel
Der Wissens- und Technologietransfer aus Hochschulen ist in den letzten Jahren als ein wesentlicher Ansatzpunkt zur Modernisierung der Wirtschaftsstrukturen und zur Förderung der wirtschaftlichen Dynamik gesehen worden. Zur Analyse der daraus resultierenden Veränderungen ist es wichtig, die Patentanmeldungen aus Hochschulen vollständig erfassen zu können. Zur Verbesserung der Ermittlung von Erfindungen aus Hochschulen wird ein Ansatz vorgeschlagen, bei dem bei den Namen von Erfindern geprüft wird, ob es gleiche Namen von Autoren in Publikationsdatenbanken gibt, um so die institutionelle Zuordnung von Erfindern zu Universitäten feststellen zu können. Ziel ist eine breite Erfassung der Patentanmeldungen aus Universitäten in allen Fachgebieten mit einer möglichst hohen Präzision der Zuordnung von Erfindern zu Autoren und damit zu deren Institutionen.

Projektbeschreibung
In dem Projekt geht es darum, für spezifische Jahrgänge von Patentanmeldungen, etwa ab Mitte der 1990er Jahre, sämtliche Erfinder am Deutschen Patentamt herunter zu laden und mit Autoren in den Datenbanken WoS und SCOPUS zu vergleichen. Im Falle von Übereinstimmungen sollen dann die zu den Autoren gehörenden wissenschaftlichen Einrichtungen festgestellt, und insbesondere Universitäten identifiziert werden. In aktuellen Jahrgängen der Datenbank SCOPUS sind zu allen Autoren auch die zugehörigen wissenschaftlichen Einrichtungen angegeben, was bei einer positiven Identifikation einen direkten Rückschluss auf die Herkunft einer Erfindung zulässt. Ein wichtiger Vorteil von SCOPUS ist schließlich die breitere Abdeckung ingenieurwissenschaftlicher Disziplinen, wobei jedoch zu klären ist, ab welchem Jahrgang die Erfassung besser als im WoS ist. Die Analysen sollen am Beispiel der Patentanmeldungen von Erfindern aus Deutschland und der Schweiz in den letzten zehn Jahren durchgeführt werden.

Antragsteller
Fraunhofer Institut für System- und Innovationsforschung (Fraunhofer ISI), Karlsruhe

Download: Vollständige Erfassung von Patentanmeldungen aus Universitäten

Erwartete Zitatraten und Klassifikationen

Problemstellung und Ziel
Zitatraten werden bei bibliometrischen Analysen benutzt, um den Impact (Einfluss) von Publikationen zu bestimmen. Annahme ist dabei, dass sehr häufig zitierte Publikationen einen höheren Impact als weniger häufig zitierte haben. In der Regel geht es dabei nicht um den Impact einer einzelnen Publikation, sondern den durchschnittlichen Impact einer Teilmenge von Publikationen. Faktisch wird Impact vielfach mit Qualität gleichgesetzt. Ein grundsätzliches Problem besteht darin, dass die Zitatraten sehr unterschiedlich sein können. Wichtigste Einflussfaktoren sind dabei Fachgebiet, Zeitschrift, Nationale Herkunft der Autoren und zeitliche Veränderungen. Aus diesen Überlegungen ergibt sich der Bedarf für eine Standardisierung der Zitatraten.

Projektbeschreibung
Aus einer Definition von Zeitschriften können in einem ersten Überblick erste Tests zu erwarteten Zitatraten realisiert werden. Im nächsten Schritt wird es notwendig sein, erste Felder zu definieren, für die erwartete Zitatraten ermittelt werden können. Diese Felder sind durch Sätze von Zeitschriften definiert. Schließlich werden durch Ko-Zitationsanalysen inhaltliche Ähnlichkeiten zwischen klassifizierten und nicht-klassifizierten Zeitschriften ermittelt und auf dieser Basis Entscheidungen für die Klassifikation einzelner Zeitschriften getroffen. Weiterhin soll in diesem Teilprojekt eine Übersicht erstellt werden, welche disziplinären und thematischen Klassifikationen für die Wissenschaft national und international verwendet werden. Dieser letzte Schritt ist Vorbereitung für ein weiteres großes Arbeitspaket, bei dem alle Zeitschriften nach diesem neuen Schema im Sinne einer Grobklassifikation zugeordnet werden. Daran anschließend soll jeder einzelne Artikel klassifiziert werden, wobei dann eine deutlich feinere Klassifikation eingesetzt werden soll.

Antragsteller
Fraunhofer Institut für System- und Innovationsforschung (Fraunhofer ISI), Karlsruhe

Download: Erwartete Zitatraten und Klassifikationen