ARCHIVE

ARCHIVE OF INTERNAL DEVELOPMENT PROJECTS

2021


The focus of the project is the detec­tion and quanti­ta­tive analy­sis of acknowl­edged entities, i.e., named entity recog­ni­tion (NER) task in a larger corpus of WoS articles which include acknowl­edge­ments. The analy­sis of acknowl­edg­ments is partic­u­lar­ly inter­est­ing as acknowl­edg­ments may give an insight on such aspects of scien­tif­ic society as reward systems, collab­o­ra­tion struc­tures, and hidden research trends. The FLAIR NLP Frame­work will be used to perform the acknowl­edged entity recog­ni­tion task.

Project Report: Mining Acknowl­edge­ment Texts in Web of Science (MinAck)

2020


In diesem Projekt wird die Anwend­barkeit der beste­hen­den Insti­tu­tio­nen-Kodierung auf die Daten von Dimen­sions geprüft. Dies umfasst die Anwen­dung der Disam­bigu­ierungsrou­ti­nen auf die Dimen­sions-Daten und den Vergle­ich der von Dimen­sions angebote­nen GRID-Daten.

Download Machbarkeitsstudie “Insti­tu­tio­nen-Kodierung Dimensions”

Im Projekt wird das Zitation­snet­zw­erk von Dimen­sions mit denen von WoS und Scopus verglichen, um einen möglichen Mehrw­ert der Daten­quelle für zitation­s­an­a­lytis­che Studi­en zu identi­fizieren. Es werden getren­nt Teilmen­gen von Publika­tio­nen betra­chtet, die in allen Quellen enthal­ten sind, nur in zwei Quellen enthal­ten sind und solchen, die nur in einer Quelle enthal­ten sind. Unter­sucht wird auch, inwiefern die gleichen Veröf­fentlichun­gen in den verschiede­nen Quellen hinsichtlich ihres Zitation­sim­pact unter­schiedliche Ergeb­nisse aufweisen.

Download Erkun­dung des Dimen­sions Zitation­snet­zw­erks als Daten­quelle für das Kompe­tenzzen­trum Bibliometrie

Die Studie unter­sucht die Inhalte von Dimen­sions im Vergle­ich zu den beiden bislang im KB verwen­de­ten Quell­daten­banken. Dies umfasst die statis­tis­che Erfas­sung der Inhalte und Überprü­fung auf mögliche Abdeck­ungslück­en, die Prüfung der vorhan­de­nen Daten­felder hinsichtlich Eignung für bibliometrische Studi­en, und Evaluierung der Datenkonsistenz.

Download Dimen­sions – Evaluierung der Inhalte und bibliometrischen Datenbasis

Based on the three projects the DZHW, FZ Jülich and Univer­sität Biele­feld have compiled a summa­ry of the main results and provide recom­men­da­tions for the KB.

2019


Die Verän­derung von Zeitschrif­ten­titeln wie zum Beispiel Gründung, Einstel­lung, Zusam­men­schluss, Aufspal­tung und die Abänderung des Titels wird in der derzeit­i­gen KB Daten­bankstruk­tur nicht abgebildet. Des Weiteren wird zwar Auskun­ft über die derzeit­ige Zugehörigkeit von Zeitschriften zu Verla­gen, nicht aber über die Verän­derung der Besitzver­hält­nisse im Zeitver­lauf gegeben. Je nach Projek­tkon­text und Erken­nt­nis­in­ter­esse kann es von Bedeu­tung sein, die Identi­fizierung und Zuord­nung von Journalen­titäten und deren Zugehörigkeit zu Verla­gen im historischen Verlauf zu berück­sichti­gen, so dass die Ergänzung dieser Infor­ma­tio­nen eine Aufwer­tung der KB-Daten­banken darstellt. Ziel des Klein­pro­jek­ts ist es, eine Daten­grund­lage zu schaf­fen, die eine Analyse der Zugehörigkeit von Zeitschrif­ten­titeln zu Verla­gen im Zeitver­lauf erlaubt.

Download Journal-Historisierung und Zugehörigkeit. Endbericht

Ambigu­i­ty level of insti­tu­tion names is differ­ent in various data aggre­ga­tors based on metada­ta provid­ed. The Web of Science (WoS) supports basic struc­tures such as univer­si­ty, street address, city, ZIP code and country name. Never­the­less differ­ent styles of filling the fields by authors are not avoid­able. Often, it is not obvious whether two differ­ent refer­ences to insti­tu­tions are variants of just one name or actual­ly consti­tute differ­ent insti­tu­tions. Authors enter their affil­i­a­tion in differ­ent ways over various publi­ca­tions or intro­duce spelling errors. The aim of this study is to intro­duce a method to disam­biguate the insti­tu­tion names in WoS, as a large scale biblio­met­ric database. For this purpose, multi­ple variants of insti­tu­tions name are grouped togeth­er. To evalu­ate the method, we will use the insti­tu­tion coding imple­ment­ed by Biele­feld University.

Download Scalable Disam­bigua­tion of Insti­tu­tions for Web of Science

2018


As the h-index becomes the gold standard for measur­ing schol­ar­ly impact, the risk for gaming the system grows. This has spurred the propos­al for report­ing a self-citation index (s‑index), which aims to add much needed context to calcu­lat­ed h scores. It also is expect­ed to promote good citation habits. A neces­sary step towards using the metric is valida­tion. Here we propose to use the s-index to measure how self-citation patterns vary accord­ing to differ­ent fields, acade­m­ic ages, countries, and institutions.

Report: Track­ing self-citations in acade­m­ic publishing

The restrict­ed access to published, peer-reviewed documents is enforced via a legal frame­work, which is predom­i­nate­ly based upon copyright laws. In the publi­ca­tion process authors trans­fer the copyright (or solely the exclu­sive repro­duc­tion rights) to a publish­er and the publish­er uses these rights as a legal instru­ment to restrict access to an audience which is willing to pay for obtain­ing the right to access the content. Given this perspec­tive any identi­fi­ca­tion of OA publi­ca­tions must there­fore also be based upon legal infor­ma­tion, which defines the access charac­ter of the publi­ca­tion as imposed by the copyright holder, i.e. the publisher.

Inspired by the Hybrid OA Dashboard (Jahn, 2017) we there­fore propose to apply licens­ing infor­ma­tion supplied by publish­ers to the publish­er associ­a­tion Cross­ref to identi­fy OA publi­ca­tion. In detail, we propose to obtain the respec­tive licens­es of Web of Science (or Scopus) indexed publi­ca­tions and compare them with a whitelist of estab­lished OA licens­es and annotate the there­by defined OA status of the publi­ca­tions in the KB infrastructure.

Report: Apply­ing Cross­ref and Unpay­wall infor­ma­tion to identi­fy gold, hidden gold, hybrid and delayed Open Access publi­ca­tions in the KB publi­ca­tion corpus

Im Projekt “Effizientes Retrieval auf Web of Science-Daten mit Elastic­search” ist geplant, die umfan­gre­ichen XML-Daten des Web of Science (WoS), die aktuell in einer SQL-Daten­bank vorliegen, in einen perfor­man­ten Elastic­search Index3 zu überführen. Dadurch werden diese Daten effizien­ter recher­chier­bar und leichter zugänglich.

Abschluss­bericht: Effzientes Retrieval auf Web of Science-Daten mit Elasticsearch

2017


Für verschiedene Anwen­dun­gen (z.B. fraktion­ierte Zählmeth­o­d­en auf Basis von Insti­tu­tio­nen) ist eine Insti­tu­tio­nenkodierung notwendig. Die existierende Insti­tu­tio­nenkodierung beschränkt sich auf deutsche Adressen/Institutionen und es beste­ht inner­halb des Kompe­tenzzen­trums Bibliome­trie (KB) ein Bedarf nach einer Ausweitung auf weitere Länder. Allerd­ings skaliert die für Deutsch­land angewandte Methode der Adress-Disam­bigu­ierung nicht auf größerem Maßstab. Daher ist es Ziel dieses Projek­tes, die Durch­führbarkeit einer Insti­tu­tio­nenkodierung für weitere Länder mit unter­schiedlichen Metho­d­en zu testen.

Insti­tu­tion­al disam­bigua­tion for further countries – an explo­ration with exten­sive use of wikida­ta (project report)

Ziel des Projek­tes ist die Bereit­stel­lung bereinigter und angere­ichert­er Verlagsin­for­ma­tio­nen für die Bibliome­trie-Daten­banken. Ähnlich wie bei Adressen zu Insti­tu­tio­nen liegen auch im Fall von Verlags­beze­ich­nun­gen unter­schiedliche Schreib­weisen vor, es beste­hen (Hierarchie-)beziehungen zwischen Verla­gen und Struk­turverän­derun­gen über die Zeit.

Publish­er. Disam­bigu­ierung und Historisierung. Projektbericht

In dem Projekt wird eine Zuord­nung von Adressen zu NUTS-Codes erstellt.

NUTS Geocod­ing – project report

Anwen­dung der automa­tis­chen Research Level-Klassi­fika­tion (Boyack et al. (2014), Journal of Infor­met­rics, 8, 1–12) auf die Datenbestände des KB sowie Validierung der Zuord­nun­gen anhand ausgewählter extern­er Daten­sätze. Diese Klassi­fika­tion ordnet einzelne Publika­tio­nen anhand der Begriffe im Titel und Abstract in vier Klassen nach ihrer Anwen­dungs- bzw. Grund­lagenori­en­tierung. Ergeb­nis der Projek­tes ist eine zusät­zliche Daten­bank­ta­belle mit Research Level-Angaben für die KB-Infra­struk­tur und ein intern­er Bericht zur Einschätzung der Valid­ität der Verfahrens.

Bericht: Research Level-Daten für die Bibliometriedatenbanken

Im Rahmen einer Machbarkeitsstudie werden mögliche Verfahren zur weltweit­en Insti­tu­tion­skodierung entwick­elt und getestet. Dabei soll das Verfahren soweit möglich automa­tisiert ablaufen. Es wird ein Bottom-Up-Verfahren auf Basis der zu kodieren­den Daten entwick­elt, wobei die beste­hen­den distink­ten Organ­i­sa­tio­nen zunächst wie einzelne Organ­i­sa­tion­sin­stanzen behan­delt werden, welche dann weiter zusam­men gruppiert werden, um eine Unter­schei­dung in eindeutige Organ­i­sa­tion­sob­jek­te zu erzie­len. Es wird zunächst eine Zuord­nung auf Basis von identis­chen bzw. ähnlichen Namensvari­anten der Organ­i­sa­tio­nen getestet. Zur Evaluierung der Methode wurde zuerst ein Goldstan­dard-Daten­satz entwick­elt, auf dessen Basis die Ergeb­nisse unser­er Methode schlussendlich analysiert werden sollen.

Abschluss­bericht: Kodierung inter­na­tionaler Insti­tu­tio­nen – eine Machbarkeitsstudie anhand von ausgewählten Ländern

2016


Die Frage nach der Verschränkung von Wissenschaft und Wirtschaft, insbeson­dere in inter­na­tion­al vergle­ichen­der Perspek­tive, aber auch für einzelne Länder über die Zeit, ist eine wissenschaft­spoli­tisch zunehmend wichtige Kenngröße. Derzeit erlaubt die Daten­in­fra­struk­tur des Kompe­tenzzen­trums Bibliome­trie eine Zuschrei­bung der Kategorie “Wirtschaft” für Insti­tu­tio­nen mit deutschem Sitz. Diese insti­tu­tionelle Disam­bigu­ierung erlaubt es annäherungsweise die Integra­tion von Wissenschaft und Wirtschaft­sak­teuren über Ko-Publika­tio­nen zu analysieren. Jedoch nur für solche Fälle, in denen beide Akteure ihren Sitz in Deutsch­land haben. Es wird daher vorgeschla­gen, Ansätze aus der Harmon­isierung von Datenbestän­den zu nutzen und deren Übertrag­barkeit auf Publika­tions­dat­en zu prüfen.

Bericht: There is no easy way around disam­bigua­tion to construct valid publi­ca­tion­based indica­tors for science-indus­try linkage

Die Identi­fika­tion und Disam­bigu­ierung von Autoren­na­men ermöglicht es, über Perso­nen­na­men die Suche von Publika­tio­nen im Datenbe­stand vorzunehmen, um präzise Auskün­fte zu Verfassern und deren Veröf­fentlichun­gen zu erhal­ten. Diese Disam­bigu­ierung wird im KB u. a. für Fallstu­di­en und Länder­analy­sen dringend benötigt. Im Vorläufer­pro­jekt wurde ein Verfahren auf Basis von Co-Autoren-Analy­sen entwick­elt, um Autoren­na­men in DBLP und WoS-Daten­sätzen zu disam­bigu­ieren. Die Effek­tiv­ität des Verfahrens wurde anhand von einem eigens dafür erstell­ten Golddaten­satz jeweils für DBLP und WoS unter­sucht. Die Präzi­sion für Autoren-Homonyme im Fall von DBLP und WoS liegt in der proto­typ­is­chen Imple­men­ta­tion in einem erfreulich guten Niveau. Projek­t­ge­gen­stand von Teil 2 des Projek­ts ist die Weiter­en­twick­lung und Optimierung des proto­typ­is­chen Verfahrens zur Autorendisambiguierung.

Download Project Report: Author Identi­fiers Part II

Die Unter­suchung wird zum einen eine statis­tis­che Auswer­tung zu Art und Vollständigkeit der in den Adress­daten­sätzen von Web of Science und Scopus enthal­te­nen Geoin­for­ma­tio­nen liefern (Verfüg­barkeit von Ortsna­men, PLZ, Straße­nangaben; fehlende City- und Country-Angaben bei Scopus etc.). Zum anderen wird eine Übersicht über verfüg­bare und geeignete Ressourcen zur Geokodierung erstellt, einschließlich exemplar­isch­er Tests zu deren Leistungs­fähigkeit (und Proble­men). Darüber hinaus werden Grundzüge eines Verfahrens zur Geokodierung entwick­elt und ein Vorschlag für die Struk­tur der Tabellen zur Integra­tion der Ergeb­nisse in die KB-Daten­banken vorgestellt.

Geokodierung von Autore­nadressen in Publika­tions­daten­banken. Abschluss­bericht einer Unter­suchung für das Kompe­tenzzen­trum Bibliometrie

In diesem Projekt soll ein Schritt in Richtung der Harmon­isierung der Arbeit der Mitglied­sein­rich­tun­gen mit den gemein­sam genutzten Daten getan werden. Dazu sollen für gängige bibliometrische Indika­toren auf der insti­tu­tionellen Ebene, der Ebene von Ländern und der Ebene von beliebig zusam­mengestell­ten Mengen an Publika­tio­nen standar­d­isierte Abfra­gen als gespe­icherte Proze­duren direkt in der Bibliome­triedaten­bank bereit gestellt werden. Die Proze­duren sind dann sowohl zur Ausführung als auch zur Ansicht der Berech­nung, d.h. des Quell­codes den Benutzern der KB-Oracle-Daten­bank freigegeben.

Dokumen­ta­tion Bibliometrische Indika­toren als gespe­icherte Prozeduren

Before 2016


Problem­stel­lung und Ziel
Eine Identi­fika­tion und Disam­bigu­ierung von Autoren­na­men ermöglicht es, über Perso­nen­na­men die Suche von Publika­tio­nen im Datenbe­stand vorzunehmen, um präzise Auskün­fte zu Verfassern und deren Veröf­fentlichun­gen zu erhal­ten. Ziel des Projek­tes ist es zunächst seitens GESIS, einen Goldstan­dard-Daten­satz für Autoren-Publika­tio­nen-Relatio­nen zu erstellen. GESIS und ISI entwick­eln unabhängig voneinan­der unter­schiedliche Merging-Verfahren und Ähnlichkeit­srech­nun­gen, die anschließend mit dem Goldstan­dard evaluiert werden.

Antrag­steller
Fraun­hofer ISI und GESIS

Download Project Report: Author Identifiers

Download Endbericht: Vergabe von eindeuti­gen Autoren-IDs in WoS

Problem­stel­lung und Ziel
Die in Web of Science (WoS) und Scopus verfüg­baren Journalk­las­si­fika­tio­nen sind nicht geeignet, inter­diszi­plinäre oder dynamis­che Forschungs­ge­bi­ete abzugren­zen, da die Klassen einen unter­schiedlichen Spezial­isierungs­grad aufweisen. Hierfür ist eine Artikelk­las­si­fizierung erforder­lich. Zur Klassi­fizierung werden Co-Occur­rences von Referen­zen verwendet.

Hierar­chis­che Artikelk­las­si­fika­tion. Bericht für das Kompe­tenzzen­trum Bibliometrie

Antrag­steller
GESIS

Problem­stel­lung und Ziel
Für die Feldnor­mal­isierung von Zitation­sindika­toren ist die innere Homogen­ität von Subject Categories (SC) in der Daten­bank Web of Science (WoS) bezüglich der unter­liegen­den Publika­tions- und Zitation­skul­turen eine basale Voraus­set­zung, die jedoch nicht immer gegeben zu sein scheint. In diesem Projekt wird eine Methode entwick­elt, mit der Hetero­gen­ität inner­halb von Subject Categories quantifizier­bar gemacht und in der Form eines Fehler­in­ter­valls in die Normal­isierung integri­ert werden kann. Damit sollen insbeson­dere Klassen mit asymmetrischen Zitation­sstruk­turen (bspw. zwischen Grund­la­gen­forschung und anwen­dung­sori­en­tiert­er Forschung zum gleichen Gegen­stand) identi­fiziert werden.

Antrag­steller
DZHW

Download: Measur­ing and analysing the inter­nal, topical coher­ence of Web of Science Subject Categories

Problem­stel­lung und Ziel
Ziel der Studie ist die Quantifizierung des Ausmaßes und der Bandbre­ite der Verän­derun­gen von typis­chen bibliometrischen Indika­toren durch die Disam­bigu­ierung deutsch­er Insti­tu­tion­sadressen der Uni Biele­feld. Zu diesem Zweck sollen inter­na­tion­al als Standard anerkan­nte und aussagekräftige Kennzahlen des Publika­tion­sout­puts, der nationalen und inter­na­tionalen Kooper­a­tion sowie des Impacts von deutschen wissenschaftlichen Einrich­tun­gen berech­net werden – einmal unter Berück­sich­ti­gung der bereinigten und zusam­menge­führten Adress­dat­en und, als Kontrast, über die typis­che in der Daten­bank benutzte Institutionskennung.
Zusät­zlich sollen auch Beispiel­rech­nun­gen zum Effekt auf bibliometrische Maße von Einrich­tun­gen durchge­führt werden, die eine Verän­derung in der Organ­i­sa­tion­sstruk­tur durch­laufen haben (z.B. Fusion, Eingliederung) unter Nutzung der Historisierungskom­po­nente der Adresscodierung.

Antrag­steller
Univer­sität Biele­feld I²SOS und DZHW

Download: Compar­ing insti­tu­tion­al-level biblio­met­ric research perfor­mance indica­tor values based on differ­ent affil­i­a­tion disam­bigua­tion systems

Problem­stel­lung und Ziel
Die Zuord­nung des Forschung­sout­puts zu den jeweili­gen fördern­den Organ­i­sa­tio­nen ist nach wie vor aufwendig. Im Rahmen des Vorhabens sollen Metho­d­en der Zuord­nung von Publika­tio­nen zu Forschungs­förder­ern verglichen werden. Ziel ist es insbeson­dere, zu einer Bewer­tung der Relia­bil­ität und Valid­ität der im Web of Science verfüg­baren Angaben zu Funding Acknowl­edge­ments und Aussagen zu deren Nutzbarkeit in bibliometrischen Analy­sen zu kommen.

Projek­tbeschrei­bung
Im Rahmen des Projek­tes soll am Beispiel der DFG und der BMBF Forschungs­förderung die Relia­bil­ität und Valid­ität der Angaben “Funding Acknowl­edge­ments” unter­sucht werden. Dazu werden die im Web of Science erfassten Funding Acknowl­edge­ments mit den Angaben zu Publika­tio­nen in den Abschluss­bericht­en zu von der DFG und dem BMBF geförderten Projek­ten abgeglichen. Zusät­zlich werden die Ergeb­nisse des Vergle­ichs im Rahmen von Kurzin­ter­views validiert. Dadurch sollen Rückschlüsse auf die Motiva­tion für die Nennung der Förderor­gan­i­sa­tion, auf die Nennung von Förderor­gan­i­sa­tio­nen bei Mehrfach­förderung und auf mögliche Verzer­run­gen, die sich aus dem von Thomson Reuters einge­set­zten Erhebungsver­fahren ergeben, gezogen werden. Basierend auf den Ergeb­nis­sen wird eine Einschätzung der Vollständigkeit und der Richtigkeit der Angaben zu Funding Acknowl­edge­ments im Web of Science gegeben.

Butler, L. / Biglia, B. / Bourke, P., 1998: Australian Biomed­ical Research: Funding Acknowl­edg­ments and Perfor­mance. Canber­ra: NHMRC.
Gilles, C. / Councill, I., 2004: Who gets acknowl­edged: Measur­ing scien­tif­ic contri­bu­tions through automat­ic acknowl­edg­ment index­ing. PNAS 101 (51), 17599–17604.

Antrag­steller
Insti­tut für Forschungsin­for­ma­tion und Qualitätssicherung (iFQ)

Download: Bericht Funding Acknowl­edge­ment-Daten­bere­ini­gung Web of Science

Problem­stel­lung und Ziel
Die Infor­ma­tion über die Abgren­zung verschieden­er Themenge­bi­ete, den Wandel dieser Themenge­bi­ete über die Zeit und die Entste­hung neuer Themenge­bi­ete kann sowohl für Wissenschaftler, Veranstal­ter von Konferen­zen u.ä. als auch für Förder­er von Forschung­spro­gram­men, ‑projek­ten und ‑einrich­tun­gen von großer Wichtigkeit sein. Eine manuelle Identi­fika­tion von beste­hen­den und neu entstande­nen Themenge­bi­eten ist jedoch aufgrund der Menge an Publika­tio­nen und der fehlen­den Übersicht über diese kaum realisier­bar. In diesem Projekt soll deshalb ein automa­tis­ches Verfahren zur Erstel­lung von Sammlun­gen solch­er Publika­tio­nen zu einem Themenge­bi­et, sogenan­nte Cluster, am aktuellen Rand erstellt werden. Dieses Verfahren nutzt die Kennt­nisse über bereits beste­hende Themenge­bi­ete und die Eigen­schaften entstanden­er Themenge­bi­ete, um neue Themenge­bi­ete zu erken­nen und als neue Cluster von den beste­hen­den abzugren­zen. Zusät­zlich zur Erstel­lung dieser Cluster sollen diese von einem automa­tis­chen Verfahren benan­nt werden, das hierzu textuelle Infor­ma­tio­nen aus den Publika­tio­nen benutzt und aus diesen solche auswählt, die dieses Themenge­bi­et spezi­fizieren und von den anderen hinre­ichend abgrenzt.

Projek­tbeschrei­bung
Am Anfang des Projek­ts werden die Attribute bestimmt, mit denen die Gebiete in bibliometrischen Daten­sätzen automa­tisch voneinan­der abgegren­zt werden können. Diese werden auf einem eigens dafür erstell­ten bereinigten Teildaten­satz (aus der Oberk­lasse “Comput­er Science”) mit einem Machine Learn­ing Ansatz auf ihre Eignung getestet. Auf diese Weise soll ein automa­tis­ches Verfahren zur Erstel­lung der Themen­clus­ter gener­iert werden. Darauf aufbauend wird ein zweites Verfahren zur Benen­nung dieser Cluster entwick­elt. Hierdurch wird es möglich, die Entste­hung und Entwick­lung von Themen­clus­tern über die Zeit genauer zu analysieren und das Verfahren zur Früherken­nung von aufkom­menden Gebieten zu verfeinern.

Antrag­steller
Fraun­hofer Insti­tut für System- und Innova­tions­forschung (Fraun­hofer ISI), Karlsruhe

Download: Emerg­ing Topics in Science

Problem­stel­lung und Ziel
Der Brain Drain wissenschaftlich­er Forsch­er ist offen­sichtlich ein erheblich­er Verlust der besten Köpfe für die deutsche Forschung, es erweist sich jedoch als schwierig, das Ausmaß dieses Problems quanti­ta­tiv zu fassen. Es gibt Statis­tiken zu Ausland­saufen­thal­ten von Studieren­den vor und während ihrer Promo­tion; andere Daten beschreiben die Emigra­tion hoch quali­fiziert­er Fachkräfte, sie unter­schei­den jedoch nicht nach Beruf­s­grup­pen. Für wissenschaft­spoli­tis­che Maßnah­men zur Begren­zung des Brain Drains wäre es wichtig, genauere Zahlen über dessen Umfang zu erhal­ten, insbeson­dere auch Angaben zu einzel­nen Fächern und zu aufnehmenden Hochschulen, um geeignete Gegen­maß­nah­men konzip­ieren zu können.

Projek­tbeschrei­bung
Es soll der Brain Drain aus Deutsch­land in die Vereinigten Staat­en vertieft analysiert werden. Hierzu sollen für ein spezi­fis­ches Publika­tion­s­jahr alle Namen deutsch­er Autoren unter­sucht und für die Folge­jahre geprüft werden, ob sie erneut als Autoren deutsch­er Einrich­tun­gen in Erschei­n­ung treten. Diese Unter­suchung wird als Referenz verwen­det, um das Niveau der Publika­tion­sak­tiv­itäten der Basis­stich­probe in den nachfol­gen­den Jahren zu bestim­men. Dann wird geprüft, in welchem Ausmaß deutsche Autoren aus dem Basis­jahr als Autoren amerikanis­ch­er Einrich­tun­gen in Erschei­n­ung treten. Da es in den Publika­tions­daten­banken keine direk­ten Hinweise auf die Nation­al­ität der Autoren gibt, sondern nur Adressen von Einrich­tun­gen, werden zur eindeuti­gen Identi­fika­tion der in den Vereinigten Staat­en arbei­t­en­den deutschen Autoren neben dem vollen Namen weitere Krite­rien benötigt, insbeson­dere das Fachge­bi­et. Die Analyse wird mit Hilfe der Daten­bank Scopus realisiert werden. Im weiteren Zeitver­lauf wird verfol­gt, wie lange deutsche Autoren an amerikanis­chen Einrich­tun­gen weiter publizieren und nach welch­er Zeitdauer sie wieder nach Deutsch­land zurück­kehren oder ob sie dauer­haft in den Vereinigten Staat­en verbleiben. Eine analoge Analyse wird für Südafri­ka in Bezug auf Großbri­tan­nien durchge­führt, um den Vergle­ich mit den dorti­gen Erhebungszahlen zu ermöglichen.

Antrag­steller
Fraun­hofer Insti­tut für System- und Innova­tions­forschung (Fraun­hofer ISI), Karlsruhe

Download: Scien­tif­ic mobil­i­ty. An analy­sis of Germany, Austria, France and Great Britain

Problem­stel­lung und Ziel
In den beiden inter­diszi­plinären Liter­atur­daten­banken Web of Science (WoS) und Scopus sind pro Publika­tion zwar die insti­tu­tionellen Adressen der Autoren erfasst, soweit diese im Origi­nal der jeweili­gen Arbeit aufge­führt sind. Die Erfas­sung dieser Adressen lässt aber hinsichtlich Genauigkeit und Vollständigkeit sehr zu wünschen übrig. Dahin­ter verber­gen sich verschiedene Probleme. Am bekan­ntesten ist das Problem der unter­schiedlichen Schreib­weisen von Adressen. Ein nicht zu unter­schätzen­des Problem stellen außer­dem die Extrem­fälle von Publika­tio­nen dar, an denen Autoren von einer sehr großen Zahl von Insti­tu­tio­nen beteiligt sind. Hinzu kommt, dass im Zeitver­lauf die Insti­tu­tio­nen­land­schaft nicht stabil, sondern im Wandel ist. Vor diesem Hinter­grund wäre es unzuläs­sig, valide bibliometrische Indika­toren insti­tu­tions­be­zo­gen auf der Basis der unbere­inigten, in WoS oder Scopus vorge­fun­de­nen Adress­daten­sätze gener­ieren zu wollen. Das hier vorgeschla­gene Teilpro­jekt zielt demge­genüber auf die Schaf­fung einer seriösen Basis für die bestmögliche Zuord­nung der in WoS und Scopus erfassten Publika­tio­nen aller deutschen Institutionen.

Projek­tbeschrei­bung
Zunächst sollen die Adress­daten­sätze eines aktuellen Daten­bank­jahrgangs (2008) des WoS soweit wie möglich mit automa­tis­chen Proze­duren kodiert werden. Im nächsten Schritt sollen die gewonnenen Erfahrun­gen auf den Paral­lel­jahrgang von Scopus übertra­gen werden. Die nach Durch­führung der automa­tis­chen Kodierung verbleibende Restmenge von Proble­madressen, die nicht ohne weiteres als zu einer deutschen Hauptin­sti­tu­tion gehörig zu identi­fizieren sind, werden einer manuellen Sichtung und Bearbeitung unter­zo­gen. In einem weiteren Schritt werden jenseits einer bloßen Kodierung von Adressen nunmehr defin­i­tiv Publika­tio­nen zu (deutschen) Insti­tu­tio­nen zugeord­net. Auf der Basis der gewonnenen Erfahrun­gen werden dann die Proze­duren zur automa­tis­chen Kodierung auf möglichst alle verfüg­baren Jahrgänge von WoS und Scopus ausgedehnt. Im letzten Schritt schließlich soll ein Verfahren entwick­elt werden, um die von den Daten­bankher­stellern eintr­e­f­fend­en Liefer­un­gen neuer Daten kontinuier­lich kodieren zu können.

Antrag­steller
Univer­sität Bielefeld

Download: Disam­bigua­tion of author address­es in biblio­met­ric databas­es – techni­cal report

Problem­stel­lung und Ziel
In der empirischen Sozial­forschung übliche Metho­d­en­stan­dards und Fehler­lehren sowie darauf aufbauende Gütemaße sind in der Bibliome­trie kaum entwick­elt. Das ist nicht nur ein theoretis­ches Defiz­it, sondern zieht auch einen völlig unkri­tis­chen Umgang mit bibliometrischen Indika­toren, die nicht selten als „objek­tive Realitäts­beschrei­bun­gen“ betra­chtet werden, nach sich. Dieses Teilpro­jekt soll daher zunächst die in der Liter­atur bereits disku­tierten und aus vorhan­de­nen bibliometrischen Studi­en und Publika­tion­ser­he­bun­gen bekan­nten Fehler- und Biasquellen aufar­beit­en, sodann ansatzweise eine theoretisch begrün­dete Fehler­lehre formulieren und zugehörige Gütemaße bereitstellen.

Projek­tbeschrei­bung
Ausgangspunkt dieses Projek­tes ist eine system­a­tis­che Liter­at­u­r­analyse, auf deren Basis eine Übersicht über die poten­ziell auftre­tenden Fehler und Inter­pre­ta­tion­sprob­leme sowie deren Ausmaß und Auswirkun­gen entwick­elt wird und Ansätze für Korrek­turen und Gütemaße system­a­tisiert werden. Die im Rahmen von Modulen entwick­el­ten Gütemaße werden als Algorith­men in die bibliometrische Daten­bank imple­men­tiert. Diese werden im Weiteren genutzt, um Indika­toren adäquat zu berech­nen und deren Qualität und Aussage­fähigkeit bewerten zu können. Paral­lel dazu sollen Algorith­men erstellt, geprüft und imple­men­tiert werden, mit deren Hilfe bei der Konstruk­tion der bibliometrischen Indika­toren die identi­fizierten Fehler und ihr Ausmaß adäquat berück­sichtigt werden können.

Antrag­steller
Insti­tut für Forschungsin­for­ma­tion und Qualitätssicherung (iFQ)

Download: Measure­ment varia­tion in biblio­met­ric impact indicators

Problem­stel­lung und Ziel
Im Rahmen eines Pilot­pro­jek­ts entwick­eln iFQ und IWT für das BMBF die Grund­la­gen für ein Monitor­ing-Instru­ment zur Identi­fizierung poten­tiell inter­es­san­ter inter­na­tionaler Kooper­a­tionspart­ner. Das Instru­ment soll fachun­ab­hängig einset­zbar sein. Im beglei­t­en­den KB-Forschung­spro­jekt werden grund­sät­zliche method­is­che Fragen behan­delt. Insbeson­dere geht es um die Entwick­lung und Erprobung von Verfahren und Metho­d­en, mit denen sich komplexe oder emergente Themenge­bi­ete bibli­ographisch abgren­zen lassen und um die Identi­fizierung geeigneter bibliometrisch­er Charak­ter­is­ti­ka, durch die sich entsprechende inter­na­tionale Kooper­a­tionspart­ner auf verschiede­nen Ebenen – Land, Insti­tu­tion und Person – ausze­ich­nen, d.h. es geht darum, Indika­toren zur Identi­fizierung inter­es­san­ter Kooper­a­tionspart­ner zu entwick­eln und zu testen.

Projek­tbeschrei­bung
Mit Hilfe des vom ISN entwick­el­ten Verfahrens wird versucht, Publika­tio­nen eines definierten Fachge­bi­ets automa­tisiert aus einem großen Dokumentenbe­stand (WoS/Scopus) zu identi­fizieren und zu extrahieren. Der Algorith­mus wird unter Nutzung der Abstracts einer zielgerecht­en Publika­tion­s­menge trainiert. Auf dieser Basis wird ein sogenan­nter Finger­ab­druck berech­net. Dieser lässt sich im Ideal­fall deutlich im Gesamt­datenbe­stand wieder finden und zur Feldab­gren­zung verwen­den. Für die Identi­fizierung von poten­tiellen Kooper­a­tionspart­nern sollen Indika­toren entwick­elt werden, die auf der Analyse von Kooper­a­tions- und Zitation­snet­zw­erken beruhen und die eine Bewer­tung der zeitlichen Stabil­ität der Indika­toren ermöglichen. Insbeson­dere geht es auch darum, skale­nun­ab­hängige Indika­toren zu entwick­eln und zu erproben.

Antrag­steller
Insti­tut für Forschungsin­for­ma­tion und Qualitätssicherung (iFQ)

Kooper­a­tion
Insti­tute for Science Network­ing Olden­burg GmbH (ISN), Oldenburg

Download: Feldab­gren­zung und inter­na­tionale Kollab­o­ra­tio­nen: Praktis­che Begleit­forschung zum “Pilotvorhaben zur Identi­fizierung inter­na­tionaler Kooper­a­tions­möglichkeit­en” des BMBF – Abschlussbericht

Problem­stel­lung und Ziel
Im Rahmen eines Projek­ts, welch­es organ­isatorisch von der HIS betreut wird, entwick­eln mehrere Univer­sitäten derzeit gemein­sam ein Kennzahlenset für ein internes Univer­sitäts­bench­mark­ing. Von den Univer­sitäten werden Daten zur Inter­na­tion­al­ität, Leistungs­fähigkeit der Lehre und Forschung sowie Gleich­stel­lung erhoben. Ebenfalls im Bench­mark­ing erfasst werden soll die Perfor­manz in der Forschung. Hierzu wird das iFQ im Rahmen eines Pilot­pro­jek­tes eine bibliometrische Analyse für zwei Fächer durch­führen. Basierend auf Publika­tions- und Zitations­dat­en werden Indika­toren bereit­gestellt, die Aussagen zur Forschungsper­for­manz gestat­ten. Die Arbeit­en des iFQ-Projek­t­teams werden durch eine Arbeits­gruppe mit Vertretern und Vertreterin­nen der Univer­sitäten (u.a. den KanzlerIn­nen und Wissenschaft­lerIn­nen) begleit­et. Dieses Pilot­pro­jekt wird ergänzt durch ein KB-Projekt, in dem grund­sät­zliche method­is­che Fragen zur Eignung von bibliometrischen Indika­toren für das Bench­mark­ing von Univer­sitäten adressiert und bearbeit­et werden, wie z.B. der Umgang mit Verzer­run­gen beim Vergle­ich der Einrich­tun­gen, die Abgren­zung von fachlichen und organ­isatorischen Einheit­en und die Normal­isierung mit Person­al­struk­tur­dat­en. Im Rahmen der Arbeits­gruppe und gegebe­nen­falls durch Inter­views soll analysiert werden, ob und wie indika­tor­basierte Aussagen mit den Einschätzun­gen der Wissenschaft­lerIn­nen korre­spondieren. Ziel ist es, zu klären, unter welchen Voraus­set­zun­gen ein nationales Bench­mark­ing möglich ist.

Projek­tbeschrei­bung
Publika­tions­dat­en für die Fächer Physik und Chemie werden für den Zeitraum 2005–2010 für drei Univer­sitäten erhoben. Abgegren­zt werden die Datensets auf der Grund­lage der Insti­tu­tio­ne­nadressen und Perso­nen­na­men im Web of Science. Dieser Datenko­r­pus wird den Fachbere­ichen der Univer­sitäten rückgekop­pelt und von diesen verifiziert. Ergänzun­gen der Publika­tions­dat­en werden mit dem Web of Science abgeglichen und Publika­tion­sindika­toren für den gesamten Zeitraum sowie Zitation­sindika­toren für den Zeitraum 2005–2007 ermit­telt. Diese Analyse wird gegebe­nen­falls auf Non-Source-Items (Daten­sätze, die im Web of Science nur als Referen­zen vorhan­den sind) ausgeweitet.

Antrag­steller
Insti­tut für Forschungsin­for­ma­tion und Qualitätssicherung (iFQ)

Bibliometrische Indika­toren im Univer­sitäts­bench­mark­ing – Modifiziert­er übergreifend­er Bericht

Problem­stel­lung und Ziel
Der Wissens- und Technolo­gi­etrans­fer aus Hochschulen ist in den letzten Jahren als ein wesentlich­er Ansatzpunkt zur Modernisierung der Wirtschaftsstruk­turen und zur Förderung der wirtschaftlichen Dynamik gesehen worden. Zur Analyse der daraus resul­tieren­den Verän­derun­gen ist es wichtig, die Paten­tan­mel­dun­gen aus Hochschulen vollständig erfassen zu können. Zur Verbesserung der Ermit­tlung von Erfind­un­gen aus Hochschulen wird ein Ansatz vorgeschla­gen, bei dem bei den Namen von Erfind­ern geprüft wird, ob es gleiche Namen von Autoren in Publika­tions­daten­banken gibt, um so die insti­tu­tionelle Zuord­nung von Erfind­ern zu Univer­sitäten feststellen zu können. Ziel ist eine breite Erfas­sung der Paten­tan­mel­dun­gen aus Univer­sitäten in allen Fachge­bi­eten mit einer möglichst hohen Präzi­sion der Zuord­nung von Erfind­ern zu Autoren und damit zu deren Institutionen.

Projek­tbeschrei­bung
In dem Projekt geht es darum, für spezi­fis­che Jahrgänge von Paten­tan­mel­dun­gen, etwa ab Mitte der 1990er Jahre, sämtliche Erfind­er am Deutschen Paten­tamt herunter zu laden und mit Autoren in den Daten­banken WoS und SCOPUS zu vergle­ichen. Im Falle von Übere­in­stim­mungen sollen dann die zu den Autoren gehören­den wissenschaftlichen Einrich­tun­gen festgestellt, und insbeson­dere Univer­sitäten identi­fiziert werden. In aktuellen Jahrgän­gen der Daten­bank SCOPUS sind zu allen Autoren auch die zugehöri­gen wissenschaftlichen Einrich­tun­gen angegeben, was bei einer positiv­en Identi­fika­tion einen direk­ten Rückschluss auf die Herkun­ft einer Erfind­ung zulässt. Ein wichtiger Vorteil von SCOPUS ist schließlich die breit­ere Abdeck­ung ingenieur­wis­senschaftlich­er Diszi­plinen, wobei jedoch zu klären ist, ab welchem Jahrgang die Erfas­sung besser als im WoS ist. Die Analy­sen sollen am Beispiel der Paten­tan­mel­dun­gen von Erfind­ern aus Deutsch­land und der Schweiz in den letzten zehn Jahren durchge­führt werden.

Antrag­steller
Fraun­hofer Insti­tut für System- und Innova­tions­forschung (Fraun­hofer ISI), Karlsruhe

Download: Vollständi­ge Erfas­sung von Paten­tan­mel­dun­gen aus Universitäten

Problem­stel­lung und Ziel
Zitatrat­en werden bei bibliometrischen Analy­sen benutzt, um den Impact (Einfluss) von Publika­tio­nen zu bestim­men. Annahme ist dabei, dass sehr häufig zitierte Publika­tio­nen einen höheren Impact als weniger häufig zitierte haben. In der Regel geht es dabei nicht um den Impact einer einzel­nen Publika­tion, sondern den durch­schnit­tlichen Impact einer Teilmenge von Publika­tio­nen. Faktisch wird Impact vielfach mit Qualität gleichge­set­zt. Ein grund­sät­zlich­es Problem beste­ht darin, dass die Zitatrat­en sehr unter­schiedlich sein können. Wichtig­ste Einflussfak­toren sind dabei Fachge­bi­et, Zeitschrift, Nationale Herkun­ft der Autoren und zeitliche Verän­derun­gen. Aus diesen Überlegun­gen ergibt sich der Bedarf für eine Standar­d­isierung der Zitatraten.

Projek­tbeschrei­bung
Aus einer Defin­i­tion von Zeitschriften können in einem ersten Überblick erste Tests zu erwarteten Zitatrat­en realisiert werden. Im nächsten Schritt wird es notwendig sein, erste Felder zu definieren, für die erwartete Zitatrat­en ermit­telt werden können. Diese Felder sind durch Sätze von Zeitschriften definiert. Schließlich werden durch Ko-Zitation­s­analy­sen inhaltliche Ähnlichkeit­en zwischen klassi­fizierten und nicht-klassi­fizierten Zeitschriften ermit­telt und auf dieser Basis Entschei­dun­gen für die Klassi­fika­tion einzel­ner Zeitschriften getrof­fen. Weiter­hin soll in diesem Teilpro­jekt eine Übersicht erstellt werden, welche diszi­plinären und thema­tis­chen Klassi­fika­tio­nen für die Wissenschaft nation­al und inter­na­tion­al verwen­det werden. Dieser letzte Schritt ist Vorbere­itung für ein weiteres großes Arbeitspaket, bei dem alle Zeitschriften nach diesem neuen Schema im Sinne einer Grobklas­si­fika­tion zugeord­net werden. Daran anschließend soll jeder einzelne Artikel klassi­fiziert werden, wobei dann eine deutlich feinere Klassi­fika­tion einge­set­zt werden soll.

Antrag­steller
Fraun­hofer Insti­tut für System- und Innova­tions­forschung (Fraun­hofer ISI), Karlsruhe

Download: Erwartete Zitatrat­en und Klassifikationen