Forschungsdatenmanagement sozialwissenschaftlicher Umfragedaten Uwe Jensen Sebastian Netscher Katrin Weller (Hrsg.) Forschungsdatenmanagement sozialwissenschaftlicher Umfragedaten Grundlagen und praktische Lösungen für den Umgang mit quantitativen Forschungsdaten Verlag Barbara Budrich Opladen • Berlin • Toronto 2019 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © 2019 Dieses Werk ist beim Verlag Barbara Budrich erschienen und steht unter der Creative Commons Lizenz Attribution-ShareAlike 4.0 International (CC BY-SA 4.0): https://creativecommons.org/licenses/by-sa/4.0/. Diese Lizenz erlaubt die Verbreitung, Speicherung, Vervielfältigung und Bearbeitung bei Verwendung der gleichen CC-BY-SA 4.0-Lizenz und unter Angabe der UrheberInnen, Rechte, Änderungen und verwendeten Lizenz. Dieses Buch steht im Open-Access-Bereich der Verlagsseite zum kostenlosen Download bereit (https://doi.org/10.3224/84742233). Eine kostenpflichtige Druckversion (Print on Demand) kann über den Verlag bezogen werden. Die Seitenzahlen in der Druck- und Onlineversion sind identisch. ISBN 978-3-8474-2233-4 (Paperback) eISBN 978-3-8474-1260-1 (eBook) DOI 10.3224/84742233 Umschlaggestaltung: Bettina Lehfeldt, Kleinmachnow – www.lehfeldtgraphic.de Lektorat: Nadine Jenke, Potsdam Satz: Anja Borkam, Jena – kontakt@lektorat-borkam.de Titelbildnachweis: Foto: Florian Losch Druck: paper & tinta, Warschau Printed in Europe https://doi.org/10.3224/84742233 Inhalt Inhalt Inhalt Vorwort ................................ ................................ ................................ ........................ 7 Uwe Jensen, Sebastian Netscher und Katrin Weller 1. Einleitung ................................ ................................ ................................ ............. 9 Uwe Jensen 2. Forschungsdaten und Forschungsdatenmanagement in den Sozialwissenschaften ................................ ................................ ............................ 13 Sebastian Netscher und Uwe Jensen 3. Forschungsdatenmanagement systematisch planen und umsetzen ....................... 37 Oliver Watteler und Thomas Ebel 4. Datenschutz im Forschungsdatenmanagement ................................ ..................... 57 Jonas Recker und Evelyn Brislinger 5. Dateiorganisation in empirischen Forschungsprojekten ................................ ....... 81 Evelyn Brislinger und Meinhard Moschner 6. Datenaufbereitung und Dokumentation ................................ ................................ 97 Reiner Mauer und Jonas Recker 7. Data Sharing: Von der Sicherung zur langfristigen Nutzung der Forschungsdaten ................................ ................................ ................................ ... 115 Sebastian Netscher und Jessica Trixa 8. Forschungsdatenmanag ement in der Sekundäranalyse ................................ ......... 135 Uwe Jensen, Wolfgang Zenk - Möltgen und Catharina Wasner 9. Metadatenstandards im Kontext sozialwissenschaftlicher Daten ......................... 151 Brigitte Hausstein 10. Zitierbarmachung und Zitation von Forschungsdaten ................................ .......... 179 Katrin Weller 11. Big Data & New Data: Ein Ausblick auf die Herausforderungen im Umgang mit Social - Media - Inhalten als neue Art von Forschungsdaten ............................. 193 Stefan Müller 12. Räumliche Verknüpfung georeferenzierter Umfragedaten mit Geodaten: Chancen, Herausforderung en und praktische Empfehlungen ............................... 211 Verzeichnis der Autor /i nnen ................................ ................................ ........................ 231 https://doi.org/10.3224/84742233 .01 Vorwort Vorwort Vorwort Als vor rund 60 Jahren das erste sozialwissenschaftliche Datenarchiv – als Zentralarchiv an der Universität zu Köln – in Deutschland gegründet wurde , steckte die langfristige Sicherung von Forschungsdaten noch in ihren Kinderschuhen. Zunächst galt es herauszufinden, was die Archivierung v on sozialwissenschaftlichen Forschungsdaten überhaupt bedeutet. D ies betraf einerseits die Forschungsethik und de n Schutz der Befragten bzw. ihrer persönlichen Infor- mationen. Anderseits galt es grundlegend zu klären, wie Forschungsdaten – damals noch als L ochkarten – längerfristig gesichert und zur Nachnutz ung er halten werden konnten. D amit verbunden waren beispielsweise organisatorische Fragen oder das Problem einer adäquaten D okumentation zu r Gewährleistung der Verständlichkeit von Forschungsdaten In de n vergangen en 60 Jahren hat sich viel verändert. Getrieben durch die Digitalisierung und die Möglichkeit Forschungsdat en über das Internet zugänglich zu machen , bauten A r- chive nicht nur eine eigene Infrastruktur systemati sch auf und aus , sondern investierten auch in die Entwicklung gemeinsamer Standards, etwa zur Datendokumentation oder Datenzita- tion. Dieser Pr ozess dauert weiter an und als sozialwissenschaftliche Datena rchive stehen wir heute vor neuen Herausforderungen, etwa in Bezug auf neue Da tentypen. Heute befindet sich die Archivierung sogenannter Big Data, wie etwa von Social Media oder georeferenzierten Dat en , noch in ihren Anfängen . Wie in den letzten 60 Jahren gilt es auch heute zu klären , wie derartige neue Datentypen überhaupt archivie rt und langfristig zur weiteren Nutzung gesi- chert werden können Derweil hat sich die Idee der langfristigen Sicherung, Archivierung und Verfügbar keit von Forschungsdaten in der sozialwissenschaftlichen Forschungsgemeinschaft verfestigt. Während vor rund 6 0 Jahren der Wille zum Teilen der Daten nur sehr schwach ausgeprägt war, ist die Bereitstellung von Forschungsdaten zu Transparenz - und Replikationszwecken ebenso wie zur Nachnutzung durch Dritte mittlerweile zu eine m Bestandt eil guter wissen- schaftlicher P raxis geworden. Um Forschende bei der Erstellung archivier - und teilbare r Da- ten zu unterstützen , ist ein adäquates und gezieltes Forschungsdatenmanagement unerläss- lich. Nur so können Forschende von Projektbeginn an sicherstellen, dass ihre Forschungsda- ten längerfristig erhalten bleiben und Dritten verfügbar gemacht werden können. Mit Freude habe ich daher die Idee dieses Buches zur Kenntnis genommen und ihre U m- setzung nach besten Kräften unterstützt. Anhand praxisnaher Beispiel e aus der täglichen Ar- chivarbeit , den vielfachen Projektberatungen und den langjährigen Kooperationen mit gro- ßen (inter - )nationalen Umfrageprogrammen bietet das Buch einen leichten Einstieg in grund- legende Fragen des Forschungsdatenmanagements . Es veranscha ulicht a rchivspezifische Inf- ra strukturen zur Unterstützung der Nachnutz barkeit v on Forschungsdaten und diskutiert neue Herausforderungen , mit den en A rchive ebenso wie Forschende heute konfrontiert sind. Be- sonders freut mich daher auch die Unterstützung vo n GESIS – Leibniz - Institut für Sozial- wissenschaften und die Finanzierung des Buches im Open - Access - Format . Für mich verbin- det sich damit sowohl die Hoffnung , Forschende in ihrem Forschungsdatenmanagement ge- zielt zu fördern , als auch zukünftig weiterhin qualitativ hochwertige Daten archivieren und der Forschungsgemeinschaft zur Nach nutzung zur Verfügung stellen zu können Alexia Katsanidou Professorin der Empirischen Sozialforschung, Universität zu Köln , Leiterin des Datenarchivs für Sozialwiss enschaften, GESIS – Leibniz - Institut für Sozialwissenschaften https://doi.org/10.3224/84742233 .02 1. Einleitung 1. Einleitung Uwe Jensen, Sebastian Netscher und Katrin Weller Uwe Jensen, Sebastian Netscher und Katrin Weller Forschungsdatenmanagement gewinnt in den Sozialwissenschaften in den letzten Jahren zu- nehmend an Bedeutung. Hier zunächst verstanden als Sammelbegriff für alle Aktivitäten und Maßnahmen im Umgang mit Forschungsdaten, hat sich das Forschungsdatenmanagement als zentraler Bestandteil guter wissenschaftlicher Praxis in empirisc hen Forschungsvorhaben etabliert. Forschungsdatenmanagement erzeugt die notwendige Transparenz in der Erstel- lung der Forschungsdaten, gewährleistet deren Nachvollziehbarkeit und ermöglicht so die Replikation von Forschungsergebnissen. Die Forderung nach de r Bereitstellung von For- schungsdaten zur weiteren Nutzung im Sinne von Open Science bzw. Open Data durch Wis- senschaftsorganisationen und Forschungsförderer unterstreicht die Relevanz eines systema- tischen Umgangs mit Forschungsdaten und die Anforderungen an ein nachhaltiges For- schungsdatenmanagement. Um Forschenden in den Sozialwissenschaften den Umgang mit quantitativen For- schungsdaten zu erleichtern, nimmt der vorliegende Sammelband praktische Herausforde- rungen des Forschungsdatenmanagements in den Blick. Mit Hilfe von Anwendungsfällen aus der empirischen Sozialforschung vermittelt das Buch Grundlagen des Forschungsdaten- managements und bietet anschauliche Beispiele für die Praxis. Es vermittelt Lösungsansätze und erl aubt, diese unmittelbar in die tägliche Arbeit zu übertragen. Dabei bezieht der Sam- melband Empfehlungen, Richtlinien und Werkzeuge zum Forschungsdatenmanagement sys- tematisch ein und erörtert spezifische Gegebenheiten der deutschen Forschungslandschaft. Die Beiträge sind dabei von Publikationen zu den Methoden der empirischen Sozialfor- schung und entsprechenden Forschungsaktivitäten abzugrenzen. Stattdessen fokussiert das Buch die Anwendung von Maßnahmen und Verfahren zur Erstellung, Nutzung und Siche- rung soz ialwissenschaftlicher Forschungsdaten. Die einzelnen Kapitel des Sammelbandes wurden von (ehemaligen) Mitarbeitenden des Datenarchiv s für Sozialwissenschaften bei GESIS – Leibniz - Institut für Sozialwissenschaf- ten verfasst. Diese besitzen langjährige Praxis erfahrung im Umgang mit Forschungsdaten und (inter - )nationalen Forschungsvorhaben. Die Autorinnen und Autoren richten sich mit dem Buch zum einen an Forschende in den Sozialwissenschaften und verwandte n Bereiche n , die quantitative Umfragedaten erheben, auf bereiten oder analysieren. Als Leitfaden soll der Sammelband diese mit den notwendigen Kenntnissen im Umgang mit Forschungsdaten aus- rüsten und sie in der Planung und Umsetzung ihres eigenen Forschungsdatenmanagements unterstützen. Zur Zielgruppe des Buchs zählen zum anderen Mitarbeitende in Forschungs- projekten und Personen, die beruflich mit entsprechenden Daten umgehen, wie z.B. Archi- var/innen oder Projekt - bzw. Drittmittelmanager/innen. Diese Zielgruppe soll das Buch dabei unterstützen, ihr vorhandenes Wi ssen in der Handhabung von Forschungsdaten zu erweitern und zu vertiefen. Der Sammelband behandelt das Thema Forschungsdatenmanagement aus drei Perspekti- ven. Der erste Teil liefert eine generelle Einführung in das Thema u nd erörtert entsprechende Aktivität en und Maßnahmen im Rahmen eines empirischen Forschungsprojekts. Im Zentrum des zweiten Teils steht die spezielle Rolle von Forschungsdateninfrastrukturen bei der Etab- lierung und Fortentwicklung von Metadatenstandards ebenso wie von Standards zu Datenzi- tat ion. Der Sammelband schließt im dritten Teil mit einem Ausblick auf neue Heraus - 10 Uwe Jensen, Sebastian Netscher und Katrin Weller forderungen des Forschungsdatenmanagements am Beispiel neuer Datentypen bzw. neuer Datenquellen, wie Social - Media - Daten oder georeferenzierte Umfragedaten. Der erste Teil des B uches umfasst die Kapitel 2 bis 8. Kapitel 2 führt zunächst allgemein in die Themen Forschungsdaten und Forschungsdatenmanagement in den Sozialwissen- schaften ein. Es schafft ein grundlegendes Verständnis für zentrale Begriffe des Buches und beschreibt die besonderen Eigenarten sozialwissenschaftlicher Umfragedaten. Daran an- schließend wird der Umgang mit diesen Daten im Kontext von Lebenszyklusmodellen an- hand des DDI Data Lifecycles von der Planung bis zur Nachnutzung erörtert. Darauf aufbau- end wird das Fors chungsdatenmanagement in den Sozialwissenschaften im Kontext des Le- benszyklus von Daten, der Rolle von Forschungsdateninfrastrukturen und der neuen Heraus- forderungen beim Management von Daten diskutiert. Kapitel 3 thematisiert, wie Forschende ihr Forschung sdatenmanagement systematisch planen und umsetzen können. Ein systematisches Forschungsdatenmanagement beginnt mit einer vorausschauenden Vorbereitung im Rahmen der eigentlichen Projektplanung. Dabei müssen Forschende zunächst überlegen, welche Ziele sie m it welchen Maßnahmen des For- schungsdatenmanagements verbinden. So muss jede empirische Forschung durch ein pro- jektinternes Forschungsdatenmanagement zuallererst sicherstellen, dass die eigentlichen Forschungsziele erreicht werden können. Im Sinne guter wis senschaftlicher Praxis sollten die im Forschungsprojekt erstellten Daten aber über das Forschungsprojekt hinaus erhalten bleiben und so eine längerfristige Replikation der Forschungsergebnisse bzw. eine weitere Nutzung durch andere Forschende in neuen Fors chungskontexten ermöglichen. Die folgenden Kapitel 4 bis 8 adressieren spezifische Themenkomplexe des Forschungs- datenmanagements. Kapitel 4 beginnt mit dem Datenschutz im Forschungsdatenmanage- ment . Die empirische Sozialforschung greift zumeist auf persone nbezogene und eventuell sensible Daten, z.B. von Studienteilnehmer/innen, zurück. Die Erhebung, Verarbeitung und Nutzung derartiger Informationen unterliegen datenschutzrechtlichen und forschungsethi- schen Bestimmungen. Das Kapitel zeigt grundlegende Regelu ngen im Bereich des aktuellen Datenschutzrechts auf und bietet Anleitungen, wie diese Regelungen in der Praxis umgesetzt werden können. Dazu erörtert das Kapitel neben forschungsethischen und datenschutzrecht- lichen Aspekte vor allem das Thema Anonymisierun g von quantitativen Daten. Es beleuchtet anhand von Fallbeispielen gängige Verfahren ebenso wie häufig wiederkehrende Fehler bei der Umsetzung datenschutzrechtlicher Bestimmungen. Kapitel 5 befasst sich mit der Dateiorganisation in empirischen Forschungspr ojekten Der Erfolg von empirischen Forschungsprojekten fußt vor allem darauf, dass die im Projekt generierten oder weiterverwendeten Informationen zum richtigen Zeitpunkt für den richtigen Personenkreis auffindbar und zugänglich sind. Das gilt insbesonder e für Daten und ihre Do- kumentation, aber auch für Dokumente, die Prozesse und Entscheidungen transparent und replizierbar machen. Das Kapitel zeigt anhand von Beispielen erstens, wie Informations- flüsse im Projekt mit Hilfe eines Modells zur Beschreibung de s Lebenszyklus von For- schungsdaten effizient geplant und gesteuert werden können. Zweitens beschreibt es, wie Dateiverzeichnisse und Dateien so benannt und strukturiert werden können, dass sie die Auf- findbarkeit, Authentizität und Integrität aller im Proje kt anfallenden Informationen unterstüt- zen. Zusammengenommen helfen diese Maßnahmen, Informationsverluste zu vermeiden und den Forschungsprozess mit allen getroffenen Entscheidungen, die Auswirkungen auf die Forschungsergebnisse haben, nachvollziehbar zu ma chen. Die Datenaufbereitung und Dokumentation wird in Kapitel 6 thematisiert. Als Phase im Lebenszyklus der Forschungsdaten hat sie die Aufgabe, die Daten für die Forschung nutzbar zu machen. Das stellt Forschungsprojekte vor die Herausforderung, einen Wor kflow zu ent- wickeln, der die Projektziele in unmittelbare Arbeitsschritte übersetzt und diese für alle Be- teiligten transparent und verständlich macht. Ausgehend hiervon fokussiert das Kapitel die 1. Einleitung 11 Planung und Organisation der Datenaufbereitung im Projektver lauf. Sie soll zu einem mög- lichst effizienten Workflow führen, der auf eine hohe Qualität und umfassende Dokumenta- tion der Daten gerichtet ist. Kapitel 7, Data Sharing: Von der Sicherung zur langfristigen Nutzung der Forschungs- daten, greift die abschließen de Publikation von Daten als wichtiges Ergebnis von For- schungsvorhaben auf. Die dauerhafte Verfügbarkeit von Forschungsdaten – und damit auch ihre Archivierung als notwendige Voraussetzung – leistet einen wesentlichen Beitrag zu Open Science: Sie macht Er gebnisse empirischer Forschung nicht nur nachvollziehbar und replizierbar, sondern auch anschlussfähig. Das Kapitel liefert einen Überblick über verschie- dene Möglichkeiten, Forschungsdaten nach Projektende zu sichern und Dritten zur Nachnut- zung zur Verfügu ng zu stellen. Unter dem Titel Forschungsdatenmanagement in der Sekundäranalyse schlägt Kapitel 8 die Brücke zwischen dem Forschungsdatenmanagement datengenerierender Projekte und der Nachnutzung von Forschungsdaten im Rahmen neuer Forschungsvorhaben. Es b eschreibt im Sinne guter wissenschaftlicher Praxis die Notwendigkeit replizierbarer Forschungsergeb- nisse bei der Nachnutzung bereits existierender Daten. Der Idee von Open Science folgend, können darüber hinaus im Forschungsprojekt erstellte Skripte, etwa in Form von Datenhar- monisierungskonzepten, entwickelt werden, die ihrerseits für Dritte zur Nachnutzung inte- ressant sein können und folglich verfügbar gemacht werden sollten. Das Kapitel zeigt anhand eines Beispiels die relevanten Schritte auf, um die Repl izierbarkeit und Nachnutzbarkeit ver- wendeter Forschungsdaten und Aufbereitungskonzepte sicherzustellen. Es liefert somit auch einen Beitrag zur Fortentwicklung des Forschungsdatenmanagements in der Sekundärana- lyse. Der zweite Teil des Sammelbandes umfasst die Kapitel 9 und 10 und ist den spezifischen Themen Metadaten und Datenzitation im Forschungsdatenmanagement gewidmet. Die Ka- pitel thematisieren Dienstleistungen und technische Entwicklungen von sozialwissenschaft- lichen Dateninfrastrukturen, die den konk reten Projektalltag mittelbar oder unmittelbar un- terstützen. Die beiden Beiträge richten sich an Interessierte, die diese Themen bei ihrer Arbeit mit Forschungsdaten vertiefen und praktische Nutzungsmöglichkeiten besser verstehen wol- len. Kapitel 9 behandel t dazu zunächst Metadatenstandards im Kontext sozialwissenschaftli- cher Daten und deren Rolle für die Dokumentation und Erschließung von Forschungsdaten. Es stellt gängige Metadatenstandards vor und beschreibt u.a. ihre Relevanz für Forschende beim Auffinde n von Studien in nationalen wie internationalen Datenkatalogen ebenso wie bei der Dokumentation von Variablen und Fragen in sozialwissenschaftlichen Datensätzen. Darüber hinaus erörtert der Beitrag Standards und Tools zur Bearbeitung von Metadaten und stel lt insbesondere den Metadatenstandard der Data Documentation Initiative (DDI) sowie seine Möglichkeiten zur Dokumentation von Forschungsdaten vor. Kapitel 10 thematisiert anschließend die Aspekte der Zitierbarmachung und Zitation von Forschungsdaten . Nich t nur Forschungspublikationen, sondern auch die im Forschungspro- zess entstandenen Daten sollen gemäß anerkannter Grundsätze zum Umgang mit For- schungsdaten zitierbar sein und zitiert werden. Die Datenzitation fördert die Anerkennung der Produktion von Forsc hungsdaten als eine primäre Wissenschaftsleistung. Das Kapitel erörtert die Möglichkeiten und Herausforderungen bei der Zitierbarmachung von For- schungsdaten. Es werden vorhandene Services zur Unterstützung der Datenproduzierenden beschrieben und anhand ein es ausgewählten Dienstes – des DO I ® - Systems – konkrete Emp- fehlungen ausgesprochen. Der letzte Teil des Buches befasst sich schließlich in den Kapiteln 11 und 12 mit neuen Herausforderungen und Entwicklungen im Forschungsdatenmanagement am Beispiel neuer Datentypen bzw. neuer Datenquellen. Kapitel 11 gibt einen Ausblick auf die Heraus - 12 Uwe Jensen, Sebastian Netscher und Katrin Weller forderungen im Umgang mit Social Media - Inhalten als neue Art von Forschungsdaten. Die Nutzung neuartiger, großer Datenbestände etw a aus Suchmaschinen oder Social - Networ- king - Plattformen wird seit einiger Zeit als Grundlage zum besseren Verständnis zahlreicher Lebensbereiche systematisch erprobt. Die unterschiedlichen Herausforderungen beim Um- gang mit diesen als New Data oder Big Data bezeichneten Datenquellen stehen im Mittel- punkt des Beitrags. Ausgehend von Social - Media - Daten als Forschungsgrundlage werden aktuelle Möglichkeiten und Grenzen bei der Sammlung, der Qualitätssicherung sowie die Archivierung und Nachnutzung dieses Datentyp s diskutiert. Anhand der räumliche n Verknüpfung georeferenzierter Umfragedaten mit Geodaten wird in dem abschließenden Kapitel 12 die Verbindung verschiedener Datenquellen für die inte- grierte Analyse exemplarisch vorgestellt. Ausgehend vom inhaltlichen Meh rwert einer räum- lichen Verknüpfung diskutiert das Kapitel technische, rechtliche und dokumentarische Her- ausforderungen ebenso wie praktische Empfehlungen zur Datenorganisation. Insgesamt hoffen wir, mit diesem Sammelband Forschenden, Lehrenden und Persone n, die im beruflichen Alltag mit quantitativen sozialwissenschaftlichen Daten arbeiten, einen praktischen Leitfaden an die Hand zu geben, der es ihnen ermöglicht, die unterschiedlichen Facetten des Forschungsdatenmanagements besser zu verstehen und den ein en oder anderen Lösungsansatz in ihre tägliche (Forschungs - )Arbeit erfolgreich zu integrieren. Gleichzeitig hoffen wir als Autorinnen und Autoren auf vielfältige kritische Rückmeldungen und Verbes- serungsvorschläge, die dazu anregen, Grundsätze und Lösungen zum Forschungsdatenma- nagement sozialwissenschaftlicher Daten in Theorie und Praxis weiterzuentwickeln. Danksagung Wir möchten uns an dieser Stelle recht herzlich bei den Autorinnen und Autoren dieses Sam- melbandes für ihre Beiträge, ihren fortwährenden Ein satz und die konstruktive Zusammen- arbeit bei der Entwicklung erster Ideen bis hin zur Fertigstellung des Buches bedanken. Unser Dank gilt all jenen Kolleginnen und Kollegen, die un s und den Autorinnen und Autoren den erforderlichen Freiraum für dieses Proj ekt einräumten und uns fachlich mit Rat zur Seite standen. Ebenso bedanken wir uns für die Unterstützung durch GESIS – Leibniz - Institut für Sozialwissenschaften und die Möglichkeit, dieses Buch sowohl als Printausgabe als auch Online unter einer Creative - C ommons - Lizenz zu publizieren. Bei der redaktionellen Bear- beitung unterstützten uns unsere studentischen Mitarbeiterinnen Livia Leonhardt und Rabea Lukies, denen wir für ihre kompetente und sorgfältige Arbeit danken. Nicht zuletzt gilt unser herzlicher Dank dem Verlag Barbara Budrich und seinen Mitarbeitenden. Frau Lotz, Frau Blinkert und Frau Budrich haben unsere Nachfragen in allen Phasen des Buchprojektes ge- duldig und gelassen beantwortet und sind stets flexibel auf unsere Gestaltungswünsche zur Publikati on des Buches eingegangen. https://doi.org/10.3224/84742233 .03 2. Forschungsdaten und Forschungsdatenmanagement in den Sozialwissenschaften 2. Forschungsdaten & Forschungs daten management in den Sozialwissenschaften Uwe Jensen Uwe Jensen Die Verfügbarkeit von Daten ist für Forschende in den empirischen Sozialwissenschaften eine notwendige Voraussetzung ihres wissenschaftlichen Arbeitens. In den letzten Jahrzehn- ten hat sich die empirische B asis für wissenschaftliche Analysen und damit für das Verständ- nis sozialer Entwicklungen kontinuierlich ausgeweitet (King 2011). Dieser stetige Zuwachs an verfügbaren Daten beruht auf unterschiedlichen Faktoren und verschiedenen Entwicklun- gen. Hierzu zähle n vor allem methodische und technische Neuerungen, wie Statistiksoftware, verfügbare Speicherkapazitäten oder das Internet. Zu nennen sind aber auch neue Datenty- pen, wie digitale Verhaltens - und Transaktionsdaten, Social - Media - Daten ebenso wie Pro- zessdaten öffentlicher Einrichtungen. Parallel zum Zuwachs an empirischen Daten ist auch deren Komplexität kontinuierlich gestiegen. Dies betrifft sowohl die Informationen in den Daten als auch die Datenquellen und Methoden der Datenproduktion und Analyse (Ludwig/ Enke 2013: 13). Insbesondere die Verknüpfung von neuen Datentypen oder von Daten ande- rer Disziplinen, wie z.B. Geo - oder Gesundheitsdaten, mit traditionellen Umfragedaten der empirischen Sozialforschung ist dabei mit der Erwartung verbunden, soziale Entwic klungen noch besser verstehen zu können (Jensen et al. 2015: 12f.; OECD 2013: 12). Mit dem stetigen Zuwachs an Daten und deren Komplexität sind Forschende und For- schungsdatendateninfrastrukturen mit neuen Fragen und Herausforderungen beim Umgang mit diesen (neuen) Daten konfrontiert. Dies betrifft etwa Maßnahmen zum Erhalt der Daten ebenso wie zur Sicherung ihrer Qualität und der Gewährleistung ihrer Verständlichkeit. For- schende, die im Rahmen ihres Forschungsvorhabens Daten produzieren, müssen aus rein int rinsischen Motiven sicherstellen, dass sie diese Daten zur Beantwortung der Forschungs- frage nutzen können. Im Sinne guter wissenschaftlicher Praxis sollten diese Forschenden aber auch gewährleisten, dass die Daten über das Forschungsvorhaben hinaus erhalte n blei- ben, um produzierte Forschungsergebnisse replizieren und somit überprüfen zu können. In diesem Zusammenhang forderte etwa die Deutsche Forschungsgemeinschaft (DFG) bereits 1988, dass „Primärdaten als Grundlagen für Veröffentlichungen [...] auf haltbare n und gesi- cherten Trägern in der Institution, wo sie entstanden sind, zehn Jahre lang aufbewahrt wer- den“ (DFG 2013 [1988]: 21) sollen. In den nachfolgenden Jahren forcierten Initiativen von Forschenden und Forschungsge- meinschaften Überlegungen, öffentlich finanzierte Daten der empirischen Sozialforschung auch für Dritte zur Nachnutzung in neuen Forschungskontexten ( Data Sharing ) verfügbar zu machen (vgl. OECD 2007; Berliner Erklärung 2003). Die Forderung, Daten für Dritte breit- zustellen, wurde auch in den „Empfehlungen zur gesicherten Aufbewahrung und Bereitstel- lung digitaler Forschungsprimärdaten“ der DFG (2009) aufgegriffen un d u.a. hinsichtlich der Qualitätssicherung, fachspezifischer Organisationskonzepte, Standards zur Datenspeiche- rung und zur Beschreibung durch Metadaten präzisiert. Schließlich formulierte die Allianz der deutschen Wissenschaftsorganisationen 2010 die Grund sätze zum Umgang mit For- schungsdaten . Sie verweisen auf den disziplinspezifischen Charakter der Daten und entspre- chende fachspezifische Regeln und Standards, etwa in Bezug auf den Datenschutz oder den Zugang zu Daten. In den letzten Jahren implementierten schließlich mehr und mehr Förderer in ihren Ausschreibungen die Verpflichtung zum Bereitstellen von Daten, deren Erstellung 14 Uwe Jensen durch das Forschungsvorhaben finanziert wurde. Dazu zählen z.B. das Horizon 2020 Pro- gramme (o.J.) der Europäischen Kommission, die F örderung der Forschung zur Digitalisie- rung im Bildungsbereich des Bundesministeriums für Bildung und Forschung (BMBF 2017) und nicht zuletzt die DFG mit ihren Leitlinien zum Umgang mit Forschungsdaten (DFG 2015) und Leitfäden für Antragstellende (DFG 2018) Alle im Rahmen eines empirischen Forschungsvorhabens (und darüber hinaus) ergriffe- nen Maßnahmen zur Sicherung der Daten, zu ihrem längerfristigen Erhalt, zur Gewährleis- tung ihrer Qualität und ihrer Verständlichkeit ebenso wie zu ihrer Bereitstellung für Dritte werden zumeist unter dem Begriff des Forschungsdatenmanagements subsumiert. Zur Ein- führung in das Thema Forschungsdatenmanagement stellt Abschnitt 2.1 zunächst übergrei- fende Begriffe und Konzepte eines sozialwissenschaftlich orientierten Forschungsd atenma- nagements vor, auf die sich die weiteren Kapitel explizit oder implizit beziehen. Dazu wird insbesondere auf allgemeine Charakteristika von Umfragedaten in den Sozialwissenschaften eingegangen, um ein Verständnis d erartiger Daten quer zu allen Kapite ln dieses Buches zu erleichtern. Abschnitt 2.2 thematisiert einleitend, wie sich Forschungsprozesse in den Le- benszyklusmodellen von Forschungsdaten einordnen lassen. Der spezifischere Zusammen- hang des Forschungsdatenmanagements bei der Produktion von Daten und Metadaten wird danach entlang des DDI - Data - Lifecycle - Modells beschrieben. Gleichzeitig wird die Rolle des gleichnamigen DDI - Metadatenstandards zur Dokumentation von Umfragedaten erläu- tert, auf den in einigen Kapiteln Bezug genommen wird. Abschnitt 2.3 dient schließlich der Zusammenschau des sozialwissenschaftlichen Forschungsdatenmanagements aus drei ver- schiedenen Perspektiven. Zuerst werden projektbezogene Maßnahmen und Aktivitäten des Forschungsdatenmanagements quer zu den Phasen des Lebenszyklus von Daten resümiert. Anschließend geht der Abschnitt kurz auf die Rolle und Dienstleistungen von Dateninfra- struktureinrichtungen im Rahmen des Forschungsdatenmanagements ein und thematisiert neue Herausforderungen im Umgang mit neuen Datenformen und Datenquel len. Abschnitt 2.4 fasst zentrale Aspekte des Forschungsdatenmanagements zusammen, die die weiteren Kapitel dieses Buches vertiefen. 2.1 Besonderheiten sozialwissenschaftlicher Daten Im Mittelpunkt dieses Buches steht das Management quantitativer sozialwis senschaftlicher Umfrage - bzw. Forschungsdaten, die durch standardisierte Befragungen erhoben werden. Gegenstand ist der Umgang mit eben diesen Forschungsdaten, die durch die disziplin - oder fachspezifische Methoden und Verfahren der empirischen Sozialforsc hung erzeugt werden. Konkrete Strategien, Maßnahmen und Regeln des Forschungsdatenmanagements in For- schungsvorhaben sind in starkem Maße von den Charakteristika der Daten und von den Be- sonderheiten der Datensatzstrukturen abhängig, mit denen eine Disziplin forscht. Bevor diese Aspekte im vorliegenden Kapitel vertieft werden, soll jedoch zunächst auf das Verständnis der Nutzung einiger Begriffe in diesem Buch eingegangen werden. 2. 1.1 Begriffsverständnis : Forschungsprojekt, Forschungsziel, Replikation und Na chnutzung Einige Begriffe der empirischen Sozialforschung, die in allen Kapiteln dieses Buches wie selbstverständlich verwendet werden, sind durchaus mit unterschiedlichen Bedeutungen 2. Forschungsdaten & Forschungsdatenmanagement in den Sozialwissenschaften 15 belegt. So bezeichnet im Kontext dieses Buches der Begriff Forschungspro jekt ein von einer oder mehreren Forschenden durchgeführtes empirisches Forschungsvorhaben, in dem sozi- alwissenschaftliche Daten erstellt, aufbereitet und/oder genutzt werden. In diesem Zusam- menhang sind auch die Begriffe Projektalltag , d.h. die tägliche A rbeit am Forschungsvorha- ben, Projektziele , d.h. die mit dem Forschungsvorhaben originär verknüpften Ziele, wie bei- spielsweise die Beantwortung einer konkreten Forschungsfrage, Projektworkflow , d.h. der Arbeitsablauf zur Umsetzung des Forschungsprojekts ode r der Lebenszyklus des Projektes als systematische Abfolge des Projektworkflows, etc. zu verstehen. Gleichzeitig werden bei der Verwendung dieser Begriffe keine spezifischen formalen Or- ganisations - oder Kooperationsformen unterstellt. Dementsprechend ist a uch der Begriff der kleinen und mittleren Forschungsprojekte im Verlauf dieses Buches bewusst unscharf ver- wendet und wird nicht mit einem bestimmten Umfang des Forschungsvorhabens, etwa in Form einer bestimmten Anzahl von im Projekt beteiligten Forschenden verbunden. Dies liegt zunächst daran, dass im hiesigen Zusammenhang der Begriff des Forschungsprojekts losge- löst von jeglicher zeitlichen oder finanziellen Dimension zu verstehen ist, d.h. es kann sich dabei um ein bereits beendetes, noch laufendes oder i n Planung befindliches Projekt handeln, dass institutionell finanziert oder durch Drittmittelgeber gefördert ist. Darüber hinaus fehlt es an entsprechender Trennschärfe, was genau als Forschungspro- jekt zu definieren ist. Gerade in internationalen Umfragen können einzelne Erhebungen in unterschiedlichen Ländern getrennt betrachtet werden und so das große, gesamte For- schungsprojekt in viele Teilprojekte zerlegt werden. Zum anderen liefert beispielsweise die Anzahl an beteiligten Forschenden im Projekt nur ei ne vage Einschätzung der Projektgröße. So können ggf. große internationale Umfrageprogramme mit vergleichsweise wenigen, aber sehr gut geschulten Mitarbeitenden die Aufbereitung und Dokumentation der erstellten Da- ten bewerkstelligen. Umgekehrt können relat iv kleine Forschungsprojekte mit einer relativ hohen Anzahl an Projektbeteiligten ausgestattet sein, z.B., wenn im Rahmen des Forschungs- vorhabens von einem Teil der Forschenden weiterführende Qualifikationen, wie etwa Pro- motionen, angestrebt werden. Forsch ungsziele sind in den Sozialwissenschaften zumeist verbunden mit der Beantwor- tung konkreter Forschungsfragen, wie etwa zum Wahlverhalten in einem oder mehreren Län- dern bzw. zu einem oder mehreren Zeitpunkten. Forschungsziele können aber viel weiter gefasst werden. So kann beispielsweise auch die Erstellung eines Datensatzes Ziel eines Pro- jektes sein oder zumindest ein wichtiges Produkt der eigentlichen Projektarbeit darstellen. Doch auch unter der Annahme, dass die Beantwortung einer konkreten Forschungsfra ge im Vordergrund des Forschungsvorhabens steht, können projektintern verschiedene Ziele im Umgang mit den erstellten Forschungsdaten definiert werden. Dies betrifft in erster Linie natürlich die erfolgreiche Umsetzung der eigentlichen Projektziele und som it den Erhalt qua- litativ hochwertiger und verständlicher Forschungsdaten im Projektverlauf. Im Sinne guter wissenschaftlicher Praxis sollten Forschende die Daten zu Replikations- zwecken über das eigentliche Projektende hinaus aufbewahren. Zumindest wenn di ese Daten zur Generierung publizierter Forschungsergebnisse genutzt wurden, muss sichergestellt sein, dass diese Ergebnisse erneut erzeugt werden können. In diesem Buch verstehen wir unter dem Begriff der Replikation die Möglichkeit, Analysen und die zugru nde liegenden Daten aus publizierten Forschungsergebnissen systematisch zu überprüfen. Dies betrifft sowohl die Überprüfung der Ergebnisse an sich, d.h. deren Verifikation durch die wiederholte Daten- analyse , als auch die wiederholte Erstellung der Daten au f Basis des ehemaligen Studiende- signs, Messinstruments etc. Der Begriff der Nachnutzung bzw. des Data Sharing beschreibt hingegen den Sachver- halt, dass relevante Forschungsdaten von den Primärforschenden (nach Projektende) Dritten zur weiteren Nutzung ber eitgestellt und verfügbar gemacht werden (vergl. für die Sozial - 16 Uw e Jensen wissenschaften etwa den Beitrag von Huschka et al. 2011: 37f.). Die Gruppe an Nachnutzen- den kann dabei auf bestimmte Personen oder Personengruppen, wie z.B. Forschende der So- zialwissenschaften, begrenzt sein, oder aber eine breitere Öffentlichkeit, wie z.B . Forschende aus anderen Disziplinen, der Politik oder der Presse, umfassen. Gleiches gilt für den Zweck der Nachnutzung. Auch hier kann die Datennutzung auf bestimmte Zwecke, wie die sozial- wissenschaftliche Forschung, begrenzt oder aber für alle möglichen Zwecke, also beispiels- weise auch zur kommerziellen Nutzung, freigegeben werden. 2.1.2 Forschungsdaten in den Sozialwissenschaften Im Zusammenhang mit Forschungsdaten wird oftmals von Rohdaten, Primärdaten, empiri- schen Daten, Ausgangdaten etc. gesprochen, die erhoben, verarbeitet, harmonisiert und ana- lysiert werden sollen. Eine einheitliche oder universelle Definition von Forschungsdaten, die im Detail für alle Disziplinen zutreffen würde, existiert jedoch nicht. Vielmehr herrscht in vielen Schriften und Le itlinien zum Umgang mit Daten Einigkeit, dass eine fachspezifische Betrachtung erforderlich ist. So heißt es etwa im Positionspapier Forschungsdaten der Deut- schen Initiative für Netzwerkinformation e.V. (DINI 2009: 7): Forschungsdaten variieren nach Diszi plin. Anders als beim Umgang mit klassischen Textpublikationen ist beim Umgang mit Forschungsdaten häufig ein umfassendes Verständnis der jeweiligen Daten vonnö- ten, um den vielschichtigen disziplinspezifischen Charakteristika der Daten gerecht zu werden. D emnach definiert die jeweilige Forschungsgemeinschaft, was als Forschungsdaten im vor- liegenden Kapitel betrachtet wird und welche Anforderungen von Datenproduzierenden und - nutzenden an den Umgang mit ihnen zu berücksichtigen sind. Dabei ist es nach Ludwig (2012) nicht sinnvoll, Inhalte oder Quellen auszuschließen, die die Daten behandeln können oder denen sie entstammen, „da prinzipiell alles Untersuchungsgegenstand der Wissenschaft werden kann“. Stattdessen ist die Frage nach der Definition des Begriffs D aten „eher eine Aussage über ihre methodische Verwendung in einem bestimmten wissenschaftlichen Kon- text“ (ebd.: 300). Demnach muss die Frage nach der Definition von Forschungsdaten im vorliegenden Kon- text aus sozialwissenschaftlicher Perspektive betrachte t werden. Die Disziplin Sozialwissen- schaften ist ein Sammelbegriff für eine Vielfalt akademischer Fächer, von Anthropologie über die Soziologie und Politologie bis hin zur Ökonomie. Allen diesen Fächer gemein ist ihr Bezug zum sozialen Handeln und die Frag e nach dem gesellschaftlichen Zusammenhalt. Die im Rahmen der Disziplin genutzten Methoden und Verfahren werden unter dem Begriff empirische Sozialforschung zusammengefasst. Die unterschiedlichen Fächer der Sozialwis- senschaften haben dabei ein gemeinsames Verständnis von Forschung und wissenschaftli- chem Arbeiten im Umgang mit den verwendeten Methoden (Quandt/Mauer 2012: 61). Zu diesen Methoden zählen im Wesentlichen die Befragung, die Beobachtung, das Experiment und die Inhaltsanalyse, die in sich weiter di fferenzierbar sind. Bei der Produktion bzw. der Erhebung empirischer Informationen werden unterschiedliche Instrumente eingesetzt, wie etwa Fragebögen, leitfadengestützte Interviews, Beobachtungsschemata, inhaltsanalytische Kategorienschemata usw. Im Sinne eines methodenbasierten Verständnisses (Ludwig 2012: 299) werden daher im Folgenden alle Informationen als sozialwissenschaftliche (Forschungs - )Daten definiert, die in wissenschaftlichen Kontexten durch fach - bzw. disziplinspezifische Methoden und Ver- fahr en zur Beantwortung von Forschungsfragen und Gegenständen der Sozialwissenschaften erzeugt werden oder aus deren Bearbeitung entstehen. Dies umfasst sowohl die traditionellen Umfragedaten der empirischen Sozialforschung als auch neue Datentypen, wie etwa 2. Forschungsdaten & Forschungsdatenmanagement in den Sozialwissenschaften 17 p rozessgeneriete Daten, oder Daten aus (relativ) neuen Quellen, wie etwa von Social - Media - Plattformen im Internet. D.h. auch, dass alle verfügbaren Informationen über die Entstehung und Bearbeitung dieser Daten, immer – zumindest implizit – in eine solche D efinition von Forschungsdaten einbezogen werden müssen. Aus praktischer Sicht sind die rohen Mess- werte, z.B. in einer Datenmatrix, ohne eine entsprechende Dokumentation nicht verständlich und somit auch nicht nutzbar. Im Rahmen des Buches stehen vor allem Umfragedaten im Vordergrund, die durch stan- dardisierte Fragebögen erhoben werden. Sie werden im nächsten Abschnitt thematisiert. Dar- über hinaus wird der Umgang mit Daten aus neuen Datenquellen im Kontext neuer Heraus- forderungen an das Forschungsdaten management behandelt. 2. 1.3 Studiendesign und Datenstruktur in der empirischen Sozialforschung Forschungsdaten sind die Basis empirischer Untersuchungen in den Sozialwissenschaften und liegen zumeist in digitaler Form vor. Sie bilden die zu untersuchenden Ausschnitte ge- sellschaftlicher Wirklichkeit ab. Diese können im Rückblick ohnehin schon neben ihrem Wert für die ursprüngliche Forschungsfrage sehr oft eine historisch beschreibende Funktion bekommen. [...] Sowohl historische amtliche Statistiken wie auch D aten aus Umfragen oder Beobachtungen können so einen analytischen Wert erhalten, der zum Zeitpunkt ihrer Erhebung noch nicht vorauszusehen war. (Quandt/Mauer 2012: 62) Der Begriff der Primärdatenerhebung bzw. der damit einhergehenden Primäranalyse be- schrei bt dabei Daten, die zur Beantwortung einer spezifischen Forschungsfrage neu erhoben, aufbereitet und analysiert werden. Entsprechend der Forschungsfrage und dem