Het delen van onderzoeksdata: niet altijd even populair
Hoe gaan Nederlandse sociologen in de praktijk om met hun data? Als de onderzoekers worden onderzocht, brengen de resultaten soms een 'onwetenschappelijke houding' aan het licht.
Door Marion Wittenberg
Open Access is een speerpunt tijdens het Nederlandse voorzitterschap van de Europese Unie in 2016. Minister Sander Dekker zal sterk inzetten op de Open Science Agenda van EU-commissaris Carlos Moedas voor Onderzoek, Wetenschap en Innovatie. Het idee is dat er een open Europese markt voor wetenschappelijke kennis moet komen.
Vaak wordt gedacht dat Open Access alleen te maken heeft met wetenschappelijke publicaties, maar het geldt ook voor de data waarop deze publicaties zijn gebaseerd. Het delen van onderzoeksgegevens maakt onderzoek niet alleen transparanter en verifieerbaar, het maakt ook in sommige gevallen vervolgonderzoek efficiënter en goedkoper omdat de data niet opnieuw verzameld hoeven te worden. Bovendien opent het delen van data nieuwe wegen naar onderzoek, omdat informatie uit diverse datasets gekoppeld en geanalyseerd kan worden.
Downloaden voor hergebruik
Data Archiving and Networked Services (DANS) is een instituut dat in 2005 door de Koninklijke Nederlandse Akademie van Wetenschappen (KNAW) en de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) is opgericht om het delen van wetenschappelijke onderzoeksgegevens te bevorderen. Naast training en consultancy op het gebied van datamanagement en certificering van archieven, biedt DANS het online archiveringsysteem EASY, waarmee onderzoeksinstituten en individuele onderzoekers hun data duurzaam kunnen archiveren en waaruit andere onderzoekers data kunnen downloaden voor hergebruik.
Hield de voorganger van DANS, het Steinmetz-archief, zich vooral bezig met het archiveren van kwantitatief surveyonderzoek in de vorm van SPSS-bestanden, DANS archiveert uiteenlopende dataformaten van verschillende wetenschapsdisciplines. Op het gebied van de sociale wetenschappen maken naast surveyonderzoek ook kwalitatieve interviewverzamelingen (bestaande uit audio en/of video-opnames en transcripten) deel uit van de collectie. Naast afspraken met individuele onderzoekers en onderzoeksgroepen over de aanlevering van bestanden, probeert DANS zoveel mogelijk samen te werken met universiteitsbibliotheken, die in steeds meer universiteiten een rol hebben gekregen in het datamanagement van het universitaire onderzoek.
Vertrouwelijke gegevens
Wat komt allemaal kijken bij het delen van data? Een belangrijk aspect is dat duidelijk beschreven moet worden wat het onderwerp van de data is, wat voor soort gegevens het zijn en wanneer en op welke manier ze zijn verzameld, zodat ze voor andere onderzoekers vindbaar en toegankelijk zijn. Een ander aspect is het bestandsformaat, dit moet duurzaam zijn zodat de data ook in de toekomst nog gebruikt kunnen worden. Verder moet voor elk onderzoek worden bepaald onder welke voorwaarden de data het beste beschikbaar kunnen worden gesteld. Niet alle data kunnen volledig open toegankelijk zijn, vertrouwelijke gegevens moeten beschermd blijven. Daarom hanteert DANS de slogan: 'Open als het kan, beschermd als het moet.'
DANS heeft geprobeerd een zo gebruikersvriendelijk mogelijk systeem te bouwen; het EASY-archiveringssysteem begeleidt de onderzoeker bij het deponeren van zijn of haar data. Met behulp van online invulvelden kun je beschrijvende informatie (metadata genaamd) aanleveren, via een upload- en een submit-knop komen de databestanden en bijbehorende files daarna in het systeem terecht. Een DANS-datamanager controleert vervolgens of de aangeleverde informatie en bestanden volledig zijn. Ook wordt uitgebreid gecontroleerd of de bestanden geen privacygevoelige gegevens bevatten, of in het geval van interviews, vergezeld zijn van informed consent van de geïnterviewden. Wanneer alles akkoord is bevonden, wordt de dataset gepubliceerd en is deze beschikbaar voor hergebruik.
Terughoudend
Sinds de oprichting van DANS groeit de collectie In EASY met name door de aanwas van archeologische bestanden, de toename van het aantal sociaalwetenschappelijke bestanden blijft hier sterk bij achter. Hoe gaan sociale wetenschappers met hun data om? Hoe bewaren ze hun bestanden? En zijn ze bereid om deze te delen? Om hier inzicht in te krijgen, heeft Beau Oldenburg (Rijksuniversiteit Groningen) in opdracht van DANS in het voorjaar van 2015 een onderzoek uitgevoerd onder veertien sociologen – zes programmaleiders en acht promovendi – van zes verschillende Nederlandse universiteiten.
Uit het onderzoek van Oldenburg komt naar voren dat bij de meeste afdelingen Sociologie, mede naar aanleiding van fraudezaken zoals de Stapel-affaire, de afgelopen jaren beleid is geïntroduceerd om de controleerbaarheid van onderzoek te vergroten. Door middel van publication packages – het opslaan van de data en syntax waarop een publicatie gebaseerd is – probeert men op een meer transparante manier met data om te gaan wanneer een onderzoek is afgerond. Er is echter geen beleid voor hoe onderzoekers tijdens het onderzoek met data moeten omgaan. Hoewel alle universiteiten beschikken over een beveiligde digitale omgeving worden veel data uitgewisseld via Dropbox, USB-sticks of e-mail.
Verder blijkt uit Oldenburgs onderzoek dat het uitwisselen van data bij voorkeur wordt gedaan met onderzoekers die men al kent. Vooral promovendi staan terughoudend tegenover het delen van hun data met anderen. De geïnterviewden geven aan zich bewust te zijn van deze onwetenschappelijke houding, maar toch vinden vier van de zes promovendi die zelf data verzamelen het oneerlijk als anderen 'zomaar' gebruik van hun data zouden kunnen maken. De zes programmaleiders staan positiever tegenover het delen van data. Zij geven aan hun data liever bij een landelijk instituut zoals DANS te archiveren dan bij een lokale voorziening als een universiteitsbibliotheek. In de praktijk blijkt dat onderbrengen bij DANS echter niet altijd te gebeuren.
Data Management Plan
Om data te kunnen hergebruiken, is het van belang dat deze goed gedocumenteerd worden. Hulpmiddel hierbij is een Data Management Plan (DMP). Een DMP helpt een onderzoeker de data te managen gedurende het hele onderzoeksproces. Een van de aspecten ervan is dat de context van het onderzoek zo wordt omschreven dat anderen, die niet bij het onderzoek betrokken zijn geweest, de data ook kunnen begrijpen en gebruiken.
Om goed datamanagement te bevorderen is NWO in 2015 gestart met de pilot Datamanagement, wat inhoudt dat voor een zestal financieringsrondes er een datamanagementparagraaf moet zijn opgenomen in de onderzoekaanvraag. Na honorering van de aanvraag moet deze paragraaf verder uitgewerkt worden in een DMP. Kosten voor een DMP kunnen gefinancierd worden vanuit de subsidie. Ook de Europese Commissie kent een soortgelijke pilot voor subsidies onder Horizon 2020.
Uit het onderzoek van Oldenburg blijkt echter dat vrijwel geen van de geïnterviewden bekend is met het Data Management Plan. De onderzoekers blijken gaandeweg het onderzoek wel over deze onderwerpen na te denken, maar zetten hun denkbeelden niet op papier.
Datamanagement en het delen van data zijn activiteiten die anno 2016 een vast onderdeel zouden moeten zijn van wetenschappelijk onderzoek. In de praktijk is hier nog heel veel winst te behalen.
Marion Wittenberg is relatiemanager bij de afdeling Datadiensten van DANS.Daarnaast is ze werkpakketleider van het Horizon 2020-project CESSDA SaW. Met als doel de data-infrastructuur voor de sociale wetenschappen in Europa te verstevigen.
De white paper ‘Integriteit en duurzaamheid in het digitale tijdperk’ van Beau Oldenburg is te downloaden via de DANS website: http://dans.knaw.nl. Hier is ook informatie te vinden over het archiveren en delen van data.
Meer informatie over het Open Access beleid van NWO: http://www.nwo.nl/beleid/open+science
Het online archiveringssysteem van DANS is te vinden via: http://easy.dans.knaw.nl