This page in English.

Publicera i datarepositorium

Det finns stora fördelar med formell publicering av forskningsdata i datarepositorier framför att dela på en egen hemsida, med kolleger eller som appendix till en publicerad artikel. Forskningsdata som publiceras i ett datarepositorium blir en egen publikation, som:

  • beskrivs och dokumenteras på ett begripligt och standardiserat sätt, så de kan förstås och återanvändas rätt.
  • förses med en beständig identifierare (till exempel en digital object identifier, DOI), så de tillförlitligt kan hittas och länkas samman med andra publikationer.
  • förses med den licens du bedömer lämplig (till exempel CC-BY), vilket låter andra veta vad de tillåts göra med dina forskningsdata och hur de ska citeras.

Länka till dina forskningsdata i dina vetenskapliga publikationer. Detta ger dig citeringsfördelar och synliggör ditt arbete i statistiska sammanställningar.

Koppla samman data och artikel. Nämn datas DOI ett Data Availability Statement i artikeln.
Genom att låta din artikel- och datapublikation referera till varandra med hjälp av beständiga identifierare (såsom DOI) så länkas de samman och blir mer FAIR – och ger din artikel ett så kallat "citation advantage".
 

Sammantaget hjälper ett datarepositorium dig att göra dina forskningsdata mer FAIR: sökbara (findable), tillgängliga (accessible), interoperabla (interoperable) och återanvändbara (reusable). Detta gör det enklare för andra att hitta, ladda ner, förstå, hantera och återanvända dem - och på sikt för dig att arkivera hela ditt forskningsprojekt.

Publicera med öppen tillgång och i enlighet med FAIR-principerna

Välja datarepositorium

Undersök vilka datarepositorier som används i ditt fält och lämpar sig för dina forskningsdata. Metadatafälten i ämnesspecifika datarepositorier kan vara mer detaljerade och använda ämnesspecifika vokabulärer, vilket ger en förbättrad beskrivning av materialet. Generella datarepositorier kan ha fördelen av större tvärvetenskaplig räckvidd.

Söktjänsten Re3data för register över olika datarepositorier och kan hjälpa dig hitta rätt när du väljer datarepositorium.

Re3data, söktjänst för datarepositorier

Datarepositorier som granskas av Stockholms universitet

I dagsläget erbjuder Stockholms universitet granskning och stöd inför det att du publicerar i något av dessa datarepositorier:

Granskningen består i att forskningsdatateamet ser över metadata och föreslår förbättringar som gör dina forskningsdata mer väldokumenterade och FAIR, samt möjliggör automatisk arkivering av det publicerade materialet. Du kan förekomma forskningsdatateamet och underlätta din publiceringsprocess genom att följa checklistan nedan.

Checklista inför publicering

När du valt datarepositorium för dina forskningsdata (eller dess metadata, om forskningsdata inte kan publiceras med öppen tillgång) kan du i god tid förbereda dem på ett sätt som gör dem så öppet tillgängliga och FAIR som möjligt vid publicering.

  1. Fyll i alla relevanta metadatafält. Beskriv dina forskningsdata så fullständigt som möjligt i datarepositoriets metadatafält. Ett tilläggsdokument, en välstrukturerad kodbok eller README-textfil (.txt), är hjälpsamt för framtida förståelse av dina data.
  2. Filnamngivning. Du förbättrar forskningsdatas tillgänglighet och beständighet om du namnger dina filer väl inför publicering och bevarande. Det är bra om du för egen del tidigt skapar en konsekvent struktur för hur du namnger dina filer. Filnamn bör vara informativa och beskrivande för att kunna hittas och förstås ur sitt sammanhang i en tvärvetenskaplig miljö. Filnamn bör inkludera datum. Filnamn bör inte innehålla några förbjudna tecken eller blanksteg. Tillåtna tecken är: A-Za-z0-9_-.. Använd helst bara punkt (.) en gång för att separera filtillägget. Dessa rekommendationer ger förbättrad maskinläsbarhet och sökbarhet. DataCarpentry, DataOne, Dryad och Stanford har guider till god praxis för filnamngivning.
  3. Filformat. Du förbättrar forskningsdatas tillgänglighet och beständighet om du sparar dina forskningsdata i vanliga och öppet tillgängliga filformat inför publicering och bevarande. Då blir forskningsdata tillgängliga för fler och på längre sikt. SND listar rekommenderade filformat för långtidsbevarande och tillgänglighet. När ett proprietärt filformat erbjuder viktig funktionalitet (till exempel en Excel-arbetsbok med flera ark, inbäddade diagram eller bilder) ska du förstås publicera och bevara forskningsdata i det filformatet, men du får gärna också lägga till en version av datafilen i ett öppet filformat. Det är viktigt att beskriva filformaten så exakt som möjligt, inklusive referenser till programvaran (om möjligt med den version som används) genom vilken de producerades och programvara som behövs för att öppna filerna. Detta är särskilt viktigt när objektet innehåller .zip- eller .tar-mappar som innehåller flera olika filformat.
  4. Variabler (kolumnrubriker). Är dina variabler begripliga och möjliga att tolka korrekt av dig själv eller en kollega om 5–10 år? Eller av en forskare från en annan disciplin? Noteras måttenheten tydligt för varje variabel? Behövs tilläggsdokumentation i en README-fil eller separat kodbok för dessa detaljer?
  5. Auktoriteter. Om det finns auktoriteter (vokabulärer eller andra domänspecifika standarder) som hjälper förklara dina forskningsdata så länka till dessa, både i metadata och i faktiska datafiler. Auktoriteter ökar forskningsdatas maskinläsbarhet och gör dem mer FAIR. Läs mer hos Riksantikvarieämbetet om standarder och auktoriteter som berikar data inom kulturarvsforskning.
  6. Referenser. Kontrollera att alla länkar fungerar.
  7. Publikationer. Ange fullständig referens (inklusive DOI) till den eller de publikationer som bygger på de forskningsdata du håller på att publicera. Om DOI för den refererade publikationen ännu inte är känd, till exempel för att artikeln ännu inte har godkänts för publicering kan vad som helst anges i det fältet, för att ersättas senare. Metadata kan alltid ändras efter att ett dataset publiceras men datafiler (och deras filnamn) kan inte ändras utan att en ny version av hela posten (med ny DOI) skapas.
  8. ORCID. Vänligen koppla ditt ORCID till ditt konto i valt datarepositorium. Om du inte har ett ORCID kan du enkelt registrera ett konto och länka det till ditt universitetskonto.
  9. Institution. Uppge din institution på rätt sätt i metadata. När din institutionstillhörighet behöver skrivas in manuellt, vänligen kopiera och klistra in institution/avdelningsnamn från dessa listor: engelska/svenska.

Rekommenderade filformat, SND
God praxis för mappstruktur och filnamngivelse, SND
Hur du berikar metadata med auktoriteter, Riksantikvarieämbetet
Webinar 'Enriching Metadata - Enriching Research', the Swedish National Heritage Board
Registrera ett ORCID

Råd för publicering av programkod (software)

Vid publicering av programkod är det bra att följa råden nedan, för att göra programkoden så FAIR som möjligt.

  1. Beskriv de programspråk som används i skript (t.ex. C#, Go, Javascript, Python, R) tydligt i metadata och i en README-fil, i förekommande fall även med version.
  2. Lägg inte README-filen tillsammans med kodskript (eller datafiler) i en zip-fil, utan håll den separat (som .txt eller .md – markdown), för att kunna visas direkt i ett repositorium, så att användare får chansen att bedöma innehållet utan att först ladda ner hela zip-paketet.
  3. Ge en kort förklarande introduktion till programvaran i inledningen av filen, om möjligt innefattande en versionshistorik och ett exempel på hur programmet kan användas. [1]
  4. Dela upp programmet/koden i mindre funktioner som fungerar som självständiga återanvändningsbara delar av programvaran. Namnge varje funktion, beskriv vilken information den producerar och lista dess nödvändiga parametrar och argument. [1]
  5. Undvik duplicering av kod i samma program genom att använda namngivna funktioner istället för att ”klippa och klistra” in samma kodavsnitt på flera ställen. Använd listor istället för att skapa flera variabler av samma slag, t.ex. definiera "score = (1, 2, 3)" hellre än att skapa variablerna "score1", "score2" och "score3". [1]
  6. Dokumentera och beskriv beroenden och krav på annan mjukvara, med mekanismer för enkel tillgång. [1,2]
  7. Ge ett enkelt exempel med testdata som kan köras för att se att programmet fungerar och om det ger korrekt output för en känd input. [1]
  8. Registrera din mjukvara i ett välkänt data- eller kodrepositorium, som också kan ge en beständig identifierare (persistent identifier, PID), vanligen en DOI, till ”frusna” versioner (”releases”) av din mjukvara. Därigenom blir det också lättare för andra att citera din mjukvara och därigenom ge den meritvärde. DOI:s för mjukvara kan fås bl.a. genom Figshare och Zenodo, som båda har en integration med GitHub. Mjukvarukod eller skript för klimatforskning har ett eget lokalt GitLab kodrepositorium genom Bolincentret på Stockholms universitet, som också ger ut DOI:s för ”frysta versioner” (releases) av mjukvarukod eller skript. Mer information och hjälp kan fås genom Bolincentrets supportsida.
  9. Vi rekommenderar att all mjukvara som produceras i forskningsprojekt vid Stockholms universitet så långt som möjligt får en användarlicens för öppen källkod. Lista med exempel på öppen källkod https://spdx.org/licenses/. [3]
  10. För att slippa skriva mer än nödvändigt och få maximal nytta av “autoutfyllnad” (med tab-tangenten) av variabel-, mapp- och filnamn, gör dessa till unika strängar så långt möjligt med skilda begynnelse (och så att inget mapp- eller filnamn bara är en ”delsträng” av ett sådant namn i samma filstruktur). Använd bara den (av Riksarkivet) begränsade teckenuppsättningen [A-Za-z0-9-_.] till filnamn och mappar, utan några mellanslag.

[1] Wilson et al. (2017): Good enough practices in scientific computing. 
[2] Lamprecht et al. (2020): Towards FAIR principles for research software.
[3] Akhmerov et al. (2019): Raising the Profile of Research Software.

Vissa uppgifter kan inte publiceras med öppen tillgång...

Forskningsdata med personuppgifter eller känsliga personuppgifter, uppgifter som omfattas av sekretess enligt Offentlighets- och sekretesslagen (2009:400), eller uppgifter som inskränks av ägande- eller upphovsrätt ska inte publiceras med öppen tillgång.

…men ska ändå göras tillgängliga "så öppet som möjligt och så begränsat som nödvändigt"

Forskningsdata som inte kan publiceras med öppen tillgång görs tillgänglig "så öppet som möjligt och så begränsat som nödvändigt" vid Stockholms universitet genom att du publicerar metadata, en beskrivning av forskningsdata, öppet tillgängligt i SND utan att ladda upp några datafiler. Forskningsdatateamet erbjuder säker lagring för datafilerna, med en beständig koppling mellan metadataposten i SND och lagringen. Forskningsdatateamet ansvarar också för att datafilerna bevaras och endast görs tillgängliga till exempel efter sekretessprövning, för behöriga.

Om du publicerar metadata om forskningsdata med känsliga uppgifter i något annat datarepositorium än SND så behöver du själv ansvara för att bevara datafilerna tillgängligt och kunna leverera dem om de begärs ut av behöriga, och efter sekretessprövning bedöms kunna lämnas ut.

Avidentifierade personuppgifter, det vill säga uppgifter där all möjlighet till bakvägsidentifikation är borttagen, kan publiceras med öppen tillgång.

Kontakta forskningsdatateamet om hur du hanterar och tillgängliggör just dina forskningsdata så öppet som möjligt och så begränsat som nödvändigt.

Svensk Nationell Datatjänst, SND
Handling, arbetshandling och allmän handling
Sekretessbestämmelser vid Stockholms universitet

Återanvända data

Det kan finnas stora vetenskapliga och samhällsekonomiska fördelar med att arbeta med befintliga data. Det kan till exempel handla om redan insamlad och publicerad forskningsdata, registerdata eller öppet tillgängliga myndighets- och kulturarvsdata.
När du återanvänder data ska du vara uppmärksam på under vilken eventuell licens data tillgängliggjorts, hur data får nyttjas vidare och ska citeras. Du måste också kunna referera till var primärdata är lagrad, ifall någon vill granska eller upprepa din studie i den händelse att din bearbetade sekundärdata inte kan publiceras.

För vissa data är villkoren för återanvändning tydligt definierade (och kan t ex kräva etikprövning och särskilda informationssäkerhetsåtgärder) medan andra data kan laddas ned helt fritt och återanvändas utan begränsning.

När du återanvänder data behöver du upprätta en datahanteringsplan i de fall du bearbetar data i sådan utsträckning att de kan betraktas som ett nytt dataset. I dessa fall rekommenderas du också tillgängliggöra det nya datasetet (så öppet som möjligt, så begränsat som nödvändigt, i den mån originalkällan tillåter) samt bevara det tillsammans med projektets övriga forskningsinformation efter projektavslut.

Kontakt

Forskningsdatateamet
Frågor om datahantering, publicering och arkivering av data.
E-post: opendata@su.se