Teadusandmete halduse all mõistetakse kõiki tegevusi andmetega, mis tagavad teadusandmete kõrge kvaliteedi: andmete organiseerimine, dokumenteerimine, infoturve, andmete pikaajaline säilitamine. Ühesõnaga, eetiline teadustöö tegemine.
Teadusuuringu kavandamise käigus on oluline läbi mõelda ja kirja panna, kuidas toimub andmete kogumine ja nendega töötamine uuringu vältel ning kus säilitatakse teadusandmeid pärast projekti lõppemist. Kavandamisel on abiks andmehaldusplaan, mis on kasulik uuringu töörühmale ning vajalik rahastajale esitamiseks.
Andmehaldusplaan (AHP) on ametlik dokument, mis kirjeldab, kuidas käsitletakse teadusandmeid kogu teadusprojekti vältel ja pärast projekti lõppemist. AHP on struktureeritud, süstematiseeritud ja elav dokument, mida projekti jooksul pidevalt kaasajastatakse. AHP järgib loogilist teadusandmete elutsüklit ning kirjeldab selle kõiki aspekte.
Andmehaldusplaani loomiseks on võimalik kasutada erinevaid tööriistu:
Mõned riigid on lokaliseerinud ja kohandanud andmehaldusplaani malli oma vajadustele vastavaks. Neid on hea kasutada koostööprojektide puhul:
Järgnev juhend aga järgib täpselt DMPonline’i struktuuri ja rubriike:
Kogun ise, (taas)kasutan oma varem kogutud andmeid, kasutan avalikke avaandmeid (Eesti avaandmete portaal), (taas)kasutan teiste poolt kogutud andmeid, vt repositooriumide register Re3data, andmeregistrid (Mendeley Data, DataCite Commons jm), ostan andmed.
Mida tähele panna?
Kui taaskasutatakse või ostetakse andmeid, siis millist versiooni?
Mida tehakse, kui andmete autor laeb üles uue versiooni?
Säilita kasutatav versioon ja selle dokumentatsioon ka oma serveris.
Kontrolli autoriõigusi, litsentse, piiranguid (ligipääs, taaskasutus).
Kontrolli andmete masinloetavust ja koostöövõimet planeeritava infosüsteemiga.
Andmetüübid (eksperiment, vaatlusandmed, küsitlusandmed, audio-video jne).
Kuidas uued andmed integreeruvad juba olemasolevate andmetega?
Millised andmed väärivad pikaajalist säilitamist?
Kui mõnedele andmehulkadele rakendub autoriõigus või intellektuaalomandi õigus, näita, et sul on luba neid andmeid kasutada.
Nimeta kasutatavad andmevormingud ja põhjenda neid.
Kasuta avatud vorminguid.
Kasuta standardseid vorminguid.
Kasuta masinloetavaid vorminguid.
Uuri, kas vorming võimaldab automaatset metaandmete lisamist.
Uuri, kas repositooriumid toetavad valitud vorminguid.
Soovitatavad andmevormingud: File Formats. Open Data Handbook, File Formats. Data Archiving and Networked Services.
Hinda andmemahtu projekti lõpus. Sellest sõltuvad paljud järgmised otsustused ja kulud andmehaldusele: säilitamine, ligipääs, varundamine, andmevahetus, riist- ja tarkvara ning tehniline tugi.
Kas on olemas standardsed protseduurid ja meetodid (nimetada, linkida).
Kas on olemas andmestandardid (nimetada, linkida).
Kuidas tagatakse andmete kvaliteet (käideldavus, terviklus, konfidentsiaalsus).
Kuidas tegeldakse vigadega (sisestusvead, problemaatilised väärtused).
Võimalusel kasuta alati avatud lähtekoodiga tarkvara.
Hoiab riist- ja tarkvara kulud madalad.
Koostöövõimeline teiste avatud lähtekoodiga tarkvaratoodetega.
Tarkvara arendab ja toetab suur kogukond (kõrgem kvaliteet, turvalisus ja kaasajastamine; paraku ka vähene dokumentatsioon ja tugi).
Tarkvara peab võimaldama kõiki analüüse uuesti läbi viia.
Dokumenteerimine, kui ise luuakse uut tarkvara.
Tehniline tugi oma tarkvara puhul, kas seda suudetakse edaspidi pakkuda.
Versioonihaldussüsteem git.
Pilvepõhine koodirepositoorium GitHub.
Avatud tarkvaralitsentsid: Choose an open source license.
Ole süstemaatiline ja järjepidev!
Failide nimetamine: lihtne, loogiline, lühenditeta või standardsete lühenditega (riigid, keeled, mõõtühikud, meetodid).
Lühendid läbivalt ühes keeles (kas MRT või MRI?).
Failide organiseerimine (variandid: projekti nimi, aeg, koht, koguja, materjali tüüp, vorming, versioon).
Kaustade struktuur olgu hierarhiline, lihtne, loogiline, lühike.
Kuidas toimub versioonihaldus ja mis probleemid võivad tuleneda uute versioonide üleslaadimisest.
Failide kopeerimine mitmesse kohta ei ole hea, hoia ühes kohas, loo otseteed.
Metaandmete lisamine (kes vastutab, millal lisatakse).
Artikkel: Data Organization in Spreadsheets.
Väga hea andmete dokumenteerimise juhend: Siiri Fuchs, & Mari Elisa Kuusniemi. (2018, December 4). Making a research project understandable - Guide for data documentation (Version 1.2). Zenodo. DOI: http://doi.org/10.5281/zenodo.1914401
README tekstifail esitatakse koos andmefailidega. README.txt fail annab teavet andmekogu kohta ja võimaldab andmeid õigesti tõlgendada nii endal kui ka teistel teadlastel pärast andmete jagamist või avaldamist. Loo üks README.txt fail iga andmekogu kohta ning nimeta see alati kujul README.txt või README.md (Markdown), mitte LOEMIND, readme, ABOUT jne.
README.txt fail peaks kindlasti sisaldama järgmist infot: andmekogu pealkiri, andmekogu lühitutvustus (abstract), failide struktuur ja omavahelised seosed, andmete kogumise meetodid, kasutatud tarkvara (versioonid), kasutatud standardid, spetsiifiline info andmete kohta (mõõtühikud, lühendite ja koodide selgitused jne), andmete taaskasutuse võimalused ja piirangud, andmekogu üleslaadija kontaktandmed.
Administratiivsed metaandmed projekti kohta (ID, rahastaja, PI, õigused ja litsentsid).
Tehnilised metaandmed (riist- ja tarkvara kohta, instrumendid, tööriistad, ligipääsuõigused).
Kirjeldavad metaandmed (autorid, pealkiri, lühikirjeldus, sisukirjeldus).
DataCite Metaandmete raamistik (kohustuslikud, soovitavad, valikulised) DataCite Eesti konsortsiumi lehel.
Metaandmete standardid on standardid selle kohta, milliseid välju oleks vaja täita: Directory of Metadata standards. Universaalsed metaandmete standardid: Dublin Core (kasutusel DataDOI-s), Schema.org, DCAT, DataCite metaandmete raamistik (DataCite Metadata Schema).
Metaandmete kontrollitud sõnastikud ja klassifikatsioonid ütlevad, mida nendele väljadele kirjutada, kasutades standardset terminoloogiat. BARTOC (Basel Register of Thesauri, Ontologies & Classifications).
Näiteks:
Eesti märksõnastik
Agrovoc thesaurus
Mammal Species of the World
JACS education subject classifications
GeoNames
Eesti Teadusagentuur: "Juhised eetikaküsimuste lahendamiseks personaalse uurimistoetuse taotluses".
Tuleks esitada teavet, kui uuringus on hõlmatud: inimesed, isikuandmed, inimese embrüod ja/või looted, inimese rakud ja/või koed, loomad, geneetilised ressursid, madala sissetulekuga riigid, keskkond tervis ja ohutus, uurimistulemuste võimalik väärkasutamine, muud eetikaküsimused.
Lisada, et järgitakse uuringueetikat ja teadlase kutse-eetikat.
Näiteks mõned dokumendid:
Hea teadustava
Ethics in Social Science and Humanities
A Code of Ethics for Folklore Studies
Isikuandmete kaitse, GDPR (IKÜM), IKS
Kas on vaja taotleda eetikakomitee luba?
Kes vastutab?
Siin kirjeldada, kas projektis kogutakse isikuandmeid ja kuidas neid töödeldakse vastavalt Isikuandmete kaitse üldmäärusele ning Eesti Isikuandmete kaitse seadusele.
Kellele kuuluvad andmed (isiklikud õigused ja varalised õigused). Andmetel on alati omanik, ka siis, kui need on avaandmed.
Kuidas on andmed litsentseeritud?
Creative Commons litsentsid.
Väljavõtted TÜ juristi Reet Adamsoo koostatud autoriõiguste juhendist, mida võib ja tuleks kasutada andmehaldusplaani koostamisel:
Andmed kuuluvad Tartu Ülikoolile. Grandi tulemuste, sh andmete varalised õigused loovutavad grandi täitjad ülikoolile töölepinguga (akadeemilised töötajad) või muu kirjaliku dokumendiga (intellektuaalomandi loovutamise akt).
Andmed avalikustatakse Creative Commons litsentsiga CC-BY 4.0.
Kolmas isik, kelle andmeid on kasutatud grandi tulemuste loomiseks võib seada andmete kasutamisel piiranguid. Sel juhul tuleb andmete litsentseerimisel neid piiranguid arvesse võtta, st andmete kasutamiseks saab anda litsentsi ainult selles õiguste mahus, mida kolmas isik on lubanud (st õiguste mahus, mida ülikool on kolmandatelt isikutelt saanud).
Kui ülikool või kolmas isik, kelle andmeid grandi tulemuste loomiseks kasutatud soovib esitada tulemuste kaitseks patendi- või kasuliku mudeli taotlust, tuleb andmete publitseerimine kuni vastava taotluse esitamiseni edasi lükata
Andmekaitse teadustöös juhend.
Eesmärk on säilitada andmete tehniline ja sisuline kvaliteet: käideldavus (kättesaadavus ja juurdepääsetavus); terviklus (õigsus, täielikkus ja ajakohasus); konfidentsiaalsus (kättesaadav ainult selleks volitatud isikutele või süsteemidele, võtmehaldus, logifailide säilitamine).
Säilitus: pilvekeskkonnad, kesksed serverid, tundlike andmete serverid, arvuti kõvaketas, väline kõvaketas, mobiilsed seadmed.
Isikuandmeid sisaldavaid faile ei tohi hoiustada pilvekeskkondades, mille peakorteri juriidiline aadress on väljaspool Euroopa Liitu (Dropbox, Google).
Varundamine: andmete ja/või programmide hetkeseisu koopia loomine, mis pärast turvaintsidenti võimaldab ennistamist selle teadaoleva hetkeseisuni. Kui sageli varundatakse, mitu koopiat, kas tööprotsess on automatiseeritud. Masterfaili säilitamine ja varundamine. 3-2-1 reegel: kolm koopiat, hoitakse kahes erinevas kohas, millest üks asub kaugel. Kes vastutab varundamise eest, eriti mobiilsete seadmete puhul.
Soovitav on riskianalüüs. Mis saab siis kui: IT-süsteemid ei tööta, juhtuvad elektrikatkestused, vee- ja tuleõnnetused, seade kaob või varastatakse, avastatakse kahjurvara seadmetes, töögrupi liige lahkub või sureb jne.
Riskide kaalutlemine (tõenäosus ja kahjud).
Riskide hindamine: ohud ja nende esinemise tõenäosus, nõrkused, meetmed.
Infoturbe standard ISO/IEC 27001.
Andmete hoiustamise ja varundamise võimalused TÜ-s.
Kes vastutab?
Ligipääsuõiguste haldamine (kas kõigil ühtmoodi, lepingupartnerite õigused, ajutise tööjõu õigused).
Logifailide säilitamine.
Pseudonümiseerimine, krüpteerimine, võtmehaldus.
Andmevahetus, isikuandmed, kolmandad riigid.
Organisatoorne ja füüsiline turve: uue töötaja koolitus, lahkuva töötajaga võimalikud kaasnevad probleemid, töösisekorraeeskirjad, tuleohutus, uste lukustamine.
Vastutajad.
Millistel andmetel on pikaajaline väärtus? Nende säilitamine ja jagamine taaskasutamiseks.
Andmete ettevalmistamine jagamiseks, FAIR andmed.
Repositooriumi valik.
Andmetel on püsiidentifikaator DOI. Vaata DataCite Eesti.
Metaandmed on DataCite registris.
Standardsed metaandmeid nt Dublin Core.
Masinloetavad metaandmed.
Andmed ja nende metaandmed on eraldi failides, sest andmed võivad olla suletud, metaandmed peavad olema avatud. Failid omavahel lingitud.
Võtmesõnad ja märksõnad.
Versioonihaldus.
Repositoorium, kus andmed säilitatakse.
Millised andmed on avatud juurdepääsuga ehk avaandmed.
Millised andmed jäävad suletuks ja mis põhjusel.
Metaandmed peavad olema avatud ka juhul, kui andmed ei ole avatud (erandid nt haruldaste liikide asukohaandmed).
Tehnilised metaandmed: vajalik tarkvara (versioon), instrumentide spetsifikatsioonid, tarkvaratööriistad.
Kas on krüpteeritud andmeid.
Autentimine, kellelt küsida juurdepääsuõigusi.
Kas on vaja luua kasutajakonto, mis seotakse teatavate tingimustega.
Peamiselt repositooriumi ülesanne.
Milliseid andmete ja metaandmete standardeid, kontrollitud sõnastikke ja taksonoomiaid kasutatakse.
Andmetüüpide ja andmevormingute kirjeldused: kui ei ole standardsed, kuidas tagatakse koostöövõime.
Linkimine teiste andmete, metaandmete ja spetsifikatsioonidega.
Korrektne viitamine kasutatud andmekogudele.
Lisa alati oma andmekogule viitevorming.
Andmevahetusstandardid.
Osaliselt repositooriumi ülesanne.
Lisa README.txt fail.
Kas tegemist on toorandmete, puhastatud andmete või töödeldud andmetega.
Embargoperiood, põhjendus.
Litsentsid: Creative Commons litsentsid 3.0 Eesti.
Viitamine: DataCite viitevormindaja.
Standardsed metaandmed, milliseid (erialaseid) standardeid on kasutatud.
Andmete päritolu tuvastamine (kes, kus, milleks kogus, kus on avaldatud, DOI-d).
Millist tarkvara versiooni on kasutatud.
Kui kaua on tagatud andmete kättesaadavus taaskasutamiseks.
Andmete kvaliteedi tagamine (käideldavus, terviklus, konfidentsiaalsus).
Soovitused, kellele võiks need andmed vajalikud olla (README.txt failis).
Kas andmed jagatakse repositooriumis või kui supplementary data artikli juures või eraldi artiklina andmeajakirjas.
Millises repositooriumis andmeid säilitatakse.
Kellele võiksid need andmed kasulikud olla.
Kuidas jagad oma andmeid (kas on avaandmed või peab küsima, mis tingimusel saab).
Millal jagad (jooksvalt, pärast publikatsiooni ilmumist, embargo lõppemisel).
Kas andmed on lingitud publikatsiooniga.
Lingi andmed oma ORCID kontoga
Millised andmed on avatud juurdepääsuga ehk avaandmed.
Millised andmed jäävad suletuks ja mis põhjusel.
Kas on krüpteeritud andmeid.
Kuidas toimub autentimine.
Kes otsustab juurdepääsuõiguste üle ja sõlmib lepingud.
Andmete omaniku kontaktandmed (mõtle pikale perspektiivile!).
Ametikohtade järgi: juhtivteadur (PI): andmehalduse poliitika, andmehaldusplaani koostamine, lepingud, kulud, koolitused; teadlased: andmehaldusplaani järgimine ja täiendamine, andmehaldus, probleemide püstitamine; andmehaldur: koolitused, nõustamine, infoturve, säilitamine, varundamine, riist- ja tarkvara; laborant, abipersonal vastavalt nendele antud ülesannetele.
Töövoo järgi: kes vastutab andmete kogumise, dokumenteerimise, metaandmestamise, infoturbe jne eest.
Näide: TU Delft RD Policy.
Kulud on seotud peamiselt tööjõu, riist- ja tarkvaraga.
Juhendid, koolitused, ümberõpe, juristi ja/või DPO konsultatsioon, tõlketeenus.
APC (article processing charge).
Andmete kogumine: andmete ost, salvestatud intervjuude transkribeerimine.
Digiteerimine ja OCR: riist- ja tarkvara, tööjõud.
Tarkvaraarendus või tarkvara ost, kasutuslitsentsid.
Riistvara: arvutid, serverid, instrumendid, välitööde seadmed.
Andmeanalüüs: riist- ja tarkvara, sisseostetud teenused, HPC.
Andmete säilitamine ja varundamine: prognoositav andmemaht, 3-2-1 reegel.
Andmete pikaajaline säilitamine: ettevalmistamine jagamiseks (vormindamine), anonümiseerimine, säilitamine repositooriumis.
Partnerite kohtumised, konverentsid.
Projekti andmehaldur.
Üldine seisukoht: 5% projekti eelarvest.
Rohkem ja põhjalikumat infot avaandmete ning andmehaldusplaani kohta saab lugeda TÜ raamatukogu koostatud avatud materjalidega kursuselt “Teadusandmete haldus ja publitseerimine”.
Kontakt:
Tiiu Tarkpea, teadusandmete peaspetsialist, tel 737 5728, tiiu.tarkpea@ut.ee