Dokumentace výzkumných dat

Dokumentace pomáhá pochopit strukturu a obsah samotných dat a také kontext, ve kterém byla data vytvořena. Dokumentace dat probíhá na několika úrovních:

  • dokumentace na úrovni projektu - hlavní informace o projektu, výzkumný záměr, metody, zpracování dat, závěry a přístup k datům.
  • dokumentace na úrovni dat - typ dat, formát, velikost, jak byla konkrétní data sesbírána, jednotlivá měření a proměnné.

Dokumentace dat zahrnuje:

  • Informace o projektu: název projektu/studie, zúčastněné osoby a jejich role atd.
  • Informace o metodách: metody sběru a analýzy dat, použité přístroje a programy, kalibrace přístrojů atd.
  • Informace o samotných datech: názvy a definice proměnných, měrné jednotky atd.
Podívejte se na Data Management Expert Guide od CESSDA.

Data by měla být dokumentována ve všech fázích životního cyklu výzkumných dat. Podrobná dokumentace podporuje reprodukovatelnost a integritu výzkumu. Součástí dokumentace jsou také metadata.

vyzkumna-data
Dataedo. Dostupné z: https://dataedo.com/cartoon/data-vs-metadata-2 Cartoons are licensed under a Creative Commons Attribution-NoDerivs 3.0 License.

 

Metadata
= data o datech

Metadata je dokumentace, která popisuje data ve standardizovaném formátu a jsou určena pro strojové čtení. Správný popis a zdokumentování dat umožňuje výzkumná data najít a znovu využít.

Obecné doporučení pro metadatový popis výzkumných výstupů a výzkumných dat od Národní technické knihovny shrnuje základní informace o metadatovém popisu.

Metadata ukládaných publikací

V repozitáři musí být metadatové záznamy v souladu se zásadami FAIR veřejně dostupné a strojově čitelné a musí obsahovat minimálně tyto údaje:

  • název dokumentu,
  • celá jména původců (tj. autorů a dalších přispěvatelů),
  • datum vydání nebo zveřejnění,
  • typ dokumentu (např. článek, kniha atd.),
  • vydavatel,
  • jazyk dokumentu,
  • informace o dostupnosti publikací (např. časové embargo, licence a jiné údaje o dostupnosti).

 

Dále se zvlášť doporučuje uvádět i další údaje, jako jsou:

  • trvalé identifikátory publikace (např. ISBN, ISSN, DOI, aj.),
  • informace o financování (poskytovatel financí a číslo projektu),
  • trvalé identifikátory osob (např. ORCID), organizací (např. ROR) apod.

Záznamy v Otevřeném repozitáři výsledků vědy a výzkumu Mendelovy univerzity v Brně obsahují nejen minimální metadata: https://repozitar.mendelu.cz/ a navíc také metadatové požadavky OpenAIRE. Metadata publikace jsou automaticky přenášena do repozitáře ze systému OBD.

Metadata ukládaných výzkumných dat

V datovém repozitáři musí být metadatové záznamy v souladu s principy FAIR veřejně dostupné, strojově čitelné a musí obsahovat minimálně tyto údaje:

  • název datové sady,
  • celá jména původců (tj. autorů a přispěvatelů),
  • datum (plánovaného) zveřejnění,
  • vydavatel,
  • popis datové sady,
  • informace o dostupnosti dat (př. časové embargo, licence a jiné údaje o dostupnosti)

Dále se zvlášť doporučuje uvádět i další údaje jako jsou:

  • trvalé identifikátory datové sady,
  • informace o financování (poskytovatel financí a číslo projektu),
  • trvalé identifikátory osob, organizací apod.,
  • zařazení do vědní klasifikace podle oborů (ideálně dle FRASCATI, popř. jiné),
  • klíčová slova.

Metadata v datovém repozitáři vkládá vědec při ukládání výzkumných dat. Doporučujeme navíc vkládat také oborově specifické údaje, které jsou pro daný obor důležité.

Metadata často vznikají dle oborových standardů, můžete si vyhledat metadatové standardy dle Vašeho oboru: https://www.dcc.ac.uk/guidance/standards/metadata

vyzkumna-data
Dataedo. Dostupné z: https://dataedo.com/cartoon/data-vs-metadata-8 Cartoons are licensed under a Creative Commons Attribution-NoDerivs 3.0 License.
Jak dokumentovat data?

U dokumentace vždy záleží na konkrétním výzkumu, mezi možné hlavní body může patřit:

  • popis kontextu a podmínek experimentu
  • popis metody použité ke sběru a zpracování údajů, včetně použitých nástrojů (zařízení a software)
  • obsah zkušebních protokolů, terénních zpráv, laboratorních knih
  • informace potřebné pro interpretaci dat
  • popis provedených opatření pro zajištění kvality dat
  • informace o technických normách a kalibracích
  • dokumentace a vysvětlení parametrů, proměnných, zkratek a kódů, včetně záhlaví sloupců v datových tabulkách
  • specifikace zdroje při použití již existujících dat (reference, DOI, URL)
  • dokumentace zúčastněných osob a jejich úkolů
  • dokumentace podmínek pro dlouhodobé uchovávání a následné použití dat (licence, možné omezení při použití dat, trvání embarga, pravidla pro smazání dat)
  • seznam všech přidružených souborů a složek a popis jejich formátů a obsahu
  • odkazy na všechna veřejně přístupná úložiště dat
  • odkazy na publikace, ve kterých jsou data použita nebo citována
  • odkazy na související dokumenty a datové soubory
  • doporučená citace dat
Kde dokumentovat data?

Pro dokumentaci dat je možné využít více možností: soubory README, elektronické laboratorní deníky, nebo třeba GitHub. Možnost, který vyberete, je na vás, důležité je, aby data byla srozumitelně popsána a dokumentace byla přístupná společně s daty.

  • Soubory README

Vytvořte samostatný README soubor, který obsahuje základní informace o výzkumných datech. Můžete také vytvořit README soubor pro každou datovou sadu zvlášť.

vyzkumna-data
Fig. 54 Illustration about managing files in a repository. The Turing Way project illustration by Scriberia. Used under a CC-BY 4.0 licence. DOI: 10.5281/zenodo.3332807.

 

Začněte s popisem od začátku projektu. Bohaté a strukturované informace pomohou pochopit datovou sadu a rozhodnout se o jejím obsahu a další použitelnosti.

Návod, jak vytvořit README soubor.

TIP: když popíšete data v anglickém jazyce, mohou vaše data být znovu použitelná i pro zahraniční výzkumníky.

 

  • Elektronické laboratorní deníky

Pokud používáte elektronické laboratorní deníky, ty umožňují dokumentovat Vaše data. Příkladem může být eLabJournal.