Dokumentace dat

Abyste se ujistili, že svým vlastním datům rozumíte a že jsou pro ostatní členy výzkumného týmu či pro externí uživatele vaše data srozumitelná, měli byste k dokumentům a datovým sadám, které vytváříte, přidávat dokumentaci a metadata (údaje o datech).

vyzkumna-data

Proč je nutné výzkumná data dokumentovat?

Datové sady by měly obsahovat strojově čitelné údaje. Bez dalšího popisu výzkumných dat mohou být údaje blíže nerozpoznatelné a nesrozumitelné. Data musí být výzkumník schopen interpretovat. Popis výzkumných dat neboli dokumentace dat musí být zpracován a přiložen k výzkumné datové sadě.

Během sběru dat si možná vzpomenete, co všechny vaše klasifikační systémy znamenají, ale je malá pravděpodobnost, že tomu tak bude i za několik měsíců nebo za rok. Dostatečná dokumentace, která vysvětluje vámi použité kódy a způsoby organizace dat, tuto možnost eliminuje.

Dokumentací výzkumných dat zajišťujete:

  • pochopení vašich zjištění
  • ověření vašich výsledků
  • přezkoumání vaší předložené publikace
  • replikace vašich výsledků
  • archivace vašich dat pro přístup a opakované použití.

Dobrá dokumentace zajistí, že všechny výše uvedené možnosti jsou možné bez ohledu na to, jaký systém nebo software se používá.

Kdy a jak vytvářet dokumentaci a metadata?

Svá data byste měli dokumentovat od samého počátku výzkumného projektu a informace přidávat v průběhu projektu. Postupy pro dokumentaci je také nutné popsat Data managment plánu. Dokumentace pomáhá pochopit strukturu a obsah samotných dat a také kontext, ve kterém byla data vytvořena.

Dokumentace dat probíhá na několika úrovních:

  • Dokumentace na úrovni proměnných

Tuto dokumentaci lze zahrnout do samotných dat nebo dokumentu, např. na určeném místě v souboru. Příklady dokumentace na úrovni proměnných mohou zahrnovat názvy a definice proměnných, měrné jednotky, informace o kódech, chybějících hodnotách atd.

  • Dokumentace na úrovni souboru nebo datové sady

Tento typ dokumentace vysvětluje, jak spolu všechny soubory, které tvoří datový soubor, souvisejí, v jakém jsou formátu nebo zda jsou určité soubory určeny k nahrazení jiných souborů atd.

  • Dokumentace na úrovni projektu

Vysvětluje cíle studie, jaké jsou výzkumné otázky/hypotézy, jaké metodiky jsou použity, jaké nástroje a opatření jsou použity atd. tyto informace jsou obsaženy v samostatných souborech přiložených k datům, aby poskytly kontext, vysvětlení nebo pokyny pro použití nebo opakované použití dat. Příklady dokumentace na úrovni projektu zahrnují: pracovní dokumenty, laboratorní knihy, dotazníky, průvodce rozhovory, závěrečné zprávy o projektu a publikace.

Podívejte se na Data Management Expert Guide od CESSDA.

Data by měla být dokumentována ve všech fázích životního cyklu výzkumných dat. Podrobná dokumentace podporuje reprodukovatelnost a integritu výzkumu. Součástí dokumentace jsou také metadata.

 

Metadata

Metadata (= data o datech) popisují data ve standardizovaném formátu a jsou určena pro strojové čtení. Správný popis a zdokumentování dat pomocí metadat, umožňuje výzkumná data najít a znovu využít. Pro lepší přehled je možné využívat Obecné doporučení pro metadatový popis výzkumných výstupů a výzkumných dat od Národní technické knihovny shrnuje základní informace o metadatovém popisu.

Metadata v publikačním i datovém repozitáři vkládá vědec při ukládání publikace/výzkumných dat. Doporučujeme navíc vkládat také oborově specifické údaje, které jsou pro daný obor důležité.

Ať už budete zveřejňovat záznam v datovém nebo publikačním repozitáři, musí být metadatové záznamy v souladu se zásadami FAIR veřejně dostupné a strojově čitelné a musí obsahovat minimálně tyto údaje:

vyzkumna-data

Záznamy v Otevřeném repozitáři výsledků vědy a výzkumu Mendelovy univerzity v Brně obsahují nejen minimální metadata: repozitar.mendelu.cz a navíc také metadatové požadavky OpenAIRE. Metadata publikace jsou automaticky přenášena do repozitáře ze systému OBD.

Metadata často vznikají dle oborových standardů, můžete si vyhledat metadatové standardy dle Vašeho oboru: https://www.dcc.ac.uk/guidance/standards/metadata.

vyzkumna-data
Dataedo. 2022. Data vs Metadata. [cit. 24-02-28]. https://dataedo.com/cartoon/data-vs-metadata-8.

Kde dokumentovat data?

ReadMe je textový soubor, který slouží pro dokumentaci výzkumných dat – vysvětluje obsah složky výzkumného projektu nebo publikovaných dat. Obvykle popisuje pozadí, kontext a sběr výzkumných dat a je obvykle napsán v prostém textovém formátu (.txt), aby jej mohl kdokoli otevřít a přečíst. Soubor ReadMe se nahrává společně s datovou sadou do datového repozitáře za účelem pochopení smyslu výzkumného projektu.

Při publikování nebo sdílení dat je užitečné poskytnout soubor ReadMe, aby ostatní lidé věděli, co datové soubory obsahují, kterých částí výzkumu se týkají, jak spolu soubory souvisejí, jak byla data generována, jak byly datové soubory zpracovány nebo transformovány a zda existují nějaká omezení týkající se toho, kdo je může prohlížet nebo k nim mít přístup.

Co zahrnout do ReadMe souboru:

Neexistují žádná pevně stanovená pravidla pro to, co do ReadMe zahrnout, ale obecně platí, že byste měli do ReadMe souboru uvést veškeré informace, které jsou nutné pro porozumění datům a jejich znovupoužití. Například:

vyzkumna-data

Pro dokumentaci dat je možné využít více možností: soubory ReadMe, elektronické laboratorní deníky, nebo třeba GitHub. Možnost, kterou vyberete, je na vás, důležité je, aby data byla srozumitelně popsána a dokumentace byla přístupná společně s daty.

vyzkumna-data The Turning Way. 2024. Fig. 54 Illustration about managing files in a repository. In: Data Storage and Organization. [cit. 24-02-28]. https://the-turing-way.netlify.app/reproducible-research/rdm/rdm-storage

 

Elektronické laboratorní deníky

Pokud používáte elektronické laboratorní deníky, ty umožňují dokumentovat Vaše data. Příkladem může být:

  • eLabJournal
  • Kadi4Mat – kombinuje prostředí pro správu dat a laboratorní deník
  • eLabFTW – open source
  • openBIS – prostředí pro správu dat a laboratorní deník
  • Jupyter Lab – nástroj pro tvorbu DMP a zároveň pro sdílení dat, lze propojit data z Jupyter do openBIS

Zdroje