Dokumentace dat
Abyste se ujistili, že svým vlastním datům rozumíte a že jsou pro ostatní členy výzkumného týmu či pro externí uživatele vaše data srozumitelná, měli byste k dokumentům a datovým sadám, které vytváříte, přidávat dokumentaci a metadata (údaje o datech).
Proč je nutné výzkumná data dokumentovat?
Datové sady by měly obsahovat strojově čitelné údaje. Bez dalšího popisu výzkumných dat mohou být údaje blíže nerozpoznatelné a nesrozumitelné. Data musí být výzkumník schopen interpretovat. Popis výzkumných dat neboli dokumentace dat musí být zpracován a přiložen k výzkumné datové sadě.
Během sběru dat si možná vzpomenete, co všechny vaše klasifikační systémy znamenají, ale je malá pravděpodobnost, že tomu tak bude i za několik měsíců nebo za rok. Dostatečná dokumentace, která vysvětluje vámi použité kódy a způsoby organizace dat, tuto možnost eliminuje.
Dokumentací výzkumných dat zajišťujete:
- pochopení vašich zjištění
- ověření vašich výsledků
- přezkoumání vaší předložené publikace
- replikace vašich výsledků
- archivace vašich dat pro přístup a opakované použití.
Dobrá dokumentace zajistí, že všechny výše uvedené možnosti jsou možné bez ohledu na to, jaký systém nebo software se používá.
Kdy a jak vytvářet dokumentaci a metadata?
Svá data byste měli dokumentovat od samého počátku výzkumného projektu a informace přidávat v průběhu projektu. Postupy pro dokumentaci je také nutné popsat Data managment plánu. Dokumentace pomáhá pochopit strukturu a obsah samotných dat a také kontext, ve kterém byla data vytvořena.
Dokumentace dat probíhá na několika úrovních:
-
Dokumentace na úrovni proměnných
Tuto dokumentaci lze zahrnout do samotných dat nebo dokumentu, např. na určeném místě v souboru. Příklady dokumentace na úrovni proměnných mohou zahrnovat názvy a definice proměnných, měrné jednotky, informace o kódech, chybějících hodnotách atd.
-
Dokumentace na úrovni souboru nebo datové sady
Tento typ dokumentace vysvětluje, jak spolu všechny soubory, které tvoří datový soubor, souvisejí, v jakém jsou formátu nebo zda jsou určité soubory určeny k nahrazení jiných souborů atd.
-
Dokumentace na úrovni projektu
Vysvětluje cíle studie, jaké jsou výzkumné otázky/hypotézy, jaké metodiky jsou použity, jaké nástroje a opatření jsou použity atd. tyto informace jsou obsaženy v samostatných souborech přiložených k datům, aby poskytly kontext, vysvětlení nebo pokyny pro použití nebo opakované použití dat. Příklady dokumentace na úrovni projektu zahrnují: pracovní dokumenty, laboratorní knihy, dotazníky, průvodce rozhovory, závěrečné zprávy o projektu a publikace.
Data by měla být dokumentována ve všech fázích životního cyklu výzkumných dat. Podrobná dokumentace podporuje reprodukovatelnost a integritu výzkumu. Součástí dokumentace jsou také metadata.
Metadata
Metadata (= data o datech) popisují data ve standardizovaném formátu a jsou určena pro strojové čtení. Správný popis a zdokumentování dat pomocí metadat, umožňuje výzkumná data najít a znovu využít. Pro lepší přehled je možné využívat Obecné doporučení pro metadatový popis výzkumných výstupů a výzkumných dat od Národní technické knihovny shrnuje základní informace o metadatovém popisu.
Metadata v publikačním i datovém repozitáři vkládá vědec při ukládání publikace/výzkumných dat. Doporučujeme navíc vkládat také oborově specifické údaje, které jsou pro daný obor důležité.
Ať už budete zveřejňovat záznam v datovém nebo publikačním repozitáři, musí být metadatové záznamy v souladu se zásadami FAIR veřejně dostupné a strojově čitelné a musí obsahovat minimálně tyto údaje:
Záznamy v Otevřeném repozitáři výsledků vědy a výzkumu Mendelovy univerzity v Brně obsahují nejen minimální metadata: repozitar.mendelu.cz a navíc také metadatové požadavky OpenAIRE. Metadata publikace jsou automaticky přenášena do repozitáře ze systému OBD.
Metadata často vznikají dle oborových standardů, můžete si vyhledat metadatové standardy dle Vašeho oboru: https://www.dcc.ac.uk/guidance/standards/metadata.
Dataedo. 2022. Data vs Metadata. [cit. 24-02-28]. https://dataedo.com/cartoon/data-vs-metadata-8.
Kde dokumentovat data?
ReadMe je textový soubor, který slouží pro dokumentaci výzkumných dat – vysvětluje obsah složky výzkumného projektu nebo publikovaných dat. Obvykle popisuje pozadí, kontext a sběr výzkumných dat a je obvykle napsán v prostém textovém formátu (.txt), aby jej mohl kdokoli otevřít a přečíst. Soubor ReadMe se nahrává společně s datovou sadou do datového repozitáře za účelem pochopení smyslu výzkumného projektu.
Při publikování nebo sdílení dat je užitečné poskytnout soubor ReadMe, aby ostatní lidé věděli, co datové soubory obsahují, kterých částí výzkumu se týkají, jak spolu soubory souvisejí, jak byla data generována, jak byly datové soubory zpracovány nebo transformovány a zda existují nějaká omezení týkající se toho, kdo je může prohlížet nebo k nim mít přístup.
Co zahrnout do ReadMe souboru:
Neexistují žádná pevně stanovená pravidla pro to, co do ReadMe zahrnout, ale obecně platí, že byste měli do ReadMe souboru uvést veškeré informace, které jsou nutné pro porozumění datům a jejich znovupoužití. Například:
Pro dokumentaci dat je možné využít více možností: soubory ReadMe, elektronické laboratorní deníky, nebo třeba GitHub. Možnost, kterou vyberete, je na vás, důležité je, aby data byla srozumitelně popsána a dokumentace byla přístupná společně s daty.
The Turning Way. 2024. Fig. 54 Illustration about managing files in a repository. In: Data Storage and Organization. [cit. 24-02-28]. https://the-turing-way.netlify.app/reproducible-research/rdm/rdm-storage
- Návod, jak vytvořit ReadMe soubor.
- TIP: když popíšete data v anglickém jazyce, mohou vaše data být znovu použitelná i pro zahraniční výzkumníky.
Elektronické laboratorní deníky
Pokud používáte elektronické laboratorní deníky, ty umožňují dokumentovat Vaše data. Příkladem může být:
- eLabJournal
- Kadi4Mat – kombinuje prostředí pro správu dat a laboratorní deník
- eLabFTW – open source
- openBIS – prostředí pro správu dat a laboratorní deník
- Jupyter Lab – nástroj pro tvorbu DMP a zároveň pro sdílení dat, lze propojit data z Jupyter do openBIS
Zdroje
- Národní technická knihovna. 2022. Obecné doporučení pro metadatový popis výsledků výzkumu (zejména publikací a dat) [cit. 24-03-11]. https://repozitar.techlib.cz/server/api/core/bitstreams/8cad20c6-14de-4429-b8ed-74f514c052da/content
- University of Sussex. 2024. Documentation and metadata [cit. 24-02-28]. https://www.sussex.ac.uk/library/researchdatamanagement/organise/documentationandmetadata
- ResearchHub. 2024. Describing research data with a README. [cit. 24-02-28]. https://www.gla.ac.uk/media/Media_359359_smxx.pdf