Dokumentace dat
Abyste se ujistili, že svým vlastním datům rozumíte a že jsou pro ostatní členy výzkumného týmu či pro externí uživatele vaše data srozumitelná, měli byste k dokumentům a datovým sadám, které vytváříte, přidávat dokumentaci a metadata (údaje o datech).
Proč je nutné výzkumná data dokumentovat?
Datové sady by měly obsahovat strojově čitelné údaje. Bez dalšího popisu výzkumných dat mohou být údaje blíže nerozpoznatelné a nesrozumitelné. Data musí být výzkumník schopen interpretovat. Popis výzkumných dat neboli dokumentace dat musí být zpracován a přiložen k výzkumné datové sadě.
Během sběru dat si možná vzpomenete, co všechny vaše klasifikační systémy znamenají, ale je malá pravděpodobnost, že tomu tak bude i za několik měsíců nebo za rok. Dostatečná dokumentace, která vysvětluje vámi použité kódy a způsoby organizace dat, tuto možnost eliminuje.
Dokumentací výzkumných dat zajišťujete:
- pochopení vašich zjištění
- ověření vašich výsledků
- přezkoumání vaší předložené publikace
- replikace vašich výsledků
- archivace vašich dat pro přístup a opakované použití.
Dobrá dokumentace zajistí, že všechny výše uvedené možnosti jsou možné bez ohledu na to, jaký systém nebo software se používá.
Kdy a jak vytvářet dokumentaci a metadata?
Svá data byste měli dokumentovat od samého počátku výzkumného projektu a informace přidávat v průběhu projektu. Postupy pro dokumentaci je také nutné popsat Data managment plánu. Dokumentace pomáhá pochopit strukturu a obsah samotných dat a také kontext, ve kterém byla data vytvořena.
Dokumentace dat probíhá na několika úrovních:
-
Dokumentace na úrovni proměnných
Tuto dokumentaci lze zahrnout do samotných dat nebo dokumentu, např. na určeném místě v souboru. Příklady dokumentace na úrovni proměnných mohou zahrnovat názvy a definice proměnných, měrné jednotky, informace o kódech, chybějících hodnotách atd.
-
Dokumentace na úrovni souboru nebo datové sady
Tento typ dokumentace vysvětluje, jak spolu všechny soubory, které tvoří datový soubor, souvisejí, v jakém jsou formátu nebo zda jsou určité soubory určeny k nahrazení jiných souborů atd.
-
Dokumentace na úrovni projektu
Vysvětluje cíle studie, jaké jsou výzkumné otázky/hypotézy, jaké metodiky jsou použity, jaké nástroje a opatření jsou použity atd. tyto informace jsou obsaženy v samostatných souborech přiložených k datům, aby poskytly kontext, vysvětlení nebo pokyny pro použití nebo opakované použití dat. Příklady dokumentace na úrovni projektu zahrnují: pracovní dokumenty, laboratorní knihy, dotazníky, průvodce rozhovory, závěrečné zprávy o projektu a publikace.
Data by měla být dokumentována ve všech fázích životního cyklu výzkumných dat. Podrobná dokumentace podporuje reprodukovatelnost a integritu výzkumu. Součástí dokumentace jsou také metadata.
Metadata
Metadata (= data o datech) popisují data ve standardizovaném formátu a jsou určena pro strojové čtení. Správný popis a zdokumentování dat pomocí metadat, umožňuje výzkumná data najít a znovu využít. Pro lepší přehled je možné využívat Obecné doporučení pro metadatový popis výzkumných výstupů a výzkumných dat od Národní technické knihovny shrnuje základní informace o metadatovém popisu.
Metadata v publikačním i datovém repozitáři vkládá vědec při ukládání publikace/výzkumných dat. Doporučujeme navíc vkládat také oborově specifické údaje, které jsou pro daný obor důležité.
Ať už budete zveřejňovat záznam v datovém nebo publikačním repozitáři, musí být metadatové záznamy v souladu se zásadami FAIR veřejně dostupné a strojově čitelné a musí obsahovat minimálně tyto údaje:
Záznamy v Otevřeném repozitáři výsledků vědy a výzkumu Mendelovy univerzity v Brně obsahují nejen minimální metadata: repozitar.mendelu.cz a navíc také metadatové požadavky OpenAIRE. Metadata publikace jsou automaticky přenášena do repozitáře ze systému OBD.
Metadata často vznikají dle oborových standardů, můžete si vyhledat metadatové standardy dle Vašeho oboru: https://www.dcc.ac.uk/guidance/standards/metadata.
Dataedo. 2022. Data vs Metadata. [cit. 24-02-28]. https://dataedo.com/cartoon/data-vs-metadata-8.
Metadatový standard
Metadatový standard je soubor předem definovaných pokynů, které určují strukturu a formát metadat a zajišťují konzistenci při popisu a správě dat. Zjednodušeně řečeno, metadatové standardy fungují jako gramatická pravidla, pomáhají nastavit jednotný soubor pokynů pro vytváření metadat.
Metadatových standardů existuje mnoho, mezi nejpoužívanější patří např. Dublin Core, který se často používá v databázích a vyhledávačích. Dublin Core je sadou 15 základních metadatových prvků, kterými byste vaši datovou sadu či soubor měli popisovat.
Metadatový prvek | Popis metadatového prvku |
Název | Název přidělený datové sadě/souboru |
Autor | Subjekt primárně zodpovědný za vytvoření souboru/datové sady |
Předmět | Téma obsahu datové sady/souboru |
Popis | Popis obsahu souboru/datové sady |
Vydavatel | Subjekt odpovědný za zpřístupnění zdroje |
Přispívatel | Subjekt odpovědný za poskytování příspěvků do souboru/datové sady |
Datum | Datum spojené s událostí v životním cyklu souboru/datové sady |
Typ | Charakter nebo žánr obsahu souboru/datové sady |
Formát | Fyzický nebo digitální projev zdroje |
Identifikátor | Jednoznačný odkaz na datovou sadu/soubor v daném kontextu |
Zdroj | Odkaz na zdroj, na kterém je současný soubor/datová sada založena |
Jazyk | Jazyk intelektuálního obsahu souboru/datové sady |
Vztah k | Odkaz na související zdroj |
Rozsah | Rozsah nebo zaměření obsahu souboru/datové sady |
Práva/Licence | Informace o právech k souboru/datové sadě a nad souborem/datovou sadou |
Národní technická knihovna. 2024. Workshop lecture – Introduction to a Research Data Management…and how not to get overwhelmed by data. [cit. 24-05-23]. https://moodle.techlib.cz/pluginfile.php/8842/mod_resource/content/6/24-03-27_RDM%20at%20NTK_v5_moodle.pdf
Kde dokumentovat data?
ReadMe je textový soubor, který slouží pro dokumentaci výzkumných dat – vysvětluje obsah složky výzkumného projektu nebo publikovaných dat. Obvykle popisuje pozadí, kontext a sběr výzkumných dat a je obvykle napsán v prostém textovém formátu (.txt), aby jej mohl kdokoli otevřít a přečíst. Soubor ReadMe se nahrává společně s datovou sadou do datového repozitáře za účelem pochopení smyslu výzkumného projektu.
Při publikování nebo sdílení dat je užitečné poskytnout soubor ReadMe, aby ostatní lidé věděli, co datové soubory obsahují, kterých částí výzkumu se týkají, jak spolu soubory souvisejí, jak byla data generována, jak byly datové soubory zpracovány nebo transformovány a zda existují nějaká omezení týkající se toho, kdo je může prohlížet nebo k nim mít přístup.
Co zahrnout do ReadMe souboru:
Neexistují žádná pevně stanovená pravidla pro to, co do ReadMe zahrnout, ale obecně platí, že byste měli do ReadMe souboru uvést veškeré informace, které jsou nutné pro porozumění datům a jejich znovupoužití. Například:
Pro dokumentaci dat je možné využít více možností: soubory ReadMe, elektronické laboratorní deníky, nebo třeba GitHub. Možnost, kterou vyberete, je na vás, důležité je, aby data byla srozumitelně popsána a dokumentace byla přístupná společně s daty.
The Turning Way. 2024. Fig. 54 Illustration about managing files in a repository. In: Data Storage and Organization. [cit. 24-02-28]. https://the-turing-way.netlify.app/reproducible-research/rdm/rdm-storage
- Návod, jak vytvořit ReadMe soubor.
- TIP: když popíšete data v anglickém jazyce, mohou vaše data být znovu použitelná i pro zahraniční výzkumníky.
Elektronické laboratorní deníky
Pokud používáte elektronické laboratorní deníky, ty umožňují dokumentovat Vaše data. Příkladem může být:
- eLabJournal
- Kadi4Mat – kombinuje prostředí pro správu dat a laboratorní deník
- eLabFTW – open source
- openBIS – prostředí pro správu dat a laboratorní deník
- Jupyter Lab – nástroj pro tvorbu DMP a zároveň pro sdílení dat, lze propojit data z Jupyter do openBIS
Ontologie, taxonomie, řízené slovníky, tezaury
Účelem používání ontologií či řízených slovníků je usnadnit porozumění datové sadě, ale také podpořit interoperabilitu dat, nebo jejich snadnější vyhledávání. Ontologie definují vztahy mezi pojmy z určitých oblastí lidského poznání. Každá ontologie stojí na přesném a formálním definování pojmů a vztahů. Nejběžnější typ ontologie v sobě zahrnuje taxonomii. Taxonomie definuje třídy a podtřídy objektů a jejich vztahy, a hraje roli ve výzkumu a správě výzkumných dat, protože klasifikace objektů pomáhá výzkumníkům a odborníkům z praxe orientovat se v dané datové sadě. Řízené slovníky a tezaury pak pomáhají zajistit konzistenci při popisu výzkumných dat ve všech vědních oborech.
Příkladem může být AGROVOC, řízený slovník zahrnující oblasti výzkumu včetně potravin, výživy, zemědělství, rybolovu, lesnictví, životního prostředí atd. AGROVOC obsahuje více než 41 000 pojmů dostupných až ve 42 jazycích.
Řízené slovníky, ontologie, tezaury a taxonomie existují nejen pro přírodní, ale i pro humanitní a společenské vědy. Jako příklad mohou vědci zaměřující se na evropská studia použít EuroVoc, vícejazyčný, multidisciplinární tezaurus pokrývající činnost EU, zejména Evropského parlamentu. Obsahuje termíny ve 23 úředních jazycích EU a ve třech jazycích zemí, které jsou kandidáty na vstup do EU.
- Vyhledávač ontologií a řízených slovníků pro konkrétní výzkumné oblasti: https://fairsharing.org/search?fairsharingRegistry=Standard
Zdroje
- Národní technická knihovna. 2022. Obecné doporučení pro metadatový popis výsledků výzkumu (zejména publikací a dat) [cit. 24-03-11]. https://repozitar.techlib.cz/server/api/core/bitstreams/8cad20c6-14de-4429-b8ed-74f514c052da/content
- University of Sussex. 2024. Documentation and metadata [cit. 24-02-28]. https://www.sussex.ac.uk/library/researchdatamanagement/organise/documentationandmetadata
- ResearchHub. 2024. Describing research data with a README. [cit. 24-02-28]. https://www.gla.ac.uk/media/Media_359359_smxx.pdf