Dokumentace dat

Abyste se ujistili, že svým vlastním datům rozumíte a že jsou pro ostatní členy výzkumného týmu či pro externí uživatele vaše data srozumitelná, měli byste k dokumentům a datovým sadám, které vytváříte, přidávat dokumentaci a metadata (údaje o datech).

Proč je nutné výzkumná data dokumentovat?

Datové sady by měly obsahovat strojově čitelné údaje. Bez dalšího popisu výzkumných dat mohou být údaje blíže nerozpoznatelné a nesrozumitelné. Data musí být výzkumník schopen interpretovat. Popis výzkumných dat neboli dokumentace dat musí být zpracován a přiložen k výzkumné datové sadě.

Během sběru dat si možná vzpomenete, co všechny vaše klasifikační systémy znamenají, ale je malá pravděpodobnost, že tomu tak bude i za několik měsíců nebo za rok. Dostatečná dokumentace, která vysvětluje vámi použité kódy a způsoby organizace dat, tuto možnost eliminuje.

Dokumentací výzkumných dat zajišťujete:

pochopení vašich zjištění
ověření vašich výsledků
přezkoumání vaší předložené publikace
replikace vašich výsledků
archivace vašich dat pro přístup a opakované použití.

Dobrá dokumentace zajistí, že všechny výše uvedené možnosti jsou možné bez ohledu na to, jaký systém nebo software se používá.

Kdy a jak vytvářet dokumentaci a metadata?

Svá data byste měli dokumentovat od samého počátku výzkumného projektu a informace přidávat v průběhu projektu. Postupy pro dokumentaci je také nutné popsat Data managment plánu. Dokumentace pomáhá pochopit strukturu a obsah samotných dat a také kontext, ve kterém byla data vytvořena.

Dokumentace dat probíhá na několika úrovních:

Dokumentace na úrovni proměnných

Tuto dokumentaci lze zahrnout do samotných dat nebo dokumentu, např. na určeném místě v souboru. Příklady dokumentace na úrovni proměnných mohou zahrnovat názvy a definice proměnných, měrné jednotky, informace o kódech, chybějících hodnotách atd.

Dokumentace na úrovni souboru nebo datové sady

Tento typ dokumentace vysvětluje, jak spolu všechny soubory, které tvoří datový soubor, souvisejí, v jakém jsou formátu nebo zda jsou určité soubory určeny k nahrazení jiných souborů atd.

Dokumentace na úrovni projektu

Vysvětluje cíle studie, jaké jsou výzkumné otázky/hypotézy, jaké metodiky jsou použity, jaké nástroje a opatření jsou použity atd. tyto informace jsou obsaženy v samostatných souborech přiložených k datům, aby poskytly kontext, vysvětlení nebo pokyny pro použití nebo opakované použití dat. Příklady dokumentace na úrovni projektu zahrnují: pracovní dokumenty, laboratorní knihy, dotazníky, průvodce rozhovory, závěrečné zprávy o projektu a publikace.

Podívejte se na Data Management Expert Guide od CESSDA.

Data by měla být dokumentována ve všech fázích životního cyklu výzkumných dat. Podrobná dokumentace podporuje reprodukovatelnost a integritu výzkumu. Součástí dokumentace jsou také metadata.

Metadata

Metadata (= data o datech) popisují data ve standardizovaném formátu a jsou určena pro strojové čtení. Správný popis a zdokumentování dat pomocí metadat, umožňuje výzkumná data najít a znovu využít. Pro lepší přehled je možné využívat Obecné doporučení pro metadatový popis výzkumných výstupů a výzkumných dat od Národní technické knihovny shrnuje základní informace o metadatovém popisu.

Metadata v publikačním i datovém repozitáři vkládá vědec při ukládání publikace/výzkumných dat. Doporučujeme navíc vkládat také oborově specifické údaje, které jsou pro daný obor důležité.

Ať už budete zveřejňovat záznam v datovém nebo publikačním repozitáři, musí být metadatové záznamy v souladu se zásadami FAIR veřejně dostupné a strojově čitelné a musí obsahovat minimálně tyto údaje:

Záznamy v Otevřeném repozitáři výsledků vědy a výzkumu Mendelovy univerzity v Brně obsahují nejen minimální metadata: repozitar.mendelu.cz a navíc také metadatové požadavky OpenAIRE. Metadata publikace jsou automaticky přenášena do repozitáře ze systému OBD.

Metadata často vznikají dle oborových standardů, můžete si vyhledat metadatové standardy dle Vašeho oboru: https://www.dcc.ac.uk/guidance/standards/metadata.

Dataedo. 2022. Data vs Metadata. [cit. 24-02-28]. https://dataedo.com/cartoon/data-vs-metadata-8.

Metadatový standard

Metadatový standard je soubor předem definovaných pokynů, které určují strukturu a formát metadat a zajišťují konzistenci při popisu a správě dat. Zjednodušeně řečeno, metadatové standardy fungují jako gramatická pravidla, pomáhají nastavit jednotný soubor pokynů pro vytváření metadat.

Metadatových standardů existuje mnoho, mezi nejpoužívanější patří např. Dublin Core, který se často používá v databázích a vyhledávačích. Dublin Core je sadou 15 základních metadatových prvků, kterými byste vaši datovou sadu či soubor měli popisovat.

Metadatový prvek	Popis metadatového prvku
Název	Název přidělený datové sadě/souboru
Autor	Subjekt primárně zodpovědný za vytvoření souboru/datové sady
Předmět	Téma obsahu datové sady/souboru
Popis	Popis obsahu souboru/datové sady
Vydavatel	Subjekt odpovědný za zpřístupnění zdroje
Přispívatel	Subjekt odpovědný za poskytování příspěvků do souboru/datové sady
Datum	Datum spojené s událostí v životním cyklu souboru/datové sady
Typ	Charakter nebo žánr obsahu souboru/datové sady
Formát	Fyzický nebo digitální projev zdroje
Identifikátor	Jednoznačný odkaz na datovou sadu/soubor v daném kontextu
Zdroj	Odkaz na zdroj, na kterém je současný soubor/datová sada založena
Jazyk	Jazyk intelektuálního obsahu souboru/datové sady
Vztah k	Odkaz na související zdroj
Rozsah	Rozsah nebo zaměření obsahu souboru/datové sady
Práva/Licence	Informace o právech k souboru/datové sadě a nad souborem/datovou sadou

Národní technická knihovna. 2024. Workshop lecture – Introduction to a Research Data Management…and how not to get overwhelmed by data. [cit. 24-05-23]. https://moodle.techlib.cz/pluginfile.php/8842/mod_resource/content/6/24-03-27_RDM%20at%20NTK_v5_moodle.pdf

Kde dokumentovat data?

ReadMe je textový soubor, který slouží pro dokumentaci výzkumných dat – vysvětluje obsah složky výzkumného projektu nebo publikovaných dat. Obvykle popisuje pozadí, kontext a sběr výzkumných dat a je obvykle napsán v prostém textovém formátu (.txt), aby jej mohl kdokoli otevřít a přečíst. Soubor ReadMe se nahrává společně s datovou sadou do datového repozitáře za účelem pochopení smyslu výzkumného projektu.

Při publikování nebo sdílení dat je užitečné poskytnout soubor ReadMe, aby ostatní lidé věděli, co datové soubory obsahují, kterých částí výzkumu se týkají, jak spolu soubory souvisejí, jak byla data generována, jak byly datové soubory zpracovány nebo transformovány a zda existují nějaká omezení týkající se toho, kdo je může prohlížet nebo k nim mít přístup.

Co zahrnout do ReadMe souboru:

Neexistují žádná pevně stanovená pravidla pro to, co do ReadMe zahrnout, ale obecně platí, že byste měli do ReadMe souboru uvést veškeré informace, které jsou nutné pro porozumění datům a jejich znovupoužití. Například:

Pro dokumentaci dat je možné využít více možností: soubory ReadMe, elektronické laboratorní deníky, nebo třeba GitHub. Možnost, kterou vyberete, je na vás, důležité je, aby data byla srozumitelně popsána a dokumentace byla přístupná společně s daty.

The Turning Way. 2024. Fig. 54 Illustration about managing files in a repository. In: Data Storage and Organization. [cit. 24-02-28]. https://the-turing-way.netlify.app/reproducible-research/rdm/rdm-storage

Návod, jak vytvořit ReadMe soubor.
TIP: když popíšete data v anglickém jazyce, mohou vaše data být znovu použitelná i pro zahraniční výzkumníky.

Elektronické laboratorní deníky

Pokud používáte elektronické laboratorní deníky, ty umožňují dokumentovat Vaše data. Příkladem může být:

eLabJournal
Kadi4Mat – kombinuje prostředí pro správu dat a laboratorní deník
eLabFTW – open source
openBIS – prostředí pro správu dat a laboratorní deník
Jupyter Lab – nástroj pro tvorbu DMP a zároveň pro sdílení dat, lze propojit data z Jupyter do openBIS

Ontologie, taxonomie, řízené slovníky, tezaury

Účelem používání ontologií či řízených slovníků je usnadnit porozumění datové sadě, ale také podpořit interoperabilitu dat, nebo jejich snadnější vyhledávání. Ontologie definují vztahy mezi pojmy z určitých oblastí lidského poznání. Každá ontologie stojí na přesném a formálním definování pojmů a vztahů. Nejběžnější typ ontologie v sobě zahrnuje taxonomii. Taxonomie definuje třídy a podtřídy objektů a jejich vztahy, a hraje roli ve výzkumu a správě výzkumných dat, protože klasifikace objektů pomáhá výzkumníkům a odborníkům z praxe orientovat se v dané datové sadě. Řízené slovníky a tezaury pak pomáhají zajistit konzistenci při popisu výzkumných dat ve všech vědních oborech.

Příkladem může být AGROVOC, řízený slovník zahrnující oblasti výzkumu včetně potravin, výživy, zemědělství, rybolovu, lesnictví, životního prostředí atd. AGROVOC obsahuje více než 41 000 pojmů dostupných až ve 42 jazycích.

Řízené slovníky, ontologie, tezaury a taxonomie existují nejen pro přírodní, ale i pro humanitní a společenské vědy. Jako příklad mohou vědci zaměřující se na evropská studia použít EuroVoc, vícejazyčný, multidisciplinární tezaurus pokrývající činnost EU, zejména Evropského parlamentu. Obsahuje termíny ve 23 úředních jazycích EU a ve třech jazycích zemí, které jsou kandidáty na vstup do EU.

Vyhledávač ontologií a řízených slovníků pro konkrétní výzkumné oblasti: https://fairsharing.org/search?fairsharingRegistry=Standard

Zdroje

Národní technická knihovna. 2022. Obecné doporučení pro metadatový popis výsledků výzkumu (zejména publikací a dat) [cit. 24-03-11]. https://repozitar.techlib.cz/server/api/core/bitstreams/8cad20c6-14de-4429-b8ed-74f514c052da/content
University of Sussex. 2024. Documentation and metadata [cit. 24-02-28]. https://www.sussex.ac.uk/library/researchdatamanagement/organise/documentationandmetadata
ResearchHub. 2024. Describing research data with a README. [cit. 24-02-28]. https://www.gla.ac.uk/media/Media_359359_smxx.pdf

nahoru

Mendelova univerzita v Brně

Ústav vědecko-pedagogických informací a služeb

Dokumentace dat

Dokumentace dat

Proč je nutné výzkumná data dokumentovat?

Dokumentací výzkumných dat zajišťujete:

Kdy a jak vytvářet dokumentaci a metadata?

Dokumentace dat probíhá na několika úrovních:

Dokumentace na úrovni proměnných

Dokumentace na úrovni souboru nebo datové sady

Dokumentace na úrovni projektu

Metadata

Metadatový standard

Kde dokumentovat data?

Co zahrnout do ReadMe souboru:

Elektronické laboratorní deníky

Ontologie, taxonomie, řízené slovníky, tezaury

Zdroje

Navigace

O cookies

Nezbytné cookies

Analytické

Marketingové