Organizace dat

Abyste podpořili možnost opětovného využití vašich výzkumných dat, ale také abyste usnadnili práci sami sobě i svým kolegům, je nutné vytvořit si pravidla pro organizaci výzkumných dat. Zavedení logického a konzistentního systému organizace datových souborů vám i ostatním umožní jejich efektivní vyhledávání, používání, pomůže zachovat integritu dat, či zvýšit renomé vaší vědecké práce.

Organizace dat má čtyři hlavní prvky

  • nastavení systému pojmenovávání souborů
  • nastavení systému pojmenování složek
  • stanovení zásad verzování
  • ukládání dat v udržitelných formátech

Při zvažování způsobu organizace dat mějte na paměti následující zásady:

vyzkumna-data

Systém pojmenovávání souborů

Systém pro pojmenování souborů usnadňuje jejich pozdější vyhledávání a orientaci v datech. Kvalitně nastavené pojmenovávání souborů by mělo zajistit:

  1. možnost zjistit obsah souboru, aniž byste jej museli otevřít
  2. nalezení a identifikování souboru, i když již nejsou v původní složce
  3. procházení dlouhých seznamů souborů za účelem jejich evidence nebo kontroly, zda některé nechybí
  4. spravování souborů, i když jsou všechny uloženy v jedné centrální složce nebo adresáři
vyzkumna-data

Dobrá praxe pojmenovávání souborů

vyzkumna-data

Systém pojmenovávání složek

Pro ukládání souborů neexistuje jediný správný způsob, jakým si ukládání složek nastavit; důležité je, aby struktura byla logická, čitelná a smysluplná pro daný účel. Soubory můžete například uspořádat:

  • do složek podle úkolu (např. pracovní balíček, experiment)
  • podle významné určující vlastnosti (např. umístění, číslo vzorku, běh, název společnosti)
  • typu dat (např. raw, zpracovaná, konečná)
  • podle metody měření (u větších projektů, s více aktivitami a při použití více metod měření nebo technik úpravy vzorků)
vyzkumna-data
University of Ottawa. 2024. File naming and organization of data. [cit. 24-02-28]. https://www.uottawa.ca/library/research-data-management/data-management-plan/file-naming-organization-data

Nedovolte, aby se struktura složek příliš zkomplikovala, a vyhněte se příliš mnoha vrstvám v hierarchii (ideálně ne více než čtyři). Důvěrné informace, například záznamy o účastnících, by měly být uloženy v samostatných složkách s odpovídajícími kontrolami přístupu. Nezpracovaná data a milníkové verze dokumentů by měly být uloženy jako soubory určené pouze pro čtení, ideálně v samostatných složkách.

Dobrá praxe pojmenovávání složek

vyzkumna-data

Verzování souborů a kontrola verzí

Verzování souborů je systém pro zaznamenávání změn souboru nebo sady souborů v průběhu času. Verzování hraje velkou roli vždy, když pracujete ve výzkumné skupině a sdílíte a upravujete soubory mezi sebou. Nekontrolované verze souborů upravených různými lidmi se mohou snadno šířit, což může způsobit chaos ve výzkumných datech a transformacích, kterými data prošla. V nejhorším případě to může ohrozit integritu dat – například pokud dojde k přepsání souboru s nezpracovanými daty (raw data).

Existuje několik jednoduchých věcí, které můžete udělat, abyste zavedli účinnou kontrolu verzí. Není nutné používat všechny z následujících možností. Bude záležet na povaze práce a procesech, kterými data procházejí.

vyzkumna-data

Verzování v praxi

Kontrolu verzí lze zajistit přidáním čísla na konec názvu souboru. Každý dokument se pak čísluje postupně od v0.1, v0.2, v0.3..., dokud není vytvořena nová, finální verze dokumentu. Ta by pak případně měla mít název v1.0. Pokud má být verze v1.0 revidována, byly by návrhy číslovány jako v1.1, v1.2 atd. až do dokončení verze v2.0.

Všechna pravidla pro verzování je nutná nastavit už na počátku výzkumu či projektu tak, aby každý účastník věděl, jak s verzemi zacházet.

vyzkumna-data
UC Davis Data Lab. 2024. What is Version Control? [cit. 24-02-28]. https://ucdavisdatalab.github.io/workshop_introduction_to_version_control/version-control.html

Příklad tabulky pro správu verzí souborů

vyzkumna-data
University of Glassgow. 2024. Good Practice Guidance. Version Control. [cit. 24-02-28]. https://www.gla.ac.uk/media/Media_359359_smxx.pdf

Ukládání dat v udržitelných formátech

Specifické formáty souborů mohou pomoci zajistit dlouhodobý přístup k datům a jejich sdílení. Po dokončení analýzy vaši výzkumných dat pomocí specifických typů softwaru a formátů, které jsou pro plánovanou analýzu nejvhodnější, zvažte převod souborů do stabilních otevřených formátů pro dlouhodobé uložení. Tyto formáty jsou typicky:

  • Interoperabilní mezi různými platformami a aplikacemi
  • Plně veřejné a dostupné bez licenčních poplatků
  • Standardní pro danou oblast nebo běžně používané výzkumnou komunitou
  • Obsahují popisky dat (metadata)
  • Dodržují otevřený, zdokumentovaný standard
vyzkumna-data

Zdroje

nahoru