Jak spolu souvisí data, informace, prostorová data a metadata?

Geografické informační systémy jsou stejně jako mnohé další prvky informační architektury postavené na datech. Data sama o sobě jsou ale opravdu pouhým základem, nejdůležitější jsou data během jejich jakéhokoli zpracování ve chvíli, kdy je nutné z dat získat nějaký konkrétní význam – informace. A aby toto bylo možné, je nezbytné vědět, o jaká data jde – potřebujeme tzv. metadata.



Data

Data lze zjednodušeně charakterizovat jako libovolnou posloupnost znaků – nejen bitů či bajtů v intencích výpočetní techniky, ale jakýchkoli jakoukoli formou vyjádřených znaků zakódovaných do symbolů. Pod posloupností se tak mohou skrývat zcela libovolné znaky, třeba i ty, které vůbec neznáme či u kterých si nedokážeme představit, že jde o nějaké znaky, o nějaké písmo.

Posloupnost dat může být sama o sobě na první pohled nesrozumitelná, složená z něčeho, čemu vůbec nemusí příjemce rozumět. Data tak představují jakási „suchá" data, nemají pro příjemce žádný význam, nedávají mu žádnou informaci. A o informace nám jde především, byť v souvislosti s databázemi i prostorovými daty mluvíme převážně o datech. Chceme informaci, jak veliké je nějaké území. Chceme informaci o tom, jaký je průměrný úhrn srážek v dané lokalitě. Chceme informaci o tom, kolik zaměstnanců bylo propuštěno v loňském roce z pohledu vzdálenosti mezi adresou pracoviště a bydliště. Chceme informaci, zda a kolikrát se kříží silnice 378 a 381. Informace, informace, informace.

Informace

Pojem informace je spojen – zcela obecně, nejen v případě databázových technologií a informačních systémů – až s nějakým konkrétním významem, tzv. sémantikou dat. S určitým filosofickým nadhledem je možno prohlásit, že z dat se stávají informace teprve tehdy, pokud jsme z nich (tedy v roli příjemce) schopni získat nějaké poznatky, vědomosti, znalosti. Pokud tedy příjemce rozumí významu v datech ukrytému, znamenají pro něj data také nějakou informaci. Například když uživatel dokáže pomocí geografického informačního systému zjistit, zda se dané silnice kříží, či nikoli.

Pro správné pochopení vztahu pojmu data a informace je důležité uvědomit si, že ne všechna data musí pro všechny příjemce nést nějakou informaci, případně některá data nemusí nést vůbec žádnou informaci. I když se to na první pohled zdá u dat uložených v nějakém systému nelogické, může taková situace nastat.

Jako příklad mohou posloužit dvě posloupnosti znaků – první například DDRTEZ a druhá LES. Z první posloupnosti nejsme schopni žádný konkrétní význam získat, nejedná se tedy pro nás o nic jiného než o data. Druhá posloupnost ale pro nás již konkrétní význam má – jedná se o pojem les. Tento význam se ale v celkovém kontextu může změnit, pro někoho se může jednat o slovíčko v cizím jazyce s pravopisnou chybou (např. z LET). Nebo může jít o speciální příkaz v nám neznámém programovacím jazyce. Nebo ... variant je nepřeberné množství. Posloupnost LES ovšem nemusí být („českou") informací například pro Japonce, který nikdy v životě o češtině neslyšel, a to i přesto, že posloupnost LES zcela určitě informaci nese.

Druhým sporným příkladem může být bajtový zápis satelitního snímku – dokud jej nezobrazíme jako obrázek, nemusíme vůbec tušit, o co jde – ta čísla mohou přece znamenat ledasco.

Metadata

Databáze se obecně skládá z dat a metadat. Metadata jsou mnohdy označována jako informace o datech či přesněji informace o struktuře a formátu dat (a v širším pohledu i o celé databázi). Vzhledem k tomu, že metadata jsou součástí databáze, platí pro ně obvykle obdobná pravidla pro logické a fyzické uložení jako pro běžná data. Například v relačních databázích jsou metadata uložena v databázových tabulkách a v objektových databázích v objektových strukturách.

Bez ohledu na způsob uložení metadat je logická oblast pro uložení informací o datech označována jako datový slovník (z anglického originálu Data Dictionary), v českém prostředí je rozšířené i označení systémový katalog. Mezi nejčastější informace uložené v datovém slovníku patří:

  • informace o struktuře a nastavení databáze
  • informace o základních strukturách a datových typech databáze
  • informace o datových objektech uložených v databázi (tabulky, pohledy, indexy atd.)
  • informace o funkčních objektech uložených v databázi (uložené procedury, funkce, triggery atd.)
  • informace o uživatelích a jejich oprávněních
  • informace výkonnostního charakteru (důležité jsou zejména pro optimalizátor)
  • informace sledovacího charakteru (důležité pro systémový i uživatelský audit)

Datový slovník je popisován pomocí výrazových prostředků dané databázové platformy, případně pomocí ustálených jazyků používaných pro popis různých úrovní celého životního cyklu informačních systémů. Pro metadata jsou úspěšně využívány značkovací jazyky včetně XML.

Typické pro práci s metadaty a datovým slovníkem je využívání přístupu pouze pro čtení. Důvod je prostý – metadata spravuje přímo databázový stroj a jakákoli změna v datovém slovníku může vést k porušení základních informací nutných pro správnou činnost databázového stroje a zachování konzistence databáze.

Prostorová data

Prostorová data jsou specializovanou variantou dat a vždy obsahují prostorovou složku, jde tedy o vektorová či rastrová data o poloze, tvaru a vztazích mezi jednotlivými objekty popsanými prostorovými daty. Jinak řečeno jde o data, která se vztahují k určitým místům v prostoru. Atributová a prostorová data mohou být uložena jak ve stejné, tak i rozdílné databázi – z pohledu koncového uživatele ovšem zpravidla jde o transparentní uložení a není tímto ovlivněn.

Pro prostorová data lze využívat netopologické a topologické modely lišící se principiálně v tom, zda data obsahují informace o vzájemných vztazích mezi objekty. Nejznámějším příkladem netopologického modelu je špagetový model, v němž jsou objekty uloženy jako soubor bodů. Všechny body, linie i polygony tvoří zcela samostatné objekty a jsou reprezentovány posloupností bodů, které jsou vždy spojeny úsečkou. Dále je typicky u každého objektu uložena informace, zda se jedná o bod, linii nebo polygon. Pokud chceme využívat informace o vzájemných vztazích objektů, musíme je sami dopočítávat. Název špagetový model vznikl díky podobnosti vykreslení popsané struktury s talířem špaget.

Topologický model umožňuje uložení a zpracování nejen dat vztažených k poloze, ale také dat vztažených k vzájemným vztahům mezi jednotlivými prostorovými objekty. Existuje několik úrovní topologického modelu včetně rozšířeného topologického modelu DCEL (Doubly Connected Edge List). Spoj v topologickém modelu je v obecném případě složen z linií mezi jednotlivými sousedními body, linie mohou být různého typu – ovšem musí být vždy přesně popsatelné. Vztahy mezi jednotlivými objekty jsou definovány tzv. topologickými tabulkami.

V souvislosti s prostorovými daty je důležité uvést, že nejde pouze o technické prosté hodnoty, ale o hodnoty vyjadřující mnoho rozdílných vlastností popisované prostorové reality. Aby bylo možné prostorová data efektivně využívat, je nezbytné mít k dispozici informace jak o struktuře a formátu prostorových dat (tedy klasická metadata), tak i informace o významových složkách prostorových dat (tedy metadata o prostorových datech).

Prostorová data a metadata jsou řešena několika standardy a legislativními úpravami, uveďme například standard ISO 19115, který je i českou státní normou. Za pozornost stojí také iniciativa Evropské komise INSPIRE – INfrastructure for SPatial InfoRmation in Europe kladoucí si za cíl vytvořit evropský legislativní rámec potřebný k vybudování evropské infrastruktury prostorových informací.

Metadata o prostorových datech

Metadata o prostorových datech se primárně nezaměřují na konkrétní syntaktickou a sémantickou podobu dat, ale na informace o vlastnostech prostorových dat. Někdy je možné se setkat s pojmem metadata o metadatech či prostorová metadata. Metadata o prostorových datech tak obsahují informace o použitém modelu / způsobu lokalizace v prostoru, o použitém souřadném systému a měřítku, o zdroji dat, o časové platnosti apod.

Jednotlivá metadata lze členit do několika skupin, například:

  • původ prostorových dat
  • legislativní oblast
  • účel a dosavadní použití prostorových dat
  • technická oblast

Původ prostorových dat zahrnuje informace o způsobu pořízení dat (například digitalizace map, přesná geodetická měření), o využitých zdrojových datech (například mapy, satelitní snímky), o tvůrci dat (autor) a zda jde o primární, či sekundární data, o datu pořízení a datu ověření, o časové platnosti či o aktualizacích a správě dat. Jedná se o oblast metadat, která mají umožnit snadnější posouzení kvality a vhodnosti daných prostorových dat pro zamýšlené použití.

Legislativní oblast zahrnuje informace o souladu s platnou legislativou včetně dodržování platných standardů, o aplikovaných licenčních modelech a právech nebo o omezeních použití ve vybraných zemích s ohledem na platná embarga. Jedná se o oblast metadat zaměřených na právní problematiku prostorových dat umožňující posoudit vhodnost použití dle platných zákonných ustanovení pro daný způsob a v daném místě.

Účel a dosavadní použití prostorových dat obsahuje informace o účelu, s jakým byla prostorová data pořízena, o původním příjemci prostorových dat (například armáda, státní správa, soukromá sféra) i o dosavadním využití v systémech různého typu.

Technická oblast zahrnuje informace o použitých datových modelech a způsobu uložení dat, o objemu dat, o kompresi dat, o logické struktuře vztahů apod. Technická oblast se nejvíce blíží klasickým metadatům a velmi často se s nimi překrývá.

Metadata o prostorových datech tedy obecně poskytují hodnotící rámec pro posouzení kvality prostorových dat. Vzhledem k tomu, že každé použití prostorových dat je méně či více odlišné, mají jednotlivá metadata pro různé příjemce prostorových dat různou váhu. Pro správu metadat a pro jejich možné porovnání a vyhodnocení lze použít tzv. metadatové systémy.

Problematika metadat i metadat o prostorových datech je široká a zahrnuje řadu oblastí, které jdou nad rámec tohoto textu. V některém z dalších čísel se proto budeme věnovat konkrétním aspektům včetně legislativních podrobněji.

Data bez metadat

Mohou nám k něčemu být prostorová data bez metadat? Řadu vlastností lze odvodit na základě dostatečně velkého a kvalitního reprezentativního vzorku dat a na základě našich dosavadních zkušeností s prostorovými daty. Navíc prakticky nikdy se nedostaneme k datům, o kterých bychom vůbec nic nevěděli – a pokud ano, pak je s velkou pravděpodobností ani nebudeme potřebovat.