Běžným ekvivalentem jednoduchých metadat je katalogová karta knihovny, která obsahuje údaje o knize, např. autora, název knihy a jejího vydavatele. Ty zjednodušují a obohacují vyhledávání konkrétní knihy nebo její lokalizaci v rámci knihovny.
Metadata mají zvláštní význam v různých oblastech informatiky, např. při vyhledávání informací a v sémantickém webu. Přestože je mnozí považují za mocný nástroj k překlenutí sémantické mezery, jiní je tvrdě kritizují.
Termín byl zaveden intuitivně, tj. bez přesné definice. Proto dnes existuje celá řada definic. Nejčastější je doslovný překlad:
Vzhledem k tomu, že pro většinu lidí je rozdíl mezi daty a informacemi pouze filosofický a pro praktické použití nemá žádný význam, existují definice, které zahrnují tyto pojmy
Existují také složitější definice, jako např.:
Koncept metadat byl rozšířen do světa systémů a zahrnuje jakákoli „data o datech“ – názvy tabulek, sloupců, programů a podobně. Různé pohledy na tato systémová metadata jsou popsány níže, ale kromě toho je třeba uznat, že metadata popisují všechny aspekty systémů – data, činnosti, zapojené osoby a organizace, umístění dat a procesů, metody přístupu, omezení, časové údaje a události, stejně jako motivaci a pravidla.
V zásadě jsou tedy metadata „data, která popisují strukturu a fungování organizace při využívání informací a která popisují systémy, jež organizace používá ke správě těchto informací“. Provést model metadat znamená provést „podnikový model“ samotného odvětví informačních technologií. 1
Rozdíl mezi daty a metadaty
Obvykle není možné rozlišit mezi (surovými) daty a metadaty, protože se projevují následující efekty:
Tyto účinky platí bez ohledu na to, která z výše uvedených definic je použita.
Metadata pomohou překlenout sémantickou mezeru. Pokud počítači sdělíme, jak spolu data souvisejí a jak lze tyto vztahy automaticky vyhodnotit, bude možné zpracovávat i složitější operace filtrování a vyhledávání. Pokud například vyhledávač pochopí, že „Van Gogh“ byl „holandský malíř“, může na vyhledávací dotaz „holandští malíři“ odpovědět odkazem na webovou stránku o Vincentu Van Goghovi, přestože se na ní přesný výraz „holandští malíři“ nikdy nevyskytuje; to dnes není možné. Tento přístup se také nazývá reprezentace znalostí. Je zajímavý zejména pro sémantický web a umělou inteligenci.
Některá metadata jsou určena k optimalizaci kompresních algoritmů. Pokud například existují metadata, která umožňují počítači rozlišit popředí od pozadí ve videu, může komprimovat obě části nezávisle a dosáhnout tak vyšší míry komprese.
Některá metadata mají umožnit variabilní prezentaci obsahu. Pokud například prohlížeč obrázků zná nejdůležitější oblast obrázku – např. tu, kde je člověk – může obrázek zmenšit na tuto oblast a zobrazit tak uživateli nejzajímavější detaily na malé obrazovce, např. na obrazovce mobilního telefonu. Podobný druh metadat má umožnit „čtení“ schémat a obrázků nevidomým lidem, např. jejich převedením pro speciální výstupní zařízení nebo čtením popisu pomocí hlasové syntézy.
Další popisná metadata lze použít k automatizaci pracovních postupů. Pokud například nástroj zná obsah a strukturu dat, může je automaticky převést a předat jinému nástroji jako vstup. Tím by si uživatelé mohli ušetřit mnoho úkonů typu „kopíruj a vlož“, které jsou nutné při analýze dat různými nástroji.
Metadata lze rozlišit podle jejich …
Pro úspěšný vývoj a používání metadat je třeba pečlivě řešit několik důležitých otázek:
Životní cyklus metadat bývá ve své složitosti podceňován. Přesto existují tři fáze, které je třeba posuzovat nezávisle na sobě:
Kromě toho je zde otázka formátu dat: Uložení metadat v lidsky čitelném formátu, jako je XML, může být užitečné, protože uživatelé jim mohou rozumět a upravovat je bez jakýchkoli nástrojů. Na druhou stranu tyto formáty nejsou optimalizovány pro kapacitu úložiště, tj. může být užitečné ukládat je místo toho v binárním formátu, který není čitelný pro člověka, aby se urychlil přenos a ušetřila paměť.
Přestože většina informatiků vidí v metadatech šanci na lepší interoperabilitu, ozývají se i kritické hlasy, jejichž hlavní argumenty je třeba brát vážně:
Metadata se stala důležitými na World Wide Webu kvůli potřebě najít užitečné informace z množství dostupných informací. Ručně vytvořená metadata mají přidanou hodnotu, protože zajišťují konzistenci. Pokud jedna webová stránka o určitém tématu obsahuje určité slovo nebo frázi, pak by stejné slovo nebo frázi měly obsahovat všechny webové stránky o tomto tématu. Zajišťují také rozmanitost, takže pokud má jedno téma dva názvy, bude použit každý z těchto názvů. Například článek o sportovně užitkových vozidlech by měl mít v metadatech také klíčová slova „4 wheel drives“, „4WDs“ a „four wheel drives“, protože tak jsou v některých zemích známá.
Příkladem metadat pro zvukové CD je projekt MusicBrainz nebo All Music Guide společnosti AMG. Podobně mají soubory MP3 metadatové značky ve formátu zvaném ID3.
Metadata se správněji nazývají ontologie nebo schéma, pokud jsou strukturována do hierarchického uspořádání. Oba termíny popisují „to, co existuje“ pro nějaký účel nebo k umožnění nějaké činnosti. Například uspořádání předmětových hesel v knihovním katalogu slouží nejen jako vodítko k nalezení knih na určité téma ve stohu, ale také jako vodítko k tomu, jaká témata „existují“ ve vlastní ontologii knihovny a jak jsou specializovanější témata spojena s obecnějšími předmětovými hesly nebo z nich odvozena.
Metadata jsou často uložena na centrálním místě a slouží organizacím ke standardizaci jejich dat. Tyto informace jsou obvykle uloženy v registru metadat.
Obecně existují dvě odlišné třídy metadat: strukturální nebo řídicí metadata a návodná metadata. 8 Strukturální metadata se používají k popisu struktury počítačových systémů, jako jsou tabulky, sloupce a indexy. Průvodcovská metadata se používají k tomu, aby pomohla lidem najít konkrétní položky, a jsou obvykle vyjádřena jako soubor klíčových slov v přirozeném jazyce.
Metadata relační databáze
V databázové terminologii se tento soubor metadat označuje jako katalog. Standard SQL specifikuje jednotný prostředek pro přístup ke katalogu, který se nazývá INFORMATION_SCHEMA, ale ne všechny databáze jej implementují, i když implementují jiné aspekty standardu SQL. Příklad metod přístupu k metadatům specifickým pro danou databázi najdete v části Metadata Oracle.
Metadatové systémy datových skladů se někdy rozdělují na dvě části:
Naproti tomu David Marco, další teoretik metadat, definuje metadata jako „veškerá fyzická data a znalosti zevnitř i vně organizace, včetně informací o fyzických datech, technických a obchodních procesech, pravidlech a omezeních dat a strukturách dat používaných společností“. Jiní mezi ně řadí webové služby, systémy a rozhraní. Ve skutečnosti může být celý Zachmanův rámec (viz Enterprise Architecture) reprezentován jako metadata.7
Všimněte si, že takové definice značně rozšiřují rozsah metadat, aby zahrnovaly většinu nebo všechna data požadovaná pro schopnost informačních systémů řízení. V tomto smyslu se koncept metadat významně překrývá s konceptem databáze správy konfigurací (CMDB) podle ITIL a také s disciplínami, jako je architektura podniku a správa portfolia IT.
Tato širší definice metadat má svůj precedens. Produkty podnikových úložišť třetí generace (například ty, které byly nakonec začleněny do řady CA Advantage) ukládají nejen informace o definicích dat (kopírovací knihy COBOL, schéma DBMS), ale také o programech, které k těmto datovým strukturám přistupují, a také o závislostech JCL a infrastruktury dávkových úloh. Tyto produkty (z nichž některé jsou stále ve výrobě) mohou poskytnout velmi úplný obraz o prostředí mainframových počítačů a podporovat přesně ty druhy analýzy dopadů, které jsou vyžadovány pro procesy založené na ITIL, jako je řízení incidentů a změn. Zpětný katalog ITIL obsahuje svazek Správa dat, který uznává roli těchto metadatových produktů na mainframech a představuje CMDB jako ekvivalent distribuovaného výpočetního prostředí. Dodavatelé CMDB však obecně nerozšířili svůj rozsah o definice dat a řešení metadat jsou k dispozici i v distribuovaném světě. Určení vhodné role a rozsahu pro každé z nich je tedy pro velké IT organizace, které vyžadují služby obou, výzvou.
Vzhledem k tomu, že metadata jsou všudypřítomná, je třeba se při centralizovaných pokusech o jejich sledování zaměřit na aktiva, která jsou nejvíce využívána. Podniková aktiva mohou tvořit jen malé procento celého portfolia IT.
Někteří odborníci úspěšně spravují metadata IT pomocí metamodelu Dublin Core.9
Produkty pro správu metadat IT
První generací nástrojů datových slovníků/úložiště metadat by byly nástroje podporující pouze konkrétní DBMS, jako je IDD (integrovaný datový slovník) IDMS, datový slovník IMS a Predict společnosti Adabas.
Druhou generací by byl produkt MSP DATAMANAGER, který by mohl podporovat mnoho různých typů souborů a DBMS.
Produkty pro úložiště třetí generace se staly krátce populárními na počátku 90. let 20. století spolu s nárůstem rozšířeného používání systémů RDBMS, jako je DB2 společnosti IBM.
Téměř všechny souborové systémy uchovávají metadata o souborech mimo pásmo. Některé systémy uchovávají metadata v adresářových položkách, jiné ve specializovaných strukturách, jako jsou inody, nebo dokonce v názvu souboru. Metadata mohou sahat od jednoduchých časových značek, bitů režimu a dalších účelových informací používaných samotnou implementací přes ikony a komentáře ve volném textu až po libovolné dvojice atribut-hodnota.
U složitějších a otevřenějších metadat je užitečné vyhledávat soubory na základě obsahu metadat. Raným příkladem byl unixový nástroj find, který je však při prohledávání stovek tisíc souborů v moderním počítačovém systému neefektivní. Současná verze operačního systému Mac OS X (Tiger) společnosti Apple Computer podporuje katalogizaci a vyhledávání metadat souborů prostřednictvím funkce známé jako Spotlight. Společnost Microsoft v současné době vyvíjí podobnou funkci v souborovém systému WinFS. Linux implementuje metadata souborů pomocí rozšířených atributů souborů.
Mezi příklady obrazových souborů obsahujících metadata patří formát EXIF (Exchangeable Image File Format) a formát TIFF (Tagged Image File Format).
Metadata o obrázcích vložená do souborů TIFF nebo EXIF jsou jedním ze způsobů, jak získat další údaje o obrázku. Metadata obrázků se získávají pomocí značek. Označování obrázků předměty, souvisejícími emocemi a dalšími popisnými frázemi pomáhá uživatelům internetu snadno najít obrázky, místo aby museli prohledávat celé sbírky obrázků. Ukázkovým příkladem služby označování obrázků je Flickr, kam uživatelé nahrávají obrázky a následně popisují jejich obsah. Ostatní návštěvníci webu pak mohou tyto značky vyhledávat. Flickr používá folksonomii: systém volných klíčových slov, v němž komunita definuje slovník spíše prostřednictvím používání než prostřednictvím řízeného slovníku.
Metadata se neformálně používají k popisu řídicích dat používaných v softwarových architekturách, které jsou abstraktnější nebo konfigurovatelné. Většina formátů spustitelných souborů obsahuje něco, co lze označit jako „metadata“, která specifikují určité, obvykle konfigurovatelné, charakteristiky chování za běhu. Je však obtížné, ne-li nemožné, přesně odlišit programová „metadata“ od obecných aspektů architektury uložených programů; pokud je stroj přečte a jedná podle nich, jedná se o výpočetní instrukci a předpona „meta“ má malý význam.
V jazyce Java obsahuje formát souboru třídy metadata, která překladač jazyka Java a virtuální stroj jazyka Java používají k dynamickému propojování tříd a k podpoře reflexe. Verze J2SE 5.0 jazyka Java zahrnovala metadatový nástroj umožňující dodatečné anotace, které používají vývojové nástroje.
V systému MS-DOS formát souboru COM neobsahuje metadata, zatímco formáty EXE a Windows PE ano. Tato metadata mohou obsahovat společnost, která program vydala, datum vytvoření programu, číslo verze a další údaje.
Ve formátu spustitelného souboru Microsoft .NET jsou zahrnuta další metadata, která umožňují reflexi za běhu.
Metadata dokumentu: Většina programů, které vytvářejí dokumenty, včetně aplikace Microsoft Word a dalších produktů Microsoft Office, ukládá metadata spolu se soubory dokumentů. Tato metadata mohou obsahovat jméno osoby, která soubor vytvořila (získané z operačního systému), jméno osoby, která soubor naposledy upravovala, kolikrát byl soubor vytištěn a dokonce i kolik revizí bylo v souboru provedeno. Další uložený materiál, jako je smazaný text (uložený v případě příkazu undelete), komentáře k dokumentu a podobně, se také běžně označuje jako „metadata“ a neúmyslné zahrnutí tohoto materiálu do distribuovaných souborů někdy vedlo k nežádoucímu odhalení.
Seznam spustitelných formátů naleznete v části Objektový soubor.
Metadata o modelech se nazývají metamodely. V modelově řízeném inženýrství musí Model odpovídat danému Metamodelu. Podle příručky MDA je metamodel modelem a každý model odpovídá danému metamodelu. Metamodelování umožňuje přísné a agilní automatické zpracování modelů a metamodelů.
Skupina Object Management Group (OMG) definuje 4 vrstvy metamodelování. Každá úroveň modelování je definována a ověřována další vrstvou:
Protože metadata jsou také data, je možné mít metadata z metadat – „metadata“. Strojově generovaná metadata, jako je například obrácený index vytvořený vyhledávačem volného textu, se však obecně za metadata nepovažují.
Metadata vložená do obsahu se nazývají vložená metadata. Datové úložiště obvykle ukládá metadata odděleně od dat.
Existují tři kategorie metadat, které se často používají k popisu objektů v digitální knihovně:
1 William R. Durrell, Správa dat: Durrell: A Practical Guide to Data Administration, McGraw-Hill, 1985.
2 Ralph Kimball, The Data Warehouse Lifecycle Toolkit, Wiley, 1998, ISBN 0471255475.
3 Guy V Tozer, Metadata Management for Information Control and Business Success, Artech House, 1999, ISBN 0890062803.
5 David Marco, Budování a správa úložiště metadat: A Full Lifecycle Guide, Wiley, 2000, ISBN 0471355232.
6 Adrienne Tannenbaum, Metadata Solutions: Addison-Wesley, 2002, ISBN 0201719762, Praha: Metamodels, Repositories, XML, and Enterprise Portals to Generate Information on Demand.
7 David C. Hay, Data Model Patterns: A Metadata Map, Morgan Kaufman, 2006, ISBN 0120887983.
8 Bretherton, F. P. a Singley, P. T. 1994, Metadata: A User’s View, Proceedings of the International Conference on Very Large Data Bases (VLDB), 1091-1094.
9 R. Todd Stephens (2003). Využití metadat jako nástroje komunikace o znalostech. Sborník příspěvků z mezinárodní konference o odborné komunikaci 2004. Minneapolis, MN: Institute of Electrical and Electronics Engineers, Inc.