Řízený slovník je pečlivě vybraný seznam slov a frází, které se používají k označení jednotek informací, aby je bylo možné snadněji vyhledat. Termíny volí a organizují vyškolení odborníci (včetně knihovníků a informačních vědců), kteří disponují odbornými znalostmi v dané oblasti. Řízené slovníkové termíny mohou přesně popsat, o čem daný dokument ve skutečnosti je, i když samotné termíny se v textu dokumentu nevyskytují. Plně vyvinuté řízené slovníkové systémy, jako je Library of Congress Subject Headings, jsou často publikovány v referenční práci, která se nazývá tezaurus. Řízené slovníky tvoří součást širšího vesmíru nomenklaturních přístupů ke klasifikaci dat zvaných metadata.
Řízená slovní zásoba versus vyhledávání volného textu
Řízené slovníky jsou často vyvíjeny tak, aby zlepšily přesnost vyhledávání volného textu, například aby omezily irelevantní položky v seznamu vyhledávání. Tyto irelevantní položky (falešná pozitiva) jsou často způsobeny vrozenou nejednoznačností přirozeného jazyka. Vezměme si například anglické slovo fotbal. Fotbal je název pro řadu různých týmových sportů. Celosvětově nejpopulárnějším z těchto týmových sportů je fotbal asociace, který je shodou okolností v několika zemích nazýván také fotbal. Anglické slovo fotbal se používá také pro ragby (ragby a ragby), americký fotbal, australský fotbal, gaelský fotbal a kanadský fotbal. Vyhledávání fotbalu proto získá dokumenty, které se týkají několika zcela odlišných sportů. Řízená slovní zásoba tento problém řeší tím, že označí dokumenty tak, aby byly odstraněny nejednoznačnosti.
Ve srovnání s volným textovým vyhledáváním může použití řízeného slovníku dramaticky zvýšit výkonnost systému vyhledávání informací, pokud je výkonnost měřena přesností (procento dokumentů v seznamu vyhledávání, které jsou skutečně relevantní pro hledané téma). Řízené vyhledávání slovíček však může mít neuspokojivou paměť v tom, že se mu nepodaří získat některé dokumenty, které jsou skutečně relevantní pro hledanou otázku. To je obzvláště problematické, pokud vyhledávací otázka zahrnuje výrazy, které jsou dostatečně tangenciální k předmětné oblasti, že se pravděpodobně neobjeví v rámci řízeného slovníkového systému.
Byly vyvinuty četné metodiky, které pomáhají při vytváření kontrolovaných slovníků, včetně facetované klasifikace, která umožňuje daný datový záznam nebo dokument popsat několika způsoby.
Řízené slovníky, jako je Library of Congress Subject Headings, jsou základní složkou bibliografie, studia a klasifikace knih. Zpočátku byly vyvinuty v knihovnictví a informační vědě. V 50. letech začaly vládní agentury vyvíjet řízené slovníky pro vzkvétající časopiseckou literaturu ve specializovaných oborech; příkladem je Medical Subject Headings od U.S. National Library of Medicine. Následně se objevily neziskové firmy (nazývané Abstracting and indexing services), které indexovaly rychle rostoucí literaturu ve všech oborech znalostí. V 60. letech se vyvinulo on-line odvětví bibliografických databází založené na vytáčení sítě X.25. Tyto služby byly zřídka zpřístupněny veřejnosti, protože byly obtížně použitelné; specializovaní knihovníci nazývaní zprostředkovatelé vyhledávání se starali o vyhledávání. V 80. letech 20. století se objevily první plnotextové databáze; tyto databáze obsahují plnotextové články rejstříku i bibliografické informace. On-line bibliografické databáze se přenesly na internet a jsou nyní veřejně dostupné; většina z nich je však proprietární a jejich používání může být nákladné. Studenti zapsaní na vysoké školy a univerzity mohou mít přístup k některým z těchto služeb bez poplatku; některé z těchto služeb mohou být přístupné bez poplatku ve veřejné knihovně.
Ve velkých organizacích mohou být zavedeny kontrolované slovníky, aby se zlepšila technická komunikace. Použití kontrolované slovní zásoby zajišťuje, že každý používá stejné slovo, které znamená stejnou věc. Tato konzistence pojmů je jedním z nejdůležitějších pojmů v technickém psaní a řízení znalostí, kde je vynaloženo úsilí používat stejné slovo v celém dokumentu nebo organizaci místo mírně odlišných, které odkazují na stejnou věc.
Vyhledávání na webu by mohlo být dramaticky zlepšeno rozvojem kontrolovaného slovníku pro popis webových stránek; používání takového slovníku by mohlo vyvrcholit sémantickým webem, v němž by byl obsah webových stránek popsán pomocí strojově čitelného schématu metadat. Jedním z prvních návrhů takového schématu je iniciativa Dublin Core Initiative.
Je nepravděpodobné, že by se jedinému schématu metadat kdy podařilo popsat obsah celého webu. Pro vytvoření sémantického webu může být nutné čerpat ze dvou nebo více systémů metadat pro popis obsahu webové stránky. eXchangeable Faceted Metadata Language (XFML) je navržen tak, aby umožnil kontrolovaným tvůrcům slovní zásoby publikovat a sdílet systémy metadat. XFML je navržen na facetovaných principech klasifikace.