.
Výběr akce je způsob, jak charakterizovat nejzákladnější problém inteligentních systémů: co dělat dál. V umělé inteligenci a počítačové kognitivní vědě je „problém výběru akce“ obvykle spojován s inteligentními agenty a animáty – umělými systémy, které vykazují komplexní chování v agentním prostředí. Tento termín se někdy používá také v etologii nebo v chování zvířat.
Jedním z problémů pro pochopení výběru akcí je určení úrovně abstrakce použité pro specifikaci „akce“. Na nejzákladnější úrovni abstrakce může být atomickým činem cokoli od kontrakce svalové buňky po vyvolání války. Pro každý mechanismus výběru akce je typické, že množina možných akcí je předem definovaná a pevně daná.
Většina výzkumníků pracujících v této oblasti klade na své pracovníky vysoké nároky:
Z těchto důvodů není výběr akcí triviální a je předmětem mnoha výzkumů.
Charakteristika problému výběru akce
Hlavním problémem při výběru akcí je složitost. Protože veškeré výpočty zabírají čas i prostor (v paměti), agenti nemohou v každém časovém okamžiku zvážit všechny možnosti, které mají k dispozici. V důsledku toho musí být zaujatí a své hledání nějakým způsobem omezovat. Pro umělou inteligenci je otázkou výběru akcí, jaký je nejlepší způsob, jak toto hledání omezit? Pro biologii a etologii je otázkou, jak různé typy zvířat omezují své hledání? Používají všechna zvířata stejné přístupy? Proč používají právě ty, které používají?
Jednou ze základních otázek týkajících se výběru akcí je, zda je to pro agenta vůbec nějaký problém, nebo zda se jedná pouze o popis emergentní vlastnosti chování inteligentního agenta. Pokud se však zamyslíme nad tím, jak inteligentního agenta vytvoříme, pak je zřejmé, že musí existovat nějaký mechanismus pro výběr akcí. Tento mechanismus může být vysoce distribuovaný (jako v případě distribuovaných organismů, např. sociálních kolonií hmyzu nebo slizových plísní), nebo se může jednat o účelový modul.
Mechanismus výběru akcí (ASM) určuje nejen akce agenta z hlediska dopadu na svět, ale také řídí jeho percepční pozornost a aktualizuje jeho paměť. Tyto egocentrické druhy akcí mohou následně vést k modifikaci základních behaviorálních schopností agenta, zejména v tom, že aktualizace paměti znamená možnost určité formy učení. V ideálním případě by se měl být schopen učit a přizpůsobovat i samotný výběr akcí, ale existuje mnoho problémů kombinatorické složitosti a výpočetní schůdnosti, které mohou vyžadovat omezení prostoru pro hledání učení.
V umělé inteligenci se ASM také někdy označuje jako architektura agenta nebo se o ní uvažuje jako o její podstatné části.
Výběr mechanismů účinku umělé inteligence
Na počátku historie umělé inteligence se předpokládalo, že nejlepší způsob, jak se agent rozhodne, co bude dělat dál, je vypočítat prokazatelně optimální plán a ten pak provést. To vedlo k hypotéze fyzikálního systému symbolů, podle níž je pro inteligenci nutný a postačující fyzikální agent, který dokáže manipulovat se symboly. Mnoho softwarových agentů stále používá tento přístup k výběru akcí. Obvykle vyžaduje popis všech údajů ze senzorů, světa, všech svých akcí a všech svých cílů v nějaké formě predikátové logiky. Kritici tohoto přístupu si stěžují, že je pro plánování v reálném čase příliš pomalý a že navzdory důkazům je stále nepravděpodobné, že by vedl k optimálním plánům, protože redukce popisů reality na logiku je proces náchylný k chybám.
Uspokojování je rozhodovací strategie, která se snaží splnit kritéria přiměřenosti, nikoliv nalézt optimální řešení. Strategie uspokojování může být často ve skutečnosti (téměř) optimální, pokud se v kalkulačce výsledků zohlední náklady samotného rozhodovacího procesu, například náklady na získání úplných informací.
Na rozdíl od symbolického přístupu nemají distribuované systémy výběru akcí ve skutečnosti v agentovi jednu „krabičku“, která rozhoduje o další akci. Přinejmenším v idealizované podobě mají distribuované systémy mnoho paralelně běžících modulů, které určují nejlepší akci na základě lokálních zkušeností. V těchto idealizovaných systémech se očekává, že nějakým způsobem vznikne celková koherence, případně pečlivým návrhem vzájemně se ovlivňujících komponent. Tento přístup je často inspirován výzkumem neuronových sítí. V praxi téměř vždy existuje nějaký centralizovaný systém, který určuje, který modul je „nejaktivnější“ nebo má největší význam. Existují důkazy, že skutečné biologické mozky mají také takové výkonné rozhodovací systémy, které vyhodnocují, který z konkurujících si systémů si zaslouží největší pozornost, nebo lépe řečeno, má své žádoucí činnosti deinitivní.
Přístupy dynamického plánování
Vzhledem k tomu, že čistě distribuované systémy je obtížné konstruovat, mnoho výzkumníků se obrátilo k používání explicitních pevně zakódovaných plánů pro určení priorit jejich systému.
Dynamické nebo reaktivní metody plánování počítají v každém okamžiku pouze jednu další akci na základě aktuálního kontextu a předem napsaných plánů. Na rozdíl od klasických plánovacích metod netrpí reaktivní nebo dynamické přístupy kombinatorickou explozí. Na druhou stranu jsou někdy považovány za příliš rigidní na to, aby je bylo možné považovat za silnou umělou inteligenci, protože plány jsou předem zakódovány. Zároveň může být přirozená inteligence v některých kontextech rigidní, ačkoli v jiných je fluidní a schopná se přizpůsobit.
Příkladem strukturovaných reaktivních plánů je systém RAP Jamese Firbyho a teleoreaktivní plány Nilse Nilssona. PRS, RAP a TRP již nejsou vyvíjeny ani podporovány. Jedním ze stále aktivních (od roku 2006) potomků tohoto přístupu je systém paralelně zakořeněného uspořádaného hierarchického výběru akcí (neboli POSH), který je součástí systému behaviorálně orientovaného designu Joanny Brysonové.
Někdy se ve snaze vyřešit vnímanou nepružnost dynamického plánování používají hybridní techniky. V nich konvenčnější plánovací systém s umělou inteligencí hledá nové plány, když má agent volný čas, a aktualizuje knihovnu dynamických plánů, když najde dobrá řešení. Důležitým aspektem každého takového systému je, že když agent potřebuje zvolit akci, existuje nějaké řešení, které lze okamžitě použít (viz dále libovolný algoritmus).
Teorie akčního výběru v přírodě
Mnoho dynamických modelů umělého výběru činností bylo původně inspirováno výzkumem v etologii. Zejména Konrad Lorenz a Nikolaas Tinbergen přišli s myšlenkou vrozeného uvolňovacího mechanismu, který vysvětluje instinktivní chování (ustálené vzorce jednání). Pod vlivem myšlenek Williama McDougalla ji Lorenz rozvinul do „psychohydraulického“ modelu motivace chování. V etologii byly tyto myšlenky vlivné v 60. letech 20. století, ale nyní jsou považovány za zastaralé kvůli použití metafory toku energie; nervová soustava a řízení chování jsou nyní obvykle považovány za zahrnující spíše přenos informací než tok energie. Dynamické plány a neuronové sítě se více podobají přenosu informací, zatímco šířící se aktivace se více podobá rozptýlenému řízení emočních / hormonálních systémů.
Stan Franklin navrhl, že správnou perspektivou pro pochopení úlohy a vývoje mysli je akční výběr. Viz jeho stránka o paradigmatu akčního výběru.
Modely umělé inteligence pro výběr neuronových akcí
Někteří výzkumníci vytvářejí propracované modely výběru nervových akcí. Viz např:
Toto tematické číslo se zaměřuje na konkrétní strategii hledání vědeckých vysvětlení – počítačové modelování. Příspěvky využívají nejmodernější modelovací techniky od velkých sítí simulovaných mozkových buněk až po modely jednotlivců (lidí nebo zvířat), na které se pohlíží jako na agenty působící v simulovaných světech.