Supervised learning je technika strojového učení pro odvození funkce z trénovacích dat. Tréninková data se skládají z dvojic vstupních objektů (obvykle vektorů) a požadovaných výstupů. Výstupem funkce může být spojitá hodnota (tzv. regrese) nebo může předpovídat označení třídy vstupního objektu (tzv. klasifikace). Úkolem učícího se pod dohledem je předpovědět hodnotu funkce pro libovolný platný vstupní objekt poté, co viděl řadu trénovacích příkladů (tj. dvojic vstupů a cílových výstupů). Aby toho učící se subjekt dosáhl, musí „rozumně“ zobecňovat z prezentovaných dat na neviděné situace (viz induktivní zkreslení).
(Srovnejte s učením bez dohledu.) Paralelní úloha v psychologii člověka a zvířat se často označuje jako učení se pojmům.
Učení s dohledem může vytvářet modely dvou typů. Nejčastěji se při učení pod dohledem vytváří globální model, který mapuje vstupní objekty na požadované výstupy. V některých případech je však mapa implementována jako sada lokálních modelů (například v případě argumentace založené na případech nebo algoritmu nejbližšího souseda).
Při řešení daného problému učení pod dohledem (např. učení rozpoznávání rukopisu) je třeba zvážit různé kroky:
Dalším termínem pro učení pod dohledem je klasifikace. K dispozici je celá řada klasifikátorů, z nichž každý má své silné a slabé stránky. Výkonnost klasifikátoru značně závisí na vlastnostech klasifikovaných dat. Neexistuje jediný klasifikátor, který by fungoval nejlépe na všechny dané problémy; to se také označuje jako teorém No free lunch. Byly provedeny různé empirické testy s cílem porovnat výkonnost klasifikátorů a zjistit vlastnosti dat, které určují výkonnost klasifikátorů. Určení vhodného klasifikátoru pro daný problém je však stále spíše uměním než vědou.
Nejpoužívanějšími klasifikátory jsou neuronové sítě (vícevrstvý perceptron), stroje s podpůrnými vektory, algoritmus k-nejbližšího souseda, model Gaussovy směsi, Gaussův model, naivní Bayesův model, rozhodovací strom a klasifikátory s radiální bázovou funkcí.
Empirická minimalizace rizika
Cílem učení globálního modelu pod dohledem je najít funkci g, která je dána množinou bodů ve tvaru (x, g(x)).
Předpokládá se, že množina bodů, pro které je známo chování g, je nezávislý a identicky rozdělený vzorek náhodných veličin, který je vybrán podle neznámého rozdělení pravděpodobnosti p větší, pravděpodobně nekonečné, populace. Dále se předpokládá existence ztrátové funkce specifické pro danou úlohu L typu
kde Y je kodomén g a L mapuje do nezáporných reálných čísel (na L mohou být kladena další omezení). Veličina L(z, y) je ztráta vzniklá předpovídáním z jako hodnoty g v daném bodě, když skutečná hodnota je y.
Riziko spojené s funkcí f je pak definováno jako očekávání ztrátové funkce takto:
pokud je rozdělení pravděpodobnosti p diskrétní (analogický spojitý případ používá určitý integrál a funkci hustoty pravděpodobnosti).
Cílem je nyní najít funkci f * mezi pevnou podtřídou funkcí, pro kterou je riziko R(f *) minimální.
Protože však chování g je obecně známo pouze pro konečnou množinu bodů (x1, y1), …, (xn, yn), lze skutečné riziko pouze aproximovat, například pomocí empirického rizika:
Výběr funkce f*, která minimalizuje empirické riziko, je znám jako princip minimalizace empirického rizika. Teorie statistického učení zkoumá, za jakých podmínek je přípustná minimalizace empirického rizika a jak dobré aproximace lze očekávat.
Existují situace, kdy je neoznačených dat dostatek, ale označování dat je nákladné. V takovém případě se může učící algoritmus aktivně dotazovat uživatele/učitele na štítky. Tento typ iterativního učení pod dohledem se nazývá aktivní učení. Vzhledem k tomu, že příklady si vybírá učící se osoba, může být počet příkladů k naučení konceptu často mnohem nižší než počet potřebný při běžném učení s dohledem. Při tomto přístupu existuje riziko, že se algoritmus zaměří na nedůležité nebo dokonce neplatné příklady.
Aktivní učení může být užitečné zejména v biologických výzkumných problémech, jako je proteinové inženýrství, kdy bylo objeveno několik proteinů s určitou zajímavou funkcí a člověk chce určit, který z mnoha možných mutantů, který bude mít podobnou funkci, vytvořit příště.
Nechť je celkový soubor všech uvažovaných dat. Například v problému proteinového inženýrství by zahrnovala všechny proteiny, o nichž je známo, že mají určitou zajímavou aktivitu, a všechny další proteiny, které bychom mohli chtít na tuto aktivitu testovat.
Během každé iterace se , rozdělí na tři podmnožiny:
Většina současného výzkumu v oblasti aktivního učení se týká nejlepší metody výběru datových bodů pro .
Minimální mezní nadrovina
Některé algoritmy aktivního učení jsou postaveny na strojích s podpůrnými vektory (SVM) a využívají strukturu SVM k určení, které datové body mají být označeny. Tyto metody obvykle počítají marži, , každého neoznačeného údaje v a považují ji za n-rozměrnou vzdálenost od tohoto údaje k separační hyperrovině.
Metody minimální okrajové hyperplochy předpokládají, že data s nejmenšími hodnotami jsou ta, u kterých si je SVM nejvíce nejistá, a proto by měla být zařazena do označování. Jiné podobné metody, například Maximum Marginal Hyperplane, vybírají data s největší . Metody Tradeoff volí kombinaci nejmenších a největších s.
Další metodou aktivního učení, která se obvykle učí datovou sadu s menším počtem příkladů než minimální okrajová hyperplocha, ale je výpočetně náročnější a funguje pouze pro diskrétní klasifikátory, je metoda maximální zvědavosti.
Maximální zvědavost bere každý neoznačený údaj a předpokládá všechny možné značky, které tento údaj může mít. Tento údaj s každou předpokládanou třídou je přidán a poté je nový křížově ověřen. Předpokládá se, že když se daný údaj spáruje se správným označením, křížově ověřená přesnost (nebo korelační koeficient) se nejvíce zlepší. Datový údaj s nejvíce zlepšenou přesností je zařazen k označení