Dítě snímané jednoduchým algoritmem rozpoznávání gest detekujícím polohu ruky a pohyb
Rozpoznávání gest je téma v počítačové vědě a jazykové technologii s cílem interpretovat lidská gesta pomocí matematických algoritmů. Gesta mohou pocházet z jakéhokoli tělesného pohybu nebo stavu, ale běžně pocházejí z obličeje nebo ruky. Současné zaměření v této oblasti zahrnuje rozpoznávání emocí z obličeje a rozpoznávání gest rukou. Mnoho přístupů bylo provedeno pomocí kamer a algoritmů počítačového vidění pro interpretaci znakové řeči. Nicméně identifikace a rozpoznávání držení těla, chůze, proxemiky a lidského chování je také předmětem technik rozpoznávání gest.
Rozpoznávání gest může být chápáno jako způsob, jak počítače začínají rozumět řeči lidského těla, a tak staví bohatší most mezi stroji a lidmi než primitivní textová uživatelská rozhraní nebo dokonce GUI (grafické uživatelské rozhraní), které stále omezují většinu vstupu na klávesnici a myš.
Rozpoznávání gest umožňuje lidem komunikovat se strojem (HMI) a přirozeně komunikovat bez jakýchkoli mechanických zařízení. Pomocí konceptu rozpoznávání gest je možné ukázat prstem na obrazovku počítače tak, aby se kurzor podle toho pohyboval. To by potenciálně mohlo učinit nadbytečnými konvenční vstupní zařízení, jako je myš, klávesnice a dokonce i dotykové obrazovky.
Rozpoznávání gest lze provádět technikami počítačového vidění a zpracování obrazu.
Literatura zahrnuje probíhající práci v oblasti počítačového vidění na zachycení gest nebo obecnější lidské pózy a pohybů kamerami připojenými k počítači.
Rozpoznávání gest a počítání perem:
Tento výpočet nejen sníží hardwarový dopad systému, ale také zvýší rozsah použití fyzického objektu světa namísto digitálního objektu, jako jsou klávesnice, myši. Pomocí toho můžeme implementovat a vytvořit novou tezi vytváření nového hardwaru bez nutnosti monitorů. Tato myšlenka nás může dovést k vytvoření holografického displeje. Termín rozpoznávání gest byl použit pro užší označení netextových symbolů rukopisu, jako je inkoustování na grafickém tabletu, vícedotyková gesta a rozpoznávání gest myší. Jedná se o počítačovou interakci prostřednictvím kreslení symbolů kurzorem polohovacího zařízení. (viz Počítačové počítání)
V počítačových rozhraních se rozlišují dva typy gest: Bereme v úvahu on-line gesta, která lze také považovat za přímé manipulace, jako je škálování a otáčení. Naopak offline gesta jsou obvykle zpracována až po ukončení interakce; např. je nakreslen kruh pro aktivaci kontextového menu.
Rozpoznávání gest je užitečné pro zpracování informací od člověka, které nejsou zprostředkovány řečí nebo typem. Stejně tak existují různé typy gest, které mohou být identifikovány počítači.
Schopnosti sledovat pohyby osoby a určit, jaká gesta může provádět, lze dosáhnout pomocí různých nástrojů. Ačkoli existuje velké množství výzkumů zaměřených na rozpoznávání gest na základě obrazu/videa, existují určité rozdíly mezi nástroji a prostředími používanými mezi jednotlivými implementacemi.
Existují různé způsoby sledování a analýzy gest a některé základní rozvržení je uvedeno ve výše uvedeném diagramu. Například objemové modely vyjadřují potřebné informace potřebné pro propracovanou analýzu, nicméně se ukazují jako velmi náročné z hlediska výpočetního výkonu a vyžadují další technologický vývoj, aby mohly být implementovány pro analýzu v reálném čase. Na druhé straně modely založené na vzhledu se snadněji zpracovávají, ale obvykle postrádají obecnost požadovanou pro interakci člověka s počítačem.
Některé literatury rozlišují 2 různé přístupy v rozpoznávání gest: 3D model založený a vzhled založený. Nejpřednější metoda využívá 3D informace o klíčových prvcích částí těla s cílem získat několik důležitých parametrů, jako je pozice dlaně nebo úhly kloubů. Na druhé straně systémy založené na vzhledu používají obrázky nebo videa pro přímou interpretaci.
Skutečná ruka (vlevo) je interpretována jako sbírka vrcholů a čar ve 3D mesh verzi (vpravo) a software využívá jejich relativní pozici a interakci, aby mohl odvodit gesto.
Přístup 3D modelů může využívat objemové nebo kosterní modely, nebo dokonce jejich kombinaci. Volumetrické přístupy byly hojně využívány v průmyslu počítačové animace a pro účely počítačového vidění. Modely jsou obecně vytvořeny z komplikovaných 3D povrchů, jako jsou NURBS nebo polygonová oka.
Nevýhodou této metody je, že je velmi výpočetně náročná a systémy pro živé analýzy se teprve vyvíjejí. Pro tuto chvíli by byl zajímavější přístup mapovat jednoduché primitivní objekty k nejdůležitějším částem těla člověka (například válce pro paže a krk, koule pro hlavu) a analyzovat způsob, jakým na sebe vzájemně působí. Navíc některé abstraktní struktury jako super-kvadriky a generalizované válce mohou být ještě vhodnější pro přiblížení částí těla. Velmi vzrušující na tomto přístupu je, že parametry pro tyto objekty jsou poměrně jednoduché. Abychom mohli lépe modelovat vztah mezi nimi, využíváme omezení a hierarchie mezi našimi objekty.
Kosterní verze (vpravo) efektivně modeluje ruku (vlevo). Ta má méně parametrů než objemová verze a je snadněji vypočitatelná, takže je vhodná pro systémy analýzy gest v reálném čase.
Místo intenzivního zpracování 3D modelů a řešení spousty parametrů stačí použít zjednodušenou verzi parametrů úhlu kloubu spolu s délkami segmentů. Tomu se říká kosterní reprezentace těla, kdy se vypočítá virtuální kostra osoby a části těla se zmapují na určité segmenty. Analýza se zde provádí pomocí polohy a orientace těchto segmentů a vztahu mezi každým z nich (například úhel mezi klouby a relativní poloha nebo orientace)
Výhody použití kosterních modelů:
Tyto binární siluety (vlevo) nebo obrysové (vpravo) obrázky představují typický vstup pro algoritmy založené na vzhledu. Jsou porovnávány s různými ručními šablonami a pokud se shodují, je odvozeno korespondenční gesto.
Tyto modely již nepoužívají prostorovou reprezentaci těla, protože odvozují parametry přímo z obrázků nebo videí pomocí databáze šablon. Některé jsou založeny na deformovatelných 2D šablonách lidských částí těla, zejména rukou. Deformovatelné šablony jsou množiny bodů na obrysu objektu, které se používají jako interpolační uzly pro přibližování obrysu objektu. Jednou z nejjednodušších interpolačních funkcí je lineární funkce, která provádí průměrný tvar z bodových množin, parametrů variability bodů a vnějších deformátorů. Tyto modely založené na šablonách se většinou používají pro ruční sledování, ale mohly by se použít i pro jednoduchou klasifikaci gest.
Druhý přístup v detekci gest pomocí modelů založených na vzhledu používá sekvence obrázků jako šablony gest. Parametry pro tuto metodu jsou buď obrázky samotné, nebo některé vlastnosti z nich odvozené. Většinou se používá pouze jeden (monoskopický) nebo dva (stereoskopický) pohledy.
S přesností a užitečností softwaru pro rozpoznávání gest je spojeno mnoho problémů. Pro rozpoznávání gest na základě obrazu existují omezení, pokud jde o použité vybavení a šum obrazu. Obrázky nebo video nemusí být pod stálým osvětlením nebo na stejném místě. Rozpoznání mohou ztížit položky na pozadí nebo odlišné rysy uživatelů.
Rozmanitost implementací pro rozpoznávání gest na základě obrazu může také způsobit problémy s životaschopností technologie pro obecné použití. Například algoritmus kalibrovaný pro jeden fotoaparát nemusí fungovat pro jiný fotoaparát. Množství šumu pozadí také způsobuje potíže se sledováním a rozpoznáváním, zejména pokud se vyskytnou okluze (částečné a úplné). Navíc vzdálenost od fotoaparátu a rozlišení a kvalita fotoaparátu také způsobují rozdíly v přesnosti rozpoznávání.
Aby bylo možné zachytit lidská gesta pomocí vizuálních senzorů, jsou nutné také robustní metody počítačového vidění,
například pro sledování rukou a rozpoznávání držení rukou nebo pro zachycení pohybů hlavy, výrazů obličeje nebo směru pohledu.
„Gorilí rameno“ bylo vedlejším účinkem vertikálně orientovaného používání dotykového displeje nebo světelného pera. V obdobích delšího používání začaly paže uživatelů pociťovat únavu a/nebo nepohodlí. Tento účinek přispěl k poklesu vstupu dotykového displeje i přes počáteční popularitu v 80. letech.