Klasifikace podle více značek

Klasifikace podle více značek a silně související problém klasifikace podle více výstupů jsou ve strojovém učení variantami klasifikačního problému, kdy musí být každé instanci přiřazeno více cílových značek. Klasifikace podle více značek by neměla být zaměňována s klasifikací podle více tříd, což je problém kategorizace instancí do více než dvou tříd. Formálně lze učení podle více značek formulovat jako problém nalezení modelu, který mapuje vstupy x na vektory y, nikoli skalární výstupy jako v běžném klasifikačním problému.

Existují dvě hlavní metody pro řešení problému s multilabel klasifikací: metody pro transformaci problémů a metody pro adaptaci algoritmů. Metody pro transformaci problémů transformují multilabel problém na soubor binárních problémů s klasifikací. Metody pro adaptaci algoritmů adaptují algoritmy tak, aby přímo prováděly multilabel klasifikaci.

Pro multilabel klasifikaci existuje několik metod transformace problémů; základní přístup
se rovná zaškolení jednoho klasifikátoru na jeden štítek, podobně jako u metody one-vs.-all (OvA, také one-vs.-rest, OvR) pro multiclass klasifikaci. Za předpokladu neviditelného vzorku pak kombinovaný model předpovídá všechny štítky pro tento vzorek, pro který příslušný binární klasifikátor předpovídá pozitivní výsledek.
(Tato metoda byla také nazvána metodou „binární relevance“.)

Existují různé další transformace: transformace kombinací popisků (LC), vytváří jeden binární třídič pro každou možnou kombinaci popisků. Mezi další transformační metody patří RAkEL a řetězce třídičů. Byly vyvinuty různé metody transformace problémů, jako je Ml-kNN, varianta k-nejbližších sousedů líných třídičů. Podrobnější popis nejznámějších metod pro multilabel klasifikaci a rozsáhlé empirické hodnocení naleznete zde.

Metriky hodnocení pro klasifikaci s více značkami jsou vzhledem k rozdílům v problému klasifikace ze své podstaty odlišné od těch, které se používají v klasifikaci s více třídami (nebo binárně). Obvykle se používají tyto metriky:

Provádění a soubory dat

Java implementace multi-label algoritmů jsou dostupné v softwarových balíčcích Mulan a Meka, oba založené na Weka.

Balíček scikit-learn python implementuje některé multi-labelové algoritmy a metriky.

Seznam běžně používaných multilabel datových souborů je k dispozici na webových stránkách Mulan.