Profilovací postupy

Profilování (Informační věda) se týká celého procesu tvorby a aplikace profilů vytvořených počítačovými profilovacími technologiemi. Co charakterizuje profilovací technologie, je použití algoritmů nebo jiných matematických technik, které umožňují objevit vzory nebo korelace ve velkém množství dat, agregovaných v databázích. Pokud jsou tyto vzory nebo korelace použity k identifikaci nebo reprezentaci osob, mohou být nazývány profily. Jiné než diskuse o profilovacích technologiích nebo populačním profilování se pojem profilovací praxe netýká jen tvorby profilů, ale týká se také aplikace skupinových profilů na jednotlivce, např. v případě kreditního bodování, cenové diskriminace nebo identifikace bezpečnostních rizik (Hildebrandt & Gutwirth 2008) (Elmer 2004).

Profilování není jen záležitostí počítačového rozpoznávání vzorů; umožňuje rafinovanou cenovou diskriminaci, cílený servis, odhalování podvodů a rozsáhlé sociální třídění. Profilování strojů v reálném čase je předpokladem pro vznikající sociálně-technické infrastruktury, které si představují zastánci ambientní inteligence, Autonomic Computing (Kephart & Chess 2003) a všudypřítomné výpočty (Weiser 1991).

Jedním z nejnáročnějších problémů informační společnosti je vypořádání se s rostoucím přetížením dat. S digitalizací nejrůznějších obsahů a také se zlepšením a poklesem nákladů na záznamové technologie se množství dostupných informací stalo enormním a exponenciálně roste. Pro firmy, vlády a jednotlivce se tak stalo důležitým, aby byli schopni rozlišovat informace od šumu a odhalovat tak data, která jsou užitečná nebo zajímavá. Na vývoj profilovacích technologií je třeba pohlížet v tomto kontextu. Předpokládá se, že tyto technologie efektivně shromažďují a analyzují data s cílem najít nebo otestovat znalosti ve formě statistických vzorců mezi daty. Tento proces se nazývá Knowledge Discovery in Databases (KDD) (Fayyad, Piatetsky-Shapiro & Smyth 1996), který poskytuje profilovači soubory korelovaných dat, která se používají jako „profily“.

Technický proces profilování lze oddělit v několika krocích:

Druhy profilovacích postupů

Aby se vyjasnila povaha profilovacích technologií, je třeba provést některé zásadní rozlišení mezi různými druhy profilovacích postupů, kromě rozlišení mezi konstrukcí a použitím profilů. Hlavní rozlišení je mezi profilováním zdola nahoru a shora dolů (nebo kontrolovaným a nekontrolovaným učením) a mezi individuálními a skupinovými profily.

Učení pod dohledem a bez dohledu

S ohledem na toto rozlišení jsou důležité dvě věci. Za prvé, zdá se, že algoritmy učení bez dozoru umožňují konstrukci nového typu znalostí, které nejsou založeny na hypotéze vyvinuté výzkumníkem a nejsou založeny na kauzálních nebo motivačních vztazích, ale jsou založeny výhradně na stochastických korelacích. Za druhé, zdá se, že algoritmy učení bez dozoru umožňují konstrukci induktivního typu znalostí, která nevyžaduje teoretické zdůvodnění nebo kauzální vysvětlení (Custers 2004).

Někteří autoři tvrdí, že pokud aplikace profilů založených na počítačem řízeném stochastickém rozpoznávání vzorů „funguje“, tj. umožňuje spolehlivé předpovědi budoucího chování, na teoretickém či kauzálním vysvětlení těchto vzorů již nezáleží (Anderson 2008). Nicméně myšlenka, že „slepé“ algoritmy poskytují spolehlivé informace, neznamená, že informace jsou neutrální. V procesu sběru a agregace dat do databáze (první tři kroky procesu tvorby profilů) se provádí překlady z reálných událostí do strojově čitelných dat. Tato data jsou pak připravena a vyčištěna, aby byla umožněna počáteční vyčíslitelnost. Potenciální zkreslení bude muset být lokalizováno v těchto bodech, stejně jako ve výběru algoritmů, které budou vyvinuty. Není možné vytěžit databázi pro všechny možné lineární a nelineární korelace, to znamená, že matematické techniky vyvinuté pro vyhledávání vzorů budou určeny vzory, které lze nalézt. V případě strojového profilování není potenciální zkreslení dáno předsudkem zdravého rozumu nebo tím, co psychologové nazývají stereotypem, ale počítačovými technikami použitými v počátečních krocích procesu. Tyto techniky jsou většinou neviditelné pro ty, na které jsou profily aplikovány (protože jejich data odpovídají příslušným skupinovým profilům).

Doporučujeme:  Clade

Individuální a skupinové profily

Profily musí být také klasifikovány podle druhu subjektu, na který odkazují. Tímto subjektem může být buď jednotlivec, nebo skupina lidí. Pokud je profil sestaven s údaji jedné osoby, nazývá se to profilování jednotlivce (Jaquet-Chiffelle 2008). Tento druh profilování se používá k objevování zvláštních charakteristik určitého jedince, aby se umožnila jedinečná identifikace nebo poskytování personalizovaných služeb. Individuální servis je však nejčastěji také založen na skupinovém profilování, které umožňuje kategorizaci osoby jako určitého typu osob na základě skutečnosti, že její profil odpovídá profilu, který byl sestaven na základě obrovského množství údajů o obrovském množství dalších lidí. Skupinový profil může odkazovat na výsledek vytěžování dat v souborech dat, které odkazují na existující komunitu, která se za takovou považuje, jako náboženská skupina, tenisový klub, univerzita, politická strana atd. V takovém případě může popisovat dříve neznámé vzorce chování nebo jiné charakteristiky takové skupiny (komunity). Skupinový profil může také odkazovat na kategorii osob, které netvoří komunitu, ale je zjištěno, že sdílejí dříve neznámé vzorce chování nebo jiné charakteristiky (Custers 2004). V takovém případě skupinový profil popisuje specifické chování nebo jiné charakteristiky určité kategorie osob, jako jsou například ženy s modrýma očima a zrzavými vlasy nebo dospělí s relativně krátkými pažemi a nohama. U těchto kategorií lze zjistit korelaci se zdravotními riziky, výdělečnou schopností, úmrtností, úvěrovými riziky atd.

Je-li individuální profil aplikován na jedince, ze kterého byl vytěžen, pak se jedná o přímé individuální profilování. Je-li skupinový profil aplikován na jedince, jehož údaje odpovídají profilu, pak se jedná o nepřímé individuální profilování, protože profil byl vytvořen za použití údajů jiných osob. Podobně je-li skupinový profil aplikován na skupinu, ze které byl vytěžen, pak se jedná o přímé skupinové profilování (Jaquet-Chiffelle 2008). Nicméně v rozsahu, v němž aplikace skupinového profilu na skupinu předpokládá aplikaci skupinového profilu na jednotlivé členy skupiny, má smysl hovořit o nepřímém skupinovém profilování, zejména pokud je skupinový profil nedistribuční.

Doporučujeme:  Swansea

Distribuční a nedistribuční profilování

Skupinové profily lze také rozdělit podle jejich distribučního charakteru (Vedder 1999). Skupinový profil je distribuční, pokud jeho vlastnosti platí stejně pro všechny členy jeho skupiny: všichni svobodní mládenci jsou svobodní, nebo všechny osoby s určitým genem mají 80% šanci, že se nakazí určitou nemocí. Profil je distribuční, pokud se profil nemusí nutně vztahovat na všechny členy skupiny: skupina osob s určitým PSČ má průměrnou schopnost výdělku XX, nebo kategorie osob s modrýma očima má průměrnou šanci 37% nakazit se určitou nemocí. Všimněte si, že v tomto případě bude šance jednotlivce mít určitou schopnost výdělku nebo nakazit se určitou nemocí záviset na dalších faktorech, např. pohlaví, věku, původu rodičů, předchozím zdravotním stavu, vzdělání. Mělo by být zřejmé, že kromě tautologických profilů, jako je profil svobodných mládenců, je většina skupinových profilů vytvořených pomocí počítačových technik nedistribuční. To má dalekosáhlé důsledky pro přesnost nepřímého profilování jednotlivce na základě údajů odpovídajících nedistribučním skupinovým profilům. Pomineme-li fakt, že použití přesných profilů může být nespravedlivé nebo může způsobit nepřiměřenou stigmatizaci, většina skupinových profilů nebude přesná.

Profilovací technologie lze použít v různých oblastech a pro různé účely. Všechny tyto profilovací postupy budou mít různý účinek a vyvolávat různé otázky.

Znalosti o chování a preferencích zákazníků jsou pro komerční sektor velmi zajímavé. Na základě profilovacích technologií mohou firmy předvídat chování různých typů zákazníků. Marketingové strategie pak mohou být šité na míru lidem vyhovujícím těmto typům. Příklady profilovacích praktik v marketingu jsou zákaznické věrnostní karty, řízení vztahů se zákazníky obecně a personalizovaná reklama.

Ve finančním sektoru používají instituce profilovací technologie pro prevenci podvodů a úvěrové ohodnocení. Banky chtějí minimalizovat rizika při poskytování úvěrů svým zákazníkům. Na základě rozsáhlého skupinového profilování je zákazníkům přiřazena určitá skórovací hodnota, která vypovídá o jejich bonitě. Finanční instituce jako banky a pojišťovny také používají skupinové profilování pro odhalování podvodů nebo praní špinavých peněz. Databáze s transakcemi jsou prohledávány pomocí algoritmů, aby se našlo chování, které se odchyluje od standardu, což ukazuje na potenciálně podezřelé transakce.

Profilování lze také využít k podpoře lidí v práci a také k učení, a to zásahem do návrhu adaptivních hypermediálních systémů personalizujících interakci. To může být například užitečné pro podporu řízení pozornosti (Nabeth 2008).

Doporučujeme:  Epidermis (kůže)

Ve forenzní vědě existuje možnost propojení různých databází případů a podezřelých osob a jejich vytěžení pro společné vzory. To by mohlo být využito pro řešení stávajících případů nebo pro účely stanovení rizikových profilů potenciálních podezřelých (Geradts & Sommer 2008) (Harcourt 2006).

Profilovací technologie vyvolaly celou řadu etických, právních a dalších otázek včetně soukromí, rovnosti, řádného procesu, bezpečnosti a odpovědnosti. Četní autoři varovali před finančními možnostmi nové technologické infrastruktury, která by mohla vzniknout na základě poloautonomních profilovacích technologií (Lessig 2006)(Solove 2004)(Schwartz 2000).

Soukromí je jednou z hlavních vznesených otázek. Profilovací technologie umožňují dalekosáhlé sledování chování a preferencí jednotlivce. Profily mohou odhalit osobní nebo soukromé informace o jednotlivcích, které si možná ani sami neuvědomují (Hildebrandt & Gutwirth 2008).

Profilovací technologie jsou ze své podstaty diskriminačními nástroji. Umožňují bezpříkladné druhy třídění a segmentace společnosti, které by mohly mít nekalé účinky. Lidé, kteří se profilují, mohou platit vyšší ceny, mohou přijít o důležité nabídky nebo příležitosti a mohou podstupovat zvýšená rizika, protože uspokojování jejich potřeb je méně výnosné (Lyon 2003). Ve většině případů si toho nebudou vědomi, protože profilovací praktiky jsou většinou neviditelné a samotné profily jsou často chráněny duševním vlastnictvím nebo obchodním tajemstvím. To představuje hrozbu pro rovnost a solidaritu občanů. Ve větším měřítku by to mohlo způsobit segmentaci společnosti.

Jedním z problémů, které stojí za možným porušováním soukromí a nediskriminací, je skutečnost, že proces profilování je pro osoby, které se profilují, více než neviditelný. To vytváří potíže v tom, že je těžké, ne-li nemožné, napadnout použití konkrétního skupinového profilu. To narušuje zásady řádného procesu: pokud osoba nemá přístup k informacím, na jejichž základě jí jsou odpírány výhody nebo jí jsou přisuzována určitá rizika, nemůže napadnout způsob, jakým je s ní zacházeno (Steinbock 2005).

Profily mohou být použity proti lidem, když skončí v rukou lidí, kteří k nim nemají právo přístupu ani je používat. Důležitou otázkou související s tímto narušením bezpečnosti je krádež identity.

Když aplikace profilů způsobí škodu, musí být stanovena odpovědnost za tuto škodu, kdo má nést odpovědnost. Má nést odpovědnost softwarový programátor, poskytovatel profilovacích služeb, nebo profilovaný uživatel? Tato otázka odpovědnosti je obzvláště složitá v případě, že aplikace a rozhodnutí o profilech se také staly automatizovanými jako v Autonomic Computing nebo ambient intelligence rozhodnutí automatizovaných rozhodnutí založených na profilování.