Teorie informace – Dobrá psychoterapie

Informační teorie je obor matematiky, který se domnívá tři základní otázky:

Tyto poněkud abstraktní otázky jsou poměrně přesně zodpovězeny použitím matematiky, kterou zavedl Claude Shannon v roce 1948. Jeho práce zplodila oblast teorie informace a výsledky byly klíčové pro úspěch misí Voyageru do hlubokého vesmíru, vynález CD, proveditelnost mobilních telefonů, analýzu kódu používaného DNA a řadu dalších oblastí.

Teorie informace je úzce spojena se souborem čistých a aplikovaných disciplín, které byly prováděny pod různými prapory v různých částech světa za poslední půlstoletí nebo více: adaptivní systémy, anticipační systémy, umělá inteligence, komplexní systémy, věda o složitosti, kybernetika, informatika, strojové učení, spolu se systémovými vědami mnoha popisů. Teorie informace je široká a hluboká matematická teorie se stejně širokými a hlubokými aplikacemi, mezi nimi hlavní teorie kódování.

Teorie kódování se zabývá hledáním explicitních metod, zvaných kódy, pro zvýšení efektivity a věrnosti datové komunikace přes hlučný kanál až k limitu, o kterém Shannon prokázal, že je téměř možné. Tyto kódy lze zhruba rozdělit na kódy pro kompresi dat a pro opravu chyb. Trvalo mnoho let, než jsme našli dobré kódy, jejichž existenci Shannon prokázal. Třetí třídou kódů jsou kryptografické šifry; koncepty z teorie kódování a teorie informace se hodně používají v kryptografii a kryptoanalýze; zajímavou historickou aplikaci najdete v článku o decibanu.

Teorie informace se také používá při vyhledávání informací, sběru zpravodajských informací, hazardních hrách, statistikách a dokonce i hudební kompozici.

Matematická teorie informace

Abstraktní představa o tom, co „informace“ skutečně je, musí být konkrétnější, aby ji matematici mohli analyzovat.

Shannon definoval míru informačního obsahu nazvanou self-informace nebo překvapení zprávy m:

kde je pravděpodobnost, že zpráva m je vybrána ze všech možných voleb v prostoru zprávy .

Tato rovnice způsobuje, že zprávy s nižší pravděpodobností přispívají více k celkové hodnotě I(m). Jinými slovy, zřídka se vyskytující zprávy mají větší hodnotu. (Je to důsledek vlastnosti logaritmů, která je velmi velká, když je blízko 0 pro nepravděpodobné zprávy a velmi malá, když je blízko 1 pro téměř určité zprávy).

Například když John říká své ženě každé ráno před odchodem do kanceláře „Měj se, miláčku“, má tato informace jen malý „obsah“ nebo „hodnotu“. Ale když jednou ráno na svou ženu zakřičí „Zmiz“, pak má tato zpráva větší hodnotu nebo obsah (protože pravděpodobnost, že si tuto zprávu vybere, je údajně velmi nízká).

entropie diskrétního prostoru zpráv je míra míry nejistoty, kterou má člověk ohledně toho, která zpráva bude vybrána. Je definována jako průměrná vlastní informace zprávy z tohoto prostoru zpráv:

Logaritmus ve vzorci se obvykle bere do základu 2 a entropie se měří v bitech. Důležitou vlastností entropie je, že se maximalizuje, když jsou všechny zprávy v prostoru zpráv vybavitelné. V tomto případě .

Společná entropie dvou diskrétních náhodných veličin a je definována jako entropie společného rozdělení a :

Pokud a jsou nezávislé, pak společná entropie je jednoduše součtem jejich jednotlivých entropií.

(Poznámka: Spojovou entropii nelze zaměňovat s křížovou entropií, a to i přes podobnou notaci.)

Podmíněná entropie (ekvilibristika)

Vzhledem k určité hodnotě náhodné veličiny , Podmíněná entropie dané je definována jako:

kde je podmíněná pravděpodobnost dané .

Podmíněná entropie na dané , Také volal equivocation na asi je pak dáno:

Základní vlastností podmíněné entropie je, že:

Vzájemné informování (transinformace)

Ukazuje se, že jedním z nejužitečnějších a nejdůležitějších měřítek informace je vzájemná informace neboli transinformace. To je měřítko toho, kolik informací lze získat o jedné náhodné proměnné pozorováním jiné. Transinformace relativní k (která představuje pojmově množství informací o tom lze získat pozorováním ) je dána:

Základní vlastností transinformace je, že:

Vzájemná informace je symetrická:

Vzájemná informace úzce souvisí s testem logaritmicko-pravděpodobnostního poměru v kontextu kontingenčních tabulek a multinomiálního rozdělení a s Pearsonovým χ2 testem: vzájemnou informaci lze považovat za statistiku pro posouzení nezávislosti mezi dvojicí proměnných a má dobře specifikované asymptotické rozdělení. Vzájemnou informaci lze také vyjádřit Kullbackovou-Leiblerovou divergencí měřením rozdílu (takříkajíc) skutečného společného rozdělení na součin mezních rozdělení:

Kontinuální ekvivalenty entropie

Shannonova informace je vhodná pro měření nejistoty v diskrétním prostoru. Její základní míry byly analogicky rozšířeny na spojité prostory. Částky lze nahradit integrály a hustoty se používají místo pravděpodobnostních hmotnostních funkcí. Analogicky s diskrétním případem lze entropii, kloubní entropii, podmíněnou entropii a vzájemnou informaci definovat takto:

kde je funkce hustoty spojů, a jsou marginální rozdělení, a je podmíněné rozdělení.

Vraťme se prozatím k naší úvaze o komunikačním procesu přes diskrétní kanál. V tuto chvíli bude užitečné mít jednoduchý model procesu:

Zde X představuje prostor přenášených zpráv, a Y prostor zpráv přijatých během jednotky času přes náš kanál. Dovolit je podmíněná funkce rozdělení pravděpodobnosti Y dané X. Budeme považovat za vlastní pevnou vlastnost našeho komunikačního kanálu (představující povahu šumu našeho kanálu). Pak společné rozdělení X a Y je zcela určena náš kanál a naší volbou , mezní rozdělení zpráv jsme se rozhodli poslat přes kanál. Za těchto omezení, bychom chtěli maximalizovat množství informací, nebo signál, můžeme komunikovat přes kanál. Vhodným opatřením pro to je transinformation, a tento maximální transinformation se nazývá kapacita kanálu a je dána:

Příkaz (noisy-channel coding theorem)

(MacKay (2003), str. 162; srov. Gallager (1968), kap.5; Cover a Thomas (1991), str. 198; Shannon (1948) thm. 11)

Kapacita kanálů jednotlivých modelových kanálů

Zde je zajímavé a poučné spojení mezi teorií informace a teorie měření:

Pokud na svévolné diskrétní náhodné proměnné X a Y jsme asociovat existenci množin a , Nějak představuje informace nesené X a Y, respektive takové, že:

kde je míra nad těmito soubory, a nastavíme:

zjistíme, že Shannonova „míra“ informačního obsahu splňuje všechny postuláty a základní vlastnosti formální míry nad množinami. To může být v některých situacích užitečný mnemotechnický prostředek. Určitá rozšíření definic Shannonových základních měr informací jsou nezbytná pro vypořádání se s σ-algebrou generovanou množinami, které by byly spojeny se třemi nebo více libovolnými náhodnými proměnnými. (Viz Reza pp. 106-108 pro neformální, ale spíše úplnou diskusi.) Jmenovitě je třeba definovat zřejmým způsobem jako entropii společného rozdělení a rozšířenou transinformaci definovat vhodným způsobem (ponecháno jako cvičení pro ctižádostivého čtenáře), abychom mohli nastavit:

aby bylo možné definovat (podepsanou) míru nad celou σ-algebrou. (Je zajímavé poznamenat, že vzájemná informace tří nebo více náhodných proměnných může být záporná i kladná: Nechť X a Y jsou dva nezávislé férové hody mincí a nechť Z je jejich výhradní nebo. Pak bit.)

Toto spojení je důležité ze dvou důvodů: za prvé opakuje a objasňuje základní vlastnosti těchto základních pojmů teorie informace a za druhé v jistém formálním smyslu ospravedlňuje praxi nazývat Shannonovu entropii „mírou“ informací.

Tato omezení mají tendenci omezovat užitečnost Kolmogorovovy složitosti na dokazování asymptotických hranic, což je ve skutečnosti spíše doménou teorie složitosti. Nicméně je to v jistém smyslu „nejlepší“ možné měřítko informačního obsahu zprávy a má tu výhodu, že je nezávislá na jakémkoli předchozím rozdělení pravděpodobnosti na zprávách.

Záměrem je nejprve data zkomprimovat, tj. odstranit co nejvíce z jejich redundance, a poté přidat právě ten správný druh redundance (tj. oprava chyb), který je potřebný k efektivnímu a věrnému přenosu dat hlučným kanálem.

Teorie detekce a odhadu

Teorie informace je důležitá i při hazardu a (s jistými etickými výhradami) investování. Důležitý, ale jednoduchý vztah existuje mezi množstvím vedlejších informací, které hráč získá, a očekávaným exponenciálním růstem jeho kapitálu (Kelly). Takzvaná rovnice nečestně nabytých zisků může být vyjádřena v logaritmické formě jako

pro optimální sázkovou strategii, kde je počáteční kapitál, je kapitál po tth sázce a je množství získaných vedlejších informací týkajících se ith sázky (zejména vzájemných informací vztahujících se k výsledku každé sázkové události). Tato rovnice platí v případě neexistence jakýchkoli transakčních nákladů nebo minimálních sázek. Když tato omezení platí (jak tomu je vždy v reálném životě), vstupuje do hry další důležitý koncept hazardu: hráč (nebo bezohledný investor) musí čelit určité pravděpodobnosti konečného krachu. Všimněte si, že i jídlo, oblečení a přístřeší lze považovat za fixní transakční náklady a tím přispívat k pravděpodobnosti konečného krachu hráče. Proto je jídlo v kasinech tak levné.

Tato rovnice byla prvním uplatněním Shannonovy teorie informace mimo její převládající paradigma datových komunikací (Pierce). Nikdo neví, kolik lucre bylo získáno použitím této notoricky známé rovnice od jejího objevu před půl stoletím.

Špatně získané zisky rovnice vlastně tvoří základ mnoho, ne-li všechny matematické finance, i když jistě, když tam je peníze, které mají být provedeny, a obočí není třeba zvednout, extrémní diskrétnost je zaměstnán v jeho použití.

Rozhodující událostí, která zavedla předmět teorie informace a přivedla ho k okamžité celosvětové pozornosti, bylo publikování klasické práce Clauda E. Shannona (1916-2001) „Matematická teorie komunikace“ v Bell System Technical Journal v červenci a říjnu roku 1948.

Kvantitativní představy o informacích

Nejpřímější předchůdkyní Shannonovy práce byly dvě práce publikované ve dvacátých letech Harrym Nyquistem a Ralphem Hartleym, kteří byli oba ještě velmi mnoho vedoucími výzkumu v Bellových laboratořích, když tam Shannon dorazil na začátku čtyřicátých let.

Nyquistův článek z roku 1924, Určité faktory ovlivňující rychlost telegrafu se většinou zabývá některými podrobnými technickými aspekty telegrafních signálů. Ale více teoretická část pojednává o kvantifikaci „inteligence“ a „traťové rychlosti“, při které může být přenášena komunikačním systémem, udává vztah

kde W je rychlost přenosu inteligence, m je počet různých úrovní napětí, ze kterých lze v každém časovém kroku vybírat, a K je konstanta.

Hartleyho práce z roku 1928, nazvaná jednoduše Předávání informací, šla ještě dál tím, že zavedla slovo informace a explicitně objasnila myšlenku, že informace v tomto kontextu je kvantitativní měřitelná veličina, odrážející pouze to, že přijímač byl schopen rozlišit, že jedna posloupnost symbolů byla odeslána spíše než jakákoli jiná – zcela bez ohledu na jakýkoli související význam nebo jiný psychologický či sémantický aspekt, který by symboly mohly představovat. Toto množství informací kvantifikoval jako

kde S byl počet možných symbolů, a n počet symbolů v přenosu. Přirozenou jednotkou informace byla proto desetinná číslice, mnohem později přejmenovaná Hartley na jeho počest jako jednotka nebo měřítko nebo míra informace. Hartley informace, H0, je také stále velmi často používán jako množství pro log celkového počtu možností.

Podobnou jednotku log10 pravděpodobnosti, tedy zákaz, a jeho odvozenou jednotku deciban (jedna desetina zákazu), zavedl Alan Turing v roce 1940 jako součást statistické analýzy rozluštění německých šifer druhé světové války Enigma. decibannage představovalo snížení (logaritmus) celkového počtu možností (podobně jako změna Hartleyho informace); a také poměr log-pravděpodobnosti (nebo změna váhy důkazů), který bylo možné odvodit pro jednu hypotézu oproti druhé ze souboru pozorování. Očekávaná změna váhy důkazů odpovídá tomu, co bylo později nazváno Kullbackovou diskriminační informací.

Podkladem této představy však byla stále myšlenka rovných a-priori pravděpodobností, spíše než informační obsah událostí nerovné pravděpodobnosti; ani dosud žádný podkladový obraz otázek týkajících se sdělování tak různorodých výsledků.

Tato práce čerpala z dřívějších publikací . Na začátku svého dokumentu, Shannon tvrdil, že