V lingvistice lexis (v řečtině λέξις = slovo) popisuje uložení jazyka v našem mentálním lexikonu jako prefabrikované vzory (lexikální jednotky), které lze připomenout a roztřídit do smysluplné řeči a písma. Nedávný výzkum v korpusové lingvistice naznačuje, že dlouholetá dichotomie mezi gramatikou a slovní zásobou neexistuje. Lexis jako pojem se liší od tradičního paradigmatu gramatiky tím, že definuje pravděpodobné užití jazyka, nikoli možné užití jazyka. Tento pojem ostře kontrastuje s Chomskianovým tvrzením o „univerzální gramatice“ jako hlavním hybateli jazyka; gramatika samozřejmě stále hraje v lexisu nedílnou roli, ale je výsledkem nahromaděného lexisu, nikoli jeho generátoru.
Významnou oblastí studijní psycholingvistiky a neurolingvistiky je otázka, jak se získávají slova z mentálního lexikonu v on-line zpracování a produkci jazyků. Například kohortový model se snaží popsat lexikální vyhledávání ve smyslu segment po segmentu aktivace konkurenčních lexikálních záznamů.
V posledních letech umožňuje sestavování jazykových databází pomocí reálných vzorků z řeči a písma výzkumníkům podívat se na složení jazyků zcela nově. Metody statistického výzkumu mimo jiné nabízejí spolehlivý vhled do způsobů interakce slov. K nejzajímavějším zjištěním došlo při dichotomii mezi používáním jazyka (jak je jazyk používán) a používáním jazyka (jak by mohl být jazyk používán).
Použití jazyka ukazuje, které výskyty slov a jejich partnerů jsou nejpravděpodobnější. Hlavním zjištěním tohoto výzkumu je, že uživatelé jazyka se ve velmi vysoké míře spoléhají na hotové „lexikální kousky“ jazyka, které lze snadno kombinovat do tvaru vět. Tím se eliminuje nutnost, aby mluvčí analyzoval každou větu gramaticky, a přitom se efektivně vypořádal se situací. Typickými příklady jsou „Chápu, co máte na mysli“ nebo „Mohl byste mi prosím podat …“ nebo „Nedávný výzkum ukazuje, že…“
Jazykové využití je naopak to, co se odehrává, když hotové kusy nenaplňují okamžité potřeby mluvčího; jinými slovy, chystá se vytvoření nové věty, která musí být analyzována z hlediska správnosti. Gramatika byla rodilými mluvčími internalizována, což jim umožňuje určit životaschopnost nových vět. Jazykové využití by mohlo být definováno jako záložní pozice, když jsou vyčerpány všechny ostatní možnosti.
(částečně upraveno z Lewis, 1997)
Jakmile jsou data shromážděna, mohou být seřazena, aby se určila pravděpodobnost souběžných výskytů. Jeden běžný a dobře známý způsob je s konkordancí: KWIC je vycentrován a zobrazen s desítkami příkladů jeho použití, jako s příkladem pro „možnost“ níže.
Soulad pro MOŽNOST
Jakmile je taková shoda vytvořena, lze analyzovat souběžné výskyty jiných slov s KWIC. To se provádí pomocí t-skóre. Vezmeme-li například slovo cizinec (srovnávací přídavné jméno a podstatné jméno), analýza t-skóre nám poskytne informace, jako je slovní frekvence v korpusu: slova jako „ne“ a „to“ nejsou překvapivě příliš častá; slovo jako „kontroverze“ mnohem méně. Následně vypočítá výskyty tohoto slova společně s KWIC („společná frekvence“), aby určila, zda je tato kombinace neobvykle častá, jinými slovy, zda se slovní kombinace vyskytuje výrazně častěji, než by se dalo očekávat podle samotné její frekvence. Pokud ano, je kolokace považována za silnou a stojí za to věnovat jí větší pozornost.
V tomto příkladu je velmi častou kolokací „no stranger to“; stejně tak slova jako „záhadný, pohledný a temný“. To není žádné překvapení. Zajímavější je však „no stranger to controversy“. Asi nejzajímavějším příkladem je však idiomatické „perfect stranger“. Takovou slovní kombinaci nebylo možné předpovědět samo o sobě, neboť neznamená „cizinec, který je dokonalý“, jak bychom očekávali. Její neobvykle vysoká frekvence ukazuje, že obě slova jsou silně kololokační a jako výraz jsou vysoce idiomatické.
Studium korpusové lingvistiky nám poskytuje mnoho poznatků o skutečné povaze jazyka, jak je ukázáno výše. V podstatě se zdá, že lexikon je postaven na předpokladu, že k používání jazyka se nejlépe přistupuje jako k montážnímu procesu, kdy mozek propojuje hotové kusy. Intuitivně to dává smysl: je to přirozená zkratka, která má zmírnit břemeno nutnosti „znovu vynalézt kolo“ pokaždé, když mluvíme. Kromě toho používání známých výrazů přenáší rychle spoustu informací, protože posluchač nepotřebuje rozložit výrok na jeho jednotlivé části. V „Slovech a pravidlech“ ukazuje Steven Pinker tento proces při práci s pravidelnými a nepravidelnými slovesy: Sbíráme první, která nám poskytují pravidla, jež můžeme aplikovat na neznámá slova (například ‑edův konec pro minulá časová slovesa nám umožňuje odmítnout neologismus „vygooglovat“ na „vygooglovat“). Jiné vzory, nepravidelná slovesa, ukládáme odděleně jako jedinečné předměty k zapamatování.
Metafora jako organizační princip pro lexis
Další metoda efektivního ukládání jazyka v Lexikonu zahrnuje použití metafory jako principu ukládání. („Ukládání“ a „soubory“ jsou dobrými příklady toho, jak byly lidská paměť a počítačová paměť propojeny se stejným slovníkem; nebylo tomu tak vždy). Lakoffovo dílo (1980) je obvykle uváděno jako základní kámen studií metafory v jazyce. Jeden příklad je docela běžný: „čas jsou peníze“. Můžeme šetřit, utrácet a plýtvat časem i penězi. Další zajímavý příklad pochází z podnikání a sexu: podniky pronikají na trh, přitahují zákazníky a diskutují o „řízení vztahů“. Podnikání je také válka: spustit reklamní kampaň, získat opěrný bod na trhu, utrpět ztráty. Systémy jsou naopak voda: záplava informací, přetékající lidmi, tok dopravy. Teorie NOA o získávání Lexikonu argumentuje, že metaforický třídicí filtr pomáhá zjednodušit ukládání jazyka a vyhnout se přetížení.