Sekvenční analýza

V bioinformatice termín sekvenční analýza odkazuje na proces podrobení sekvence DNA, RNA nebo peptidů libovolné ze širokého spektra analytických metod k pochopení jejích rysů, funkce, struktury nebo evoluce. Používané metodiky zahrnují sekvenční řazení, vyhledávání v biologických databázích a další. Od vývoje metod vysoce výkonné produkce genových a proteinových sekvencí se rychlost přidávání nových sekvencí do databází exponenciálně zvýšila. Taková sbírka sekvencí sama o sobě nezvyšuje vědecké chápání biologie organismů. Nicméně srovnávání těchto nových sekvencí se sekvencemi se známými funkcemi je klíčovým způsobem pochopení biologie organismu, ze kterého nová sekvence pochází. Sekvenční analýza tak může být použita k přiřazení funkce genům a proteinům studiem podobností mezi srovnávanými sekvencemi. V dnešní době existuje mnoho nástrojů a technik, které poskytují srovnání sekvencí (zarovnání sekvencí) a analyzují produkt zarovnání k pochopení jeho biologie.

V chemii zahrnuje sekvenční analýza techniky používané k určení sekvence polymeru tvořeného několika monomery.
V molekulární biologii a genetice se stejnému procesu říká jednoduše „sekvenování“.

V marketingu se sekvenční analýza často používá v analytických aplikacích pro řízení vztahů se zákazníky, jako jsou NPTB modely (Next Product to Buy).

Od roku 1951, kdy Fred Sanger charakterizoval úplně první sekvence inzulinového proteinu, se biologové snaží využít tyto poznatky k pochopení funkce molekul. Podle Michaela Levitta se sekvenční analýza zrodila v období 1969-1977. V roce 1969 byla analýza sekvencí transferových RNA použita k odvození interakcí reziduí z korelovaných změn v nukleotidových sekvencích, které daly vzniknout modelu sekundární struktury tRNA. V roce 1970 Saul B. Needleman a Christian D. Wunsch publikovali první počítačový algoritmus pro sladění dvou sekvencí. Během této doby se vývoj v získávání nukleotidové sekvence výrazně zlepšil, což vedlo ke zveřejnění prvního kompletního genomu bakteriofágu v roce 1977.

Příklad zarovnání více sekvencí

Doporučujeme:  Předchozí pravděpodobnost

Běžné použití párového zarovnání sekvencí je vzít zajímavou sekvenci a porovnat ji se všemi známými sekvencemi v databázi za účelem identifikace homologických sekvencí. Obecně jsou shody v databázi seřazeny tak, aby nejdříve ukázaly nejvíce příbuzné sekvence následované sekvencemi se snižující se podobností. Tyto shody jsou obvykle vykazovány s mírou statistické významnosti, jako je hodnota Očekávání.

V roce 1987 Michael Gribskov, Andrew McLachlan a David Eisenberg představili metodu porovnávání profilů pro identifikaci vzdálených podobností mezi proteiny. Spíše než používat jednu sekvenci, profilové metody používají více sekvencí pro zakódování profilu, který obsahuje informace o úrovni konzervace každého rezidua. Tyto profily pak mohou být použity k vyhledávání sbírek sekvencí pro nalezení sekvencí, které spolu souvisejí. Profily jsou také známé jako PSSM (Position Specific Scoring Matrices). V roce 1993 David Haussler a jeho kolegové zavedli pravděpodobnostní interpretaci profilů pomocí skrytých Markovových modelů. Tyto modely se staly známé jako profil-HMM.

Sestavování sekvencí označuje rekonstrukci sekvence DNA vyrovnáním a sloučením malých fragmentů DNA. Je nedílnou součástí moderního sekvenování DNA. Vzhledem k tomu, že v současnosti dostupné technologie sekvenování DNA jsou pro čtení dlouhých sekvencí nevhodné, velké kusy DNA (například genomy) jsou často sekvenovány tak, že (1) se DNA rozřeže na malé kousky, (2) se přečtou malé fragmenty a (3) se původní DNA rekonstituuje sloučením informací o různých fragmentech.

Genetická predikce nebo genový nález se týká procesu identifikace oblastí genomické DNA, které kódují geny. To zahrnuje geny kódující proteiny i geny RNA, ale může také zahrnovat predikci dalších funkčních prvků, jako jsou regulační oblasti. Genový nález je jedním z prvních a nejdůležitějších kroků v pochopení genomu druhu, jakmile byl sekvenován. Obecně je predikce bakteriálních genů výrazně jednodušší a přesnější než predikce genů u eukaryotických druhů, které mají obvykle složité intronové/exonové vzory.

Doporučujeme:  Pawel Lewicki

Predikce struktury proteinů

Cílová proteinová struktura (3dsm, zobrazeno ve stuhách), s Calpha páteří (v šedé barvě) 354 predikovaných modelů pro ni předložených v CASP8 struktura-predikční experiment.

3D struktury molekul mají velký význam pro jejich funkce v přírodě. Protože strukturální predikce velkých molekul na atomové úrovni je z velké části neřešitelný problém, někteří biologové zavedli způsoby predikce 3D struktury na úrovni primární sekvence. Patří sem biochemická nebo statistická analýza zbytků aminokyselin v místních oblastech a strukturální inference z homologů (nebo jiných potenciálně příbuzných proteinů) se známými 3D strukturami.

Existuje velké množství různých přístupů k řešení problému predikce struktury. Aby bylo možné určit, které metody byly nejúčinnější, byla založena soutěž o predikci struktury s názvem CASP (Critical Assessment of Structure Prediction).