Příklad proteinové struktury určené Midwest Center for Structural Genomics.
Strukturální genomika se snaží popsat trojrozměrnou strukturu každého proteinu zakódovaného daným genomem. Tento přístup založený na genomu umožňuje vysoce výkonnou metodu určení struktury kombinací experimentálního a modelovacího přístupu. Hlavní rozdíl mezi strukturní genomikou a tradiční strukturní predikcí spočívá v tom, že strukturní genomika se pokouší určit strukturu každého proteinu zakódovaného genomem, místo aby se zaměřovala na jeden konkrétní protein. Co je to, co umožňuje určit strukturu každého proteinu v genomu najednou, místo aby řešilo struktury jeden po druhém? S dostupnými sekvencemi plného genomu lze predikci struktury provést rychleji kombinací experimentálního a modelovacího přístupu, zejména proto, že dostupnost velkého množství sekvenovaných genomů a dříve vyřešených struktur proteinů umožňuje vědcům modelovat strukturu proteinů na strukturách dříve vyřešených homologů.
Vzhledem k tomu, že struktura bílkovin je úzce spojena s funkcí bílkovin, má strukturální genomika potenciál informovat znalosti o funkci bílkovin. Kromě objasnění funkcí bílkovin lze strukturální genomiku použít k identifikaci nových záhybů bílkovin a potenciálních cílů pro objev léčiv. Strukturální genomika zahrnuje použití velkého množství přístupů k určení struktury, včetně experimentálních metod využívajících sekvence genomu nebo přístupů založených na modelování založených na sekvenci nebo strukturální homologii k bílkovině se známou strukturou nebo založených na chemických a fyzikálních principech pro bílkovinu bez homologie k jakékoli známé struktuře.
Na rozdíl od tradiční strukturní biologie, určení struktury proteinu prostřednictvím strukturní genomiky často (ale ne vždy) předchází tomu, aby bylo cokoliv známo ohledně funkce proteinu. To přináší nové výzvy ve strukturní bioinformatice, tj. určení funkce proteinu z jeho 3D struktury.
Strukturální genomika klade důraz na stanovení proteinových struktur s vysokou propustností. Provádí se ve specializovaných centrech strukturní genomiky.
Zatímco většina strukturních biologů sleduje struktury jednotlivých proteinů nebo proteinových skupin, specialisté na strukturní genomiku sledují struktury proteinů v genomovém širokém měřítku. To předpokládá rozsáhlé klonování, expresi a purifikaci. Jednou z hlavních výhod tohoto přístupu je úspora z rozsahu. Na druhou stranu je občas zpochybňována vědecká hodnota některých výsledných struktur. Vědecký článek z ledna 2006 analyzuje oblast strukturní genomiky.
Jednou z výhod strukturní genomiky, jako je například Protein Structure Initiative, je to, že vědecká obec získá okamžitý přístup k novým strukturám, stejně jako k reagenciím, jako jsou klony a proteiny. Nevýhodou je, že mnohé z těchto struktur jsou z proteinů neznámé funkce a nemají odpovídající publikace. To vyžaduje nové způsoby sdělování těchto strukturních informací širší výzkumné obci. Bioinformatické jádro Společného centra pro strukturní genomiku (JCSG) nedávno vyvinulo přístup založený na wiki, konkrétně The Open Protein Structure Annotation Network (TOPSAN) pro anotaci proteinových struktur vznikajících z vysoce výkonných strukturních genomických center.
Jedním z cílů strukturální genomiky je identifikovat nové proteinové záhyby. Experimentální metody stanovení struktury proteinů vyžadují proteiny, které dobře exprimují a/nebo krystalizují, což může ve své podstatě zkreslit druhy proteinových záhybů, které tato experimentální data objasňují. Genomický přístup založený na modelování, jako je ab initio modelování, může být schopen identifikovat nové proteinové záhyby lépe než experimentální přístupy, protože nejsou omezeny experimentálními omezeními.
Funkce bílkovin závisí na 3-D struktuře a tyto 3-D struktury jsou více konzervovány než sekvence. Metody stanovení struktury strukturní genomiky s vysokou propustností tak mají potenciál informovat naše chápání funkcí bílkovin. To má také potenciální důsledky pro objev léčiv a inženýrství bílkovin. Navíc každá bílkovina, která je přidána do strukturní databáze, zvyšuje pravděpodobnost, že databáze bude obsahovat homologní sekvence jiných neznámých bílkovin. Iniciativa proteinových struktur (PSI) je mnohostranné úsilí financované Národním zdravotním ústavem s různými akademickými a průmyslovými partnery, jehož cílem je zvýšit znalosti o struktuře bílkovin pomocí přístupu strukturní genomiky a zlepšit metodiku určování struktury.
Strukturální genomika využívá hotových sekvencí genomu několika způsoby k určení proteinových struktur. Genovou sekvenci cílového proteinu lze také porovnat se známou sekvencí a strukturní informace pak lze odvodit ze struktury známého proteinu. Strukturální genomiku lze použít k predikci nových proteinových záhybů na základě jiných strukturních dat. Strukturální genomika může také použít přístup založený na modelování, který se opírá o homologii mezi neznámým proteinem a vyřešenou proteinovou strukturou.
Dokončené sekvence genomu umožňují, aby každý otevřený čtecí rámec (ORF), část genu, která pravděpodobně obsahuje sekvenci pro mRNA a protein, byl klonován a vyjádřen jako protein. Tyto proteiny jsou poté vyčištěny a krystalizovány a poté podrobeny jednomu ze dvou typů stanovení struktury: rentgenové krystalografii a nukleární magnetické rezonanci (NMR). Celá sekvence genomu umožňuje navrhnout každý primer potřebný k amplifikaci všech ORF, naklonování do bakterií a jejich následné expresi. Použitím celogenomového přístupu k této tradiční metodě stanovení struktury proteinu mohou být všechny proteiny zakódované genomem vyjádřeny najednou. Tento přístup umožňuje strukturální stanovení každého proteinu, který je zakódován genomem.
Tento přístup využívá data sekvencí proteinů a chemické a fyzikální interakce kódovaných aminokyselin k predikci 3-D struktur proteinů bez homologie k vyřešeným strukturám proteinů. Jednou z velmi úspěšných metod pro ab initio modelování je program Rosetta, který rozděluje protein do krátkých segmentů a uspořádává krátký polypeptidový řetězec do nízkoenergetické lokální konformace. Rosetta je k dispozici pro komerční použití a pro nekomerční použití prostřednictvím svého veřejného programu Robetta.
Tato modelovací technika porovnává genovou sekvenci neznámého proteinu se sekvencemi proteinů se známými strukturami. V závislosti na stupni podobnosti mezi sekvencemi může být struktura známého proteinu použita jako model pro řešení struktury neznámého proteinu. Za vysoce přesné modelování se považuje požadavek nejméně 50% sekvenční identity aminokyselin mezi neznámým proteinem a vyřešenou strukturou. 30-50% sekvenční identita dává model střední přesnosti a sekvenční identita pod 30% dává málo přesné modely. Bylo předpovězeno, že bude třeba určit nejméně 16 000 proteinových struktur, aby byly všechny strukturální motivy zastoupeny alespoň jednou a tím bylo umožněno přesné vyřešení struktury jakéhokoli neznámého proteinu pomocí modelování. Jednou z nevýhod této metody je však to, že struktura je více konzervována než sekvence a tudíž sekvenční modelování nemusí být nejpřesnějším způsobem předpovídání proteinových struktur.
Strukturální modelování základů vlákna na základě podobností v záhybech spíše než na základě sekvenční identity. Tato metoda může pomoci identifikovat vzdáleně příbuzné proteiny a může být použita k odvození molekulárních funkcí.
Příklady strukturální genomiky
V současné době probíhá řada snah o vyřešení struktur pro každou bílkovinu v daném proteomu.
Proteom Thermotogo maritima
Jedním ze současných cílů Společného centra pro strukturální genomiku (JCSG), které je součástí iniciativy Protein Structure Initiative (PSI), je vyřešit struktury všech proteinů termofilní bakterie Thermotogo maritima. T. maritima byla vybrána jako cíl strukturální genomiky na základě svého relativně malého genomu, který se skládá z 1 877 genů a hypotézy, že proteiny exprimované termofilní bakterií by bylo snazší krystalizovat.
Lesley a kol. použili Escherichia coli k expresi všech snímků s otevřeným čtením (ORFs) T. martima. Tyto proteiny byly poté krystalizovány a struktury byly určeny pro úspěšně krystalizované proteiny pomocí rentgenové krystalografie. Kromě jiných struktur tento přístup strukturální genomiky umožnil stanovení struktury proteinu TM0449, u kterého bylo zjištěno, že vykazuje nový záhyb, protože nesdílí strukturální homologii s žádným známým proteinem.
Proteom Mycobacterium tuberculosis
Cílem konsorcia TB Structural Genomics Consortium je určit struktury potenciálních lékových cílů u Mycobacterium tuberculosis, bakterie způsobující tuberkulózu. Vývoj nových lékových terapií proti tuberkulóze je zvláště důležitý vzhledem k rostoucímu problému multirezistentní tuberkulózy.
Plně sekvenovaný genom M. tuberculosis umožnil vědcům naklonovat mnoho z těchto proteinových cílů do expresních vektorů pro purifikaci a stanovení struktury rentgenovou krystalografií. Studie identifikovaly řadu cílových proteinů pro stanovení struktury, včetně extracelulárních proteinů, které se mohou podílet na patogenezi, proteinů regulace železa, současných lékových cílů a proteinů, u nichž se předpovídají nové záhyby. Zatím byly struktury stanoveny pro 708 proteinů kódovaných M. tuberculosis.
Databáze struktury proteinů a klasifikace
Protein Data Bank (PDB): úložiště pro sekvenci proteinů a strukturní informace
UniProt: poskytuje sekvenční a funkční informace
Strukturální klasifikace proteinů (klasifikace SCOP): hierarchický přístup
Třída, architektura, topologie a homologická nadrodina (CATH): hierarchicky založený přístup