Série kodonů v části molekuly mRNA. Každý kodon se skládá ze tří nukleotidů, obvykle představujících jedinou aminokyselinu.
Sekvence nebo primární struktura nukleové kyseliny je složením atomů, které tvoří nukleovou kyselinu, a chemických vazeb, které tyto atomy spojují. Protože nukleové kyseliny, například DNA a RNA, jsou nerozvětvené polymery, odpovídá tato specifikace specifikaci sekvence nukleotidů, které molekulu tvoří. Tato sekvence se zapisuje jako posloupnost písmen představujících skutečnou nebo hypotetickou molekulu nebo vlákno nukleové kyseliny. Podle konvence se primární struktura molekuly DNA nebo RNA udává od 5′ konce do 3′ konce.
Sekvence má schopnost reprezentovat informaci. Biologická DNA představuje informaci, která řídí funkce živé věci. V této souvislosti se často používá termín genetická sekvence. Sekvence lze číst z biologické suroviny pomocí metod sekvenování DNA.
Nukleové kyseliny mají také sekundární strukturu a terciární strukturu. Primární struktura je někdy mylně označována jako primární posloupnost. Naopak neexistuje paralelní pojetí sekundární nebo terciární posloupnosti.
Nukleové kyseliny se skládají z řetězce spojených jednotek nazývaných nukleotidy. Každý nukleotid se skládá ze tří podjednotek: fosfátová skupina a cukr (ribóza v případě RNA, deoxyribóza v DNA) tvoří páteř řetězce nukleových kyselin a na cukr je navázána jedna ze sady nukleobaz. Nukleobazy jsou důležité při párování bází vláken, aby vytvořily sekundární a terciární strukturu vyšší úrovně, jako je proslulá dvojitá šroubovice.
Případná písmena jsou A, C, G a T, představující čtyři nukleotidové báze řetězce DNA – adenin, cytosin, guanin, thymin – kovalentně spojené s fosfodiesterovou páteří. V typickém případě jsou sekvence tištěny vzájemně bez mezer, jako v sekvenci AAAGTCTGAC, čteno zleva doprava ve směru 5′ až 3′. Pokud jde o transkripci, sekvence je na kódovacím řetězci, pokud má stejné pořadí jako transkribovaná RNA.
Jedna sekvence může být komplementární k jiné sekvenci, což znamená, že mají základ na každé pozici je komplementární (tj. A až T, C až G) a v obráceném pořadí. Například komplementární sekvence k TTAC je GTAA. Pokud je jedno vlákno dvouvláknové DNA považováno za smyslové vlákno, pak druhé vlákno, považováno za antismyslové vlákno, bude mít komplementární sekvenci k smyslovému vláknu.
Zatímco A, T, C a G představují určitý nukleotid na určité pozici, existují také písmena, která představují nejednoznačnost, která se používají, když se na této pozici může vyskytnout více než jeden druh nukleotidu. Pravidla Mezinárodní unie pro čistou a aplikovanou chemii (IUPAC) jsou následující:
Tyto symboly platí i pro RNA, s výjimkou U (uracil) nahrazujícího T (thymin).
Kromě adeninu (A), cytosinu (C), guaninu (G), thyminu (T) a uracilu (U) obsahují DNA a RNA také zásady, které byly modifikovány po vytvoření řetězce nukleových kyselin. V DNA je nejčastější modifikovanou zásadou 5-methylcytidin (m5C). V RNA existuje mnoho modifikovaných zásad, včetně pseudouridinu (Ψ), dihydrouridinu (D), inosinu (I), ribothymidinu (rT) a 7-methylguanosinu (m7G). Hypoxanthin a xanthin jsou dvě z mnoha zásad vytvořených přítomností mutagenu, obě prostřednictvím deaminace (nahrazení aminové skupiny karbonylovou skupinou). Hypoxanthin se vyrábí z adeninu, xanthin z guaninu. Podobně deaminace cytosinu vede k uracilu.
Zobrazení genetického kódu, kterým se informace obsažené v nukleových kyselinách překládají do sekvencí aminokyselin v proteinech.
V biologických systémech nukleové kyseliny obsahují informace, které živá buňka používá ke konstrukci specifických proteinů. Sekvence nukleobaz na řetězci nukleové kyseliny je pomocí buněčných strojů přeložena do sekvence aminokyselin tvořících proteinový řetězec. Každá skupina tří bází, nazývaná kodon, odpovídá jediné aminokyselině a existuje specifický genetický kód, podle kterého každá možná kombinace tří bází odpovídá specifické aminokyselině.
Ústřední dogma molekulární biologie nastiňuje mechanismus, kterým jsou bílkoviny konstruovány pomocí informací obsažených v nukleových kyselinách. DNA je přepsána do mRNA molekul, které putují do ribozomu, kde je mRNA použita jako šablona pro konstrukci proteinového vlákna. Protože nukleové kyseliny se mohou vázat na molekuly s komplementárními sekvencemi, je rozdíl mezi „smyslovými“ sekvencemi, které kódují bílkoviny, a komplementární „antismyslovou“ sekvencí, která je sama o sobě nefunkční, ale může se vázat na smyslové vlákno.
Elektroferogram vytištěný z automatizovaného sekvenceru pro stanovení části sekvence DNA
Sekvenování DNA je proces stanovení nukleotidové sekvence daného fragmentu DNA. Sekvence DNA živé věci kóduje informace potřebné k tomu, aby tato živá věc přežila a rozmnožila se. Proto je určení sekvence užitečné v základním výzkumu proč a jak organismy žijí, stejně jako v aplikovaných subjektech. Vzhledem k významu DNA pro živé věci může být znalost sekvence DNA užitečná prakticky v jakémkoli biologickém výzkumu. Například v medicíně může být využita k identifikaci, diagnostice a možnému vývoji léčby genetických onemocnění. Podobně může výzkum patogenů vést k léčbě nakažlivých onemocnění. Biotechnologie je vzkvétající disciplína s potenciálem pro mnoho užitečných produktů a služeb.
RNA není sekvenována přímo. Místo toho je zkopírována do DNA reverzní transkriptázou a tato DNA je pak sekvenována.
Současné sekvenční metody se opírají o diskriminační schopnost DNA polymeráz, a proto mohou rozlišit pouze čtyři báze. inosin (vytvořený z adenosinu během editace RNA) se čte jako G, a 5-methyl-cytosin (vytvořený z cytosinu metylací DNA) se čte jako C. Při současné technologii je obtížné sekvenovat malá množství DNA, protože signál je příliš slabý na měření. To je překonáno amplifikací polymerázové řetězové reakce (PCR).
Genetická sekvence v digitálním formátu.
Jakmile je sekvence nukleové kyseliny získána z organismu, je uložena in silico v digitálním formátu. Digitální genetické sekvence mohou být uloženy v sekvenčních databázích, mohou být analyzovány (viz Sekvenční analýza níže), mohou být digitálně změněny a/nebo použity jako šablony pro vytvoření nové skutečné DNA pomocí umělé genové syntézy.
Digitální genetické sekvence mohou být analyzovány pomocí nástrojů bioinformatiky a pokusit se určit jejich funkci.
DNA v genomu organismu může být analyzována pro diagnostiku zranitelnosti vůči dědičným chorobám a může být také použita pro určení otcovství dítěte (genetického otce) nebo původu člověka. Normálně každý člověk nese dvě varianty každého genu, jednu zděděnou po své matce, druhou zděděnou po svém otci. Předpokládá se, že lidský genom obsahuje kolem 20 000 – 25 000 genů. Kromě studia chromozomů na úroveň jednotlivých genů zahrnuje genetické testování v širším smyslu biochemické testy na možnou přítomnost genetických chorob nebo mutantních forem genů spojených se zvýšeným rizikem vzniku genetických poruch.
Genetické testy identifikují změny chromozomů, genů nebo bílkovin. Testování se obvykle používá k nalezení změn, které jsou spojeny s dědičnými poruchami. Výsledky genetického testu mohou potvrdit nebo vyloučit podezření na genetický stav nebo pomoci určit šanci člověka na rozvoj nebo předání genetické poruchy. V současné době se používá několik set genetických testů a další se vyvíjejí.
V bioinformatice je uspořádání sekvencí DNA, RNA nebo proteinu způsobem, jak určit oblasti podobnosti, které mohou být způsobeny funkčními, strukturálními nebo evolučními vztahy mezi sekvencemi. Jestliže dvě sekvence v uspořádání sdílejí společného předka, mohou být neshody interpretovány jako bodové mutace a mezery jako vkládací nebo deleční mutace (indely) zavedené v jedné nebo obou liniích v době, kdy se od sebe lišily. V uspořádání sekvencí proteinů může být stupeň podobnosti mezi aminokyselinami zaujímajícími určitou pozici v sekvenci interpretován jako hrubé měřítko toho, jak je zachována určitá oblast nebo sekvenční motiv mezi liniemi. Absence substitucí nebo přítomnost pouze velmi konzervativních substitucí (tedy substituce aminokyselin, jejichž postranní řetězce mají podobné biochemické vlastnosti) v určité oblasti sekvence naznačují, že tato oblast má strukturální nebo funkční význam. Ačkoli jsou si DNA a RNA nukleotidové báze navzájem podobnější než aminokyseliny, zachování párů bází může naznačovat podobnou funkční nebo strukturální roli.
Výpočetní fylogenetika široce využívá sekvenční zarovnání při konstrukci a interpretaci fylogenetických stromů, které se používají ke klasifikaci evolučních vztahů mezi homologními geny zastoupenými v genomech odlišných druhů. Míra, do jaké se sekvence v množině dotazů liší, kvalitativně souvisí s evoluční vzdáleností sekvencí od sebe navzájem. Zhruba řečeno, vysoká sekvenční identita naznačuje, že dotyčné sekvence mají poměrně mladého nejnovějšího společného předka, zatímco nízká identita naznačuje, že divergence je starobylejší. Tato aproximace, která odráží hypotézu „molekulárních hodin“, že zhruba konstantní rychlost evoluční změny může být použita k extrapolaci uplynulého času od doby, kdy se dva geny poprvé rozcházely (tedy koalescenční čas), předpokládá, že účinky mutace a selekce jsou konstantní napříč sekvenčními liniemi. Proto nepočítá s možným rozdílem mezi organismy nebo druhy v rychlostech opravy DNA nebo možné funkční zachování specifických oblastí v sekvenci. (V případě nukleotidových sekvencí hypotéza molekulárních hodin ve své nejzákladnější podobě také diskontuje rozdíl v akceptačních rychlostech mezi tichými mutacemi, které nemění význam daného kodonu, a jinými mutacemi, které vedou k začlenění odlišné aminokyseliny do proteinu.) Statisticky přesnější metody umožňují, aby se evoluční rychlost na každé větvi fylogenetického stromu lišila, čímž se vytvářejí lepší odhady koalescenční doby pro geny.
Primární struktura často kóduje motivy, které mají funkční význam. Některé příklady sekvenčních motivů jsou: C/D
a H/ACA boxy
snoRNA, Sm vazebné místo nalezené ve spliceosomálních RNA, jako jsou U1, U2, U4, U5, U6, U12 a U3, Shine-Dalgarnova sekvence,
Kozakova konsenzuální sekvence
a RNA polymeráza III terminátor.