1. Získání a ověření sekvence (E)

a) Máte k dispozici kompletní genetickou sekvenci viru marburg (asi dvakrát smrtelnějšího příbuzného eboly) z webu NIH.gov: Ze souboru marburg.gb vyextrahujte samotnou sekvenci viru, tj. řetězec nukleotidů mezi značkami ORIGIN a // (musíte tedy odstranit mezery a počáteční indexy). Výsledkem bude soubor 1.txt obsahující kontinuální sekvenci nukleotidů (takže vlastně FASTA bez hlavičky). Zároveň vypište, jak je tato sekvence dlouhá (kolik obsahuje bází).

b) Na výše uvedené adrese můžete danou sekvenci stáhnout rovnou i ve formátu FASTA. Učiňte tak a získanou sekvenci porovnejte s vaší. Jsou stejné? Měly by být ^_~

Studijní materiály: formát databáze GenBank, datový formát FASTA




2. Získání genů (D)

Ze stejného souboru jako v první úloze z oblasti mezi FEATURES a ORIGIN vyextrahujte nejdůležitější data o jednotlivých genech – ID proteinu (/protein_id), jeho umístění v sekvenci (CDS), výsledný produkt (/product) a překlad do aminokyselin (/translation). Získané údaje zapište vhodně naformátované jak do samostatného textového souboru 2.txt, tak je uložte jako zapiklený pythoní slovník do souboru 2.pickle.

Studijní materiály: formát databáze GenBank, datový protokol pickle




3. Překladová tabulka aminokyselin (C)

Pro každý z proteinů z předchozího kroku proveďte rekonstrukci překladové tabulky z nukleotidů na aminokyseliny.

Podrobněji: Čísla CDS u proteinu určují, z jakého místa sekvence byl po tripletech přeložen (každá aminokyselina je kódována trojicí nukleotidů). Musíte si tedy příslušné místo najít, rozsekat ho po trojcích a tyto přiřadit k jednopísmenným zkratkám aminokyselin z příslušného řádku záznamu pro každý protein (/translation).

PS: Nezapomeňte, že GenBank indexuje od jedné a na konci genové sekvence je STOP-kodon.

Studijní materiály: povídání k příkladům na aminokyseliny u mě na webu




4. Pokrytí genomu a nekódující části (B)

a) Z výsledku druhé úlohy je vidět, že i když je virus morburg velmi úsporný, kódující části jeho genomu stejně nezaujímají jeho celou část (naštěstí pro vás se ani vzájemně nepřekrývají, což jinak mají docela ve zvyku :-). Spočítejte, jakou část genomu v procentech geny ze druhé úlohy zabírají.

b) Zároveň vypište (číselné) rozsahy podsekvencí, které nejsou součástí žádného genu. S každým rozsahem vypište též příslušnou podsekvenci. Kolik těchto podsekvencí v genomu je a jakou zabírají procentuelně část z celkové délky genomu?




5. Graf pokrytí genomu (A)

Zpracujte výsledky čtvrté úlohy též graficky.

Podrobněji: Vytvořte vhodně popsaný graf celého genomu, přičemž kódující a nekódující části označte různými barvami. Kódující části doplňte popiskami proteinu.

Studijní materiály: přednášky o Matplotlibu u mě na webu