Implementujte funkci pro načítání jednotlivých záznamů ze souboru ve formátu FASTQ (testovací soubor). Jeho struktura je velmi jednoduchá – na každý záznam připadají právě čtyři řádky:

hlavička záznamu (začíná na znak @);
vlastní sekvence nukleotidů;
komentář (často pouhé +);
kvalita čtení sekvence nukleotidů.

Funkce by ideálně měla fungovat jako generátor, tj. měla by být použitelná (mimo jiné) uvnitř smyčky for-in a na každý krok cyklu vrátit další záznam ze souboru ve formě čtveřice „hlavička – sekvence – komentář – kvalita“. Implementujte funkci pro načítání jednotlivých záznamů ze souboru ve formátu FASTA (testovací soubor). Jeho struktura je sice velmi jednoduchá, ale nikoli už tak jako u formátu FASTQ. Na každý záznam totiž připadají právě dvě logické řádky, nikoli nutně zároveň i fyzické (jako u FASTQ):

hlavička záznamu (začíná na znak >);
vlastní sekvence nukleotidů (může být – a často bývá – pozalamována na více fyzických řádek).

Sekvence rozdělené na vstupu na více řádek na výstupu spojte do jednoho řetězce. Funkce by ideálně měla fungovat jako generátor, tj. měla by být použitelná (mimo jiné) uvnitř smyčky for-in a na každý krok cyklu vrátit další záznam ze souboru ve formě dvojice „hlavička – sekvence“. Za pomoci funkcí z předchozích dvou úloh připravte program, který načte nejvýše dva parametry na příkazové řádce ve tvaru program.py [-h] soubor [N] a vypíše příslušný počet N záznamů z daného FASTA/FASTQ-souboru. Přitom:

při zadání parametru -h (v libovolné kombinaci s dalšími parametry, i kdyby jich mělo být více než dva) vypíše nápovědu ke svému použití a ukončí se;
zkontroluje existenci FASTA/FASTQ-souboru zadaného pro čtení jako první parametr soubor a nebude-li z něj moci číst, zahlásí chybu a ukončí se;
zkontroluje případný druhý parametr N, zda představuje přirozené číslo a pokud ne, zahlásí chybu a ukončí se;
podle přípony zadaného souboru se rozhodne, zda pro čtení použít funkci pro FASTA nebo FASTQ soubor a vrátí z něj právě požadovaných N záznamů;
nebude-li parametr N zadán nebo bude-li větší než počet záznamů v souboru, vypíše záznamy všechny.

Je vidět, že zajištění uživatelské „přítulnosti“ skriptu zabere docela dost kódu. A koneckonců i přemýšlení. A to zdejší skript není ani zdaleka dovedený k dokonalosti! Správně by totiž (jak je uvedené už v komentáři) asi o (ne)zpracovatelnosti daného souboru měl rozhodnout „reader“, který se ho pokusí načíst – když se mu to nepovede, měl by vyhodit (dostatečně srozumitelnou) výjimku. Co s ní, je na další uvážení – nechat nápravu na uživateli nebo zkusit další „reader“ v pořadí? Upravte předchozí úlohu za pomoci ANSI-escape sekvencí tak, aby liché a sudé záznamy byly na konzoli vypisovány jinou barvou (a byly tak od sebe snázeji odlišitelné). Po dokončení běhu programu se musí konzole chovat zase zpátky standardním způsobem – žádné vypisování červenou barvou nebo něco podobného ^_^ Z předchozích úloh (především 1+2) už máte napsané načítání souborů FASTA a FASTQ, možná už i jako generátor. Nyní k těmto funkcím připište ještě dekorátor, který omezí vracený výstup podle zadané délky sekvence nukleotidů – ze všech sekvencí vybere řekněme pouze ty, které budou kratší než parametr zadaný tomuto dekorátoru. Přitom dekorátor bude pouze jeden a bude stejným způsobem fungovat pro obě načítací funkce. Pokud tedy máte načítací funkci (nebo generátor) fasta_reader() a dekorátor filter_by_length(), měl by váš kód vypadat přibližně takto:

@filter_by_length(50)
def fasta_reader(file):
    …

for record in fasta_reader(file):
    print(record)