Kontrolní součty pro sekvence ve formátu FASTA

Doplňte hlavičky sekvencí ze souboru fasta-1_orig.fa o kontrolní součty příslušných sekvencí. Například pro algoritmus CRC32 byste měli dostat následující výsledek:

>HKEKW3O01B9HVO length=54 crc32=c841bd15
ACGATGCAGCTGCGAGACGATGACACGCTCGGTGCCGTTGATGACGAACGAGCC
>HKEKW3O01DG7MY length=52 crc32=251c1f9b
ATCCGCAGCTCGGAAGATCGTCTTCGAGAAGGTGCCGACGTACGCGACGAGG
>HKEKW3O01ATTV4 length=162 crc32=ce54cbcd
TTCTGCGCGCTCGCGAACGCGCGCTCGATTCCGGTCGCCGACGCGATCGCCGACGCGCTT
CGTACGATCTCGACCTGCTGCACGACGTCGGCGACATCGACCTGCACATCAGCGGCTGCA
TCAACTCGTGCGGCCATCATCACAGCGGCCACCTCGGCATCC
...

Odřádkování by nemělo být součástí kontrolního součtu! Záměna koncových bajtů je totiž první věc, která se „pokazí“ při přenosu textových souborů mezi různými operačními systémy, a přitom na sekvenci samotnou nemá žádný vliv.

PS: Pokud máte někde schovaný FASTAReader, který vrací sekvence z FASTA-souborů jako generátor, můžete ho doplnit o validaci kontrolních součtů, jeho hodnota tím solidně vzroste ^_~




Zarovnání podle Smithe-Watermana

Použijte následující ohodnocení zarovnání..

match/mismatch mezery
GCAT
G+5-4-4-4
C-4+5-4-4
A-4-4+5-4
T-4-4-4+5
koncové mezery = 0
vložení mezery = -10
rozšíření mezery = -1

..a spočítejte ručně tabulku pro sekvence AAGTTAC a AGACTAGTTAC. (Ideálně tedy asi na papír a poslat mi fotku řešení.)