Doplňte hlavičky sekvencí ze souboru fasta-1_orig.fa o kontrolní součty příslušných sekvencí. Například pro algoritmus CRC32 byste měli dostat následující výsledek:
>HKEKW3O01B9HVO length=54 crc32=c841bd15 ACGATGCAGCTGCGAGACGATGACACGCTCGGTGCCGTTGATGACGAACGAGCC >HKEKW3O01DG7MY length=52 crc32=251c1f9b ATCCGCAGCTCGGAAGATCGTCTTCGAGAAGGTGCCGACGTACGCGACGAGG >HKEKW3O01ATTV4 length=162 crc32=ce54cbcd TTCTGCGCGCTCGCGAACGCGCGCTCGATTCCGGTCGCCGACGCGATCGCCGACGCGCTT CGTACGATCTCGACCTGCTGCACGACGTCGGCGACATCGACCTGCACATCAGCGGCTGCA TCAACTCGTGCGGCCATCATCACAGCGGCCACCTCGGCATCC ...
Odřádkování by nemělo být součástí kontrolního součtu! Záměna koncových bajtů je totiž první věc, která se „pokazí“ při přenosu textových souborů mezi různými operačními systémy, a přitom na sekvenci samotnou nemá žádný vliv.
PS: Pokud máte někde schovaný FASTAReader, který vrací sekvence z FASTA-souborů jako generátor, můžete ho doplnit o validaci kontrolních součtů, jeho hodnota tím solidně vzroste ^_~
Použijte následující ohodnocení zarovnání..
| match/mismatch | mezery | |||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
koncové mezery = 0 vložení mezery = -10 rozšíření mezery = -1 |
..a spočítejte ručně tabulku pro sekvence AAGTTAC a AGACTAGTTAC. (Ideálně tedy asi na papír a poslat mi fotku řešení.)