Praktikum z bioinformatiky I&II (VŠCHT – ZS+LS 2022/2023)
Jiří tečka Znamenáček plus LP12 zavináč gmail tečka com

http://studuj.bioinformatiku.cz

Pomůcky

Soubory z hodin

  1. 2022-09-20:
  2. 2022-09-27:
    • Pro nemoc odpadá :-(
  3. 2022-10-04:
  4. 2022-10-11:
  5. 2022-10-18:
  6. 2022-10-25:
  7. 2022-11-01:
    • příklady na metodu hrubé síly (úmyslně bez řešení)
    • fotka tabule
  8. 2022-11-08:
  9. 2022-11-15:
  10. 2022-11-22:
    • ...
  11. 2022-11-29:
  12. 2022-12-06:
    • fotka tabule – k evaluaci HMM (vysoký a nízký obsah GC v sekvenci; je tam chyba, čáral jsem moc zběsile :-)
  13. 2022-12-13:
    • Studiem kódu se nám podařilo rozchodit skoro celý balík HMM z Biopythonu. Až to zpracuju, přidám to do přednášek.
  14. 2022-12-20:
    • Hodina odpadá – ústavní vánoční večírek!
  15. 2023-02-14:
    • teorie informace & informační obsah
  16. 2023-02-28:
    • hledání vzorů bez existujícího MSA
  17. 2023-03-07:
    • Hodina odpadá plánovaně, místo ní máte delší domácí úkol z minula.
  18. 2023-03-14:
    • Nejsou studenti, neučí se :-)
  19. 2023-03-21:
    • (velmi) jemný úvod do teorie grafů
  20. 2023-03-28:
    • Nejsou studenti, neučí se :-)
  21. 2023-04-04:
  22. 2023-04-11:
    • Nějak se nám ta hodina zvrhla – místo bioinformatiky jsme probírali budoucnost světa a přemýšleli, kdo koho posledních pár (desítek) let platí za tak okatou likvidaci Evropy, že by to ani blbec nevymyslel.
  23. 2023-04-18:
    • Pro nemoc v rodině odpadá :-(
  24. 2023-04-25:
    • Hopfield 1
  25. 2023-05-02:
    • VŠCHT má pondělí.
  26. 2023-05-09:
    • Prodloužená hodina za následující týden. Hopfield 2
    • ...
    • ...
  27. 2023-05-16:
    • Čtvrťáci mají upravený rozvrh, dnešní hodinu jsme si odučili už před týdnem.

Domácí úkoly: ZS, LS

Nenechávejte si je na poslední chvíli…

Projekty a cvičení

  1. bioinformatické formáty:
        ~ formáty FASTA, FASTQ
        ~ formát SAM & BAM
        ~ formát GeneBank [TODO]
        ~ EBML, GFF3…
    PS: binární příznaky (binary flags)
  2. PS: validace a oprava dat
        ~ úvod
        ~ detekce chyb (kontrolní číslice a kontrolní součty) [TODO – CRC & hash]
        ~ oprava chyb (opravné kódy) [TODO]
        ~ …
  3. PS: přibližné výpočty
        ~ počítání s konečnou přesností, reprezentace čísel v počítači, přenos a šíření chyb
        ~ náhodnost v počítačích a metoda Monte Carlo (výpočet čísla π, určité integrály, Brownův pohyb)
        ~ …
  4. PS: rekurze, náročnost algoritmů, dynamické programování
    1. úvod
    2. dynamické programování, memoizace [TODO příklady]
    3. příklad – rozměňování mincí (hrubá síla, „hladové“ algoritmy a rekurze)
    4. příklad – zarovnávání řetězců (rekurze s více větvemi)
  5. zarovnávání sekvencí (jednoduché)
        ~ globální rekurzivně shora dolů
        ~ Needleman–Wunsch-Gotoh (globální dynamickým programováním zdola nahoru)
        ~ Smith–Waterman (lokální zarovnání)
        ~ banded Smith–Waterman (lokální zarovnání) [TODO]
        ~ dotploty a jejich souvislost s výše uvedenými algoritmy [TODO]
  6. zarovnávání sekvencí (vícenásobné)
        ~ přímé zobecnění z 2D-tabulky do hyperkrychle (výpočetně neprůchozí i při zjednodušeních typu BSW)
        ~ další zobecnění, např. pomocí genetických algoritmů
        ~ srovnání dostupných metod (CLUSTAL W, MUSCLE, T-COFFEE, DIALIGN 2, MAFFT, DCA, PROBCONS…)
        ~ …
  7. hledání vzorů při známém MSA (deterministické)
        ~ úvod (včetně consensus sequences)
        ~ PSSM a PWM (profile matrices), sekvenční loga, informační obsah
        ~ skórovací matice
        ~ generalized profiles (zobecněné profily nástrojů pftools) [TODO]
        ~ HMM (hidden Markov models)
    PS: (skryté) Markovovy modely
    1. Markovovy modely
    2. skryté Markovovy modely
    3. dekódování HMM – Viterbiho algoritmus
    4. evaluace HMM – „Forward/backward“ algoritmus
    5. učení HMM – Viterbiho učení a Baum-Welshův algoritmus
  8. teorie informace v bioinformatice, informační obsah
        ~ matice profilů PSSM podruhé – slajdy 10 a 16
        ~ sekvenční loga a informační obsah matic PWM
        ~ Hammingova vzdálenost versus entropie
    PS: teorie informace
    1. teorie informace
    2. entropie
    3. relativní entropie [TODO]
  9. hledání vzorů bez existujícího MSA (náhodné)
        ~ zcela náhodné hledání vzorů
        ~ Gibbs sampling aneb „algoritmus MC2“ = Markov chain Monte Carlo
  10. PS: grafy
    PS: komprimace dat
    1. RLErun-length encoding
    2. BWT – transformace Burrowse-Wheelera
  11. grafy v bioinformatice, genome assembly
        ~ …
  12. sbalování RNA
        ~ maximalizace párů – algoritmus Nusinovové
        ~ započítání energie nejbližších sousedů (Nusinovová a spol.)
        ~ úprava podle Zukera-Stieglera
        ~ kovariance
        ~ …
  13. sbalování bílkovin
        ~ …
  14. neuronové sítě, strojové učení
        ~ úvod
        ~ Hopfieldovy neuronové sítě a rozpoznávání obrazů [TODO]
        ~ …

Užitečné pythoní knihovny

Hodnocení

Předmět bude hodnocen za odevzdané domácí úkoly (polovina bodů při pozdním odevzdání), přednesenou přednášku na přidělené téma a případné přezkoušení.