Praktikum z bioinformatiky I&II (VŠCHT – ZS+LS 2023/2024)
Jiří tečka Znamenáček plus LP12 zavináč gmail tečka com

http://studuj.bioinformatiku.cz

Pomůcky

Soubory z hodin

  1. 2022-09-19:
    • Pro nemoc odpadá :-(
  2. 2023-09-26:
    • Pro nemoc odpadá :-(
  3. 2023-10-03:
    • bioinformatické formáty dat a jejich validace
  4. 2023-10-10:
    • Odpadá – promoce bakalářů.
  5. 2023-10-17:
  6. 2023-10-24:
  7. 2023-10-31:
  8. 2023-11-07:
    • Hodina odpadá.
  9. 2023-11-14:
    • užívané algoritmy vícenásobného zarovnání
  10. 2023-11-21:
    • VŠCHT má čtvrtek!
  11. 2023-11-28:
    • entropie a pravděpodobnost v bioinformatice
  12. 2023-12-05:
    • Pro nemoc odpadá :-(
  13. 2023-12-12:
  14. 2023-12-19:
    • Z praktických důvodů zrušeno.
  15. 2024-02-13:
    • HMMs
  16. 2024-02-20:
  17. 2024-02-26:
  18. 2024-03-05:
  19. 2024-03-12:
    • Hodina odpadá. Úkol na práci máte – náhodné hledání vzorů.
  20. 2024-03-19:
    • Hodina odpadá.
  21. 2024-03-26:
    • domluva na projektu (prvky teorie grafů používané v bioinformace, specificky pak při genome assembly)
  22. 2024-04-02:
    • projekt
  23. 2024-04-09:
    • projekt
  24. 2024-04-16:
    • projekt
  25. 2024-04-23:
    • projekt (místnost je obsazená jinou přednáškou)
  26. 2024-04-30:
    • sbalování RNA
  27. 2024-05-07:
    • VŠCHT má středu
  28. 2024-05-14:
    • úvod do neuronových sítí, Hopfieldovy neuronové sítě

Domácí úkoly: ZS, LS

Nenechávejte si je na poslední chvíli…

Projekty a cvičení

  1. bioinformatické formáty:
        ~ formáty FASTA, FASTQ
        ~ formát SAM & BAM
        ~ formát GeneBank [TODO]
        ~ EBML, GFF3…
    PS: binární příznaky (binary flags)
  2. PS: validace a oprava dat
        ~ úvod
        ~ detekce chyb (kontrolní číslice a kontrolní součty) [TODO – CRC & hash]
        ~ oprava chyb (opravné kódy) [TODO]
        ~ …
  3. PS: přibližné výpočty
        ~ počítání s konečnou přesností, reprezentace čísel v počítači, přenos a šíření chyb
        ~ náhodnost v počítačích a metoda Monte Carlo (výpočet čísla π, určité integrály, Brownův pohyb)
        ~ …
  4. PS: rekurze, náročnost algoritmů, dynamické programování
    1. úvod
    2. dynamické programování, memoizace [TODO příklady]
    3. příklad – rozměňování mincí (hrubá síla, „hladové“ algoritmy a rekurze)
    4. příklad – zarovnávání řetězců (rekurze s více větvemi)
  5. zarovnávání sekvencí (jednoduché)
        ~ globální rekurzivně shora dolů
        ~ Needleman–Wunsch-Gotoh (globální dynamickým programováním zdola nahoru)
        ~ Smith–Waterman (lokální zarovnání) [TODO obrázek]
        ~ banded Smith–Waterman (lokální zarovnání) [TODO obrázek]
        ~ dotploty a jejich souvislost s výše uvedenými algoritmy [jen příklady]
  6. zarovnávání sekvencí (vícenásobné)
        ~ přímé zobecnění z 2D-tabulky do hyperkrychle (výpočetně neprůchozí i při zjednodušeních typu BSW)
        ~ další zobecnění, např. pomocí genetických algoritmů
        ~ srovnání dostupných metod (CLUSTAL W, MUSCLE, T-COFFEE, DIALIGN 2, MAFFT, DCA, PROBCONS…)
        ~ …
  7. hledání vzorů při známém MSA (deterministické)
        ~ úvod (včetně consensus sequences)
        ~ PSSM a PWM (profile matrices), sekvenční loga, informační obsah
        ~ skórovací matice
        ~ generalized profiles (zobecněné profily nástrojů pftools) [TODO]
        ~ HMM (hidden Markov models)
    PS: (skryté) Markovovy modely
    1. Markovovy modely
    2. skryté Markovovy modely
    3. dekódování HMM – Viterbiho algoritmus
    4. evaluace HMM – „Forward/backward“ algoritmus
    5. učení HMM – Viterbiho učení a Baum-Welshův algoritmus
  8. teorie informace v bioinformatice, informační obsah
        ~ matice profilů PSSM podruhé – slajdy 10 a 16
        ~ sekvenční loga a informační obsah matic PWM
        ~ Hammingova vzdálenost versus entropie
    PS: teorie informace
    1. teorie informace
    2. entropie
    3. relativní entropie [TODO]
  9. hledání vzorů bez existujícího MSA (náhodné)
        ~ zcela náhodné hledání vzorů
        ~ Gibbs sampling aneb „algoritmus MC2“ = Markov chain Monte Carlo
  10. PS: grafy
    PS: komprimace dat
    1. RLErun-length encoding
    2. BWT – transformace Burrowse-Wheelera
  11. grafy v bioinformatice, genome assembly
        ~ …
  12. sbalování RNA
        ~ maximalizace párů – algoritmus Nusinovové
        ~ započítání energie nejbližších sousedů (Nusinovová a spol.)
        ~ úprava podle Zukera-Stieglera
        ~ kovariance
        ~ …
  13. sbalování bílkovin
        ~ …
  14. neuronové sítě, strojové učení
        ~ úvod
        ~ Hopfieldovy neuronové sítě a rozpoznávání obrazů [TODO]
        ~ …

Užitečné pythoní knihovny

Hodnocení

Předmět bude hodnocen za odevzdané domácí úkoly (polovina bodů při pozdním odevzdání), přednesenou přednášku na přidělené téma a případné přezkoušení.