Praktikum z bioinformatiky I&II (VŠCHT – ZS+LS 2024/2025)
21PL+kecanemanZ.iriJ

http://studuj.bioinformatiku.cz

Pomůcky

Soubory z hodin

  1. 2024-09-17:
  2. 2024-09-24:
    • Z důvodu nemoci hodina bohužel odpadá :-(
  3. 2024-10-01:
    • Z důvodu nemoci hodina bohužel odpadá :-(
  4. 2024-10-08:
  5. 2024-10-15:
  6. 2024-10-22:
    • n-tý člen Fibonacciho posloupnosti a časová náročnost – rekurzí, rekurzí s memoizací (ruční a pomocí functools.cache), smyčkou
    • rozměňování mincí
  7. 2024-10-29:
    • Hodina odpadá! Náhrada se uvidí.
  8. 2024-11-05:
  9. 2024-11-12:
    • ... [fotka tabule s výpočtem SW]
  10. 2024-11-19:
    • ...
  11. 2024-11-26:
  12. 2024-12-03:
    • opakování HMM
    • diskuse k teorii informace
  13. 2024-12-10:
    • rozbor náhodného hledání vzorů
  14. 2024-12-17:
    • Hodina odpadá! Pokračování v letním semestru ^_~

Příklady

  1. práce s daty ve formátech FASTA a FASTQ
  2. kontrola dat ve FASTA-souborech
  3. základní aplikace metody Monte Carlo
  4. hledání vzorů v sekvencích pomocí HMM
  5. ...

Domácí úkoly: ZS, LS

Nenechávejte si je na poslední chvíli…

Projekty a cvičení

  1. bioinformatické formáty:
        ~ formáty FASTA, FASTQ
        ~ formát SAM & BAM
        ~ formát GenBank [TODO]
        ~ EBML, GFF3…
    PS: binární příznaky (binary flags)
  2. PS: validace a oprava dat
        ~ úvod
        ~ detekce chyb (kontrolní číslice a kontrolní součty) [TODO – CRC & hash]
        ~ oprava chyb (opravné kódy) [TODO]
        ~ …
  3. PS: přibližné výpočty
        ~ počítání s konečnou přesností, reprezentace čísel v počítači, přenos a šíření chyb
        ~ náhodnost v počítačích a metoda Monte Carlo (výpočet čísla π, určité integrály, Brownův pohyb)
        ~ …
  4. PS: rekurze, náročnost algoritmů, dynamické programování
    1. úvod, náročnost algoritmů [Béďovo PDF]
    2. dynamické programování, memoizace [TODO příklady]
    3. příklad – rozměňování mincí (hrubá síla, „hladové“ algoritmy a rekurze)
    4. příklad – zarovnávání řetězců (rekurze s více větvemi)
  5. zarovnávání sekvencí (jednoduché)
        ~ globální rekurzivně shora dolů
        ~ Needleman–Wunsch-Gotoh (globální dynamickým programováním zdola nahoru)
        ~ Smith–Waterman (lokální zarovnání) [TODO obrázek]
        ~ banded Smith–Waterman (lokální zarovnání) [TODO obrázek]
        ~ dotploty a jejich souvislost s výše uvedenými algoritmy [jen příklady]
  6. zarovnávání sekvencí (vícenásobné)
        ~ přímé zobecnění z 2D-tabulky do hyperkrychle (výpočetně neprůchozí i při zjednodušeních typu BSW)
        ~ další zobecnění, např. pomocí genetických algoritmů
        ~ srovnání dostupných metod (CLUSTAL W, MUSCLE, T-COFFEE, DIALIGN 2, MAFFT, DCA, PROBCONS…)
        ~ …
  7. hledání vzorů při známém MSA (deterministické)
        ~ úvod (včetně consensus sequences)
        ~ PSSM a PWM (profile matrices), sekvenční loga, informační obsah
        ~ skórovací matice
        ~ generalized profiles (zobecněné profily nástrojů pftools) [TODO]
        ~ HMM (hidden Markov models)
    PS: (skryté) Markovovy modely
    1. Markovovy modely
    2. skryté Markovovy modely
    3. dekódování HMM – Viterbiho algoritmus
    4. evaluace HMM – „Forward/backward“ algoritmus
    5. učení HMM – Viterbiho učení a Baum-Welshův algoritmus
  8. teorie informace v bioinformatice, informační obsah
        ~ matice profilů PSSM podruhé – slajdy 10 a 16
        ~ sekvenční loga a informační obsah matic PWM
        ~ Hammingova vzdálenost versus entropie
    PS: teorie informace
    1. teorie informace
    2. entropie
    3. relativní entropie [TODO]
  9. hledání vzorů bez existujícího MSA (náhodné)
        ~ zcela náhodné hledání vzorů
        ~ Gibbs sampling aneb „algoritmus MC2“ = Markov chain Monte Carlo
  10. PS: grafy
    PS: komprimace dat
    1. RLErun-length encoding
    2. BWT – transformace Burrowse-Wheelera
  11. grafy v bioinformatice, genome assembly
        ~ …
  12. sbalování RNA
        ~ maximalizace párů – algoritmus Nusinovové
        ~ započítání energie nejbližších sousedů (Nusinovová a spol.)
        ~ úprava podle Zukera-Stieglera
        ~ kovariance
        ~ …
  13. sbalování bílkovin
        ~ …
  14. neuronové sítě, strojové učení
        ~ úvod
        ~ Hopfieldovy neuronové sítě a rozpoznávání obrazů [TODO]
        ~ …

Užitečné pythoní knihovny

Hodnocení

Předmět bude hodnocen za odevzdané domácí úkoly (polovina bodů při pozdním odevzdání), přednesenou přednášku na přidělené téma a případné přezkoušení.