Teorie informace byla sice původně zavedena Claudem Shannonem pro potřeby zpracování signálů v elektrotechnice, nicméně se dá snadno zobecnit a použít i na úplně jiných místech.
Kupříkladu v bioinformatice můžeme na sekvenci (získanou například sekvenátorem) vcelku přirozeně nahlížet jako na přijímaný signál bazí (či aminokyselin), který je zatížen nějakým šumem (neurčitost ve zjištění báze na konkrétním místě). Pro analýzu sekvencí, především třebas ke hledání různých vzorů v nich, můžeme pak v pohodě aplikovat celý výše zmíněný aparát.
Asi první místo, kde se v bioinformatice objevilo použití obecné teorie informace, byla tzv. sekvenční loga (sequence logos) neboli statistické popisy motivů v sekvencích.
Sekvenční loga vycházejí z matic profilů a rozšiřují je vhodným způsobem tak, aby se pro počítání s pravděpodobnostmi výskytů různých bazí na různých místech daly použít i obecnější teoretické pojmy, jako je například entropie.
Pravděpodobnosti
Odtud už je krátká cesta k velmi přehlednému zachycení vzoru pomocí sekvenčního loga…
…v němž jsou krásně vidět jak možné báze na jednotlivých místech motivu (a to včetně své frekvence – vzájemný poměr velikosti písmen), tak i pravděpodobnosti, že tam vůbec budou (naznačeno šířkou písmen):
PS: Jde o sekvenční logo vyrobené pro naše staré známé čtyři zarovnané sekvence:
A C A – – – A T G T C A A C T A T C A C A C – – A G C A C C G – – A T C
Na sekvenčním logu z předchozího slajdu jste si mohli všimnout jednotky na svislé ose – bity. Ta souvisí s tzv. informačním obsahem konkrétní pozice motivu (sekvence):
Stručně řečeno odpovídá informační obsah dané pozice „výšce“ báze na dané pozici a je určen jako doplněk entropie a tzv. korekce do (v tomto případě) maximálních dvou bitů.
Podrobnosti viz přednáška o entropii v bioinformatice.
Druhým velkým použitím teorie informace v bioinformatice je pak právě popis (a rozpoznávání) motivů na základě jejich statistických vlastností. Aniž bychom zabíhali do fyzikálně-matematických podrobností, dá se říct*, že větší kladný součet informačního obsahu přes jednotlivé pozice dané (pod)sekvence je dobrým kandidátem na vazebné místo.
Stručně by se dalo říci, že informační obsah souvisí s počtem ano/ne otázek nutných k určení konkrétního prvku mezi N uspořádanými prvky, tedy vlastně s binárním rozhodováním / vyhledáváním. Takovýchto otázek je zjevně
Poněkud košatější (a matematičtější) teorie je k nalezení v příslušné přednášce, zde si pouze ukážeme výchozí rovnice a shrneme pár základních důsledků.
Thomas Schneider s kolegy v článku The Information Content of Binding Sites on Nucleotide Sequences z roku 1986 nadefinoval – za zjednodušujícího předpokladu, že frekvence výskytu bazí na jednom místě nejsou olivňovány frekvencemi výskytu bazí na ostatních místech! – informační obsah matice profilu jako sumu informačních obsahů jednotlivých sloupců matice profilu (tedy vlastně jednotlivých pozic motivu)..
..kde
..a
Kolegové ho však přesvědčili, aby se pro reálné genomy používalo přiblížení..
..se kterým budeme dále pracovat (byť takto definovaný informační obsah
Pro informační obsah buňky PSSM-matice na
PS: Někdy se pracuje se záporně definovaným Iij.
Informační obsah j-tého sloupce PSSM-matice je definován jako součet informačních obsahů jednotlivých buněk příslušného sloupce, tj.
Informační obsah celé PSSM-matice je nepřekvapivě definován jako
PS: Dá se odvodit, že pravděpodobnost P výskytu motivu v náhodné sekvenci je shora omezena podle vzorce