Genomika: analýza a algoritmy - Cvičení 8

DNA vs. PROTEIN

Toto je sekvence evolučně konzervovaného kvasinkového genu, jehož rostlinný homolog hledáte.

>Scsec19 
GGGATTGTAGATGTAGTTTCAACACGTCGGCTGATTTATCCCGATTTTGTTAGTAGAAAAGGTTCTACTT 
CATTCTTGCTTGAGACGTCGTCCCATCAAATTTCTAACATAGTCTTTTTTCAAGGAAGGATATTTTTCAA 
AGCAGGACTGCAATTAGTCTTTTCCTTTTCTTTACTCCCCTTCCATCATAACTGTTAGTGAATAACCACT 
TATATAGCATAACACAATGGATCAAGAAACAATAGACACTGACTACGACGTGATTGTCTTAGGTACCGGT 
ATTACCGAATGTATCTTATCTGGTTTACTCTCTGTAGATGGAAAAAAGGTATTACATATTGACAAGCAAG 
ACCATTATGGTGGCGAAGCTGCTTCTGTGACCTTATCTCAATTGTATGAAAAATTTAAACAAAATCCGAT 
CAGTAAAGAGGAACGGGAGTCCAAGTTTGGTAAAGATAGAGATTGGAATGTCGACTTAATTCCTAAATTC 
CTGATGGCCAATGGTGAGCTGACAAATATTTTAATACATACCGATGTGACCAGATATGTCGATTTCAAGC 
AAGTTTCTGGCTCCTACGTTTTTAAGCAAGGCAAAATTTACAAAGTGCCAGCTAATGAAATAGAAGCCAT 
TTCATCGCCATTGATGGGTATTTTTGAAAAACGTAGAATGAAGAAATTTTTAGAATGGATTAGCTCTTAC 
AAAGAAGATGACTTGTCCACTCATCAAGGATTAGACTTAGACAAGAATACCATGGATGAAGTGTATTATA 
AATTTGGGTTAGGCAATTCTACCAAAGAATTCATCGGTCATGCAATGGCTTTATGGACCAATGATGACTA 
CTTACAACAACCTGCTAGGCCATCGTTTGAGAGGATTTTGTTATATTGCCAAAGTGTTGCCCGTTACGGT 
AAATCACCTTATTTGTATCCTATGTATGGGTTAGGCGAACTTCCACAAGGATTTGCTCGTTTGTCGGCTA 
TTTACGGTGGTACTTACATGCTAGACACTCCAATTGATGAAGTATTGTATAAAAAAGACACAGGAAAATT 
TGAAGGGGTCAAGACTAAGCTGGGAACTTTCAAGGCCCCATTGGTTATTGCTGATCCAACTTATTTTCCC 
GAAAAATGTAAATCTACTGGTCAAAGAGTTATTAGAGCCATCTGTATTCTTAACCATCCAGTTCCGAACA 
CCAGTAACGCGGATTCTTTACAAATTATTATCCCACAAAGCCAACTGGGAAGGAAAAGCGATATATACGT 
TGCGATTGTTTCAGATGCGCATAACGTTTGCTCCAAGGGTCACTATTTAGCAATTATTTCTACAATCATT 
GAAACTGATAAACCACATATAGAATTAGAGCCTGCTTTCAAACTTCTGGGACCAATCGAAGAAAAATTCA 
TGGGAATTGCCGAATTATTTGAACCAAGAGAAGACGGCTCTAAGGATAACATTTACTTATCCAGATCATA 
CGACGCATCCTCTCATTTCGAATCCATGACTGACGATGTTAAAGATATTTACTTCAGAGTAACAGGCCAC 
CCATTAGTTCTAAAACAAAGACAAGAACAAGAAAAGCAGTAAATTCATACCTTTACGACTAAAGCAGCAA 
TTGGAGGGTAAACTTATTTTTTCC
    

Matice

Porovnejte následující dvě sekvence pomocí BLASTP nebo FASTA Otestujte efekt použití různých matic příbuzností: BLOSUM62 vs. PAM30 vs. PAM70 a různých gap penalties (11,1 vs. 6,2)

Sekvence:

 >gi_13397640 unknown protein, Brassica napus
 MSSAPSPGTGSPPSPPSNSTTTTPPPASAPPPTTPSSPPPPSTIPTSPPPSSRSTPSAPPPSPPTPSTPG
 SPPPLPQPSPPAPTTPGSPPAPVTPPTRNPPPSVPGPPSNPSREGGSPRPPSSPSPPSPSSDGLSTGVVV
 GIAIGGVALLVIVTLICLLCKKKRRRDEEDAYYVPPPPPPGPKAGGPYGGQQQQWRQQNATPPSDHVVTS
 LPPPPKAPSPPRQPPPPPPPPFMSSSGGSDYSDRPVLPPPSPGLVLGFSKSTFTYEELARATNGFSEANL
 LGQGGFGYVHKGVLPSGKEVAVKQLKVGSGQGEREFQAEVEIISRVHHRHLVSLVGYCIAGAKRLLVYEF
 VPNNNLELHLHGEGRPTMEWSTRLKIALGSAKGLSYLHEDCNPKIIHRDIKASNILIDFKFEAKVADFGL
 AKIASDTNTHVSTRVMGTFGYLAPEYAASGKLTEKSDVFSFGVVLLELITGRRPVDANNVYVDDSLVDWA
 RPLLNRASEQGDFEGLADAKMNNGYDREEMARMVACAAACVRHSARRRPRMSQIVRALEGNVSLSDLNEG
 MRPGQSNVYSSYGGSTDYDSSQYNEDMKKFRKMALGTQEYNATGEYSNPTSDYGLYPSGSSSEGQTTREM
 EMGKIKRTGQGYSGPSL
 >gi_1345852_sp_P41242|MATK_MOUSE Megakaryocyte-associated tyrosine-protein kinase
 MARRSSRVSWLAFEGWESRDLPRVSPRLFGAWHPAPAAARMPTRWAPGTQCMTKCENSRPKPGELAFRKG
 DMVTILEACEDKSWYRAKHHGSGQEGLLAAAALRHGEALSTDPKLSLMPWFHGKISGQEAIQQLQPPEDG
 LFLVRESARHPGDYVLCVSFGRDVIHYRVLHRDGHLTIDEAVCFCNLMDMVEHYTKDKGAICTKLVKPRR
 KQGAKSAEEELAKAGWLLDLQHLTLGAQIGEGEFGAVLQGEYLGQKVAVKNIKCDVTAQAFLDETAVMTK
 LQHRNLVRLLGVILHHGLYIVMEHVSKGNLVNFLRTRGRALVSTSQLLQFALHVAEGMEYLESKKLVHRD
 LAARNILVSEDLVAKVSDFGLAKAERKGLDSSRLPVKWTAPEALKNGRFSSKSDVWSFGVLLWEVFSYGR
 APYPKMSLKEVSEAVEKGYRMEPPDGCPGSVHTLMGSCWEAEPARRPPFRKIVEKLGRELRSVGVSAPAG
 GQEAEGSAPTRSQDP

Tréning biologického myšlení

Právě jste dostali sekvenci DNA kódující části bakteriálního genu ze sekvenačního servisu s poznámkou, že sekvenace nedopadla moc dobře a že lze v sekvenci očekávat chyby a frameshifty.

>rc-m2-30
TGCCCTGCGCCGCGCTATTCGACGCCATCATGGACTGCCTGAAGGAGCATGGCGAGGTGCGCACCATTCG
CGTGGCTGCGGCGGACGTGAACGGGGTGGCAACGGGTAAGCGCATACCCGCACGTTTCGCAAGCAAGGTT
TTTTCCGAGGGAACACGGTAACCGTTCTCGGTGATGAACCTCGACATCTGGGGCGAGGACATCGAGGAAA
GTCCGCTGGTTTTTGAAACCGGCCTCTGCGATGGCCTGTTGCGCGCGACCGAGAGGCCCTTCATGCCGAT
GCCCTGGCTCGACCCACCGACGGCGCTACTGCCGATCTGGATGTATCACATGGATGGCCGCCCCTATTCG
GCCCTCCACGGCAGGCGCTGGCGGCGGTCAAGGACCGCTACACCGTAAAGGGCCTGACGGGCGTGGTGGC
GACGGAACTTGAAGCTGCTGTGATCGACGACAGCGGCACGATTCTGCGCGTGCCGCCCTCGCCCCGTTCC
GGCAAGCGCCGCACCGGGCCCGAAATCCTGTCGCTGCGTTCGCTTGACGCCTTTGACGGCTTCTTCACCG
CGCTTTACGCGGCCTGCGAGGTGATGGACATTCCGGCAGATATGGCGATTTCCGAAACCGCCTCGGGGCA
GTTCGAGATCAACCTGATGCAGTAGGCCGATCCGCGGAAGTCCGCCGATGACACCTGGCTGTTCAAGATG
CTGGTCAAGGGTCTGGCGCGGCAGCACGGCTATGCCGCCTCGCCCATGGCGAAACCCAATGATCTGTGGT
CGGGCAACGGGATGCGCGGGCATTTCTCGACCCTCGATCAGAACGGCGAAAACATCTTCAACCTGGGCAC
CGAAAAGGGCTCGGATGCGTTGCTGTCCGCGGTGGCGGGCTATCTGGCGGCGCTGCCGGGACCGACGCTG
ATCTTTGCGGTGGTTCAGAACAGCTACACCCAGCAGGTGCCCAATGCCCGTGTGTCTACGCGAATTGTCT
GGGCCTATGAGAACCGCGCGGGGTTTTTGCGGATCCCGTCTTCGGGGCACGCGGCGCGGCGGATCGAGCA
GTCGGGTGGCGTGGGGCGACGTGAACCCCTATCTGATAATCGCCGCTAGCCTTGGTGCGGCGCTGGTCGG
GCTCGTAGACAAAATGGTCCCCGACGAGCCGATCGTCGACAACGCTGATGCGAAATATCTGCCGCACCCG
CCCGCAACGTGGAAACTCGAGATAACCCTGTTCGACAGCTGCCCGCTGATCAAGCGCATCTTTGTAGAAG
AGCTGATCGAGAACTCCCTGATGACCAAGCGTTAGGAGATCCACTACATGGCGGCGCTGTCCGAAGAGTA
GCAGACCGAGCTTTACCTCGCCATCGTCGCCCTGCGTGATCGCGTACCGAC

PSI-Blast

PSI-BLAST je velmi senzitivní metoda pro hledání vzdálených členů nějaké genomé rodiny. Vyzkoušíme jí na analýzu genů účastnících se hospodaření s vodou. Vyberte si buď bakteriální aquaporin P0AER2.1 nebo eukaryotickou prostaglandin syntházu AAH04846.1. Proběhněte několik iterací PSI-Blast na https://blast.ncbi.nlm.nih.gov/Blast.cgi.

Limit hledání

PSI-BLAST je velmi senzitivní metoda, ale lze ji použít jen v určitých situacích. Pokud však musíme pracovat s programy BLAST nebo FASTA, je důležité vědět, jaká je jejich citlivost při nižších úrovních podobnosti (tj. při větších genetických vzdálenostech). Pomocí simulace se pokusíme zjistit, při jakých vzdálenostech přestávají být programy FASTA a BLAST spolehlivé a kde leží jejich limity.

Postup

Vyberte si z NCBI náhodný bakteriální gen. Postupně jej mutujte pomocí nástroje pro mutagenezi (např. https://www.bioinformatics.org/sms2/mutate_dna.html nebo jiného vhodného programu). Zjistěte, do jakého stupně mutace je stále možné identifikovat původní (nemutovanou) sekvenci pomocí FASTA a BLASTN. Sledujte zejména:

Najděte odpovídající proteinový produkt vašeho genu v NCBI (nebo přeložte DNA sami), proveďte mutagenezi na úrovni proteinu a obdobným způsobem otestujte citlivost. Na závěr stručně popište závěry, ke kterým jste došli na základě získaných výsledků, zejména:


Time-stamp: <2025-11-19 14:40:36 (hpaces)>