Toto je sekvence evolučně konzervovaného kvasinkového genu, jehož rostlinný homolog hledáte.
>Scsec19
GGGATTGTAGATGTAGTTTCAACACGTCGGCTGATTTATCCCGATTTTGTTAGTAGAAAAGGTTCTACTT
CATTCTTGCTTGAGACGTCGTCCCATCAAATTTCTAACATAGTCTTTTTTCAAGGAAGGATATTTTTCAA
AGCAGGACTGCAATTAGTCTTTTCCTTTTCTTTACTCCCCTTCCATCATAACTGTTAGTGAATAACCACT
TATATAGCATAACACAATGGATCAAGAAACAATAGACACTGACTACGACGTGATTGTCTTAGGTACCGGT
ATTACCGAATGTATCTTATCTGGTTTACTCTCTGTAGATGGAAAAAAGGTATTACATATTGACAAGCAAG
ACCATTATGGTGGCGAAGCTGCTTCTGTGACCTTATCTCAATTGTATGAAAAATTTAAACAAAATCCGAT
CAGTAAAGAGGAACGGGAGTCCAAGTTTGGTAAAGATAGAGATTGGAATGTCGACTTAATTCCTAAATTC
CTGATGGCCAATGGTGAGCTGACAAATATTTTAATACATACCGATGTGACCAGATATGTCGATTTCAAGC
AAGTTTCTGGCTCCTACGTTTTTAAGCAAGGCAAAATTTACAAAGTGCCAGCTAATGAAATAGAAGCCAT
TTCATCGCCATTGATGGGTATTTTTGAAAAACGTAGAATGAAGAAATTTTTAGAATGGATTAGCTCTTAC
AAAGAAGATGACTTGTCCACTCATCAAGGATTAGACTTAGACAAGAATACCATGGATGAAGTGTATTATA
AATTTGGGTTAGGCAATTCTACCAAAGAATTCATCGGTCATGCAATGGCTTTATGGACCAATGATGACTA
CTTACAACAACCTGCTAGGCCATCGTTTGAGAGGATTTTGTTATATTGCCAAAGTGTTGCCCGTTACGGT
AAATCACCTTATTTGTATCCTATGTATGGGTTAGGCGAACTTCCACAAGGATTTGCTCGTTTGTCGGCTA
TTTACGGTGGTACTTACATGCTAGACACTCCAATTGATGAAGTATTGTATAAAAAAGACACAGGAAAATT
TGAAGGGGTCAAGACTAAGCTGGGAACTTTCAAGGCCCCATTGGTTATTGCTGATCCAACTTATTTTCCC
GAAAAATGTAAATCTACTGGTCAAAGAGTTATTAGAGCCATCTGTATTCTTAACCATCCAGTTCCGAACA
CCAGTAACGCGGATTCTTTACAAATTATTATCCCACAAAGCCAACTGGGAAGGAAAAGCGATATATACGT
TGCGATTGTTTCAGATGCGCATAACGTTTGCTCCAAGGGTCACTATTTAGCAATTATTTCTACAATCATT
GAAACTGATAAACCACATATAGAATTAGAGCCTGCTTTCAAACTTCTGGGACCAATCGAAGAAAAATTCA
TGGGAATTGCCGAATTATTTGAACCAAGAGAAGACGGCTCTAAGGATAACATTTACTTATCCAGATCATA
CGACGCATCCTCTCATTTCGAATCCATGACTGACGATGTTAAAGATATTTACTTCAGAGTAACAGGCCAC
CCATTAGTTCTAAAACAAAGACAAGAACAAGAAAAGCAGTAAATTCATACCTTTACGACTAAAGCAGCAA
TTGGAGGGTAAACTTATTTTTTCC
Porovnejte následující dvě sekvence pomocí BLASTP nebo FASTA Otestujte efekt použití různých matic příbuzností: BLOSUM62 vs. PAM30 vs. PAM70 a různých gap penalties (11,1 vs. 6,2)
Sekvence:
>gi_13397640 unknown protein, Brassica napus MSSAPSPGTGSPPSPPSNSTTTTPPPASAPPPTTPSSPPPPSTIPTSPPPSSRSTPSAPPPSPPTPSTPG SPPPLPQPSPPAPTTPGSPPAPVTPPTRNPPPSVPGPPSNPSREGGSPRPPSSPSPPSPSSDGLSTGVVV GIAIGGVALLVIVTLICLLCKKKRRRDEEDAYYVPPPPPPGPKAGGPYGGQQQQWRQQNATPPSDHVVTS LPPPPKAPSPPRQPPPPPPPPFMSSSGGSDYSDRPVLPPPSPGLVLGFSKSTFTYEELARATNGFSEANL LGQGGFGYVHKGVLPSGKEVAVKQLKVGSGQGEREFQAEVEIISRVHHRHLVSLVGYCIAGAKRLLVYEF VPNNNLELHLHGEGRPTMEWSTRLKIALGSAKGLSYLHEDCNPKIIHRDIKASNILIDFKFEAKVADFGL AKIASDTNTHVSTRVMGTFGYLAPEYAASGKLTEKSDVFSFGVVLLELITGRRPVDANNVYVDDSLVDWA RPLLNRASEQGDFEGLADAKMNNGYDREEMARMVACAAACVRHSARRRPRMSQIVRALEGNVSLSDLNEG MRPGQSNVYSSYGGSTDYDSSQYNEDMKKFRKMALGTQEYNATGEYSNPTSDYGLYPSGSSSEGQTTREM EMGKIKRTGQGYSGPSL >gi_1345852_sp_P41242|MATK_MOUSE Megakaryocyte-associated tyrosine-protein kinase MARRSSRVSWLAFEGWESRDLPRVSPRLFGAWHPAPAAARMPTRWAPGTQCMTKCENSRPKPGELAFRKG DMVTILEACEDKSWYRAKHHGSGQEGLLAAAALRHGEALSTDPKLSLMPWFHGKISGQEAIQQLQPPEDG LFLVRESARHPGDYVLCVSFGRDVIHYRVLHRDGHLTIDEAVCFCNLMDMVEHYTKDKGAICTKLVKPRR KQGAKSAEEELAKAGWLLDLQHLTLGAQIGEGEFGAVLQGEYLGQKVAVKNIKCDVTAQAFLDETAVMTK LQHRNLVRLLGVILHHGLYIVMEHVSKGNLVNFLRTRGRALVSTSQLLQFALHVAEGMEYLESKKLVHRD LAARNILVSEDLVAKVSDFGLAKAERKGLDSSRLPVKWTAPEALKNGRFSSKSDVWSFGVLLWEVFSYGR APYPKMSLKEVSEAVEKGYRMEPPDGCPGSVHTLMGSCWEAEPARRPPFRKIVEKLGRELRSVGVSAPAG GQEAEGSAPTRSQDP
Právě jste dostali sekvenci DNA kódující části bakteriálního genu ze sekvenačního servisu s poznámkou, že sekvenace nedopadla moc dobře a že lze v sekvenci očekávat chyby a frameshifty.
>rc-m2-30 TGCCCTGCGCCGCGCTATTCGACGCCATCATGGACTGCCTGAAGGAGCATGGCGAGGTGCGCACCATTCG CGTGGCTGCGGCGGACGTGAACGGGGTGGCAACGGGTAAGCGCATACCCGCACGTTTCGCAAGCAAGGTT TTTTCCGAGGGAACACGGTAACCGTTCTCGGTGATGAACCTCGACATCTGGGGCGAGGACATCGAGGAAA GTCCGCTGGTTTTTGAAACCGGCCTCTGCGATGGCCTGTTGCGCGCGACCGAGAGGCCCTTCATGCCGAT GCCCTGGCTCGACCCACCGACGGCGCTACTGCCGATCTGGATGTATCACATGGATGGCCGCCCCTATTCG GCCCTCCACGGCAGGCGCTGGCGGCGGTCAAGGACCGCTACACCGTAAAGGGCCTGACGGGCGTGGTGGC GACGGAACTTGAAGCTGCTGTGATCGACGACAGCGGCACGATTCTGCGCGTGCCGCCCTCGCCCCGTTCC GGCAAGCGCCGCACCGGGCCCGAAATCCTGTCGCTGCGTTCGCTTGACGCCTTTGACGGCTTCTTCACCG CGCTTTACGCGGCCTGCGAGGTGATGGACATTCCGGCAGATATGGCGATTTCCGAAACCGCCTCGGGGCA GTTCGAGATCAACCTGATGCAGTAGGCCGATCCGCGGAAGTCCGCCGATGACACCTGGCTGTTCAAGATG CTGGTCAAGGGTCTGGCGCGGCAGCACGGCTATGCCGCCTCGCCCATGGCGAAACCCAATGATCTGTGGT CGGGCAACGGGATGCGCGGGCATTTCTCGACCCTCGATCAGAACGGCGAAAACATCTTCAACCTGGGCAC CGAAAAGGGCTCGGATGCGTTGCTGTCCGCGGTGGCGGGCTATCTGGCGGCGCTGCCGGGACCGACGCTG ATCTTTGCGGTGGTTCAGAACAGCTACACCCAGCAGGTGCCCAATGCCCGTGTGTCTACGCGAATTGTCT GGGCCTATGAGAACCGCGCGGGGTTTTTGCGGATCCCGTCTTCGGGGCACGCGGCGCGGCGGATCGAGCA GTCGGGTGGCGTGGGGCGACGTGAACCCCTATCTGATAATCGCCGCTAGCCTTGGTGCGGCGCTGGTCGG GCTCGTAGACAAAATGGTCCCCGACGAGCCGATCGTCGACAACGCTGATGCGAAATATCTGCCGCACCCG CCCGCAACGTGGAAACTCGAGATAACCCTGTTCGACAGCTGCCCGCTGATCAAGCGCATCTTTGTAGAAG AGCTGATCGAGAACTCCCTGATGACCAAGCGTTAGGAGATCCACTACATGGCGGCGCTGTCCGAAGAGTA GCAGACCGAGCTTTACCTCGCCATCGTCGCCCTGCGTGATCGCGTACCGAC
PSI-BLAST je velmi senzitivní metoda pro hledání vzdálených členů nějaké genomé rodiny. Vyzkoušíme jí na analýzu genů účastnících se hospodaření s vodou. Vyberte si buď bakteriální aquaporin P0AER2.1 nebo eukaryotickou prostaglandin syntházu AAH04846.1. Proběhněte několik iterací PSI-Blast na https://blast.ncbi.nlm.nih.gov/Blast.cgi.
PSI-BLAST je velmi senzitivní metoda, ale lze ji použít jen v určitých situacích. Pokud však musíme pracovat s programy BLAST nebo FASTA, je důležité vědět, jaká je jejich citlivost při nižších úrovních podobnosti (tj. při větších genetických vzdálenostech). Pomocí simulace se pokusíme zjistit, při jakých vzdálenostech přestávají být programy FASTA a BLAST spolehlivé a kde leží jejich limity.
Postup
Vyberte si z NCBI náhodný bakteriální gen. Postupně jej mutujte pomocí nástroje pro mutagenezi (např. https://www.bioinformatics.org/sms2/mutate_dna.html nebo jiného vhodného programu). Zjistěte, do jakého stupně mutace je stále možné identifikovat původní (nemutovanou) sekvenci pomocí FASTA a BLASTN. Sledujte zejména:
Najděte odpovídající proteinový produkt vašeho genu v NCBI (nebo přeložte DNA sami), proveďte mutagenezi na úrovni proteinu a obdobným způsobem otestujte citlivost. Na závěr stručně popište závěry, ke kterým jste došli na základě získaných výsledků, zejména: