Cvičení 4
Dokončili jste mapování. Podívejte se na výstupy vašeho programu. Vyjmenujte všechny získané soubory. Jaké informace každý z nich obsahuje?
Najděte soubor se statistikou mapování (log file nebo jiný). Které informace jsou pro nás důležité? Co nám tyto údaje mohou říct o kvalitě mapování?
Všimněte si procenta namapovaných čtení (reads).
Jakou hodnotu máte?
Co tato hodnota znamená? Jaké hodnoty ukazují, že mapování proběhlo dobře?
Co by znamenalo, kdyby bylo namapováno pouze 30 % čtení? Jaké mohou být důvody? (Pokud váš program takový výstup neposkytuje, odpovězte alespoň teoreticky.)
Všimněte si souborů BAM a SAM. Stručně popište formáty SAM a BAM. Pokud máte jako výstup pouze BAM, převeďte ho do formátu SAM.
Ze souboru SAM s využitím pole FLAG připravte statistiku:
počet nemapovaných, unikátně mapovaných a vícenásobně mapovaných sekvencí
počet sekvencí mapovaných ve směru forward vs. reverse
počet párových sekvencí, kdy jsou obě části páru mapovány unikátně a ve správné orientaci
liší se zastoupení sekvencí v přímé orientaci vůči reverzně komplementární orientaci?
Pomocí pole CIGAR v sam spočítejte u mapovaných sekvencí celkovou délku mapovaných částí sekvencí.
(Pozn.: v případě vícenásobně mapovaných sekvencí použijte pouze primární alignment. Cílem je zjistit, jak dobře náš experiment pokrývá referenční sekvenci.)
Nyní přejdeme k anotačnímu souboru (GTF).
Co znamená anotační soubor v tomto kontextu? Popište formáty GTF, GFF3 a BED.
Stahněte soubor s anotací: https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/002/016/665/GCF_002016665.1_ASM201666v1/GCF_002016665.1_ASM201666v1_genomic.gff.gz
Vyhledejte gen AFY11_00690. Zjistěte, jak je gen dlouhý a jak dlouhý je protein, který kóduje.
Přejděte k části SNP calling.
Co je to SNP a SNP calling?
Jaké programy lze použít? Na jakém principu tyto nástroje pracují?
Spusťte program pro SNP calling a popište získaný výstup.
Stručně vysvětlete formát VCF.
Zkontrolujte, zda se objevují nějaké změny a jaké.
Zaměřte se zejména na změny v genech:
ABC transporter ATP-binding protein (AFY11_00690 referenčního genomu)
50S ribosomal protein L4 (AFY11_15190 referenčního genomu).
Time-stamp: <2025-10-15 14:10:55 (hpaces)>