Cvičení 4

  
  Dokončili jste mapování. Podívejte se na výstupy vašeho programu. Vyjmenujte všechny získané soubory. Jaké informace každý z nich obsahuje?
  Najděte soubor se statistikou mapování (log file nebo jiný). Které informace jsou pro nás důležité? Co nám tyto údaje mohou říct o kvalitě mapování?
  Všimněte si procenta namapovaných čtení (reads).
     Jakou hodnotu máte?
     Co tato hodnota znamená? Jaké hodnoty ukazují, že mapování proběhlo dobře?
     Co by znamenalo, kdyby bylo namapováno pouze 30 % čtení? Jaké mohou být důvody? (Pokud váš program takový výstup neposkytuje, odpovězte alespoň teoreticky.)
  Všimněte si souborů BAM a SAM. Stručně popište formáty SAM a BAM. Pokud máte jako výstup pouze BAM, převeďte ho do formátu SAM.
  Ze souboru SAM s využitím pole FLAG připravte statistiku:
    počet nemapovaných, unikátně mapovaných a vícenásobně mapovaných sekvencí
    počet sekvencí mapovaných ve směru forward vs. reverse
    počet párových sekvencí, kdy jsou obě části páru mapovány unikátně a ve správné orientaci
    liší se zastoupení sekvencí v přímé orientaci vůči reverzně komplementární orientaci?
    Pomocí pole CIGAR v sam spočítejte u mapovaných sekvencí celkovou délku mapovaných částí sekvencí.
      (Pozn.: v případě vícenásobně mapovaných sekvencí použijte pouze primární alignment. Cílem je zjistit, jak dobře náš experiment pokrývá referenční sekvenci.)
      
  Nyní přejdeme k anotačnímu souboru (GTF).
  Co znamená anotační soubor v tomto kontextu? Popište formáty GTF, GFF3 a BED.
  Stahněte soubor s anotací: https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/002/016/665/GCF_002016665.1_ASM201666v1/GCF_002016665.1_ASM201666v1_genomic.gff.gz      
  Vyhledejte gen AFY11_00690. Zjistěte, jak je gen dlouhý a jak dlouhý je protein, který kóduje.

  Přejděte k části SNP calling.
  Co je to SNP a SNP calling?
  Jaké programy lze použít? Na jakém principu tyto nástroje pracují?
  Spusťte program pro SNP calling a popište získaný výstup.
  Stručně vysvětlete formát VCF.
  Zkontrolujte, zda se objevují nějaké změny a jaké.
  Zaměřte se zejména na změny v genech:
     ABC transporter ATP-binding protein (AFY11_00690 referenčního genomu)
     50S ribosomal protein L4 (AFY11_15190 referenčního genomu).

Time-stamp: <2025-10-15 14:10:55 (hpaces)>