Cvičení 2

Dnes začneme s úplně základním analytickým pipeline genomiky. Cílem je seznámit se s hlavními typy datových souborů, naučit se, jak s nimi pracovat, a pochopit základní pojmy.

	
  1. Co znamená pojem pipeline v genomice?
  2. Přečtěte si abstrakt a úvod článku https://bmcmicrobiol.biomedcentral.com/articles/10.1186/s12866-017-1043-1 Stručně popište hlavní myšlenku studie.
  3. Otevřete článek a najděte Tabulku 1 (Isolates selected for WGS analysis). Co znamená pojem izolát v tomto kontextu?
  Podívejte se na Tabulku 1. V Discord kanálu GAA si rozdělte izoláty mezi sebou. Nejprve ty z roku 2015, zbylé z roku 2014.
  4. Pro vás nejdůležitější informace v tabulce je SRA ID. Co je to SRA archiv? Jaký typ dat se tam ukládá?
  5. Přejděte na web NCBI a najděte záznam vašeho izolátu (SRA ID). Co je to NCBI? Jaké existují alternativy (Evropa, Japonsko)?
  6. V záznamu si všimněte označení Whole genome shotgun sequencing. Co to znamená?
  7. Jakou metodou byl váš izolát sekvenován? Jakým přístrojem? Stručně popište princip metody.
  8. V záznamu jsou pole spots a bases. Co znamenají?
  9. Co je to knihovna (library) v tomto kontextu?
  10. V popisu knihovny najděte položku Source. Co tato informace říká o vašem vzorku? Uveďte příklad jiné možné informace.
  12. V popisu knihovny najděte položku Layout. Co tato informace znamená? Co jsou to reads? Jaký jiný layout by mohl existovat?
  13. Stáhněte genomická data vašeho izolátu ze SRA archivu. Použijte Linux příkaz, který preferujete. Data jsou paired-end reads → výsledkem musí být dva soubory FASTQ.
  14. Proč dostanete dva soubory? Čím se liší?
  15. Otevřete FASTQ soubory a podívejte se na jejich strukturu. Co je to FASTQ soubor? Jakou má strukturu a co obsahuje?
  16. Pomocí příkazů v Linuxu spočítejte počet čtení (reads) v každém FASTQ (ne řádků).
  17. Napište malý skript, který umí vybrat čtení z FASTQ souboru. Program by měl číst ze standardního vstupu a posílat výstup také na standardní výstup.
  18. Napište malý skript, který dokáže spočítat GC% v sekvenci. Program by měl číst ze standardního vstupu a posílat výstup také na standardní výstup.
  19. Spočítejte GC% ve vašich reads pomocí těchto dvou skriptů (spuštěním v pipeline přes |). Odpovídá vypočítaný GC obsah hodnotě uvedené v SRA databázi pro váš izolát? Proč je důležité znát GC obsah? Co nám může ukázat a na co může mít vliv?
  20. Podívejte se na řádek s kvalitou jednotlivých bází ve FASTQ souboru. Jak se tento score nazývá? Stručně ho popište. Existují různé varianty pro různé sekvenátory.
  21. Odhadněte, jaký typ máte vy (pouhým pohledem). Proč si to myslíte?
  22. Napište malý skript pro výběr řádku s Phred score z FASTQ souboru.
  23. Vytvořte slovník s vaším typem Phred score (znak → číslo). Napište skript, který spočítá průměrnou hodnotu Phred score pro každý read.
  24. Vykreslete graf rozdělení kvality čtení. Udělejte závěr: považujete kvalitu reads za dostatečnou nebo ne?

Time-stamp: <2025-10-01 14:03:20 (hpaces)>