Cvičení 3

  
Kvalita FASTQ, trimování a mapování
1. Než začnete pracovat se svými soubory FASTQ, ověřte kvalitu dat. Nainstalujte do Conda prostředí program FastQC.
2. Stručně popište, co FastQC dělá.
   – Jednou–dvěma větami shrňte účel nástroje.
3. Najděte dokumentaci nebo tutoriál k FastQC a POPIŠTE KAŽDÝ MODUL reportu: co znamená, jak je zobrazen, jak vypadá „norma“,
   jak mohou vypadat problémy a jak je řešit (typicky trimováním).
   Moduly:
   • Sequence Quality Histograms
   • Per Sequence Quality Scores
   • Per Base Sequence Content
   • Per Sequence GC Content
   • Per Base N Content
   • Sequence Length Distribution
   • Sequence Duplication Levels
   • Overrepresented sequences by sample
   • Top overrepresented sequences
   • Adapter Content
   U každého uveďte: „OK“ vzorec, příklady varování/problémů a doporučený postup (např. odstranění adaptérů, odříznutí nízké kvality na 3′ konci apod.).
4. Spusťte FastQC na svém FASTQ souboru a uložte výsledný HTML report.
5. Popište svůj report: jaké metriky charakterizují vaše čtení, jaké problémy se objevují a jak je lze řešit (trimování; případně jiné kroky jako filtrování krátkých čtení).
6. Stáhněte si nástroj pro trimování FASTQ. Vyberte libovolný (např. fastp, Trim Galore!, Trimmomatic, Cutadapt) a napište, proč jste zvolili právě tento.
7. Spusťte trimování s parametry vhodnými pro vaše data. Řešte jen problémy, které řešit lze
   (nelze „opravit“ úplně vše; někdy je nutné experiment zopakovat).
Volitelné cvičení: pokud je váš soubor „ideální“, představte si, že prvních 10 nukleotidů všech čtení jsou technické
   sekvence (co to znamená?). Připravte správný příkaz pro zvolený trimovací nástroj a spusťte ho na kopii souboru.
   (Pro další mapování ale používejte původní neotestovaný soubor.)
8. Pokud vaš soubor měl problém a jste trimovali, znovu spusťte FastQC a zhodnoťte, zda se problémové oblasti zlepšily.
9. Nyní, když máte soubor vhodný pro zpracování a znáte jeho limity, můžete mapovat čtení na referenční genom. Stručně vysvětlete,
   co to znamená (zarovnání krátkých čtení k referenční sekvenci za účelem zjištění jejich původu/pozice v genomu).
10. Popište několik programů pro mapování genomových dat, jejich výhody a nevýhody (uveďte typická použití, rychlost atd.).
11. Vyberte vhodný mapovač a nainstalujte ho do svého Conda prostředí.
12. Stáhněte referenční genom (pokud jste v bodě 9 nevysvětlili, co je referenční genom, doplňte definici).
    – FASTA soubor: https://www.ncbi.nlm.nih.gov/Traces/wgs/MAKW01?display=download (GenBank Accession MAKW00000000.1).
13. Po stažení vytvořte index vhodný pro váš mapovač (co to znamená, proč to děláme)
14. Proveďte mapování svých čtení na referenční genom.
    – Spusťte úlohu tak, aby pokračovala i po zavření okna terminálu (např. tmux, screen nebo nohup). Popište použité parametry.
    Kvalita FASTQ, trimování a mapování

Time-stamp: <2025-10-08 14:07:22 (hpaces)>