Cvičení 3
Kvalita FASTQ, trimování a mapování
1. Než začnete pracovat se svými soubory FASTQ, ověřte kvalitu dat. Nainstalujte do Conda prostředí program FastQC.
2. Stručně popište, co FastQC dělá.
– Jednou–dvěma větami shrňte účel nástroje.
3. Najděte dokumentaci nebo tutoriál k FastQC a POPIŠTE KAŽDÝ MODUL reportu: co znamená, jak je zobrazen, jak vypadá „norma“,
jak mohou vypadat problémy a jak je řešit (typicky trimováním).
Moduly:
• Sequence Quality Histograms
• Per Sequence Quality Scores
• Per Base Sequence Content
• Per Sequence GC Content
• Per Base N Content
• Sequence Length Distribution
• Sequence Duplication Levels
• Overrepresented sequences by sample
• Top overrepresented sequences
• Adapter Content
U každého uveďte: „OK“ vzorec, příklady varování/problémů a doporučený postup (např. odstranění adaptérů, odříznutí nízké kvality na 3′ konci apod.).
4. Spusťte FastQC na svém FASTQ souboru a uložte výsledný HTML report.
5. Popište svůj report: jaké metriky charakterizují vaše čtení, jaké problémy se objevují a jak je lze řešit (trimování; případně jiné kroky jako filtrování krátkých čtení).
6. Stáhněte si nástroj pro trimování FASTQ. Vyberte libovolný (např. fastp, Trim Galore!, Trimmomatic, Cutadapt) a napište, proč jste zvolili právě tento.
7. Spusťte trimování s parametry vhodnými pro vaše data. Řešte jen problémy, které řešit lze
(nelze „opravit“ úplně vše; někdy je nutné experiment zopakovat).
Volitelné cvičení: pokud je váš soubor „ideální“, představte si, že prvních 10 nukleotidů všech čtení jsou technické
sekvence (co to znamená?). Připravte správný příkaz pro zvolený trimovací nástroj a spusťte ho na kopii souboru.
(Pro další mapování ale používejte původní neotestovaný soubor.)
8. Pokud vaš soubor měl problém a jste trimovali, znovu spusťte FastQC a zhodnoťte, zda se problémové oblasti zlepšily.
9. Nyní, když máte soubor vhodný pro zpracování a znáte jeho limity, můžete mapovat čtení na referenční genom. Stručně vysvětlete,
co to znamená (zarovnání krátkých čtení k referenční sekvenci za účelem zjištění jejich původu/pozice v genomu).
10. Popište několik programů pro mapování genomových dat, jejich výhody a nevýhody (uveďte typická použití, rychlost atd.).
11. Vyberte vhodný mapovač a nainstalujte ho do svého Conda prostředí.
12. Stáhněte referenční genom (pokud jste v bodě 9 nevysvětlili, co je referenční genom, doplňte definici).
– FASTA soubor: https://www.ncbi.nlm.nih.gov/Traces/wgs/MAKW01?display=download (GenBank Accession MAKW00000000.1).
13. Po stažení vytvořte index vhodný pro váš mapovač (co to znamená, proč to děláme)
14. Proveďte mapování svých čtení na referenční genom.
– Spusťte úlohu tak, aby pokračovala i po zavření okna terminálu (např. tmux, screen nebo nohup). Popište použité parametry.
Kvalita FASTQ, trimování a mapování
Time-stamp: <2025-10-08 14:07:22 (hpaces)>