Proveďte assembly pomocí OLC algoritmu (program newbler).
Nejprve spočítejte počty sekvencí v jednotlivých knihovnách pro přehled. První assembly udělejte pouze z nepárových a krátkých paired-end knihoven, druhé assembly i s 3k mate-pairs. (Proč? Ověříte si, jak malou část dat tvoří mate-pair knihovny, ale přitom jak výrazně zlepší assembly.)
Proveďte assembly (bez .sff 3k mate-pairs) pomocí de-Bruinova algoritmu (program SOAP-denovo) (Proč? Ujasníte si rozdíly ve výsledcích obou typů algoritmů.)
Napište program pro výpočet N50, L50 (volitelně i dalších koordinát), počet a celkovou délku kontigů. Porovnejte výsledky všech tří assembly, nejlepší budeme používat dále. Můžete použít i program quast pro porovnání různých verzí assembly. (Proč? Porozumíte metrikám, pomocí kterých hodnotíme kvalitu assembly.)
Vyberte nějaký velmi dlouhý scaffold z nejlepšího assembly a pomocí BLAST nebo FASTA na něj namapujte/alignujte contigy(scaffoldy)z ostatních dvou assembly. (blast je nainstalovaný na VM, podívejte se na přepínač blastn --outfmt). Výsledek zpracujte do přehledného obrázku/slidu/tabulky. (Proč? Vizualizace rozdílů mezi jednotlivými přístupy a porozumění významu jednotlivých datasetů.)
files: (GAA2022/cviceni_16_11_22/)
trim_database.fna
single end (druhý člen páru odstraněn), MiSeq:
Bcc7419-MiSeq-A895A-PE_1_U.fastq
Bcc7419-MiSeq-A895A-PE_2_U.fastq
single end (spojené paired-end), MiSeq:
Bcc7419-MiSeq-A895A-PE_12_JOIN_P.extendedFrags.fastq
paired-end (nespojený paired-end), 600bp, MiSeq:
Bcc7419-MiSeq-A895A-PE_12_JOIN_P.notCombined_1.fastq
Bcc7419-MiSeq-A895A-PE_12_JOIN_P.notCombined_2.fastq
mate pairs, 3kbp, 454:
Bcc7419-454-HB0RHHA02-PE_3k-UNIQ.sff
Bcc7419-454-HAV0LKU05-PE_3k-UNIQ.sff
hints pro OLC:
/data/shared/454/bin/runAssembly --version
/data/shared/454/bin/newAssembly $NAME
/data/shared/454/bin/addRun -lib SE_Illu -np $NAME /data/shared/GAA/E8/Bcc7419-MiSeq-A895A-PE_12_JOIN_P.extendedFrags.fastq
...
/data/shared/454/bin/addRun -lib PE_3k -p $NAME /data/shared/GAA/E8/Bcc7419-454-HAV0LKU05-PE_3k-UNIQ.sff
...
/data/shared/454/bin/runProject $NAME
less $NAME/assembly/454AssemblyProject.xml
hints pro deBruin: ukázkový soap.config je ve folderu se cvičením
/data/shared/Bin/SOAPdenovo-63mer all -s soap.config -o $NAME