Genomika: analýza a algoritmy - Cvičení 8

Assembly

Proveďte assembly pomocí OLC algoritmu (program newbler).

Nejprve spočítejte počty sekvencí v jednotlivých knihovnách pro přehled. První assembly udělejte pouze z nepárových a krátkých paired-end knihoven, druhé assembly i s 3k mate-pairs. (Proč? Ověříte si, jak malou část dat tvoří mate-pair knihovny, ale přitom jak výrazně zlepší assembly.)

Proveďte assembly (bez .sff 3k mate-pairs) pomocí de-Bruinova algoritmu (program SOAP-denovo) (Proč? Ujasníte si rozdíly ve výsledcích obou typů algoritmů.)

Kontrola

Napište program pro výpočet N50, L50 (volitelně i dalších koordinát), počet a celkovou délku kontigů. Porovnejte výsledky všech tří assembly, nejlepší budeme používat dále. Můžete použít i program quast pro porovnání různých verzí assembly. (Proč? Porozumíte metrikám, pomocí kterých hodnotíme kvalitu assembly.)

Vyberte nějaký velmi dlouhý scaffold z nejlepšího assembly a pomocí BLAST nebo FASTA na něj namapujte/alignujte contigy(scaffoldy)z ostatních dvou assembly. (blast je nainstalovaný na VM, podívejte se na přepínač blastn --outfmt). Výsledek zpracujte do přehledného obrázku/slidu/tabulky. (Proč? Vizualizace rozdílů mezi jednotlivými přístupy a porozumění významu jednotlivých datasetů.)

Data

Data obsahují tři knihovny, paired-end z Illuminy a dvě mate-pair ze 454. Dataset z Illuminy je předzpracovaný: během kontroly kvality jsme některé ready odstranili, druhá párová sekvence pak vystupuje jako single end. Pro snížení výpočetní náročnosti jsme spojili paired-end páry, které byly tak blízko sebe, že se překrývaly (extendedFrags) a tím z nich udělali také single-end ready. Zbývající ready zůstaly párové (notCombined).

files: (GAA2022/cviceni_16_11_22/)

	trim_database.fna

single end (druhý člen páru odstraněn), MiSeq:
	Bcc7419-MiSeq-A895A-PE_1_U.fastq 
	Bcc7419-MiSeq-A895A-PE_2_U.fastq  
single end (spojené paired-end), MiSeq:
	Bcc7419-MiSeq-A895A-PE_12_JOIN_P.extendedFrags.fastq
paired-end (nespojený paired-end), 600bp, MiSeq:
	Bcc7419-MiSeq-A895A-PE_12_JOIN_P.notCombined_1.fastq
	Bcc7419-MiSeq-A895A-PE_12_JOIN_P.notCombined_2.fastq

mate pairs, 3kbp, 454:
	Bcc7419-454-HB0RHHA02-PE_3k-UNIQ.sff
	Bcc7419-454-HAV0LKU05-PE_3k-UNIQ.sff
      

Hints

hints pro OLC:

	/data/shared/454/bin/runAssembly --version
	/data/shared/454/bin/newAssembly $NAME
	/data/shared/454/bin/addRun -lib SE_Illu -np $NAME /data/shared/GAA/E8/Bcc7419-MiSeq-A895A-PE_12_JOIN_P.extendedFrags.fastq
	...
	/data/shared/454/bin/addRun -lib PE_3k -p $NAME /data/shared/GAA/E8/Bcc7419-454-HAV0LKU05-PE_3k-UNIQ.sff
	...
	/data/shared/454/bin/runProject $NAME

	less $NAME/assembly/454AssemblyProject.xml
      

hints pro deBruin: ukázkový soap.config je ve folderu se cvičením

	/data/shared/Bin/SOAPdenovo-63mer all -s soap.config -o $NAME
      

Time-stamp: <2022-11-16 16:35:55 (hpaces)>