Genomika: analýza a algoritmy - Cvičení 2
Některé úlohy lze efektivně dělat použitím základních UNIX příkazů.
Formát SAM
Ze souboru L1_ex1.sam s využitím pole FLAG přípravte statistiku:
- počty nemapovaných, unikátně mapovaných, násobně mapovaných sekvencí
- počet přímých (forward) vs. komplementárních (reverse) mapovaných sekvencí
- počet párových sekvencí, kdy jsou obě sekvence mapovány unikátně a ve správné vzájemné orientaci
- liší se zastoupení sekvencí v přímé orientaci vůči referenční sekvenci oproti reverzně komplementární orientaci?
podle pole CIGAR vypočítejte u mapovaných sekvencí:
(Pozn.: v případě násobně mapovaných sekvencí použijte pouze primární alignment.
Chceme zjistit, jak dobře náš experiment pokrývá referenční sekvenci.)
- celkovou délku hrubých namapovaných sekvencí
- celkovou délku mapovaných částí sekvencí
Formát AGP
ze souboru L2_scaffold.agp zjistěte:
n
- počet contigů, scafoldů a gapů
- celkovou délku gapů
Data
SAM specifikace
Raw reads
Alignment
AGP
Other
Time-stamp: <2024-10-16 13:37:13 (hpaces)>