GATK 使用方法详解(原始数据的处理) 1
对原始下机 fastq 文件进行过滤和比对(mapping) 对 于 Illumina下 机 数 据 推 荐 使 用 bwa进 行 mapping
Bwa比 对 步 骤 大 致 如 下 : ( 1) 对 参 考 基 因 组 构 建 索 引 : 例 子 : bwa index -a bwtsw hg19
最 后 生 成 文 件 : hg19
amb、hg19
ann、hg19
bwt、hg19
pac和 hg19
构 建 索 引 时需要注意的问题: bwa构 建 索 引 有两种算法,两种算法都是基 于 BWT的,这两种算法通过参 数 -a is 和-a bwtsw进 行 选择
其中-a bwtsw对 于 短的参 考 序列是不工作的,必须要大 于 等于 10Mb;-a is是默认参 数 ,这个参 数 不适用 于 大 的参 考 序列,必须要小于 等于2G
( 2) 寻找输入 reads文 件 的 SA坐标
对 于 pair end数 据 ,每个 reads文 件 单独做运算,single end数 据 就不用 说了,只有一个文 件
例 子 : pair end: bwa aln hg19
fa read1
gz -l 30 -k 2 -t 4 -I > read1
sai bwa aln hg19
fa read2
gz -l 30 -k 2 -t 4 -I > read2
sai single end: bwa aln hg19
fa read
gz -l 30 -k 2 -t 4 -I > read
sai 主 要 参 数 说 明 : -o int: 允 许 出 现 的 最 大 gap数
-e int: 每 个 g