北京大学生科院/CLS生物信息平台RNA-Seq测序数据分析服务流程(试运行2015
3平台联系人:李程(lch3000@gmail
com文档撰写:张超TableofContents1
测序质量评估(31
1测序数据过滤(31
2质量值分布(31
3GC含量分布(42.参考序列比对(43
基因表达水平(63.1基因表达水平定量(63
2基因表达水平分步(63
3生物学重复相关性分析(63
4样本间层次聚类及PCA分析(74
差异基因分析(74
1基因表达标准化(74
2差异基因列表(84
3差异基因可视化(84.4差异基因聚类(95.差异表达基因功能分析(105
1GO富集分析(105
2信号通路富集分析(105
3癌基因功能注释(116
基因结构差异分析(116
1可变剪切分析(117
SNP分析(127
1SNP检测(127
2SNP筛选(127
3GO/KEGG富集(121
测序质量评估通过测序的数据进行进行质控,保证数据质量适合下游分析
这里我们使用fastqc和RNA-SeQC来对数据进行质量评定
1.1测序数据过滤测序得到的原始下机数据往往有许多问题,不能直接使用,通常会经过以下过滤,尽量保证测序数据的质量
a.去除带测序接头的测序序列(reads;b
去除低质量的reads1
2质量值分布按照现有的测序技术(illumina平台单碱基的错误率应控制在1%以下,即质量值在20以上
横坐标为reads的碱基位置,纵坐标为单碱基质量值质量值与错误率的关系:Q=-10log10(e;其中Qphred为测序碱基质量值,e为测phred序错误率
3GC含量分布对于RNA测序,鉴于序列通过超声随机打断,所以理论上每个测序循环上的C、G及A、T含量应分布相等,并且CG-content对于每个物种应大致相同
横坐标为reads的碱基位置,纵坐标为各种碱基的不同比例2