高通量测序错误总结一、生信分析部分1)Q20/Q30 碱基质量分数与错误率是衡量测序质量的重要指标,质量值越高代表碱基被测错的概率越小。 Q30 代表碱基的正确判别率是99.9% ,错误率为0.1% 。 同时我们也可以理解为 1000 个碱基里有 1 个碱基是错误的。 Q20 代表该位点碱基的正确判别率是99% ,错误率为 1% 。 对于整个数据来说,我们可以认为100 个碱基里可能有一个是错误的, 在碱基质量模块报告的坐标图中,背景颜色沿y- 轴将坐标图分为3 个区:最上面的绿色是碱基质量很好的区,Q 值在 30 以上。中间的橘色是碱基质量在一些分析中可以接受的区,Q 值在 20-30 之间。最下面红色的是碱基质量很差的区。在一些生信分析中,比如以检查差异表达为目的的RNA-seq分析,一般要求碱基质量在Q 在 Q20 以上就可以了。 但以检查变异为目的的数据分析中,一般要求碱基质量要在Q30 以上。一般来说,测序质量分数的分布有两个特点:1.测序质量分数会随着测序循环的进行而降低。2.有时每条序列前几个碱基的位置测序错误率较高,质量值相对较低。在图中这个例子里,左边的数据碱基质量很好,而右边的数据碱基质量就比较差,需要做剪切( trimming), 根据生信分析的目的不同,要将质量低于Q20 或者低于Q30的碱基剪切掉。2)序列的平均质量这个是碱基序列平均质量报告图。横坐标为序列平均碱基质量值,纵坐标代表序列数量。 通过序列的平均质量报告,我们可以查看是否存在整条序列所有的碱基质量都普遍过低的情况。一般来说,当绝大部分碱基序列的平均质量值的峰值大于30 ,可以判断序列质量较好。如这里左边的图,我们可以判断样品里没有显著数量的低质量序列。但如果曲线如右边的图所示,在质量较低的坐标位置出现另外一个或者多个峰,说明测序数据中有一部分序列质量较差,需要过滤掉。3)GC 含量分布这个是 GC 含量分布报告图。GC 含量分布检查是检测每一条序列的GC 含量。将样品序列的GC 含量和理论的GC 含量分布图进行比较,用来检测样品数据是否有污染等问题。 理论上, GC 含量大致是正态分布,正态分布曲线的峰值对应基因组的GC 含量。 如果样品的GC 含量分布图不是正态分布,如右图出现两个或者多个峰值,表明测序数据里可能有其他来源的DNA 序列污染,或者有接头序列的二聚体污染。这种情况下,需要进一步确认这些污染序列的来源,然后将污染清除。4)序列碱基含量碱基含量模块是统计在序列中的每一...