高通量测序错误总结一、生信分析部分1)Q20/Q30 碱基质量分数与错误率是衡量测序质量的重要指标,质量值越高代表碱基被测错的概率越小
Q30 代表碱基的正确判别率是99
9% ,错误率为0
同时我们也可以理解为 1000 个碱基里有 1 个碱基是错误的
Q20 代表该位点碱基的正确判别率是99% ,错误率为 1%
对于整个数据来说,我们可以认为100 个碱基里可能有一个是错误的, 在碱基质量模块报告的坐标图中,背景颜色沿y- 轴将坐标图分为3 个区:最上面的绿色是碱基质量很好的区,Q 值在 30 以上
中间的橘色是碱基质量在一些分析中可以接受的区,Q 值在 20-30 之间
最下面红色的是碱基质量很差的区
在一些生信分析中,比如以检查差异表达为目的的RNA-seq分析,一般要求碱基质量在Q 在 Q20 以上就可以了
但以检查变异为目的的数据分析中,一般要求碱基质量要在Q30 以上
一般来说,测序质量分数的分布有两个特点:1
测序质量分数会随着测序循环的进行而降低
有时每条序列前几个碱基的位置测序错误率较高,质量值相对较低
在图中这个例子里,左边的数据碱基质量很好,而右边的数据碱基质量就比较差,需要做剪切( trimming), 根据生信分析的目的不同,要将质量低于Q20 或者低于Q30的碱基剪切掉
2)序列的平均质量这个是碱基序列平均质量报告图
横坐标为序列平均碱基质量值,纵坐标代表序列数量
通过序列的平均质量报告,我们可以查看是否存在整条序列所有的碱基质量都普遍过低的情况
一般来说,当绝大部分碱基序列的平均质量值的峰值大于30 ,可以判断序列质量较好
如这里左边的图,我们可以判断样品里没有显著数量的低质量序列
但如果曲线如右边的图所示,在质量较低的坐标位置出现另外一个或者多个峰,说明测序数据中有一部分序列质量较差,需要过滤掉
3)GC 含量分布