RNA-Seq 数据分析 从原始的数据开始,进行reads 回帖,到拼接转录本,计算表达量,分析差异表达,最后可视化分析结果
TopHat 是一 个把 reads 回帖到基因组上的工具
首先用 Bowtie 把 reads回帖到基因组上,然后通过拼接,我们就可以在基因组上看到一些 reads 堆叠起来的 区域,称为 consensus,这些 consensus 可能是一个真的外显子,也有可能是几个外显子拼在一起的,或者一些别的情况
我们知道,经典的剪切 位点一般都有GT 和 AG 这样的序列标志,在 consensus 的边界和内部,TopHat 会去找这样的剪切位点,并且得到他们可能的组合
然后对于那些没 有被 Bowtie 贴到基因组上的reads,TopHat 会对他们建立索引,去和这些可能的剪切位点比对,这样就把跨越剪切位点的reads 准确地贴到基 因组上
一些比较重要的命令行选项
关于插入片段长度的选项:在RNA-Seq 中,会把mRNA 打断成小的片段,然后对片段长度进行iding 筛选后拿去测序,如果选择的片段长度是300bp,两端各测序75bp 的reads,中间的插入片段长度就应该设为150bp
下面是设置插入片段长度的标准差,如果选择的片段长度比较集中,这个值可以设置的小一些,反之应该设置得大一些
-G 选项是提供哦呢一个已有的注释文件
如果你分析的基因组被注释得比较好了,最好能够提供这个文件, 这时 TopHat 就会先把reads 往转录组上贴,没有贴到转录组上的再往基因组上贴,最后把结果合并起来
我们知道大多数的转录组都是比基因组小得多的,而且junction reads 可以直接贴到转录本上,所以这样回帖的效力和准确度都可以 得到提高
标准的Illumina 平台是不分链的,我们无法知道配对的reads 哪个方向和转录本一致,哪个和