转录组ref 流程工作手册 一、Reference 流程生物学原理 1.1 实验流程 RNA fragmentRandom hexamer Size selection,prokaryoteeukaryoteTotal RNAEnriched mRNA by OligoTRemove rRNA(200~700 bp)primed cDNA synthesisthen PCR amplificationSolexa Sequencing 图一:转录组实验流程 当我们得到样品时,必须对其测序,才能得到分析所需的数据。测序基本过程:提取样品总RNA 后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则用试剂盒去除rRNA 后进入下一步)。加入fragmentation bu ffer 将mRNA 打断成短片段,以mRNA 为模板,用六碱基随机引物(random hex amers)合成第一条cDNA 链,然后加入缓冲液、dNTPs、RNase H 和 DNA poly merase I合成第二条cDNA 链,在经过QiaQu ick PCR 试剂盒纯化并加EB 缓冲液洗脱之后做末端修复并连接测序接头,然后用琼脂糖凝胶电泳进行片段大小选择,最后进行 PCR 扩增,使用建好的测序文库进行测序。 得到RNA 的序列后,又可以找到它的参考序列(物种本身的基因、基因组) 时,可以用reference 流程对数据进行详细的分析。Reference 后面所有的流程都是基于参考序列进行的,所以选择正确的参考序列十分重要。 1.2 信息分析流程 得到测序序列后,即可利用比对软件,将所测序列比对到参考基因或基因组上,并进行后续分析,信息分析流程图如下: 图二:转录组信息流程 1.2.1 原始fq 序列简介 测序得到的原始图像数据经 base calling 转化为序列数据,我们称之为 raw data 或 raw reads,结果以fastq 文件格式存储,fastq 文件为用户得到的最原始文件,里面存储 reads 的序列以及 reads 的测序质量。在 fastq 格式文件中每个 read由四行描述: @read ID TGGCGGAGGGATTTGAACCC + bbbbbbbbabbbbbbbbbbb 每个序列共有4 行,第1 行和第3 行是序列名称(有的fq 文件为了节省存储空间会省略第三行“+”后面的序列名称),由测序仪产生;第2 行是序列;第4行是序列的测序质量,每个字符对应第2 行每个碱基,第四行每个字符对应的ASCII 值减去 64,即为该碱基的测序质量值,比如 h 对应的ASCII 值为104,那么其对应的碱基质量值是40。碱基质量值范围为0 到 40。表 1 为Solexa 测序错误率与测序质量值简明对应关系,具体计算公式如下: Qphred =-10 lo g10(e) 表 1 Solexa 测序错误率与测序质量值简明...