电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

2024年RNASeq测序数据分析服务流程试运行VIP免费

2024年RNASeq测序数据分析服务流程试运行_第1页
1/15
2024年RNASeq测序数据分析服务流程试运行_第2页
2/15
2024年RNASeq测序数据分析服务流程试运行_第3页
3/15
北京大学生科院/CLS生物信息平台RNA-Seq测序数据分析服务流程(试运行2015.3平台联系人:李程(lch3000@gmail.com文档撰写:张超TableofContents1.测序质量评估(31.1测序数据过滤(31.2质量值分布(31.3GC含量分布(42.参考序列比对(43.基因表达水平(63.1基因表达水平定量(63.2基因表达水平分步(63.3生物学重复相关性分析(63.4样本间层次聚类及PCA分析(74.差异基因分析(74.1基因表达标准化(74.2差异基因列表(84.3差异基因可视化(84.4差异基因聚类(95.差异表达基因功能分析(105.1GO富集分析(105.2信号通路富集分析(105.3癌基因功能注释(116.基因结构差异分析(116.1可变剪切分析(117.SNP分析(127.1SNP检测(127.2SNP筛选(127.3GO/KEGG富集(121.测序质量评估通过测序的数据进行进行质控,保证数据质量适合下游分析。这里我们使用fastqc和RNA-SeQC来对数据进行质量评定。1.1测序数据过滤测序得到的原始下机数据往往有许多问题,不能直接使用,通常会经过以下过滤,尽量保证测序数据的质量。a.去除带测序接头的测序序列(reads;b.去除低质量的reads1.2质量值分布按照现有的测序技术(illumina平台单碱基的错误率应控制在1%以下,即质量值在20以上。横坐标为reads的碱基位置,纵坐标为单碱基质量值质量值与错误率的关系:Q=-10log10(e;其中Qphred为测序碱基质量值,e为测phred序错误率。1.3GC含量分布对于RNA测序,鉴于序列通过超声随机打断,所以理论上每个测序循环上的C、G及A、T含量应分布相等,并且CG-content对于每个物种应大致相同。横坐标为reads的碱基位置,纵坐标为各种碱基的不同比例2.参考序列比对对于通过质量控制的数据,可以进行后续分析。首先需要将cleanreads比对到参考基因组上。由于测序时reads是随机的,只有这些reads的碱基信息和质量信息,没有其在基因组上的位置信息,比对这一步就是给所有reads一个在基因组上位置的信息。在RNA测序中,其实测的是cDNA的序列,由于内含子的存在,所以会较常出现一条read跨内含子的情况,tophat2可以较好的处理这种情况,所以我们选用tophat2来做比对。比对率间接反应了测序的质量和建库的质量,若比对率低,很可能建库时混入了其他物种的序列,导致无法比对到研究的物种参考基因组上。reads比对到基因上的位置统计:SampleIntragenicRateExonicRateIntronicRateIntergenicRateSplitReadsExpressionProfilingEfficiencyTranscriptsDetectedGenesDetected1BJ0.8850.7380.1470.1149,910,0100.73832,79615,434(1Sample:样本名(2IntragenicRate:比对到基因内的reads比例(3ExonicRate:比对到外显子的reads比例(4IntronicRate:比对到内含子的reads比例(5IntergenicRate:比对到基因间区的reads比例(6SplitReads:比对到两外显子交接处的reads数(7ExpressionProfilingEfficiency:比对到外显子上的reads占总体的比例(8TranscriptsDetected:比对上reads数大于5的转录本数(9GenesDetected:比对上reads数大于5的基因数3.基因表达水平3.1基因表达水平定量在RNA-seq分析中,我们可以通过定位到基因组区域或基因外显子区的reads的计数来估计基因的表达水平。Reads计数除了与基因的真实表达水平成正比外,还与基因的长度和测序深度成正相关。为了使不同基因、不同实验间估计的基因表达水平具有可比性,人们引入了RPKM的概念,RPKM(ReadsPerKilobasesperMillionreads是每百万reads中来自某一基因每千碱基长度的reads数目。RPKM同时考虑了测序深度和基因长度对reads计数的影响,是目前最为常用的基因表达水平估算方法(Mortazavietal.,2008。Gene_IDSample1Sample2Sample3Sample4Sample5Sample6ENSG0000000000349.3246.9448.9122.5120.6022.95ENSG0000000041935.9234.5833.6932.8035.6532.73ENSG000000004571.340.941.192.062.132.26ENSG000000004601.191.201.223.003.333.06(1Gene_ID:En...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

2024年RNASeq测序数据分析服务流程试运行

您可能关注的文档

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部