北京诺禾致源生物信息科技有限公司 1 转录组有参考基因组生物信息分析结题报告 获得原始测序序列(Sequenced Reads)后,并且其相应的基因组参考序列( Reference Genome )可以获得的情况下,可以用有参考基因组信息分析流程对数据进行详细的分析,分析流程图如下: 北京诺禾致源生物信息科技有限公司 2 1 . 原始序列数据 高通量测序(如Illunima HiSeqTM2000/ Miseq 等测序平台)测序得到的原始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data 或Raw Reads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。测序样品中真实数据随机截取结果如下: @HWI-ST1106:227:D14F6ACXX:1:1101:1202:2188 1:N:0:GCCAAT CGGATGATCTTCTTAATCTCTCCTTGCATAGTTATGAAACAGTCCGTGGACTTGCTGGAAAATCTCTCTTGAAGATGATGAAGAGATGGCCCTCTACAAT + CCCFFFDFFHHHHJJJJJIJIGGGIGICIGIIJEIIJIIJJI@DHEDHECFGGAHGGJGHIICGEEIEHGGGIECEEHH@HE>C@EBBE@CCDDCCCDDC @HWI-ST1106:227:D14F6ACXX:1:1101:1237:2217 1:N:0:GCCAAT GAAGGTGAGTCTGAGGAGGCCAAGGAGGGAATGTTTGTGAAAGGATATGTCTACTAAGATATTAGAAAGTATGTACTACTACTACTACTACATGTTTTCA + @@@FDADDFDHFHIIIDHIIJJJGICGGGCGHGFIGHBHEHHGI;BDHHCFGCHIIIIEHGIGHHIJJE7??ACHCDFFFFFEEECCEE>C>ACCCDC>@ @HWI-ST1106:227:D14F6ACXX:1:1101:1382:2195 1:N:0:GCCAAT TTTTGCAACAATGGCTTCCACCATGATGACTACTCTACCACAGTTCAATGGACTCAAACCCCAACCTTTCTCAGCTTCTCCAATTCAAGGCTTGGTGGCA + @@@DD3DDFFFF:CDGI@GIEEDH
@AAD;;;@@####### @HWI-ST1106:227:D14F6ACXX:1:1101:1255:2239 1:N:0:GCCAAT CGGATTTTCAAGGGCCGCCGGGAGCGCACCGGACACCACGCGACGTGCGGTGCTCTTCCAGCCGCTGGACCCTACCTCCGGCTGAGCCGATTCCAGGGTG + CCCDFFFFHHH?FHIIIJJJJJIGBEHHJJBHBDDCDAC??@@BDBBBBD8BDDCDDACC@A?@BBB@<(8>?395?4:(:<@## @HWI-ST1106:227:D14F6ACXX:1:1101:1423:2239 1:N:0:GCCAAT CTTGTATTGCTCTCCCACAACCCCGTTTTCACGGTTTAGGCTGCTCCCATTTCGCTCGCCGCTACTACGGGAATCGCTTTTGCTTTCTTTTCCTCTGGCT + CCCFDFFFHHHHHJJIJJJJJIJJGGIHIIGIIJGIGGIJJGGGJGIJ>FGIIGHGGBEHBCCBBDDD@BB@@@C::@C 北京诺禾致源生物信息科技有限公司 3...