应用昆虫学报ChineseJournalofAppliedEntomology2013,50(1):298-304.DOI:10.7679/j.issn.2095-1353.2013.040线粒体基因组数据的分析方法和软件*李雪娟杨婧王俊红任倩俐李霞黄原**(陕西师范大学生命科学学院西安710062)摘要线粒体基因组的研究已经普及,其正确的拼接和注释是所有后续研究的基础。本文以StadenPackage软件为主介绍了拼接和注释的线粒体基因组的方法,同时介绍了其他常用的拼接软件ContigExpress、DNAMAN、DNASTAR、BioEdit和Sequencher,以及利用不同软件(包括DOGMA、MOSAS、MITOS、GOBASE、OGRe、MitoZoa、tRNAscan-SE、ARWEN、BLAST和MiTFi等)对线粒体基因组中的蛋白质编码基因、rRNA、tRNA和A+T富集区进行注释的方法,最后介绍了利用MEGA5软件分析线粒体基因组的组成、Sequin软件提交序列和线粒体基因组数据绘图工具(CGview、MTviz和OGDRAW)。关键词线粒体基因组,拼接,注释MethodsandsoftwaretoolsformitochondrialgenomeassemblyandannotationLIXue-JuanYANGJingWANGJun-HongRENQian-LiLIXiaHUANGYuan**(SchoolofLifeSciences,ShaanxiNormalUniversity,Xi’an710062,China)AbstractWiththeincreasingpopularityofmitochondrialgenomestudies,thecorrectassemblyandannotationofgenomesarethebasisofallsubsequentresearchintoaspecies.HerewedescribetheprotocolsusingStadenPackagesoftwaretoassembleandannotatethemitochondrialgenome,alongwithothercommonlyusedsoftware,suchasContigExpress,DNAMAN,DNASTAR,BioEditandSequencher.Inaddition,methodsfortheuseofdifferentsoftwarepackages(includingDOGMA、MOSAS、MITOS、GOBASE、OGRe、MitoZoa、tRNAscan-SE、ARWEN、BLASTandMiTFi)toannotatemitochondrialgenomicprotein-codinggenes,rRNA,tRNAandtheA+Tregionarebrieflyintroduced.Finally,applicationofMEGA5softwaretoanalyzethecompositionofmitochondrialgenomes,SequinsoftwaretosubmitsequencestoGenBank,andmitochondrialgenomedatavisualizationtools(CGview、MTvizandOGDRAW)arealsobrieflyintroduced.Keywordsmitochondrialgenome,assembly,annotation*资助项目:国家自然科学基金(31172076,30970346)。**通讯作者,E-mail:yuanh@snnu.edu.cn收稿日期:2012-12-21,接受日期:2012-12-261引言线粒体基因组数据广泛应用于系统与进化生物学、群体遗传学和保护生物学等许多生物学研究领域。随着测序技术的快速发展和测序费用的下降,大量的线粒体基因组序列被很快测出,拼接和注释这些线粒体基因组是所有下游系统分析的先决条件。本文综述了目前可以利用的线粒体基因组拼接、注释、提交和绘图方法和软件。线粒体基因组分析工具基本上可以分为本地和在线服务器二种,许多软件都是只能完成分析流程中的部分工作。StadenPackage(Bonfieldetal.,1995)是可以安装在本地计算机上进行拼接和注释的测序项目管理软件包,主要由Pregap4、Trev、Gap4和Spin等模块组成,可以进行序列拼接、突变检测、序列注释和对序列峰图及读序文件进行操作等。其中,Pregap4是Gap4的前处理,可以处理原始的峰图文件,对序列进行载体和污染检查,同时也可以进行Gap4组装。经Pregap4处理所得到的结果,可以通过Gap4来进行查看和编1期李雪娟等:线粒体基因组数据的分析方法和软件·299·辑。组装后的序列以*.seq格式输出用于在Spin中线粒体序列的注释。本文主要以该软件为主介绍对线粒体基因组序列进行拼接和注释的方法,同时介绍了线粒体基因组常用的其他拼接软件ContigExpress、DNAMAN、DNASTAR、BioEdit和Sequencher,以及利用不同软件对线粒体基因组中的蛋白质编码基因、rRNA、tRNA和A+T富集区进行注释的方法,最后介绍了序列提交软件Sequin和线粒体基因组数据绘图工具。2线粒体基因组序列的拼接序列拼接是将测序生成的短读序片段通过重叠部分连接形成较长的片段,这样的较长片段称为叠连群(contig)。DNA测序数据的固有特点(测序有误差、不完全覆盖性、序列所在链不确定)重复序列的干扰是解决实际序列拼接问题...