真核生物5’端外显子和翻译起始位点的预测PredictionofFirstExonsandTranslationInitiationSitesinEukaryoticGenomes摘要真核生物翻译起始位点(TIS,translationinitiationsites)的正确预测对于基因的正确注释有着重大的意义
本文试图通过发展和结合一些现有的算法来较好地预测出真核生物翻译起始位点
本文算法的得出主要基于三种方法自然结合
我们首先基于简单的权重矩阵方法(WMM,WeightMatrixMethod)【1】,发展了多状态信号的熵距离判别分析方法,由此可以得到一些待定ATG信号,这些信号包含了大部分的翻译起始位点
接下来,我们采用WMM找出与该ATG对应的GT信号并将它们之间的序列提出(这里ATG信号以及GT信号的定义详见正文)
通过引入模糊词汇的概念,我们发现翻译起始位点前存在某些模糊词汇,这样可以通过判断ATG信号前是否含有某个“模糊词汇”进一步选出待定ATG信号
最终我们结合了佘振苏教授提出的以统计语言学为特色的多元熵距离(multivariateentropydistance,MED)方法【2】对这些ATG信号对应的阅读框在20维空间中进行多中心聚类形成了预测翻译起始位点的完整算法并达到了较好的结果
1引言2001年2月,人类基因组计划的相关组织和机构公布了人类基因组测序草图【3】,人类基因组计划的提前完成,基因组的研究热点已转向揭示基因信息结构的复杂性与遗传语言的根本规律
其中,基因预测算法的研究也成为对基因组序列进行统计分析的重要目标
所谓基因预测,就是在对DNA序列编码潜能(codingpotentials)提出某种模式(pattern)描述的基础上,对一未知的DNA序列上完整的基因结构进行注释
对于原核生物,由于其基因结构较为简单,在基因组的DNA链上表现为一个编