1 第三章 序列比对 1 序列比对的概念 序列比对的定义是:根据特定的计分规则,两个或多个符号序列按位置比较后排列,尽可能反映序列间的相似性,这一过程称为序列比对。 2 序列比对的意义 生物信息学形成早期的主要研究内容就是序列比对,而当时序列比对研究的课题主要是生物大分子的进化。核酸序列与蛋白质序列的突变是经实验证明的生物学现象,而现代生物学认为正是这种生物大分子序列的不断变化形成了生物进化的分子基础。即在地质年代早期的地球生物中的核酸、蛋白质等序列经过几十亿年的演变后,成为了现今极其多样化的生物大分子序列。我们并不知道这些分子序列祖先演化的实际过程,但可以找到现存序列的相似性,根据相似性去推导演化的过程。正是通过序列比对找出序列之间的相似性。序列比对找到的是相似性,可用这相似性去进行同源性分析。后文所讲到的分子系统发育分析,就是通过序列比对,再进行聚类分析,然后依据所得结果确定被测分子序列的亲缘 关 系,构 建 进化树 。 序列比对的一个用途 就是用于 搜 索 相似序列。当你 获 得一段 D N A 序列或氨基酸序列后,发现对它 一无 所知时,可以在核酸序列数 据库 中搜 索 关 于 这一序列的信息,一个有 效 的方 法 是采 用比对算 法 在数 据库 中找到一系列与该 序列有 相似性的序列,并按相似程度 由 高 到低 排列。现在应 用的多个序列搜 索 软 件 的本 质差异 基本 上 是比对算 法 的差 异 ,随 着 数 据库 规模 的扩 大,对快 速 搜 索 的要求 越 来 越高 ,而优 化比对算 法 是解 决 问 题的方 案 之一。 在基因 组 测序中,序列比对更 是有 重 要作 用。基因 组 测序一般 要将 若 干 个拷贝 的长 核酸序列打 断成有 重 叠 区 域 的许 多小 片 断,测序仪 对小 片 断进行测序,然后把 已 知碱 基排列顺 序的小 片 断用比对算 法 找到有 重 叠 区 的另 外 的片 断,把 它 们边 接 起 来 还 原 成原 来 的长 核酸序列,得到长 核酸序列的碱 基排列顺 序。 序列比对还 可以寻 找序列中的特定位点 。当一个基因 的某 一位点 发生突变时,它 与原 基因 进行比对时就能发现这个位点 ,这在寻 找致 病 基因 时尤 为重 要。同时,通过比对,可找出不同序列间一些保 守 性的区 域 ,它 们可能行使 重 要的功能。经常 ...