第四章 DNA 序列分析 4-1 序列比较的生物学基础 构成生命的基本单位是蛋白质。 蛋白质由20 种氨基酸组成的多肽折叠而成。 分子生物学的中心法则 DNA 由4 种脱氧核苷酸组成:ATGC DNA 和RNA 的重要特征:互相配对 遗传密码——三联子, 4 种核苷酸组成64 个三联密码子。 4-1 序列比较的生物学基础 形成6 个开放读码框 由于氨基酸是由三联密码子编码的,因此 DNA 序列就包含三个不同的开放读码框,取决于从第一、第二或第三位核苷酸开始(第四位和第一位同框)。而双链 DNA 的两条链都可以转录 RNA,后者翻译蛋白质。因此,一个 DNA 序列及其互补链可以有 6 个不同的读码框(reading frames)。 4-1 序列比较的生物学基础 序列测定 可以用化学方法测定蛋白质的氨基酸序列以及 DNA 和RNA 的核苷酸序列。可是,就目前来说,测定 DNA 的核苷酸序列比测定 RNA 序列和蛋白质序列容易的多。由于蛋白质序列可以由编码它的DNA 序列推导出来,许多已知的蛋白质序列其实就是从 DNA 序列推导出来的。将 mRNA 转为 DNA(cDNA)是一个简单的实验技术,因此 RNA 分子的序列通常是以 cDNA序列测定的。 序列分析其实就是从已知蛋白质、RNA、DNA 序列作出生物学推论的过程。 4-2 序列分析面临的问题 技术欠缺 DNA 非编码区比编码区多 编码区不连续:内含子、外显子 mRNA 非编码区、tRNA、SnRNA 从 DNA 序列推导蛋白质序列 从蛋白质序列推导结构和功能 二级结构:alpha helix、beta sheet 超级二级结构、三级结构、四级结构 为什么结构命名如此复杂? 结构决定功能、实验方法欠缺 蛋白质三级结构推导的基础 目前不能从结构推导功能 4-2 序列分析面临的问题 技术欠缺。 尽管从理论上来说,知道一个蛋白质的序列后,完全可以推导出它的特性,可是目前的生物学技术还远远不能做到这一点。当前的序列分析手段实际能做的与希望做到的还相去甚远。下面就谈谈序列分析困难在哪里。 由于蛋白质序列测定的困难,目前大多数的蛋白质序列其实都是由编码它的 DNA推导出来的。遗憾的是,从 DNA 转录 RNA 再翻译蛋白质的细胞学途径所具有的特点使这种推导难度大增。 4-2 序列分析面临的问题 DNA 非编码区比编码区多。 许多蛋白质是由一个片段的 DNA 编码的,所以当分析 DNA 序列时,生物学家只需要知道蛋白质编码区从哪里开始,到哪里结束。然而在人类基因组中情况就不是那么简单了,因为人类...