基因序列分析(4 页)Good is good, but better carries it.精益求精,善益求善。基因序列分析核酸和蛋白质序列分析 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验讨论。通过染色体定位分析、内含子/外显子分析、ORF 分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG 岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控讨论提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步推断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验讨论方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推举网址已建立超级链接,放在北京大学人类疾病基因讨论中心网站( ),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是 mRNA 序列还是基因组序列?是计算机拼接得到还是经过 PCR 扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以 Needleman-Wunsch 算法和 Smith-Waterman 算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用 BLAST、FASTA 等局部比对工具进行序列对数据库的搜索外,我们还推举使用 EMBOSS 软件包中的 Needle 软件(),和 Pairwise BLAST ()。 以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。 (1)BLAST 和 FASTA FASTA()和 BLAST()是目前运用较为广泛的相似性搜索工具。这两个工具都采纳局部比对的方法,选择计分矩阵对序列计分,通过分值的大小...