生物信息学: 1)生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科; 2)它综合运用了数学、计算机学和生物学的各种工具来进行研究; 3)目的在于阐明大量生物学数据所包含的生物学意义
BLAST( Basic Local Alignment Search Tool) 直译:基本局部排比搜索工具 意译:基于局部序列排比的常用数据库搜索工具 含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库 3
PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST 和 FASTA 的相似序列发现率
一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息
HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列
(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列
信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点
非信息位点:对于最大简约法来说没有意义的点
标度树:分支长度与相邻节点对的差异程度成正比的树
非标度树:只表示亲缘关系无差异程度信息
有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其他任何节点
无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根节点
注释:指从原始序列数据中获得有用的生物学信息
这主要是指在基因组DNA 中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)
聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法