第五章多序列比对农业与生物学院张利达zhangld@sjtu.edu.cn什么是多序列比对?•3条或以上的氨基酸(核酸)序列比对;•序列所有残基的相对位置保持不变,将不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐;•对齐的残基在进化上同源。多序列比对的应用•用于描述一组序列之间的相似性关系,寻找保守区域,了解一个基因家族的基本特征。•用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。多序列比对的渐进比对过程简单过程:1.先对所有的序列进行两两比对并计算它们相似性得分,并根据相似性分值将它们分成若干组2.然后,逐渐地加上较小相关的序列或者序列组合…,直到得到最终比对结果。渐进法多序列比对——ClustalW/X1.对所有序列两两全局比对(Needleman-Wunsch算法),计算得到一个距离矩阵,该矩阵反映每对序列的关系;2.用距离矩阵构建比对指导树;3.根据指导树的分支顺序,关系最近的两序列开始比对,由近至远,逐步添加序列,直到所有序列全部加入为止。ClustalW/X多序列比对步骤1S1AKRSCDS2TKMRSEDS3AKRSDS4TKRSED•两两全局比对,构建序列距离矩阵6组序列两两全局比对S1S2S3S4S1-S250-S38040-S4666660-4条序列两两比对数:(3)(4)/2=6N条序列两两比对数:(N-1)(N)/2ClustalW/X多序列比对步骤1•两两全局比对,构建序列距离矩阵S1S2S3S4S1-S20.5-S30.20.6-S40.340.340.4-序列相似性得分转换成序列距离S1S2S3S4S1-S250-S38040-S4666660-ClustalW/X多序列比对步骤2S2S4S1S3•根据序列关系矩阵,构建指导树(guidetree)1.ClustalW/X生成的指导树表明序列间的距离关系;2.指导树并非序列系统进化树。S1S2S3S4S1-S20.5-S30.20.6-S40.340.340.4-ClustalW/X多序列比对步骤3S1AKRSCDS3AKRS-DS4TK-RSEDS2TKMRSEDS1AK-RSCDS3AK-RS-DS2TKMRSEDS4TK-RSED•根据指导树的分支顺序,由近至远,逐步聚类,直到全部序列比对完成比较关系最近序列对比较下一对关系最近序列对比较两组复合序列的间隔对缺口的最优比对对(S1S3)和(S2S4)最优化比对出现的新缺口ClustalW/X处理空位的原则:序列比对中一旦出现空位补齐,该空位就不会因后续序列的加入而改变,最终保留下来体现在的完成的多序列对齐的结果中(onceagap,alwaysagap)。ClustalW/X的空位原则S1AK-RSCDS3AK-RS-DS2TKMRSEDS4TK-RSED这些空位一般产生在多序列的最初阶段(关系最近的两序列比对)ClustalW/X:存在的问题•最终的比对结果非常依赖起始两两序列比对,如果这些序列在进化中相近,比对结果是非常好。——例如,距离最近的有两组序列AB和CD,以AB为准,加入CD,然后再加上其他序列,还是CD为准,最终结果可能出入很大•当序列差异较大时,依赖起始两两比对更加明显。例如1.三条序列:2.Seq1,2先比对,再加入Seq3:3.Seq1,3先比对,再加入Seq2:4.Seq2,3先比对,再加入Seq1:Seq1:ARKCVSeq2:ARCVSeq3:AKCVARKCVAR-CVA-KCVARKCVA-RCVA-KCVARKCVAR-CVAK-CVClustalX:使用指南FASTA序列格式,多序列>humanmgdvekgkkifimkcsqchtvekggkhktgpnlhglfgrktgqapgysytaanknkgiiwgedtlmeylenpkkyipgtkmifvgikkkeeradliaylkkatne>chimpanzeemgdvekgkkifimkcsqchtvekggkhktgpnlhglfgrktgqapgysytaanknkgiiwgedtlmeylenpkkyipgtkmifvgikkkeeradliaylkkatne>monkeygdvekgkkifimkcsqchtvekggkhktgpnlhglfgrktgqapgysytaanknkgitwgedtlmeylenpkkyipgtkmifvgikkkeeradliaylkkatne>rabbitgdvekgkkifvqkcaqchtvekggkhktgpnlhglfgrktgqavgfsytdanknkgitwgedtlmeylenpkkyipgtkmifagikkkderadliaylkkatne>mousemgdvekgkkifvqkcaqchtvekggkhktgpnlhglfgrktgqaagfsytdanknkgitwgedtlmeylenpkkyipgtkmifagikkkgeradliaylkkatne>piggdvekgkkifvqkcaqchtvekggkhktgpnlhglfgrktgqaagfsytdanknkgitwgedtlmeylenpkkyipgtkmifagikkkgeradliaylkkatne>whalegdvekgkkifvqkcaqchtvekggkhktgpnlhglfgrktgqavgfsytdanknkgitwgeetlmeylenpkkyipgtkmifagikkkgeradliaylkkatne>camelgdvekgkkifvqkcaqchtvekggkhktgpnlhglfgrktgqavgfsytdanknkgitwgeetlmeylenpkkyipgtkmifagikkkgeradliaylkkatne>chickenmgdiekgkkifvqkcsqchtv...