生物信息学现状和重要研究方向生物信息学现状和重要研究方向 一 . 什么是生物信息学? Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. 它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。 (The U.S. Human Genome Project: The First Five Years FY 1991-1995, by NIH and DOE) 从美国的三个国家计划说起:曼哈顿计划;阿婆罗计划;人类基因组计划。 破译人类遗传密码就要读懂由 30 亿符号组成的 100万页的“天书”计算机运算速度 : 18 个月增长一倍 ;DNA 序列数据 : 14 个月增长一倍 ; 近年来近年来 GenBankGenBank 中的中的 DNADNA 碱基数目呈指数增加,大约每碱基数目呈指数增加,大约每 1414 个个月增加一倍。到月增加一倍。到 19991999 年年 1212 月其数目已达月其数目已达 3030 亿,它们来自亿,它们来自4700047000 种生物。种生物。 20002000 年年 44 月月 DNADNA 碱基数目是碱基数目是 6060 亿。现亿。现在,在, 20012001 年初这一数目已达年初这一数目已达 110110 亿。亿。各种生物的各种生物的 ESTEST 序列已达序列已达600600 多万条,其中人类的多万条,其中人类的 ESTEST 序列已超过序列已超过 300 300 万条,估计覆盖万条,估计覆盖人类基因人类基因 9090 %以上;%以上; UniGeneUniGene 的数目约达的数目约达 77 万个;万个;自自 19991999 年年初单核苷酸多态性初单核苷酸多态性 ( ( SNPsSNPs,Single Nucleotide ,Single Nucleotide Polymorphisms )Polymorphisms ) 数据库出现以来,到数据库出现以来,到 20002000 年年 33 月月 2020 日日 SNPSNP 的的总数是总数是 2656926569 ,现在已超过,现在已超过 350350 万万;;自全长自全长 1.8Mb1.8Mb 的嗜血流感的嗜血流感杆菌(杆菌( Haemophilus influenzaeHaemophilus influenzae Rd Rd )基因组序列于)基因组序列于 19951995 年年发表(发表( Fleischmann et al.Fleischmann et al. ,, 19951995 )以来,)以来,已有已有 5454 个模式生个模式生物的完整基因组被测序完成,它们中有物的完整基因组被测序完成,它们中有 99 个古细菌、...