树库的标注及应用 Anne Abeillé, ed., 2003, Treebanks: Building and Using Parsed Corpora, Kluwer Academic Publishers. (Text, Speech and Language Technology Volume 20) 詹卫东 导读 1 学科背景及本书的定位 树库(Treebank)属于深加工语料库,是语料库语言学和自然语言处理(NLP)技术发展到相对成熟阶段的产物。宽泛而言,语言研究一直以来都离不开“语料”。但从“语料”到现代意义的“语料库”,是从二十世纪五六十年代伴随着电子计算机的应用才开始的,其发展轨迹及趋势有几个明显特点:(1)语料库规模不断扩大,类型不断多样化。(2)标注信息不断丰富。(3)应用范围不断拓宽。这些特点是跟过去半个世纪整个信息社会大环境的飞速变化和NLP 技术的进步分不开的。计算机存储能力和互联网的加速发展,使得电子化的大规模的自然语言资源越来越容易获得。从上世纪六十年代起步时的百万词级规模到八九十年代的上亿词级规模,再到今天语料库的规模已不再成为人们关心语料库的重点,不难感受到这种惊人的扩容速度。与此同时,语料也从原始形态的生语料库发展到经过多级标注(annotation)的所谓熟语料库。标注的信息从一般的词语形态信息,词类信息等很快发展到了标注句法结构、句法功能、语义角色信息等等。标注词类信息的语料库跟原始语料一样仍然保持着一维串性结构,而标注了句法结构、句法功能信息的语料库则因描述了词语(以及词组)之间的层级组合关系,成为二维的树状结构(Tree Structure ),因此这样的语料库就被称为树库。像树库这样的带标语料库的发展还明显得力于NLP 技术本身发展的推动。这一方面是NLP 技术的发展需要有树库这样的深加工语料库提供数据支持。另一方面则是由于NLP 技术的进步反过来大大提高了树库加工的效率,减低了人工成本,使得树库加工成为切实可行的一项工作。从上世纪九十年代开始,NLP 的主流技术从基于规则的方法开始纷纷转向基于统计的方法,在这样的背景下,来自真实语料的语言统计数据逐渐取代以往由人工归纳的语言学专家知识,成为 NLP 应用系统所依赖的主要知识源。在词类标注、句法分析、机器翻译等许多 NLP 技术的相关评测中,基于统计方法的系统都取得了更胜一筹的成绩,从而吸引了更多的研究人员来推进这种数据驱动型 NLP 技术的研究。尽管构建树库是相对成本比较高的语言工程,但受到英语树库的成功鼓舞,从上世纪九十年代中后期开始,其他语种也...