树库的标注及应用 Anne Abeillé, ed
, 2003, Treebanks: Building and Using Parsed Corpora, Kluwer Academic Publishers
(Text, Speech and Language Technology Volume 20) 詹卫东 导读 1 学科背景及本书的定位 树库(Treebank)属于深加工语料库,是语料库语言学和自然语言处理(NLP)技术发展到相对成熟阶段的产物
宽泛而言,语言研究一直以来都离不开“语料”
但从“语料”到现代意义的“语料库”,是从二十世纪五六十年代伴随着电子计算机的应用才开始的,其发展轨迹及趋势有几个明显特点:(1)语料库规模不断扩大,类型不断多样化
(2)标注信息不断丰富
(3)应用范围不断拓宽
这些特点是跟过去半个世纪整个信息社会大环境的飞速变化和NLP 技术的进步分不开的
计算机存储能力和互联网的加速发展,使得电子化的大规模的自然语言资源越来越容易获得
从上世纪六十年代起步时的百万词级规模到八九十年代的上亿词级规模,再到今天语料库的规模已不再成为人们关心语料库的重点,不难感受到这种惊人的扩容速度
与此同时,语料也从原始形态的生语料库发展到经过多级标注(annotation)的所谓熟语料库
标注的信息从一般的词语形态信息,词类信息等很快发展到了标注句法结构、句法功能、语义角色信息等等
标注词类信息的语料库跟原始语料一样仍然保持着一维串性结构,而标注了句法结构、句法功能信息的语料库则因描述了词语(以及词组)之间的层级组合关系,成为二维的树状结构(Tree Structure ),因此这样的语料库就被称为树库
像树库这样的带标语料库的发展还明显得力于NLP 技术本身发展的推动
这一方面是NLP 技术的发展需要有树库这样的深加工语料库提供数据支持
另一方面则是由于