1(载《中国英语教育》2007年第3期
)“兰卡斯特汉语语料库”介绍1许家金(北京外国语大学中国外语教育研究中心,北京100089,北京)提要:本文介绍“兰卡斯特汉语语料库”(简称LCMC)的取样方案、文本构成、标注体系和应用方面的概况
该语料库是依照英国英语语料库FLOB的取样方案和规模创建的可比汉语语料库,适合开展英、汉语对比研究,同时也适合汉语研究
关键词:汉语语料库;LCMC;对比研究1
0前言“兰卡斯特汉语语料库”(TheLancasterCorpusofMandarinChinese,简称LCMC)系旅英学者肖忠华博士创建的现代汉语平衡语料库
该语料库严格按照FLOB(Freiburg-LOBCorpusofBritishEnglish)模式编制,它的建成有助于开展基于语料库的汉语单语或汉英(英汉)双语对比研究及汉语研究
0LCMC语料库概况LCMC语料库是一个100万词次(按每1
6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库
起先建立时,它是作为英国经社研究委员会资助项目ContrastingTenseandAspectinEnglishandChinese的部分成果
肖忠华最初的设想是要将其建成同FLOB和FROWN对应的现代汉语语料库
筹建这样的一个语料库的另一个动因是:尽管已经有很多汉语语料库存在,但却没有一个完全免费对公众开放的平衡的汉语语料库2
1取样模式与文本收集考虑到LCMC主要做对比研究之用,肖忠华创建语料库之初就确定了对比的对象
一方面,在短期内想要建成像BNC那样的逾亿词次的语料库并不现实
另一方面,要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本
于是,最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上
鉴于同时还有与FLOB对应的美国英语语料