1(载《中国英语教育》2007年第3期。)“兰卡斯特汉语语料库”介绍1许家金(北京外国语大学中国外语教育研究中心,北京100089,北京)提要:本文介绍“兰卡斯特汉语语料库”(简称LCMC)的取样方案、文本构成、标注体系和应用方面的概况。该语料库是依照英国英语语料库FLOB的取样方案和规模创建的可比汉语语料库,适合开展英、汉语对比研究,同时也适合汉语研究。关键词:汉语语料库;LCMC;对比研究1.0前言“兰卡斯特汉语语料库”(TheLancasterCorpusofMandarinChinese,简称LCMC)系旅英学者肖忠华博士创建的现代汉语平衡语料库。该语料库严格按照FLOB(Freiburg-LOBCorpusofBritishEnglish)模式编制,它的建成有助于开展基于语料库的汉语单语或汉英(英汉)双语对比研究及汉语研究。2.0LCMC语料库概况LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库。起先建立时,它是作为英国经社研究委员会资助项目ContrastingTenseandAspectinEnglishandChinese的部分成果。肖忠华最初的设想是要将其建成同FLOB和FROWN对应的现代汉语语料库。筹建这样的一个语料库的另一个动因是:尽管已经有很多汉语语料库存在,但却没有一个完全免费对公众开放的平衡的汉语语料库2。2.1取样模式与文本收集考虑到LCMC主要做对比研究之用,肖忠华创建语料库之初就确定了对比的对象。一方面,在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面,要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本。于是,最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于同时还有与FLOB对应的美国英语语料库Frown的存在,LCMC建成以后也可与美国英语进行比较。最后,确定下来的方案是按FLOB的构建模式,从15个文体类型(见表1)中选取500篇2,000词左右的样本。样本的出版日期基本在1991年前后。LCMC的筹建基本上是严格按照FLOB的取样模式进行,只在两个方面做了微调。第一、FLOB的取样范畴中,肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武侠小说”。一方面由于中国没有所谓的“西部小说”,另一方面,“武侠小说”和“西部和历险小说”从内容性质上同属一类,且在中国这一类小说中数量众多,因此有充足理由将其收入LCMC中。表1:LCMC取样范畴表代码取样类型代码取样类型A新闻报道J学术、科技B社论K一般小说C新闻评论L侦探小说D宗教M科幻小说2E技术、商贸N武侠小说F通俗社会生活P爱情小说G传记和杂文R幽默H其他:报告和公文等第二、由于受到文本来源的制约,肖忠华将样本的出版年代扩大至1991年前后各两年(即1989到1993年)的跨度范围(详见表2)。他认为前后两年的幅度并不会影响整个语料的同质性。为保证取样内容的同质性,LCMC中选取的都是中国大陆的出版物。该语料库是书面语语料库,选取文本时碰到图表一般使用替代。为了保证所选文字是原汁原味的汉语,如果在选文中遇到较长的译文或不是1989到1992年期间的引文,也采用来替代,以避免翻译腔和时间跨度上的不一致。LCMC中的电子文本除了部分取自互联网,其他大部分语料取自超星图书馆(http://www.ssreader.com)。肖忠华将超星图书馆提供的PDG格式的电子文本经过OCR识别后转换成文本文件,由此产生的1-3%的识别错误率再加以人工校对。超星图书馆是一个巨大的数字图书馆,但少有新闻报刊,因此,LCMC中新闻文体有三分之一的内容用的是新华社新闻(取自GuoJin编写的PH3语料库)。表2:LCMC的取样时间跨度取样类型19891990199119921993A——22.7%72.7%2.3%2.3%B7.4%14.8%51.9%3.70%22.2%C——5.9%88.2%5.9%——D5.9%17.6%41.2%11.8%23.5%E——23.7%44.7%10.5%21.1%F6.8%25%29.513.6%25%G1.3%10.4%64.9%16.9%6.5%H————100%————J1.2%7.5%72.5%17.5%1.3%K————79.3%13.8%6.9%L——8.3%62.5%16.7%12.5%M————100%————N3.4%13.8%48.3%31.1%3.4%P10.3%6.9%55.2%20.7%6.9%R————44.4%22.2%33.3%在计算LCMC语料库的规模时,经测算,采用了1汉字:1英文单词=1:1.6的计算方法。于是将FLOB的2,000字的样本大小折合...