兰开斯特汉语语料库介绍VIP免费

下载本文档

阅读 163
下载 14
格式 pdf
大小 43.66 KB
约4页
2024-11-20 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/4页

2/4页

3/4页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

1（载《中国英语教育》2007年第3期。）“兰卡斯特汉语语料库”介绍1许家金（北京外国语大学中国外语教育研究中心，北京100089，北京）提要：本文介绍“兰卡斯特汉语语料库”（简称LCMC）的取样方案、文本构成、标注体系和应用方面的概况。该语料库是依照英国英语语料库FLOB的取样方案和规模创建的可比汉语语料库，适合开展英、汉语对比研究，同时也适合汉语研究。关键词：汉语语料库；LCMC；对比研究1.0前言“兰卡斯特汉语语料库”（TheLancasterCorpusofMandarinChinese，简称LCMC）系旅英学者肖忠华博士创建的现代汉语平衡语料库。该语料库严格按照FLOB（Freiburg-LOBCorpusofBritishEnglish）模式编制，它的建成有助于开展基于语料库的汉语单语或汉英（英汉）双语对比研究及汉语研究。2.0LCMC语料库概况LCMC语料库是一个100万词次（按每1.6个汉字对应一个英文单词折算）的现代汉语书面语通用型平衡语料库。起先建立时，它是作为英国经社研究委员会资助项目ContrastingTenseandAspectinEnglishandChinese的部分成果。肖忠华最初的设想是要将其建成同FLOB和FROWN对应的现代汉语语料库。筹建这样的一个语料库的另一个动因是：尽管已经有很多汉语语料库存在，但却没有一个完全免费对公众开放的平衡的汉语语料库2。2.1取样模式与文本收集考虑到LCMC主要做对比研究之用，肖忠华创建语料库之初就确定了对比的对象。一方面，在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面，要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本。于是，最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于同时还有与FLOB对应的美国英语语料库Frown的存在，LCMC建成以后也可与美国英语进行比较。最后，确定下来的方案是按FLOB的构建模式，从15个文体类型（见表1）中选取500篇2,000词左右的样本。样本的出版日期基本在1991年前后。LCMC的筹建基本上是严格按照FLOB的取样模式进行，只在两个方面做了微调。第一、FLOB的取样范畴中，肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武侠小说”。一方面由于中国没有所谓的“西部小说”，另一方面，“武侠小说”和“西部和历险小说”从内容性质上同属一类，且在中国这一类小说中数量众多，因此有充足理由将其收入LCMC中。表1：LCMC取样范畴表代码取样类型代码取样类型A新闻报道J学术、科技B社论K一般小说C新闻评论L侦探小说D宗教M科幻小说2E技术、商贸N武侠小说F通俗社会生活P爱情小说G传记和杂文R幽默H其他：报告和公文等第二、由于受到文本来源的制约，肖忠华将样本的出版年代扩大至1991年前后各两年（即1989到1993年）的跨度范围（详见表2）。他认为前后两年的幅度并不会影响整个语料的同质性。为保证取样内容的同质性，LCMC中选取的都是中国大陆的出版物。该语料库是书面语语料库，选取文本时碰到图表一般使用替代。为了保证所选文字是原汁原味的汉语，如果在选文中遇到较长的译文或不是1989到1992年期间的引文，也采用来替代，以避免翻译腔和时间跨度上的不一致。LCMC中的电子文本除了部分取自互联网，其他大部分语料取自超星图书馆（http://www.ssreader.com）。肖忠华将超星图书馆提供的PDG格式的电子文本经过OCR识别后转换成文本文件，由此产生的1-3%的识别错误率再加以人工校对。超星图书馆是一个巨大的数字图书馆，但少有新闻报刊，因此，LCMC中新闻文体有三分之一的内容用的是新华社新闻（取自GuoJin编写的PH3语料库）。表2：LCMC的取样时间跨度取样类型19891990199119921993A——22.7%72.7%2.3%2.3%B7.4%14.8%51.9%3.70%22.2%C——5.9%88.2%5.9%——D5.9%17.6%41.2%11.8%23.5%E——23.7%44.7%10.5%21.1%F6.8%25%29.513.6%25%G1.3%10.4%64.9%16.9%6.5%H————100%————J1.2%7.5%72.5%17.5%1.3%K————79.3%13.8%6.9%L——8.3%62.5%16.7%12.5%M————100%————N3.4%13.8%48.3%31.1%3.4%P10.3%6.9%55.2%20.7%6.9%R————44.4%22.2%33.3%在计算LCMC语料库的规模时，经测算，采用了1汉字：1英文单词=1:1.6的计算方法。于是将FLOB的2,000字的样本大小折合...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

兰开斯特汉语语料库介绍

1（载《中国英语教育》2007年第3期

）“兰卡斯特汉语语料库”介绍1许家金（北京外国语大学中国外语教育研究中心，北京100089，北京）提要：本文介绍“兰卡斯特汉语语料库”（简称LCMC）的取样方案、文本构成、标注体系和应用方面的概况

该语料库是依照英国英语语料库FLOB的取样方案和规模创建的可比汉语语料库，适合开展英、汉语对比研究，同时也适合汉语研究

关键词：汉语语料库；LCMC；对比研究1

0前言“兰卡斯特汉语语料库”（TheLancasterCorpusofMandarinChinese，简称LCMC）系旅英学者肖忠华博士创建的现代汉语平衡语料库

该语料库严格按照FLOB（Freiburg-LOBCorpusofBritishEnglish）模式编制，它的建成有助于开展基于语料库的汉语单语或汉英（英汉）双语对比研究及汉语研究

0LCMC语料库概况LCMC语料库是一个100万词次（按每1

6个汉字对应一个英文单词折算）的现代汉语书面语通用型平衡语料库

起先建立时，它是作为英国经社研究委员会资助项目ContrastingTenseandAspectinEnglishandChinese的部分成果

肖忠华最初的设想是要将其建成同FLOB和FROWN对应的现代汉语语料库

筹建这样的一个语料库的另一个动因是：尽管已经有很多汉语语料库存在，但却没有一个完全免费对公众开放的平衡的汉语语料库2

1取样模式与文本收集考虑到LCMC主要做对比研究之用，肖忠华创建语料库之初就确定了对比的对象

一方面，在短期内想要建成像BNC那样的逾亿词次的语料库并不现实

另一方面，要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本

于是，最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上

鉴于同时还有与FLOB对应的美国英语语料

爱的疯狂 + 关注: 实名认证
内容提供者

该用户很懒，什么也没介绍

收藏店铺进入空间

兰开斯特汉语语料库介绍VIP免费

兰开斯特汉语语料库介绍

您可能关注的文档

相关文档

热门下载

相关标签