电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

英汉翻译模板的标准化方案及其应用-中国科学院计算技术研究VIP免费

英汉翻译模板的标准化方案及其应用-中国科学院计算技术研究_第1页
1/5
英汉翻译模板的标准化方案及其应用-中国科学院计算技术研究_第2页
2/5
英汉翻译模板的标准化方案及其应用-中国科学院计算技术研究_第3页
3/5
英汉翻译模板的标准化方案及其应用1李玉鑑北京工业大学,计算学机学院,多媒体与智能软件技术北京市重点实验室,北京100022E-mail:liyujian@bjut.edu.cn摘要:在机器翻译系统中,模板可以作为一种知识表示的方法,其规模的大小和组织的策略将极大地影响系统的整体性能。本文对英汉翻译模板的标准化问题进行了探讨,提出了一个初步方案,并将其应用于英汉翻译系统的设计与实现中,取得了初步的成功,验证了该方案的可行性,从而为在大规模模板库的基础上开发高质量的英汉翻译系统提供了可能性。在2005年举行的863评测中,本文开发的英汉翻译系统达到的水平:对话翻译人工评测忠实度和流利度分别为73.62和68.16篇章翻译人工评测忠实度和流利度分别为41.16和31.45。关键词:机器翻译;翻译模板;标准化中图分类号:T391.2AStandardizationStrategyofEnglish-ChineseTranslationTemplatesandItsApplicationsLiYujianCollegeofComputerScienceandTechnology,BeijingUniversityofTechnology,Beijing100022,ChinaBeijingMunicipalKeyLaboratoryforMultimediaandIntelligentSoftwareTechnologyE-mail:liyujian@bjut.edu.cnAbstract:Inmachinetranslationsystems,templatescanbeusedasaknowledgerepresentationmethod,theirscaleandorganizationwillgreatlyinfluencethewholesystem’sperformance.ThispaperstudiesthestandardizationproblemofEnglish-Chinesetranslationtemplatesandpresentsaninitialstrategyforit.ByapplyingittodesignandimplementasomewhatsuccessfulEnglish-Chinesetranslationsystem,weshowthatthestrategyisusefulandpracticable,anditprovidespossibilitiestodevelophigh-qualityEnglish-Chinesetranslationsystemsbasedonalargescaleoftemplatelibrary.Inthe“863”evaluationof2005,theEnglish-Chinesetranslationsystemofthispaperreachesscoresof73.62Adeqand68.16Fleufor“dialogtest”aswellas41.16Adeqand31.45Fleufor“articletest”.Keywords:machinetranslation,translationtemplate,standardization1.引言现有的机器翻译方法主要分为基于规则[1-4]、基于统计[5-11]和基于例子[12-14]这三种。但是由于自然语言的极端复杂性,目前还没有一种分析策略能够彻底解决机器翻译系统所涉及的各种难题。为了综合利用这三种方法的优点,同时克服各自所存在的问题,一种常用办法是把多种翻译策略有机地集成在一起,以实现各种策略之间的优势互补,改善系统的性能[15-17]。在机器翻译的研究中,除了综合集成多种策略外,另一种重要方法是加大处理粒度[18],其基本思想是利用单义的语块(Chunk)代替多义的单词,并给以中心词的标注,目的是为了简化处理的句型,化解机器翻译的歧义问题。基于语块的方法是近年来在自然语言领域兴起的一条新思路[19],目前关于单语语块的研究已经取得大量成果[21-24]。一个可以代替Chunk进行机器翻译的概念是模板(Template)。简单的说,模板可以看作是一个带有变量的Chunk,而Chunk则可以看作一种不带变量的模板。用模板代替Chunk,可以使很多Chunk合并成一个模板,因此模板在语料库中出现的频率要比作为其特例的Chunk大。所以,为了刻划一个语料库中的语言现象,所需要的模板数量将远远少于所需要的Chunk数量,虽然一个模板具有的歧义可能要比一个Chunk的歧义多,但是常常可以消解模板中单个词的多种歧义。本文讨论了模板的定义,对英汉翻译1北京市自然科学基金资助项目(No.4052005)、北京市教委科技发展项目(No.Km200310005013)第1作者信息:李玉鑑,男,1968年生,博士,副教授,主要研究方向为自然语言处理、模式识别、生物信息学模板的标准化问题进行了探讨,同时提出了一个初步方案,并通过结合句法分析技术和模板匹配替换通用算法将其应用于英汉翻译系统的设计与实现中,取得了初步的成功,验证了该方案的可行性,从而为在大规模英汉翻译模板库的基础上开发高质量的英汉翻译系统提供了可能性。2.模板的定义和说明在各种自然语言中都存在许多被反复使用的模板结构,抽象地说,模板可以看作具有一定稳定性的语言认知结构。每...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

英汉翻译模板的标准化方案及其应用-中国科学院计算技术研究

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部