机器翻译中基于语法、语义知识库的汉语词义消歧策略王惠北京大学计算语言学研究所,北京,100871摘要:词义消歧研究在自然语言处理的许多应用领域中具有重要的理论和实践意义,在机器翻译中更是如此,它直接关系到译文质量的提高。但目前已有的词义消歧系统基本上都面临着消歧知识获取的瓶颈问题。本文认为,要真正有效地提高词义知识库的质量,需要在词类划分基础上,增加词义的语法功能分析和语义搭配限制,综合利用现有的语法语义资源,提取多义词的每个意义在不同层级上的各种分布特征。以此为基础,本文提出了一种汉英机器翻译系统中基于语法、语义知识库的汉语词义消歧分析算法。初步的实验结果表明,该方法可以高质量地进行汉语名词、动词、形容词的词义消歧。关键词:词义消歧(WSD)汉英机器翻译语法词典语义词典AStudyofChineseWordSenseDisambiguationinMTBasedonGrammatical&SemanticKnowledge-basesWang,Hui(InstituteofComputationalLinguistics,PekingUniversity,Beijing100871,China)AbstractWordsensedisambiguation(WSD)playsanimportantroleinMachineTranslationandmanyotherareasofnaturallanguageprocessing.TheresearchonWSDhasgreattheoreticalandpracticalsignificance.ThemainworkinthispaperistostudywhatkindofknowledgeisusefulforWSDinsystem,andestablishamulti-levelWSDmodelbasedonsyntagmaticfeaturesandsemanticinformation,whichcanbeusedtodisambiguatewordsenseinMandarinChineseeffectively.ThemodelmakesfulluseoftheGrammaticalKnowledge-baseofContemporaryChineseasoneofitsmainmachine-readabledictionary(MRD),whichcanproviderichgrammaticalinformationfordisambiguationsuchasChineselexicon,parts-of-speech(POS)andsyntaxfunction.AnotherresourceofthemodelistheSemanticDictionaryofContemporaryChinese,whichprovidesathesaurusandsemanticcollocationinformationof68,000Chinesewords.TheresultsofthisstudyindicatethatthetwoMRDresourcesareeffectiveforwordsensedisambiguationinMTandarelikelytobeimportantforgeneralChineseNLP.Keywords:WordSenseDisambiguation,Chinese-EnglishMachineTranslation,本项研究得到国家973项目“面向新闻领域的汉英机器翻译系统”(项目号:G1998030507-4)的支持。GrammaticalKnowledge,SemanticDictionary1.引言由于自然语言中一词多义现象普遍存在,在机器翻译中,要让计算机进行准确的译文选择(translationchoice),一个重要的前提条件就是能够在某个特定上下文中,自动排除歧义,确定多义词的词义。因此,词义消歧(Wordsensedisambiguation,WSD)从50年代初期开始机器翻译研究起就一直备受计算语言学家的关注[1,2]。早期人们所使用的词义消歧知识一般是凭人手工编制的规则。由于手工编写规则费时费力,存在严重的知识获取的“瓶颈”问题。20世纪80年代以后,语言学家提供的各类词典成为人们获取词义消歧知识的一个重要知识源。Lesk、Luk根据《OxfordAdvancedLearner’sDictionary》中的释义文本来判断多义词在上下文中的词义[3,4]。Dagan和Gale利用双语对照词典来帮助多义词消歧[5,6]。Voorhees、Resnik从不同角度利用WordNet中的上下位关系、同义关系进行英语的词义消歧探索[7,8]。Yarowsky(1994)提出一种基于义类词典《Roget’sInternationalThesaurus》的词义消歧方法[9]。近年来,随着计算机存储容量和运算速度的飞速提高,通过使用各种机用资源和大规模语料库,计算机能够自动获得各种动态的搭配知识及其统计数据。因而,词义消歧研究中涌现出许多基于语料库统计的方法。比如,Gale和Church等利用双语语料库对英语多义词进行训练和测试[10]。汉语词义消歧研究从20世纪90年代以后才开始,主要是利用语义词典提供的信息。清华大学计算机系黄昌宁、童翔利用《同义词词林》中的语义分类,对汉语合成词中的单字进行语义标注[11]。此后,上海复旦大学曾使用《同义词词林》的语义中类人工标注5万语料,然后用一个二元模型进行训练和测试,进行文本标注研究。LAM(1997)利...