下载后可任意编辑语言学分析技术探究语言学分析技术探究 机器翻译实现过程中会涉及到形态自动分析方法、各种句法分析、语义分析等分析方法,是机器翻译译文质量的关键环节。 形态自动分析 形态自动分析主要包括词例还原、词目还原、词性标注和词性消歧四步骤 。 词例还原是指自动分割出一个句子当中所有的单词。英文中,词与词之间一般会有空格隔开,分割并非难事。假如是汉语,词例还原用自动分词方法即可。通过词例还原以后,句子当中符号串变成词例串,便利了形态分析过程。 词目还原是把词的变体形式还原成单词词典存储形式。这里词目是指变体形 式 单 词 , 例 如 把 复 数 形 式 单 词 还 原 成 单 数 形 式 ( 如 translators- translator),把动词的过去式或进行式改回动词原形(如 translated-translate),把形容词的比较级改为没有比较级时候形式(如 easier-easy)。 词性标注是指为每个单词指派一个词类或词汇类别进行标记。词性标注与词目还原均是形态分析最重要内容,同时词性标注在语音识别技术与信息检索技术中发挥重要作用。 词性标注难度大,歧义单词较多。值得庆幸的是,40%歧义单词可以消除歧义。词性消歧是指消除词的歧义性,具体是指词多义性,多时态性。 自动句法分析 自动句法分析方法很多,例如基于上下文无关语法、基于特征结构、基于依存语法、基于转移网络等,简要介绍一下基于转移网络自动句法分析。 转移网络主要包括递归转移网络和扩充转移网络两种。由于语言中嵌套结构比较复杂,有限状态转移网络难以处理这种情况,所以必须对有限状态转移网络做一些改进,便出现了递归性转移网络。递归性网络是有限转移网络扩充来的,是把单个弧用一个弧串表示,再用子网络表示这个弧串。然后通过子网1下载后可任意编辑络的名称来调用并遍历此弧串,从而变成递归性网络。递归性转移网络自身局限性是该网路不能处理好词序调整问题。有时候源语言与目标语言的词序恰好相反,例如源语言修饰词在前,但是目标语言的修饰词在后,这时候必须要把相应修饰词对应起来,这样一来在网络一侧分析源语言的修饰词,在网络另一侧还要生成对应目标语言的修饰词。显然,这要增加弧才能处理这个问题,假如修饰词不止一个,那么递归性网络分析变得很复杂。其实解决这个问题关键在于对源语言前置修饰词翻译的时候,对所修饰的名词进行翻译成目标语言所对应名词之后,把翻译的修饰词置于目标语言名词之后。 ...