下载后可任意编辑语言学分析技术探究语言学分析技术探究 机器翻译实现过程中会涉及到形态自动分析方法、各种句法分析、语义分析等分析方法,是机器翻译译文质量的关键环节
形态自动分析 形态自动分析主要包括词例还原、词目还原、词性标注和词性消歧四步骤
词例还原是指自动分割出一个句子当中所有的单词
英文中,词与词之间一般会有空格隔开,分割并非难事
假如是汉语,词例还原用自动分词方法即可
通过词例还原以后,句子当中符号串变成词例串,便利了形态分析过程
词目还原是把词的变体形式还原成单词词典存储形式
这里词目是指变体形 式 单 词 , 例 如 把 复 数 形 式 单 词 还 原 成 单 数 形 式 ( 如 translators- translator),把动词的过去式或进行式改回动词原形(如 translated-translate),把形容词的比较级改为没有比较级时候形式(如 easier-easy)
词性标注是指为每个单词指派一个词类或词汇类别进行标记
词性标注与词目还原均是形态分析最重要内容,同时词性标注在语音识别技术与信息检索技术中发挥重要作用
词性标注难度大,歧义单词较多
值得庆幸的是,40%歧义单词可以消除歧义
词性消歧是指消除词的歧义性,具体是指词多义性,多时态性
自动句法分析 自动句法分析方法很多,例如基于上下文无关语法、基于特征结构、基于依存语法、基于转移网络等,简要介绍一下基于转移网络自动句法分析
转移网络主要包括递归转移网络和扩充转移网络两种
由于语言中嵌套结构比较复杂,有限状态转移网络难以处理这种情况,所以必须对有限状态转移网络做一些改进,便出现了递归性转移网络
递归性网络是有限转移网络扩充来的,是把单个弧用一个弧串表示,再用子网络表示这个弧串
然后通过子网1下载后可任意编辑络的名称来调用并遍历此弧串,从而变成递归性网络
递归性转移网络自身局限性是