基于隐马尔科夫模型的词性标注于江德安阳师范学院自然语言处理小组2009 年 4 月 7 日内容提要 词性标注基于 HMM 的词性标注基于规则的词性标注后面经常用到的公式)()|()()(),()|(WPTWPTPWPWTPWTP)|()()|(TWPTPWTP,
,|()|()(2101201iiitttPtttPttPTP)|()
|()|()(11201ii ttPttPttPTP),
,,,|()|()|(11111212211wwwtttwPwwttwPtwPTWPiiiii)|()
|()|()|(2211ii twPtwPtwPTWP二元一元词性标注的任务 自然语言中一词多类的现象 把这篇报道编辑一下 把 /q-p-v-n 这 /r 篇 /q 报道 /v-n 编辑 /v-n 一 /m-c 下 /f-q-v Time flies like an arrow Time/n-v flies/v-n like/p-v an/Det arrow/n 所谓词性标注就是用计算机来自动地给文本中的词标注词类(如:名词、动词)
意义 为更高层次的自然语言文本加工提供素材 为语言学的研究,提供翔实的资料 从加工过的文本中获取词类及频度的词性标注知识词性标注的实质:寻找最优路径4×1×1×2×2×2×3 = 96 种可能性,哪种可能性最大
隐马尔可夫模型简要回顾 隐马尔可夫模型是在马尔可夫链的基础之上发展起来的
由于实际问题比马尔可夫模型所描述的更为复杂,观察到的事件并不是与状态一一对应,而是通过一组概率分布相联系,这样的模型就称为隐马尔可夫模型( HMM )
HMM 是一个双重随机过程,其中之一是马尔可夫链,这是基本随机过程,它描述状态的转移
另一个随机过程描述状态和观察值