ICTCLAS 基于隐马尔科夫模型提出了层叠隐马尔科夫模型(CHMM),CHMM 实际上是若干个层次的简单HMM 组合,各层隐马尔科夫模型之间以以下几种方式相互关联:各层HMM之间共享一个切分词图作为公共数据结构(见下图),每一层隐马尔科夫模型都采用N-Best策略,将产生的最好的若干个结果送到此图中供更高层次的模型使用
该 CHMM 由低到高依次为:原子切分,简单未登录词识别,嵌套未登录词识别,这几层中共享二元切分词图,并在每层对该数据结构进行修改,使得传递给基于类地隐马分词的参数越来越准确,最后一层为隐马词性标注
马尔可夫链模型: 使用最广泛的描述类相关性的模型是马尔可夫链准则
如果wi1,wi2,…,wiN 是一个类的序列,则马尔可夫模型假设 1211(|,,
,)(|)ikikikiikikP wwwwp ww 它的意思是类相关性仅局限于两个连续的类,这种模型也称为一阶马尔可夫模型,以区别它的一般形式(二阶、三阶等)
换言之,已知观察值xk-1,xk-2,… ,x1 分别属于类wi k-1,wi k-2,…,wi,在k 阶段的观察值xk 属于类wi k 的概率仅依赖与在k-1 阶段产生观察值xk-1 的类
12()(,,
,)iiiiNpp www 111211(|,
,) (|,
()iNiNiiNiNiip wwwp wwwp w 得出 112()()(|)Niiikikkpp wp ww 其中P(wi1)是类wi,i1∈{1,2,…,M}的先验概率
另外,两个普遍采用的假设是:(a)已知类地序列,观察值在统计上是独立的;(b)某类的概率密度函数不依赖其他类
也就是说依赖性仅仅存在于产生类地序列,而在类内,观察值服从类自己的规则
这个假设意味着 12(|)(,,
,|)iNip Xp x xx