aihot  2020-11-12 11:21:00  OpenCV |   查看评论   

层次化的隐马尔可夫模型

  在自然语言处理等应用中,由于处理序列具有递归特性,尤其当序列长度比较大时,HMM的复杂度将会急剧增大,因此层次化隐马尔可夫模型(HHMM)被提出了。

  我们知道HMM是由两个随机过程构成的,而HHMM是由多层随机过程构成的。在HHMM中每个状态就是一个独立的HHMM,因此一个HHMM的状态就产生一个观察序列,而不是一个观察符号。HHMM通过状态递归地产生观察序列,一个状态可以激活下层状态中的某个状态,而被激活的状态又可以再激活下层的状态,直至到达某个特定的状态,这一递归过程结果。该特定状态成为生产状态,只有生产状态才能通过常规的HMM机制,即根据输出符号的概率分布产生可观察的输出符号。不直接产生可观察符号的隐藏状态称作内部状态,不同层次之间的状态转移叫垂直转移,同一层次上状态之间的转移叫做水平转移。特殊的终止状态负责控制转移过程返回到激活该层状态转移的上层状态。

  这一递归过程将形成一个生产状态序列,而每个生产状态生成一个观察输出符号,因此生产状态序列将为顶层状态生成一个观察输出序列,HHMM的树状结构如图所示:

HHMM的树状结构

HHMM的树状结构

  最上面的q1就是一个能产生一个观察序列的HHMM状态,而q1产生的这个结构也是一个独立了HHMM,图中画双圈的就是终止状态,用于控制转移过程返回到激活该层状态的上层状态。其它状态为内部状态。终止状态与生产状态不同,图中并没有画出生产状态。

  为了避免误解,我特意找了另一张HHMM的图对比着来看:

HHMM

HHMM

  图中画双圈的是终止状态,能够输出符号的是生产状态,不能输出符号且不是终止状态的被叫做内部状态。

  像HMM一样,HHMM中也有三个基本问题,第一个就是快速地计算观察序列的概率,第二个就是求解模型最有可能的状态序列,第三个就是在给定一个HHMM的结构和一个或多个观察序列的条件下,估计模型的最优参数。

马尔可夫网络(马尔可夫随机场)

  前面其实是讲过马尔可夫模型的,马尔可夫网络不同于马尔可夫模型,我们来回顾一下前面的图:

常见的概率图模型

常见的概率图模型

  我们知道马尔可夫模型和隐马尔科夫模型HMM都是有向图模型,而马尔可夫网络是无向图模型。

  马尔可夫网络和贝叶斯网络有类似之处,也可用于表示变量之间的依赖关系,但它又与贝叶斯网络有所不同。一方面它可以表示贝叶斯网络无法表示的一些依赖关系,如循环依赖;另一方面,它不能表示贝叶斯网络能够表示的某些关系,如推导关系。

一个简单的无向图

一个简单的无向图

  马尔可夫网络是一组有马尔可夫性质的随机变量的联合概率分布模型,由一个无向图G(如上图)和定义在G上的势函数组成。

  无向图的每个顶底表示一个随机变量,每条边表示两个随机变量之间的依赖关系。

  首先简单说一下什么是子图,假设有两个图,如果第二个图的顶点都是第一个图的顶点,第二个图的边也都是第一个图的边,那么第二个图就是第一个图的子图。

  如果一个子图任意两个顶点都有边相连,那么这个子图就是一个完全子图,一个完全子图又称为一个团,一个团的完全子图叫子团。

  因为图是无向的,所以我们不能用条件概率对模型进行参数化,而是使用团势能函数或简称势函数进行参数化,每个团都对应一个势函数,表示团的一个状态。

  我们的目的是什么?是对无向图进行参数化,得到概率分布,进而描述出整个马尔科夫网络。拿上面的那个简单的无向图举例,这个图可以拆成两个团,一个是XC1 = {x1, x2},另一个是XC2 = {x1, x3, x4},这个马尔可夫网络H的分布概率PΦ(x1, x2, x3, x4)可以由这两个团的团势能函数Φ(XC)进行因子化,PΦ(x1, x2, x3, x4)可以看做是这个马尔可夫网络H的一个吉布斯分布:

浅谈自然语言处理基础

  Z是归一化常量,称为划分函数,不重要。

  那然后我们只需要确定每个团的团势能函数Φ(XC)了。我们一般将团势能函数Φ(XC)定义为:Φ(XC) = exp{-E(XC)},其中-E(XC)叫做团XC的能量函数。

  这样我们就得到了整个图模型的吉布斯分布。而且因为式子里是连乘,我们可以通过取对数,将因子化的乘积运算转变为加法运算:

浅谈自然语言处理基础

最大熵模型

  前面讲熵的时候我们就提到过最大熵模型,它的基本原理是:在只掌握关于未知分布的部分信息的情况下,符合已知知识的概率分布可能有多个,但使熵值最大的概率分布最真实的反映了事件的分布情况,因为熵定义了随机变量的不确定性,当熵最大时,随机变量最不确定,最难准确地预测其行为。也就是说,在已知部分信息的前提下,关于未知分布最合理的推断应该是符合已知信息最不确定或最大随机的推断。

  最大熵模型的推导比较复杂,这里尽量不列公式,而是侧重于把原理讲清楚。

  这里我们先引入特征的概念,简单的说,就是一个待消歧问题可能的候选结果与上下文信息的一个对应关系。就是在怎样的上下文条件下,这个待消歧问题的结果是什么。

 

  最大熵模型说,在已知部分信息的前提下,关于未知分布最合理的推断应该是符合已知信息最不确定或最大随机的推断,实际上就是下面这个式子:

浅谈自然语言处理基础

 1/7    1 2 3 4 5 6 下一页 尾页
 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自浅谈自然语言处理基础(中)

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]