aihot  2020-11-12 11:21:00  OpenCV |   查看评论   

  我们先给出一张更清晰的CRF的链式结构图:

CRF的链式结构图

CRF的链式结构图

 

  如果以观察序列X为条件,条件随机场中,每一个随机变量Yv都满足以下马尔可夫特性:

浅谈自然语言处理基础

  其中,w~v表示两个结点在图中是临近节点。也即,就像前面所提到的,在条件随机场中,有限历史性假设也被舍弃了,Yt不再只取决于前一时刻的临近节点Y(t-1),CRF统计了全局概率,在做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,是全局最优的解,这样就解决了MEMM中的标记偏置的问题。

 

  参考了,举一个例子,对于一个标注任务『我爱北京天安门』:假设标注为" s c b e b c e"。

对于HMM的话,其判断这个标注成立的概率为:
P= P(s转移到c)*P('我'表现为s)* P(c转移到b)*P('爱'表现为c)* ...
训练时,要统计状态转移概率矩阵和符号发射概率矩阵。

对于MEMM的话,其判断这个标注成立的概率为:
P= P(s转移到c|'我'表现为s)*P('我'表现为s)* P(c转移到b|'爱'表现为c)*P('爱'表现为c)*...
训练时,要统计条件状态转移概率矩阵和符号发射概率矩阵。

 

  前面也给出了这个图:

HMM与MEMM依存图对照

HMM与MEMM依存图对照

 

  MEMM中,除了t-1时刻的状态,当前时刻的观察输出也是当前时刻状态的决定条件。

对于CRF的话,其判断这个标注成立的概率为:
P= F(s转移到s,'我'表现为s...)
F为一个函数,是在全局范围统计归一化的概率而不是像MEMM在局部统计归一化的概率。

 

  条件随机场的条件概率公式较为复杂,这里不再给出推导过程。

 

  条件随机场也需要解决三个基本问题:特征的选取、解码和参数训练。

 

  前面提到了条件随机场就是一个马尔可夫随机场,这里简要介绍一下马尔可夫随机场与条件随机场的关系,参考了。

 

  马尔可夫一般是马尔可夫性质的简称,它指的是一个随机变量序列按时间先后关系依次排开的时候,第N+1时刻的分布特性,与N时刻以前的随机变量的取值无关。

 

  随机场包含两个要素:位置(site),相空间(phase space)。当给每一个位置中按照某种分布随机赋予相空间的一个值之后,其全体就叫做随机场。我们不妨拿种地来打个比方。『位置』好比是一亩亩农田;『相空间』好比是种的各种庄稼。我们可以给不同的地种上不同的庄稼,这就好比给随机场的每个『位置』,赋予『相空间』里不同的值。所以,俗气点说,随机场就是在哪块地里种什么庄稼的事情。

 

  然后类比马尔可夫随机场,还是拿种地打比方,如果任何一块地里种的庄稼的种类仅仅与它邻近的地里种的庄稼的种类有关,与其它地方的庄稼的种类无关,那么这些地里种的庄稼的集合,就是一个马尔可夫随机场。

 

  其实通过上文也能发现,CRF和MRF(马尔可夫随机场)的关键区别就在马尔可夫性质上,CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。

 

  个人理解,马尔可夫性质就是前面提到的有限历史性假设,CRF舍弃掉了有限历史性假设,这也就是CRF与MRF(马尔可夫随机场)的最大区别。

 

  上面的讲法可能还会有误解,看下面这张图:

浅谈自然语言处理基础

  朴素贝叶斯序列化得到HMM,Logistic回归序列化得到链式CRF,HMM与链式CRF的区别就类似于朴素贝叶斯算法与Logistic回归的区别。CRF舍弃掉了HMM的有限历史性假设、输出独立性假设,由生成模型转变为判别模型,由概率图转变为函数拟合(这句是解释力最强的,如果你真的理解朴素贝叶斯算法和Logistic回归算法的区别)。就像Logistic回归,它不再像朴素贝叶斯算法那样计算各种先验条件概率,由贝叶斯公式得到计算结果,而是整体的去做函数拟合,表示出训练集整体的联合分布概率,并对其做期望最大化,这与CRF之于HMM是相同的。

 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自浅谈自然语言处理基础(中)

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]