aihot  2020-11-12 11:21:00  OpenCV |   查看评论   

  首先式子左侧的是条件概率,a就是『待消歧问题的结果』,b就是『上下文条件』,这个条件概率就是最大熵模型所要描述的概率分布,即知道在特定上下文条件下,某待消歧问题的结果。

 

  然后式子的右侧就是所谓的『最不确定或最大随机的推断』了,我们选择所建模型中所有与已知样本中的概率分布相吻合的概率分布中熵最大的推断作为最终的结果,P就是这些符合条件的模型的集合。

 

  我们建的模型中p(b)的概率分布必须符合已知训练样本中的概率分布,所以我们直接代入已知训练样本中的概率分布,也即式子中带了估计符号的p(b)

 

  其实上面那个式子就是我们需要求最大值的目标函数,接下来的问题就是如何确定所建模型中所有与已知样本中的概率分布相吻合的概率分布的集合P。

 

  最大熵模型也说,在已知部分信息的前提下,关于未知分布最合理的推断应该是符合已知信息最不确定或最大随机的推断,那什么叫做『符合已知信息』?

 

  符合已知信息也即,所建立模型的概率分布应该与已知样本中的概率分布相吻合(这里用的是联合概率分布),而我们通过所建立模型中『特征』的期望值和已知样本中『特征』的期望值作比较。如果特征对于模型是有用的,那这两个期望值应当是相等的。

 

  而且我们往往选择不止一个特征,比如,我们选取k种在建模过程中对输出有影响的特征,分别表示出这k种特征下所建立模型中『特征』的期望值和已知样本中『特征』的期望值,
令其相等,那么也就相应的产生了k个约束条件,符合k条已知信息。

 

  这样,问题就变成了在满足k个约束条件下求解目标函数的最优解的问题,而拉格朗日乘子法可以用于解决这一问题。也即如下式:

浅谈自然语言处理基础

  接下来是最大熵模型的训练,最大熵模型训练的任务就是选取有效的特征f以及权重λ。由于可以利用歧义点所在的上下文信息(如词形、词性、窗口大小等)作为特征条件,而歧义候选往往也有多个,因此各种特征条件和歧义候选可以组合成很多特征函数,必须对其进行筛选。

 

  比如从候选特征集中选择那些训练数据中出现频次超过一定阈值的特征,或者利用互信息作为评价尺度从候选特征集中选择满足一定互信息要求的特征等等。

 

  而对于权重参数λ,最开始的训练方法是通用迭代算法(Generalized Iterative Scaling,GIS),GIS实际上是一个典型的期望最大化算法(EM),简单的说,就是在第零次迭代时,在遵循限制条件的前提下任意的初始化参数λ,然后用第N次迭代的模型来估算训练数据中的分布。如果超过了实际的,就把相应的参数减小,否则,将他们变大。重复这个过程直到收敛。

 

  GIS算法每次的迭代时间都很长,需要迭代很多次才能收敛,而且不太稳定,所以在实际应用中很少有人使用。改进迭代算法IIS(Improved Iterative Scaling)等,在GIS的基础上进行了优化,不过计算量仍然非常巨大。

最大熵马尔可夫模型

 

  最大熵马尔可夫模型(maximum-entropy Markov model,MEMM)又称条件马尔可夫模型(conditional Markov model,CMM)。它结合了隐马尔可夫模型和最大熵模型的共同特点,被广泛应用于处理序列标注问题。

 

  McCallum认为,在HMM模型中存在两个问题,一个是,在很多序列标注任务中,尤其是不能枚举观察输出时,需要用大量的特征来刻画观察序列。比如识别一个公司名的时候,除了通过单词,还要考虑到大写字母、结尾词、词性、格式、在文本中的位置等。也就是说,我们需要用特征对观察序列输出进行参数化。

 

  然后是,在很多自然语言处理任务中,需要解决的问题是在已知观察序列的情况下求解状态序列,HMM采用生成式的联合概率模型P(ST,OT)来求解这种概率问题,这种方法不适合处理用很多特征描述观察序列的情况。为此,MEMM直接采用条件概率模型P(ST|OT)(所以MEMM不是一种生成式模型),从而使观察输出可以用特征表示,借助最大熵模型进行特征选取。

 

  下图展示了HMM和MEMM的区别:

HMM与MEMM依存图对照

HMM与MEMM依存图对照

 

  在上一篇我们说过HMM有三个假设:

  • 有限历史性假设:也即一阶马尔可夫模型,认定t时刻出现的状态只与t-1时刻的状态有关
  • 齐次性假设:假定P(s(i+1)|si)=P(s(j+1),sj)
  • 输出独立性假设:假定输出仅与当前状态有关

 

  其中包括输出独立性假设,认为当前时刻的观察输出只取决于当前状态,而在MEMM中,当前时刻的观察输出还可能取决于前一时刻的状态,MEMM解决了HMM输出独立性假设的问题。实际上,MEMM也舍弃了齐次性假设,不再用生成式的联合概率模型P(ST,OT)来求解,而是直接采用条件概率模型P(ST|OT)。

 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自浅谈自然语言处理基础(中)

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]