浅谈自然语言处理基础（下）-赢咖4注册

aihot 2020-11-12 11:21:15 OpenCV | 查看评论

　　《统计自然语言处理（第二版）》这本书里讲错了，这里我给出我自己的理解，书里给的算法步骤如下：

　　很明显的错误，初始化都把结果初始化了，那这个算法还算什么，直接等于1就完了呗。

　　这是作者对外向变量定义理解模糊的问题，上面给了外向变量的定义，里面有一句话『隐含着A会生成wiw(i+1)…wj』，那问题在于，A会生成wiw(i+1)…wj，这到底算是条件还是推论。

　　看这个算法的初始化的意思，说β1n(A)，在A=S的时候，为1，不等于S为0，意思是什么？意思就是『隐含着A会生成wiw(i+1)…wj』这句话是条件，β1n(S)已经隐含了S生成W＝w1w2…wn了，所谓的w1w2…w(i-1)Aw(j+1)…wn也就不存在了，只剩下一个S->S了，所以概率自然为1。

　　但是在第三步这个地方，作者理解成什么意思了呢？作者又把『隐含着A会生成wiw(i+1)…wj』这句话当成推论了，认为在β1n(S)，里S会生成W＝w1w2…wn是推论，那真是就正好了，要求的结果就是S生成W＝w1w2…wn，这不就结束了吗，结果就导致了这个算法第一步初始化都把结果初始化了。

　　那我的理解是什么呢，通过这个公式计算出来的β1n(S)，确实是正确的，意义实际上也是包含了『隐含着A会生成wiw(i+1)…wj』这句话是推论，但是右侧式子里由于不断递归而产生的β1n(S)，是把『隐含着A会生成wiw(i+1)…wj』这句话当条件的，所以计算上没有问题。

　　我倾向于为第三步中的β1n(S)加一个星号，以表明意义的不同。

　　书中还给了个外向变量的计算方法示意图，我觉得也是莫名其妙：

　　他说βij(A)是这两种情况的概率和，这我们知道j比i大，那这图里这个k既比i小又比j大，这不是搞笑吗。只能说图上这俩C就不是一个C，k也不是一个k。

　　那我为什么会理解成一个呢，除了字母相同，他前面还这么讲『必定运用了形如B->AC或者B->CA的规则』、『运用B->AC或者B->CA两种规则的情况』，这明显就是给人以顺序交换的误解。

　　另外，还在内向变量的使用上前后不一，可以说这本书里对外向算法的讲解是非常失败的。而且对外向算法的计算仍然需要用到内向算法的递归，那真的直接用内向算法就好了，外向算法还要多定义变量。

　　然后是第二个问题，选择句子的最佳结构，也即给定一个句子W＝w1w2…wn和文法G，
选定拥有最大概率的语法结构树。这一问题与HMM中类似，仍然采用动态规划的思想去解决。最后利用CYK算法去生成拥有最大概率的语法结构树。

　　第三个问题是给定PCFG G和句子W＝w1w2…wn，如何调节G的概率参数，使句子的概率最大，与HMM相对的，PCFG这里采用的算法名叫内外向算法。与前后向算法相同，也属于一种EM算法，其基本思想是，首先给G的产生式随机地赋予一个概率值（满足归一化条件），得到文法G0，然后根据G0和训练数据，可以计算出每条规则使用次数的期望值，用期望值进行最大似然估计，得到语法G的新参数值，新的语法记作G1，然后循环执行该过程，G的参数概率将收敛于最大似然估计值。

　　PCFG只是一种特殊的上下文无关文法模型，根据PCFG的模型和句子，具体去对句子做语法分析，生成语法结构树，靠的是还是CYK算法。CYK算法是一个用来判定任意给定的字符串W是否属于一个上下文无关文法的算法。

　　基于PCFG的句法分析模型存在有许多问题，比如因为PCFG没有对词汇进行建模，所以存在对词汇信息不敏感的问题。因此人们提出了词汇化的短语结构分析器，有效的提升了基于PCFG的句法分析器的能力。

　　而且，我们上面也提到了PCFG的三个独立性假设，这也导致了规则之间缺乏结构依赖关系（就像HMM的三个假设也不完全合理一样），而在自然语言中，生成每个非终结符的概率往往是与其上下文结构有关系的，所以有人提出了一种细化非终结符的方法，为每个非终结符标注上其父节点的句法标记信息。

5/11 首页上一页 3 4 5 6 7 8 下一页尾页

关于本站

加入我们

网站合作

标签（推荐）