浅谈自然语言处理基础（下）-赢咖4注册

aihot 2020-11-12 11:21:15 OpenCV | 查看评论

　　它们的基本流程类似，在研究中一般都假定谓词是给定的，所要做的就是找出给定谓词的各个论元，也就是说任务是确定的，找出这个任务所需的各个槽位的值。其流程一般都由4个阶段组成：

　　候选论元剪除的目的就是要从大量的候选项中剪除掉那些不可能成为论元的项，从而减少候选项的数目。

　　论元辨识阶段的任务是从剪除后的候选项中识别出哪些是真正的论元。论元识别通常被作为一个二值分类问题来解决，即判断一个候选项是否是真正的论元。该阶段不需要对论元的语义角色进行标注。

　　论元标注阶段要为前一阶段识别出来的论元标注语义角色。论元标注通常被作为一个多值分类问题来解决，其类别集合就是所有的语义角色标签。

　　最终，后处理阶段的作用是对前面得到的语义角色标注结果进行处理，包括删除语义角色重复的论元等。

基于短语结构树的语义角色标注方法

　　首先是第一步，候选论元剪除，具体方法如下：

将谓词作为当前结点，依次考察它的兄弟结点：如果一个兄弟结点和当前结点在句法结构上不是并列的关系，则将它作为候选项。如果该兄弟结点的句法标签是介词短语，则将它的所有子节点都作为候选项。
将当前结点的父结点设为当前结点，重复上一个步骤，直至当前结点是句法树的根结点。

　　举个例子，候选论元就是图上画圈的：

　　经过剪除得到候选论元之后，进入论元识别阶段，为分类器选择有效的特征。人们总结出了一些常见的有效特征，比如谓词本身、路径、短语类型、位置、语态、中心词、从属类别、论元的第一个词和最后一个词、组合特征等等。

　　然后进行论元标注，这里也需要找一些对应的特征。然后后处理并不是必须的。

基于依存关系树的语义角色标注方法

　　该语义角色标注方法是基于依存分析树进行的。由于短语结构树与依存结构树不同，所以基于二者的语义角色标注方法也有不同。

　　在基于短语结构树的语义角色标方法中，论元被表示为连续的几个词和一个语义角色标签，比如上面图给的『事故原因』，这两个词一起作为论元A1；而在基于依存关系树的语义角色标注方法中，一个论元被表示为一个中心词和一个语义角色标签，就比如在依存关系树中，『原因』是『事故』的中心词，那只要标注出『原因』是A1论元就可以了，也即谓词-论元关系可以表示为谓词和论元中心词之间的关系。

　　下面给一个例子：