浅谈自然语言处理基础（下）-赢咖4注册

aihot 2020-11-12 11:21:15 OpenCV | 查看评论

命名实体识别

　　命名实体的提出源自信息抽取问题，即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息，而人名、地名、组织机构名、时间和数字表达式结构化信息的关键内容，所以需要从文本中去识别这些实体指称及其类别，即命名实体识别和分类。

　　21世纪以后，基于大规模语料库的统计方法成为自然语言处理的主流，以下是基于统计模型的命名实体识别方法归纳：

基于CRF的命名实体识别方法

　　基于CRF的命名实体识别方法简便易行，而且可以获得较好的性能，广泛地应用于人名、地名和组织机构等各种类型命名实体的识别，可以说是命名实体识别中最成功的方法。

　　其基本思路是，将给定的文本首先进行分词处理，然后对人名、简单地名和简单组织机构名进行识别，最后识别复合地名和复合组织机构名，复合指嵌套关系。

　　基于CRF的命名实体识别方法属于有监督的学习方法，因此需要利用已标注的大规模语料对CRF模型的参数进行训练。

　　在训练阶段，首先需要将分词语料的标记转化成用于命名实体序列标注的标记。接下来要做的事情是确定特征模板，特征模板一般采用当前位置的前后2~3个位置上的字串及其标记作为构成特征模型的符号。而且由于不同的命名实体一般出现在不同的上下文语境中，因此对于不同的命名实体（如中国人名、日本人名、欧美人名、俄罗斯人名）识别一般采用不同的特征模板。我们由特征得到特征函数，且不同的特征之间可以组合。

　　特征函数确定以后，剩下的工作就是训练CRF模型参数了。

基于多特征的命名实体识别方法

　　在命名实体识别中，无论采用哪一种方法，都是试图发现和利用实体所在的上下文特征和实体的内部特征，只不过特征的颗粒度有大（词性和角色级特征）有小（词形特征）的问题。考虑到大颗粒度特征和小颗粒度特征有互相补充的作用，应该兼顾使用的问题，多特征相融合的汉语命名实体识别方法被提出了。

　　该方法是在分词和词性标注的基础上进一步进行命名实体的识别，由词形上下文模型、词性上下文模型、词形实体词模型和词性实体词模型4个子模型组成的。

　　其中，词形上下文模型估计在给定词形上下文语境中产生实体的概率；词性上下文模型估计在给定词性上下文语境中产生实体的概率；词形实体模型估计在给定实体类型的情况下词形串作为实体的概率；词性实体模型估计在给定实体类型的情况下词性串作为实体的概率

　　系统性能表现主要通过准确率、召回率和F-测度3个指标来衡量。准确率和召回率在前面的文章中讲过了，这里说一下F-测度：

　　F-测度综合考虑了准确率和召回率。

词性标注

　　词性（part-of-speech）是词汇基本的语法属性，通常也称为词类。词性标注就是在给定句子中判定每个词的语法范畴，确定其词性并加以标注的过程，是中文信息处理面临的重要基础性问题。

基于统计模型的词性标注方法

　　我们可以基于HMM去实现词性标注方法，实现基于HMM的词性标注方法中，模型的参数估计是其中的关键问题，也就是HMM的第三个问题，当时我们讲可以随机地初始化HMM的所有参数，但是，这将使词性标注问题过于缺乏限制。

　　因此，通常利用词典信息约束模型的参数。假设输出符号表由单词构成（即词序列为HMM的观察序列），如果某个对应的『词汇-词性标记』没有被包含在词典中，那该词汇被标记为该词性标记的概率就为0；如果存在，那该词汇被标记为某词汇标记的概率为其所有可能被标记的所有词性个数的倒数：

　　然后我们根据训练语料给定词性标记生成词的概率，我们思考一下，如何根据训练语料来合理的估计模型概率，对于某词性标记j生成词wl的概率，分子我们用词wl出现的次数乘以该词汇被标记为该词汇标记的概率，分母是在训练语料范围内，所有词被标记为该词汇标记的概率乘以该词出现的次数。某词性标记j生成词wl的概率，也即下式：