aihot  2020-11-12 11:21:00  OpenCV |   查看评论   

自动分词、命名实体识别与词性标注

 

  由于词是最小的能够独立运用的语言单位,而汉语的词与词之间没有任何空格之类的显式标志指示词的边界,因此,自动分词问题就成了处理汉语文本时面临的首要基础性问题。

汉语自动分词中的基本问题

 

  简单地讲,汉语自动分词就是让计算机系统在汉语文本的词与词之间自动加上空格或其他边界标记。汉语自动分词的主要困难来自如下三个方面:分词规范、歧义切分和未登录词的识别。

 

  首先是汉语分词规范,『词是什么』、『什么是词』这两个基本问题飘忽不定,迄今拿不出一个公认的、权威的词表来。单字词与词素之间的划界、词与短语(词组)的划界,都是很难解决的问题。不同的人、普通人和语言学家之间的分词标准都有很大的差异。

 

  然后是歧义切分问题,梁南元定义了两种基本的切分歧义类型,一个是交集型切分歧义,另一个是组合型切分歧义。

 

  先说交集型切分歧义,汉字串AJB称作交集型切分歧义,如果满足AJ、JB同时为词。此时汉字串J称作交集串。比如『从小学起』可以切为『从小|学起』、『从|小学|起』。

 

  一个交集型切分歧义所拥有的交集串的集合称为交集串链,它的个数称为链长。比如『结合成分子』,『结合』、『合成』、『成分』、『分子』均成词,交集串的集合为『合、成、分』,因此链长为3。

 

  接下来是组合型切分歧义,汉字串AB称为多义组合型切分歧义,如果满足A、B、AB同时成词。比如『起身』,『他站|起|身|来』和『他|明天|起身|去北京』。还有别的例子,比如『才能』、『学生会』。而且严格定义的话,需要补充一个条件,文本中至少存在一个上下文语境C,在C的约束下,将AB切开成A、B,在语法和语义上都成立。

 

  有人还将交集型切分歧义成为偶发歧义,多义组合型切分歧义称为固有歧义。

 

  对于一些较为复杂的文本,还可能会出现交集型歧义内包含组合型歧义的情况,有人称其为混合型切分歧义。

 

  第三个是未登录词问题。未登录词又称生词(unknown word),未登录词可以有两种解释,一种是已有的词表中没有收录的词,另一个种是已有的训练语料中未曾出现过的词。由于目前的汉语自动分词系统多采用基于大规模训练语料的统计方法,所以这两种解释通常可以不用区分。

 

  未登录词可能是:

  • 新出现的普通词,比如一些最先流行在互联网上的词
  • 命名实体,比如人名、地名(包括城市名、省名、国家名等)、组织机构名、时间和数字表达
  • 专业名词和研究领域名称,比如三聚氰胺、堰塞湖
  • 其他专用名词,比如新出现的产品、电影、书籍名等等

 

  而且,在汉语分词中对命名实体词汇的识别不是只识别整个实体的左右边界,而是将命名实体中可独立成词的切分单位正确地识别出来。比如『2017年3月27日』,这是一个命名实体,但在分词时不能将其整个的作为一个实体识别出来,而是要分出『2017|年|3|月|27|日』。比如人名也要把姓和名分开。

汉语分词方法

 

  汉语自动分词问题被提出来之后,上世纪80年代及之前,人们提出过很多分词方法,比如正向最大匹配法、逆向最大匹配法、双向扫描法、逐词遍历法等。这些方法大多数都是基于词表进行的,因此,一般统称为基于词表的分词方法

 

  随着统计方法的迅速发展,人们又提出了若干基于统计模型(比如HMM和n元文法模型)的分词方法,以及规则方法与统计方法相结合的分词技术。

N-最短路径方法

 

  我们先来介绍N-最短路径方法,考虑到汉语自动分词中存在切分歧义消除和未登录词识别两个主要问题,有人提出将分词过程分为两个阶段:首先采用切分算法对句子词语进行初步切分,得到一个相对最好的粗分结果,然后,再进行歧义排除和未登录词识别。

 

  粗切分结果的准确性与包容性(即必须涵盖正确结果)直接影响后续的歧义排除和未登录词识别模块的效果,并最终影响整个分词系统的正确率和召回率。

 

  N-最短路径方法就是一个汉语词语粗分模型,基本思想是,先根据词典找到字串中所有可能的词,构造一个词语切分的有向无环图,每个词对应一条有边长(权值)的边,然后我们找出由起点到终点的所有路径中,拥有N个最小长度值的路径结果,所以得到的路径数量可能大于N。简单的来说,就是整体上尽可能多的用上词典里的词,而不是让词处于未处理的状态,因为词的边长要比组成词的字的总边长要短。

 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自浅谈自然语言处理基础(中)

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]