aihot  2017-11-29 14:06:16  机器学习 |   查看评论   

  共指消解问题的早期研究成果主要来自自然语言处理领域,近年来统计机器学习领域的学者越来越多的参与到这项工作中。

  基于自然语言处理的共指消解是以句法分析为基础的,代表方法是Hobbs算法向心理论(centering theory)。Hobbs算法是最早的代词消解算法之一,主要思路是基于句法分析树进行搜索,因此适用于实体与代词出现在同一句子中的场景,有一定的局限性。

  向心理论的基本思想是:将表达模式(utterance)视为语篇(discourse)的基本组成单元,通过识别表达式中的实体,可以获得当前和后续语篇中的关注中心(实体),根据语义的局部连贯性和显著性,就可以在语篇中跟踪受关注的实体。

  随着统计机器学习方法被引入该领域,共指消解技术进入了快速发展阶段,McCarthy等人首次将C4.5决策树算法也被应用于解决共指消解问题。

  除了将共指消解问题视为分类问题之外,还可以将其作为聚类问题来求解。聚类法的基本思想是以实体指称项为中心,通过实体聚类实现指称项与实体对象的匹配。其关键问题是如何定义实体间的相似性测度。Turney基于点互信息来求解实体所在文档的相似度,能够有效的实现共指消解。

  基于统计机器学习的共指消解方法通常受限于2个问题:训练数据的(特征)稀疏性和难以在不同的概念上下文中建立实体关联。为解决该问题,Pantel等人基于Harris提出的分布相似性模型,提出了一个新的实体相似性测度模型,称为术语相似度(term similarity),借助该模型可以从全局语料中得到所有术语间的统计意义上的相似性,据此可以完成实体合并,达到共指消解的目的。

知识合并

  在构建知识图谱时,可以从第三方知识库产品或已有结构化数据获取知识输入。

  常见的知识合并需求有两个,一个是合并外部知识库,另一个是合并关系数据库

  将外部知识库融合到本地知识库需要处理两个层面的问题:

  • 数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实例以及关系的冲突问题,造成不必要的冗余
  • 通过模式层的融合,将新得到的本体融入已有的本体库中

  然后是合并关系数据库,在知识图谱构建过程中,一个重要的高质量知识来源是企业或者机构自己的关系数据库。为了将这些结构化的历史数据融入到知识图谱中,可以采用资源描述框架(RDF)作为数据模型。业界和学术界将这一数据转换过程形象地称为RDB2RDF,其实质就是将关系数据库的数据换成RDF的三元组数据。

知识加工

  通过信息抽取,可以从原始语料中提取出实体、关系与属性等知识要素,再经过知识融合,可以消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。然而事实本身并不等于知识,要想最终获得结构化,网络化的知识体系,还需要经历知识加工的过程。知识加工主要包括3方面内容:本体构建知识推理质量评估

本体构建

  本体(ontology)是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化的方式对概念及其之间的联系给出明确定义。本体最大的特点在于它是共享的,本体反映的知识是一种明确定义的共识。

  本体是同一领域内的不同主体之间进行交流的语义基础。本体是树状结构,相邻层次的节点(概念)之间有严格的『IsA』关系。在知识图谱中,本体位于模式层,用于描述概念层次体系,是知识库中知识的概念模板。

  本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以以数据驱动的自动化方式构建本体,其包含3个阶段:实体并列关系相似度计算实体上下位关系抽取以及本体的生成

  实体并列关系相似度适用于考察任意给定的两个实体在多大程度上属于同一概念分类的指标测度,相似度越高,表明这2个实体越有可能属于同一语义类别。所谓并列关系,是相对于纵向的概念隶属关系而言的。

  实体上下位关系抽取是用于确定概念之间的隶属(IsA)关系,这种关系也称为上下位关系。

  本体生成阶段的主要任务是对各层次得到的概念进行聚类,并对其进行语义类的标定(为该类的中的实体指定1个或多个公共上位词)。

  当前主流的实体并列关系相似度计算方法有两种:模式匹配法分布相似度。其中,模式匹配法采用预先定义实体对模式的方法,通过模式匹配取得给定关键字组合在同一语料单位中共同出现的频率,据此计算实体对之间的相似度。分布相似度方法的前提假设是:在相似的上下文管径中频繁出现的实体之间具有语义上的相似性。

 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自浅谈知识图谱基础

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]