Digital World

知识图谱前沿技术课程暨学术研讨会(北理工站 2018-03-10)会议记录

2018/03/11 Share

这是一场主题为知识图谱的学术讨论会,会议通知

知识图谱前沿课程介绍

作为组织方的北理工大数据学习中心做开场白,介绍了这几年,北理工在大数据学习方面的努力,系列课程、讲座,同学们的自组织学习以及成果展示。
也预告了今年的教学安排。觉得在北理工的学习环境挺好的,有点羡慕呀。

知识图谱与认知智能

主讲人:肖仰华@复旦大学计算机学院
肖老师的讲解偏向背景介绍,介绍了这场讨论的主题,引入了为什么要做知识图谱的研究,穿插介绍了其他嘉宾的话题与知识图谱的关系。还介绍了复旦知识工场的工作。

计算智能–>感知智能–>认知智能

计算智能指规则明确特定领域的数据分析优化,感知智能指类似人的视觉语音信号处理感知能力,认知智能指能够理解人的语言进行推理和解释
回顾最近几年人工智能发展的热潮,机器在计算智能、感知智能领域已经超越了人类。依靠大数据、运算能力带来的红利已经不再明显,这些领域的性能提升遇到天花板。
要进一步提升,需要给计算机提供更多常识与现实世界的知识,人们开始重新关注认知智能。而知识图谱,则是给机器提供知识的一项核心工作。
接下来,介绍了几个知识图谱的使用场景。包含:搜索、推荐、解释、自然人机交互、深层关系发现、推理。
其中一个是智能推荐,通过构建场景的知识图谱,可以对场景进行任务的感知。
比如说,当一个用户在搜索九寨沟的时候,可以向用户推荐登山用具。背后有基于知识图谱的逻辑推理:

九寨沟–>山区–>登山–>登山用具

通过这种方式,可以从基于行为的推荐发展到行为与语义结合的推荐。

回顾了过去的知识工程,曾经在7080年代火热,但是并没能对工业界产生足够大的影响。因为当时主要由专家手工编辑,规模小,达不到应用需求。而现在互联网的发展与自然语言处理技术的进步,使得有可能构造大规模的知识图谱,引导知识工程的复兴。

Small Knowledge + big data = big Knowledge

在互联网时代,用户需求多样,范围广,对精度的要求不高,开放域的知识图谱也可以满足需求。
同时,在跟工业界的交流中,发现很多领域原本想做垂直领域的知识图谱,后来发现在构造的过程中知识的边界很容易被突破,变成需要通用的知识。
在以上环节的介绍中,分别对应了知识工程的CN-DBpedia和CN-Probase等项目。知识工场
最后对未来的展望:

NLP + KB = NLU

Event Extraction From Texts

主讲人:刘康@中科院自动化所
这是我特别关注的一个主题,主讲人分享了他们在金融事件抽取的工作,以及当中的一些技巧。
以往,知识抽取通常是实体、关系的抽取。在构建以事件为中心的知识图谱时,无论是格式还是步骤都会有所不同。
在事件为主的知识图谱中,每种事件会有不同的事件帧结构,比如地震事件会有日期、强度、深度、伤亡人数、地震中心等。
基于事件知识图谱,可以进行关系描述,因果时序分析。

对事件进行定义,涉及到参与者的特殊事情发生了。
在抽取事件当中,会涉及事件的触发词、事件类型、事件变量以及变量的类型。

抽取事件的步骤是:

  • 事件识别
  • 事件类型的识别
  • 寻找事件相关变量
  • 事件变量的类型识别

跟关系抽取比起来,事件抽取中往往没有具体的名词短语来直接表示事件。因此需要寻找事件的触发词,这个触发词通常为动词短语。
比如,在一个 Personnel End-Position 的事件当中,触发词是 quit 而不是 end-position.
e.g Barry Diller on Wednesday quit as chief of Vivendi Universal Entertainment.

关系抽取是发现两个所给实体之间的关系;事件抽取是发现一个事件和实体之间的关系。
用图片演示事件抽取的工作流程。

接着分享了一些 tricky 的工作,如何做回标得到大量训练语料。
人工标注数据的成本较高,因此使用已有的结构化数据去回标新的语料去训练,能够识别更多新的模式。
在关系抽取当中,会把关系的主体、客体和语料进行对比,发现一个句子中同时包含主体、客体时进行回标,这样能产生更多训练数据,不过也会引入噪声。
在事件抽取中,这种方法not work. 事件的图结构与关系的图结构不一样。在事件的图谱中,先识别出重要的变量,当这些重要的变量存在的时候,事件发生的概率就高了。比如,在结婚的事件当中,新郎跟新娘是重要变量,时间不是重要变量。当一个句子中存在事件的重要变量时,进行回标,然后训练,得到抽取器来识别 trigger word. 得到 trigger word 后跟外部数据源对比进行增删,然后再用 trigger word 进行再次回标,得到更多数据。

他们组用这种方法,从公告、新闻当中去抽取金融事件。

他们在自己的工作当中使用了神经网络的方法,并且使用了多种池化,能够提升性能。

语料数据来源LDC

知识图谱与智能问答

主讲人:赵洲@浙江大学
剩余时间不多,语速飞快,ppt翻页像风一样自由。
内容偏概论,介绍了一些垂直领域的问答机器人应用,包含医疗、教育、金融、法律等方向。
介绍了基于知识库、上下文以及注意力模型去构建聊天机器人的方案。


上午偏学术界,下午偏工业界的分割线


From Large Scale Graph Analytics To Knowledge Graph Inference

主讲人:夏应龙@华为
这个主题偏向于知识图谱的系统与基础设施。
知识图谱的规模从小到大的时候,性能会在中间规模时有所下降。在小机器中存储知识图谱,性能很好,但是不能承载大规模的知识图谱,不幸的是,工业级的KG往往比较大,需要在多个主机中运行。尝试使用各种开源项目构建,发现相互之间割离,导致性能下降。从操作系统的角度进行了性能分析。
为此,华为研发了一套工业级的知识图谱系统Eywa,进行了介绍。

当知识图谱遇见个性化推荐

主讲人:张富峥@MSRA
开头回顾了推荐系统的发展。
在进行推荐的时候,如果能够有可解释性,更能让用户接受。
之前在做美妆的时候发现,比起那些直接提供方案的,对用户的脸型特征进行分析,结合一套美学理论去分析然后再提供方案的造型师会有更多的粉丝。
而知识图谱的参与,能够给推荐系统带来更多的可解释性。
比如,在推荐电影的时候,可以根据用户喜欢的电影去推荐同一个导演或者同一个主演的电影。但是,这个跟Netflix的细粒度标签推荐推荐有什么差异呢?
比较好的效果是在新闻推荐领域,他们基于微软的Probase的部分子图,构建了知识图谱。通过知识图谱的路径关系进行推荐。比如,用户在对特朗普的新闻感兴趣时,也可能会对政治、以色列等话题感兴趣。这种路径的方式更符合用户的认知。在实验过程中,他们发现用户兴趣点在知识图谱中存在一个涟漪效应。跟原有兴趣点路径关系短的话题或存在多条路径连接的话题,用户会更感兴趣。
此处应该有图示
在实验中,他们对知识图谱的路径关系进行了embedding,加入到神经网络中,与用户标签、内容标签等共同训练,并对比了多种训练方式的效果。

Ref:

  • Knowledge Graph Embedding
  • Deep Knowledge - Aware Network (DKN)
  • Collaborative Knowledge base Embedding (CKE)
  • Ripple Network
  • Multi-task learning for Knowledge graph enhanced Recommendation (MKR)

基于概念知识图谱的短文本理解

主讲人:王仲远@美团点评
介绍了他之前在微软亚研院的工作,结合概念知识图谱去理解短文本。微软构建了一套概念知识图谱Probase.
在遇到一个多义词时,先将该词语在概念上定位到一个 basic level, 不能太宽泛,也不能太窄以至于没有共性。比如微软的概念是 software company , 而不是 company or largest OS service company.
在文本中遇到这个词的时候,结合上下文进行推断,应该属于哪个概念。
比如, python 同时有编程语言与蟒蛇两套概念,在 python tutorial 中,编程语言更常与教程连接,因此更可能是指编程语言;在 horrible python 中,蛇类有可怕的特点,因此更可能指代蟒蛇。
结尾是广告时间:美团点评拥有大量数据,欢迎大家进行合作研究,省下许多爬虫的精力。嗯,有数据的都是大佬。

cnSchema:开放中文知识图谱的普通话

主讲人:丁力@海知智能
回顾了知识图谱的发展,指出cnSchema的意义。呼吁大家参与到cnSchema的构建当中来。
使用同一套标准能够有助于不同数据源的合并。原本并没有引起工业界重视,随着搜索引擎对schema进行优化,也被越来越多的厂商接受。
广告时间:欢迎加入海知智能,欢迎共同构建cnSchema.

知识图谱在图灵机器人的落地与应用

主讲人:魏晨@图灵机器人
开头用视频演示了图灵机器人的效果。
接着讲了知识图谱如何应用在图灵机器人中。
比如,用户生活习惯的图谱,情景处理的图谱。
因为是做产品,所以有更多的数据分析,从用户数据判断哪些功能因为常用而重要,哪些功能因为少用而可以使用简单方案处理。
广告时间:欢迎加入图灵机器人。

会议的PPT尚未发布,因此使用文字简短记录。

CATALOG
  1. 1. 知识图谱前沿课程介绍
  2. 2. 知识图谱与认知智能
  3. 3. Event Extraction From Texts
  4. 4. 知识图谱与智能问答
  5. 5. From Large Scale Graph Analytics To Knowledge Graph Inference
  6. 6. 当知识图谱遇见个性化推荐
  7. 7. 基于概念知识图谱的短文本理解
  8. 8. cnSchema:开放中文知识图谱的普通话
  9. 9. 知识图谱在图灵机器人的落地与应用