这是一场主题为知识图谱的学术讨论会,会议通知
知识图谱前沿课程介绍
作为组织方的北理工大数据学习中心做开场白,介绍了这几年,北理工在大数据学习方面的努力,系列课程、讲座,同学们的自组织学习以及成果展示。
也预告了今年的教学安排。觉得在北理工的学习环境挺好的,有点羡慕呀。
知识图谱与认知智能
主讲人:肖仰华@复旦大学计算机学院
肖老师的讲解偏向背景介绍,介绍了这场讨论的主题,引入了为什么要做知识图谱的研究,穿插介绍了其他嘉宾的话题与知识图谱的关系。还介绍了复旦知识工场的工作。
计算智能–>感知智能–>认知智能
计算智能指规则明确特定领域的数据分析优化,感知智能指类似人的视觉语音信号处理感知能力,认知智能指能够理解人的语言进行推理和解释
回顾最近几年人工智能发展的热潮,机器在计算智能、感知智能领域已经超越了人类。依靠大数据、运算能力带来的红利已经不再明显,这些领域的性能提升遇到天花板。
要进一步提升,需要给计算机提供更多常识与现实世界的知识,人们开始重新关注认知智能。而知识图谱,则是给机器提供知识的一项核心工作。
接下来,介绍了几个知识图谱的使用场景。包含:搜索、推荐、解释、自然人机交互、深层关系发现、推理。
其中一个是智能推荐,通过构建场景的知识图谱,可以对场景进行任务的感知。
比如说,当一个用户在搜索九寨沟的时候,可以向用户推荐登山用具。背后有基于知识图谱的逻辑推理:
九寨沟–>山区–>登山–>登山用具
通过这种方式,可以从基于行为的推荐发展到行为与语义结合的推荐。
回顾了过去的知识工程,曾经在7080年代火热,但是并没能对工业界产生足够大的影响。因为当时主要由专家手工编辑,规模小,达不到应用需求。而现在互联网的发展与自然语言处理技术的进步,使得有可能构造大规模的知识图谱,引导知识工程的复兴。
Small Knowledge + big data = big Knowledge
在互联网时代,用户需求多样,范围广,对精度的要求不高,开放域的知识图谱也可以满足需求。
同时,在跟工业界的交流中,发现很多领域原本想做垂直领域的知识图谱,后来发现在构造的过程中知识的边界很容易被突破,变成需要通用的知识。
在以上环节的介绍中,分别对应了知识工程的CN-DBpedia和CN-Probase等项目。知识工场
最后对未来的展望:
NLP + KB = NLU
Event Extraction From Texts
主讲人:刘康@中科院自动化所
这是我特别关注的一个主题,主讲人分享了他们在金融事件抽取的工作,以及当中的一些技巧。
以往,知识抽取通常是实体、关系的抽取。在构建以事件为中心的知识图谱时,无论是格式还是步骤都会有所不同。
在事件为主的知识图谱中,每种事件会有不同的事件帧结构,比如地震事件会有日期、强度、深度、伤亡人数、地震中心等。
基于事件知识图谱,可以进行关系描述,因果时序分析。
对事件进行定义,涉及到参与者的特殊事情发生了。
在抽取事件当中,会涉及事件的触发词、事件类型、事件变量以及变量的类型。
抽取事件的步骤是:
- 事件识别
- 事件类型的识别
- 寻找事件相关变量
- 事件变量的类型识别
跟关系抽取比起来,事件抽取中往往没有具体的名词短语来直接表示事件。因此需要寻找事件的触发词,这个触发词通常为动词短语。
比如,在一个 Personnel End-Position 的事件当中,触发词是 quit 而不是 end-position.
e.g Barry Diller on Wednesday quit as chief of Vivendi Universal Entertainment.
关系抽取是发现两个所给实体之间的关系;事件抽取是发现一个事件和实体之间的关系。
用图片演示事件抽取的工作流程。
接着分享了一些 tricky 的工作,如何做回标得到大量训练语料。
人工标注数据的成本较高,因此使用已有的结构化数据去回标新的语料去训练,能够识别更多新的模式。
在关系抽取当中,会把关系的主体、客体和语料进行对比,发现一个句子中同时包含主体、客体时进行回标,这样能产生更多训练数据,不过也会引入噪声。
在事件抽取中,这种方法not work. 事件的图结构与关系的图结构不一样。在事件的图谱中,先识别出重要的变量,当这些重要的变量存在的时候,事件发生的概率就高了。比如,在结婚的事件当中,新郎跟新娘是重要变量,时间不是重要变量。当一个句子中存在事件的重要变量时,进行回标,然后训练,得到抽取器来识别 trigger word. 得到 trigger word 后跟外部数据源对比进行增删,然后再用 trigger word 进行再次回标,得到更多数据。
他们组用这种方法,从公告、新闻当中去抽取金融事件。
他们在自己的工作当中使用了神经网络的方法,并且使用了多种池化,能够提升性能。
知识图谱与智能问答
主讲人:赵洲@浙江大学
剩余时间不多,语速飞快,ppt翻页像风一样自由。
内容偏概论,介绍了一些垂直领域的问答机器人应用,包含医疗、教育、金融、法律等方向。
介绍了基于知识库、上下文以及注意力模型去构建聊天机器人的方案。
上午偏学术界,下午偏工业界的分割线
From Large Scale Graph Analytics To Knowledge Graph Inference
主讲人:夏应龙@华为
这个主题偏向于知识图谱的系统与基础设施。
知识图谱的规模从小到大的时候,性能会在中间规模时有所下降。在小机器中存储知识图谱,性能很好,但是不能承载大规模的知识图谱,不幸的是,工业级的KG往往比较大,需要在多个主机中运行。尝试使用各种开源项目构建,发现相互之间割离,导致性能下降。从操作系统的角度进行了性能分析。
为此,华为研发了一套工业级的知识图谱系统Eywa,进行了介绍。
当知识图谱遇见个性化推荐
主讲人:张富峥@MSRA
开头回顾了推荐系统的发展。
在进行推荐的时候,如果能够有可解释性,更能让用户接受。
之前在做美妆的时候发现,比起那些直接提供方案的,对用户的脸型特征进行分析,结合一套美学理论去分析然后再提供方案的造型师会有更多的粉丝。
而知识图谱的参与,能够给推荐系统带来更多的可解释性。
比如,在推荐电影的时候,可以根据用户喜欢的电影去推荐同一个导演或者同一个主演的电影。但是,这个跟Netflix的细粒度标签推荐推荐有什么差异呢?
比较好的效果是在新闻推荐领域,他们基于微软的Probase的部分子图,构建了知识图谱。通过知识图谱的路径关系进行推荐。比如,用户在对特朗普的新闻感兴趣时,也可能会对政治、以色列等话题感兴趣。这种路径的方式更符合用户的认知。在实验过程中,他们发现用户兴趣点在知识图谱中存在一个涟漪效应。跟原有兴趣点路径关系短的话题或存在多条路径连接的话题,用户会更感兴趣。
此处应该有图示
在实验中,他们对知识图谱的路径关系进行了embedding,加入到神经网络中,与用户标签、内容标签等共同训练,并对比了多种训练方式的效果。
Ref:
- Knowledge Graph Embedding
- Deep Knowledge - Aware Network (DKN)
- Collaborative Knowledge base Embedding (CKE)
- Ripple Network
- Multi-task learning for Knowledge graph enhanced Recommendation (MKR)
基于概念知识图谱的短文本理解
主讲人:王仲远@美团点评
介绍了他之前在微软亚研院的工作,结合概念知识图谱去理解短文本。微软构建了一套概念知识图谱Probase.
在遇到一个多义词时,先将该词语在概念上定位到一个 basic level, 不能太宽泛,也不能太窄以至于没有共性。比如微软的概念是 software company , 而不是 company or largest OS service company.
在文本中遇到这个词的时候,结合上下文进行推断,应该属于哪个概念。
比如, python 同时有编程语言与蟒蛇两套概念,在 python tutorial 中,编程语言更常与教程连接,因此更可能是指编程语言;在 horrible python 中,蛇类有可怕的特点,因此更可能指代蟒蛇。
结尾是广告时间:美团点评拥有大量数据,欢迎大家进行合作研究,省下许多爬虫的精力。嗯,有数据的都是大佬。
cnSchema:开放中文知识图谱的普通话
主讲人:丁力@海知智能
回顾了知识图谱的发展,指出cnSchema的意义。呼吁大家参与到cnSchema的构建当中来。
使用同一套标准能够有助于不同数据源的合并。原本并没有引起工业界重视,随着搜索引擎对schema进行优化,也被越来越多的厂商接受。
广告时间:欢迎加入海知智能,欢迎共同构建cnSchema.
知识图谱在图灵机器人的落地与应用
主讲人:魏晨@图灵机器人
开头用视频演示了图灵机器人的效果。
接着讲了知识图谱如何应用在图灵机器人中。
比如,用户生活习惯的图谱,情景处理的图谱。
因为是做产品,所以有更多的数据分析,从用户数据判断哪些功能因为常用而重要,哪些功能因为少用而可以使用简单方案处理。
广告时间:欢迎加入图灵机器人。
会议的PPT尚未发布,因此使用文字简短记录。