中国人工智能发展报告:知识工程(2019—2020)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.4 中文领域开放知识图谱:OpenKG

OpenKG是一个面向中文领域开放知识图谱的社区项目,主要目的是促进中文领域知识图谱数据的开放与互联。

3.4.1 中文领域知识图谱的开放现状

OpenKG聚集了大量开放的中文领域知识图谱数据、工具及文献。典型的中文开放知识图谱数据包括百科类的Zhishi.me(狗尾草科技、东南大学)、CN-DBPedia(复旦大学)、XLore(清华大学)、Belief-Engine(中科院自动化所)、PKUPie(北京大学)等。OpenKG对这些百科数据进行了链接计算和融合工作,主要链接统计数据如表3-1所示。这些百科知识图谱都已经通过OpenKG提供了开放的Dump或开放访问API,完成的链接数据集也向公众完全免费开放。

表3-1 开放域中文百科知识图谱的链接统计数据

img

此外,OpenKG还对一些重要的知识图谱开源工具进行了搜集和整理,这包括知识建模工具Protege、知识融合工具Limes、知识问答工具YodaQA、知识抽取工具DeepDive等,OpenKG的主网站如图3-5所示。

img

图3-5 OpenKG的主网站

3.4.2 开放的中文领域知识图谱Schema

Schema定义了知识图谱的基本类、术语、属性和关系等本体层概念。cnSchema.ORG是OpenKG发起和完成的开放的知识图谱Schema标准,其词汇集包含上千种概念分类(classes)、数据类型(data types)、属性(propertities)和关系(relations)等,以支持知识图谱数据的通用性、复用性和流动性。结合中文的特点,可复用、连接并扩展cnSchema.ORG、Wikidata、Wikipedia等已有的知识图谱Schema标准,为中文领域的开放知识图谱、聊天机器人、搜索引擎优化等提供了可供参考和扩展的数据描述和接口定义标准。基于cnSchema.ORG,开发者也可以快速对接上百万个基于Schema.org定义的网站,以及Bot的知识图谱数据API。Schema主要解决以下三个问题:①Bots是搜索引擎之后新兴的人机接口,对话中的信息粒度缩小到短文本、实体和关系,要求文本与结构化数据相结合,要求更丰富的上下文处理机制等,这都需要Schema的支持;②知识图谱Schema缺乏对中文的支持;③知识图谱的构建成本高,容易重新发明轮子,需要有合理的方法实现成本分摊。

3.4.3 中文开放知识图谱众包平台

Openbase.AI是OpenKG实现的类似于Wikidata的开放知识图谱众包平台。与Wikidata不同,Openbase.AI主要以中文为中心,更加突出机器学习与众包的协同,将自动化的知识抽取、挖掘、更新和融合与群智协作的知识编辑、众包审核和专家验收等结合起来。此外,Openbase.AI还支持将图谱转化为Bots,允许用户选择算法、模型、图谱数据等定制生成Bots,即时体验新增图谱的作用。

互联网促成了大数据的集聚,大数据进而促进了人工智能算法的进步。新数据和新算法为规模化知识图谱的构建提供了新的技术基础和发展条件,使得知识图谱构建的来源、方法和技术手段都发生了极大的变化。知识图谱作为知识的一种形式,已经在语义搜索、智能问答、数据分析、自然语言理解、视觉理解、物联网设备互联等多个方面发挥出越来越大的价值。知识图谱本身作为一种系统工程,也涉及知识表示、知识抽取、知识融合、知识推理、知识存储、知识问答等多方面的技术集成。由于知识图谱构建的难度小、成本低,以及可以开放和协作共享,特别是通用领域的知识图谱开放,是促进知识图谱深入发展和技术进步的重要手段和必由之路。