中国人工智能发展报告:知识工程(2019—2020)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

序言

——21世纪的知识工程在哪里跨越

知识工程诞生于20世纪60~70年代。知识工程的诞生帮助人工智能摆脱了当时社会对它的信任危机,是人工智能中最接近实际、最接近社会应用的分支。然而传统的知识工程经历了一段短暂的辉煌以后,又逐渐显示出它的诸多不足。这并不是因为知识工程这个研究方向缺乏存在价值,而是因为传统的知识工程理论和技术不能适应当时社会的进步。

进入21世纪以后,知识工程面临一个崭新的形势。第一,人类社会进入了大数据时代。吴信东等指出:现代知识工程与传统知识工程的一个重要不同点就是后者强调从专家获取知识,而前者更关注从大数据中获取知识。由此吴信东等提出了大数据知识工程的概念。第二,知识工程与互联网的结合也成为一个重要特点。承载着海量数据的互联网是当今世界大数据的典型代表,互联网又是知识服务的最大提供者。在很多情况下,互联网比大型图书馆更受知识索求者的青睐,尤其是因为它能够提供最新、最及时的知识服务。以维基百科为代表的公众知识服务网站贡献巨大。第三,知识工程的规模达到新的高度。从1968年开始的以Feigenbaum型的专家系统为代表(知识量以K计算)的中小规模时期,到20世纪80~90年代以Lenat的Cyc常识知识库和曹存根的CNKI为代表(知识量以M计算)的大规模知识库时期,发展到了21世纪以知识图谱、互联网、搜索引擎、浏览器为代表(承载和处理知识量以B计算)的超大规模知识工程时期。根据Netcraft研究所发表的数据,可以算出这20年来网站数量增长符合摩尔定律,每15个月翻一倍,目前正在向着高达T级的极大规模知识工程前进。第四,知识表示有了事实规范。在知识工程初起时期,各路研究和技术人员为知识表示设计了多种多样、百花齐放的表示形式。经过数十年的实践和比较,语义网本体知识表示OWL、RDF成为事实上的知识表示规范,而且还有坚实的逻辑基础。第五,海量知识组织出现了新的形式—知识图谱,它不仅关心知识点本身,而且也关心知识点之间的联系。得力于Freebase的前瞻性工作和谷歌的强力开发,知识图谱在2012年闪亮登场。受此启发,短短几年间出现了一大批内容丰富的代表性知识图谱,本书第三章也重点介绍了部分国产知识图谱的研究和开发工作。目前这种各行各业都用知识图谱的趋势,能够促进行业知识管理的技术革命。

第六,出于海量知识处理的需要,知识工程进入了数字化时代。把文字和符号知识映射(嵌入)到数字向量空间来实施知识计算,是富有想象力的创举。之前由于数据量大而难以完成的知识处理,现在有办法完成了。但是在语义的精确性和可解释性方面要付出一些代价。第七,知识工程和软件工程技术互相渗透。早在20世纪晚期,专家系统和更一般的基于知识的系统就已经广泛使用软件工程手段开发,如面向对象的知识系统开发方法。反过来,基于知识的软件工程早就成为重要研究方向。2005年提出的知件技术提倡把知识从软件中,特别是应用软件中分离出来,形成独立的、计算机可操作的、商品化的、符合行业规范的、可以嵌入软件或硬件中使用的知识模块,称为知件,知件和硬件、软件一起构成信息产业的三大支柱。由此,知件工程、基于知件的软件工程、知件和软件协工程等都是值得深入研究的课题。第八,MapReduce的兴起是分布式数据处理技术的新突破,使知识工程中高效的大规模数据处理有了盼头。但是正如人们已经发现的,MapReduce主要适用于数据密集型知识处理任务,并不是对所有领域、所有问题、所有算法都适用,例如对于兼有分析、推理、递归密集型的任务,此算法框架就不一定适用。第九,云计算的有效性和重要性已经成为国际共识。传统的云计算模式主要是各类云计算中心及其平台。近年国际上提出云计算要深入到用户终端级,称为雾计算。更有人提出云计算要深入个人计算机层次,称为露计算,从而形成一个有中心、有主干、有分支的云、雾、露计算网络。

以上一切都引发人们思考:知识工程的下一步应该是什么?

对此,我们首先关心的是:大数据对知识工程的发展有何作用?人们对数据感兴趣是因为从中可以获取知识。很自然,如果是大数据,则对所获取的知识就有了不一样的期待。它有可能是大知识吗?2010年以后,早在有人提出大数据3V、4V、5V特征的同时,“大知识”一词就在网上、文章中反复出现,大知识的正面研究空缺了一段时间,最近两年才开始有论文发表。关于大知识和大知识系统概括出了10个大规模性质,其中“最浓缩”的说法是:“大知识是体积海量、结构复杂、组织精密、可信度高、使用方便、与时俱进、能够解决人类一大类问题的系统性知识。”不妨把它与吴信东对大数据特性的HACE定理(异构、自治、复杂、演化)做一下对比。不难看出,HACE强调大数据的获取容易而处理、使用难,大知识则与此相反,获取(构造)难而(一旦构造好)使用顺手。本书第二章集中介绍了大知识和大知识工程的有关概念和主要特征。我们相信,学术界和企业界都会对大知识的研究和实践产生越来越大的兴趣。第二个展望涉及新一代知识工程的技术、算法和工具,其中最令人关注的是知识获取自动化。面对海量涌现的信息和知识,浏览器技术需要更新换代,改变每逢查询便推出一大堆网页的做法,代之以能够自动为用户按需从大批网页中实时提炼和综合知识,包括综合利用最新技术来提供解决用户实际问题的方案。进一步,按照我们的设想,未来的浏览器应该类似现在生活中的手机,在网上无所不能。第三,语义网需要来一场革命,因为Bernes Lee的理想并未完全实现,叫好不叫座。关键是缺少一种以OWL和RDF为一边,自然语言为另一边的自动互译技术,从而用起来很不方便,无法推广。目前有类自然语言和受控自然语言两种技术,但都没有达到能实用于上述自动互译的地步。第四,把网上知识服务进行到底。四千多万篇维基百科文章目前还类似一个个自生自灭的知识孤岛,虽然读者可以通过引文链接穿行于孤岛之间,却无法让孤岛们自发组织起来解决一个个复杂的问题。下海(网下知识自动转换成维基百科文章)和登陆(网上知识的自动归纳、升华)甚至还没有被提上日程。第五,知识图谱技术虽然受到学术界和业界的普遍重视,却仍然处在初级阶段。知识图谱的开发者们目前最关心的是扩张领土,包容知识以多多益善为上。而知识图谱内知识的管理及知识图谱对社会和学术界的服务能力却仍然滞后,更不用说它的理论基础了。对知识图谱的研究应该有一个大的发展。第六,应该鼓励知识工程“上山下乡”,推动微小型分布式知识工程的发展。现在国家很重视微小型企业的发展,也很重视农村潜力的开发。我们不仅要有作为心脏的大型云计算,作为主干的用户终端级的雾计算,作为分支的个人计算机露计算,还要有作为神经末梢的手机胞计算(cell computing),让计算能力无孔不入,无处不在。第七,关于数据流、控制流和知识流。传统编程主张分开数据流和控制流,使复杂的程序清晰可读。然而在大数据时代,仅仅分开数据流和控制流是不够的。巨量多变的数据使得传统方法的控制粒度变得过小,复杂性问题难以解决。利用数据之间的语义联系,让流动的数据上升为知识流,将能大幅度提高控制的可读性和有效性,我们称之为知识流程序设计。例如在进程代数中引进逻辑程序设计,对于程序的模块化、可读性、可验证性、可复用性均有好处。第八,知件技术和理论应该有突破性的进展,当然绝不是侵占软件和硬件的“领土”,而是进一步渗透进软硬件的“脉络”以内,溶化于软硬件的“血液”之中。近几年,“软件定义网络”已经发展成“软件定义一切”。但软件的“灵魂”是知识。如果知件理论和技术有足够的发展,我们将看到“软件定义一切”的背后实际是“知件定义一切”。第九,在大力推广公众知识教育的同时,也要花力气推进知识的商品化。知识工程创始人Feigenbaum有一句名言:“知识自身应该像食物和石油一样成为可以出售的商品。知识应该成为国家的新财富。”国家知识产权局就是为此而存在的。但是知识的各种商品特性远未充分体现。金属、石油、粮食都有期货和期权,知识为什么不可以有?前者都可以有交易所,知识为什么不可以有?我们认为,在商品经济充分发达的新世纪,应该以实际措施为知识的商品属性正名。

知识的获取和应用是人类永恒的需求,所以知识工程也就是人类永恒的课题。相信新世纪知识工程的发展一定会超出我们的预期。就像太阳每天都从地平线上升起,我们每天也可以看到知识工程灿烂的光焰。人们的肉眼难以区分昨天和今天的阳光,但是却非常有信心迎接明天比今天更加灿烂的知识工程的光焰!

img

2020年8月