中国人工智能发展报告:知识工程(2019—2020)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

5.3 因素空间对知识工程的基本构想

在20世纪后期,因素空间的攻坚目标是为智能计算机服务。进入大数据的网络时代,因素空间的攻坚目标是为开展全民性的知识工程服务。基于与人工智能学者的沟通以及与机制主义人工智能理论的结合,业界对于全民知识工程有了一个初步认识:全民知识工程最后要构建的是一个网络智能体,它是一个宏观智慧物,具有广、深、快、亲四大特点:广阔知识,古今中外无所不通;深度智慧,望闻问切无所不能;快速反应,吞吐数据无时停顿;亲民造福,衣食住行无处不在。为实现此目标,因素空间要提供相应的数学支持,其知识观与方法论有以下几点。

1)知识的增长是知识粒度的细化过程,因素是粒度分离器。

粒度思想是因素空间所依赖的一种基本概念。无论知识大厦如何宏伟,它都是从零概念开始的。每次概念划分都以已有的概念作为上位,根据目的需求,按一组新因素对其外延D进行划分,把新因素的相值描述添加到上位概念的内涵中去,就得到新概念的内涵描述。这个过程称为细化,整个知识大厦就是从混沌外延一次一次地细化出来的。

2)知识千差万别,所有知识单元的结构与功能都是统一的。

每次细分都需要有一个D上的因素空间,这个空间的论域D是一个旧有上位概念的外延。它是为实现某项任务所涉及的对象范围。比如,任务是农村医保,某个地区的农村人口就是D,为了完成医保任务,就需要规定目标因素“保健”“医疗”和“防治”寻找效用因素“病情”“就医”和“施治”,选择条件因素(语法因素)“血压”“血脂”“烟酒”“习惯”等,所有的因素形成一个因素集合F。这样确定出来的因素空间称为一个知识单元。同一个论域D可能有不同的任务,例如农村教育是一个任务,对象不变,但是因素集合完全改变。所以,每个知识单元除必须是一个因素空间以外,还必须在表头专门注明任务或课题,指明知识的领域。

所有的专家系统都可以表示成因素空间,它们的领域各不相同。但它们的知识单元都有相同的结构:概念生成+因果分析+派生的高级理性活动。领域知识的差别仅在于因素选择的不同。所有知识单元的功能都是依据所生成的新概念和旧知识进行检索、识别、学习、归纳、评价、预测、决策、控制,并归结为一个答问系统,能回答知识单元所能回答的问题。链条“背景关系→工具包(概念+推理算法)→输出(答问系统)”形成一个认知包。

3)知识工程就是数据驱动的背景记忆,用数据来塑造记忆。

大脑具有因素特质:感觉神经细胞是按因素来分区、分片、分层的,每个神经元只对其所系因素的特定相兴奋而对所系因素的异己相抑制。不同因素同时兴奋的神经元要发生突触连接,多次重复连接就要加粗形成突触瘤。正像李德毅教授所强调的,记忆不同于计算机的存储,记忆是识别与学习的重复过程,用进废退,形成生态。突触与内涵粒子相对应,人脑的记忆学习截面与背景关系相对应。在人脑记忆网络与因素藤之间存在着某种同构的映射,数据是塑造背景关系的原材料。

4)数据的边界效应与背景基的提取是大数据中的小数据。

背景关系具有凸性。边界比内点重要,边界中端点最重要。人脑记忆捕捉的是极端状况和实例,这就是背景基。背景基的理论是因素空间理论在信息压缩方面的焦点。它分为两个方面:从拓扑上说,背景基就是凸集的顶点。由这些顶点能够生成整个背景基。背景点都是这些基点的凸线性组合。我们给出了快速求取基点的近似算法,其复杂度是O(mnr3),其中mnr分别是信息系统的样本点数、因素个数和背景基点的个数。该近似算法可以把基点个数控制在一个不大的范围之内,对于任意m,在开始的时候,付出一定的时间代价,把它的基点提取出来,以后便可以用快捷算法实时地调整基点集;面对大数据,背景基总是一个不大的集合。我们还在研究算法,要回答知识单元的任何问题,不需要从背景基回到背景关系,而是直接从背景基生成概念和归纳推理,这样知识单元的问答系统就可以实时地工作。

5)因素藤与因素知识图谱。

因素空间具有网络特征,主要包含两方面。

一方面是因素藤的概念。因素空间描写一个知识单元,因素藤描写如何把知识单元连接成为知识网络。因素藤具有自下而上的迅速扩展的特点,从知识单元扩大成为项目网局,从项目网局扩展成部门网,从部门网扩展成领域网,从领域网扩展成行业网。因素藤关键是要从顶层设计上抓好三件大事:①单元的智能化内容必须简单明确,这样才能引发自下而上的爆发;内涵必须明确,避免歧义。这样才能保证网络在扩展中不致出现混乱,迷失方向。②理清层次,自上而下,引导网络的扩展。③制定统一的因素词典。

因素藤所形成的网络要依附于概念网。概念网以概念为节点,节点之间可连有向线段,用以指明上下位的关系。这个概念网不是联想网,没有上下位关系的概念不能连接。因素藤是在概念网的每个概念下方或后方加一个菱形分道器,就像程序中的菱形进行Yes-No的提问分道器一样,二相因素对知识增长所起的作用与提问分道器的作用是一样的。多相因素分出的是多个道,每条道引出一个子概念。菱形中可以是一个因素,也可以是一组因素。菱形的旁边必须注明课题或任务,用于指明概念划分究竟是在什么知识领域中出现的。

因素藤所形成的网络是嵌入式的。例如,人按性别因素而分成了男子和女子两个概念,男子又按胡长因素分出大胡子、小胡子和不留胡这三个概念。这看起来是一个树分叉的过程,但本质上它是一个嵌入过程。树分叉不计因素空间的内外,嵌入式则要构建出因素空间的层次。胡长这个因素只对男子有意义,对女子是无意义的,一个因素空间要求所有因素对论域中所有对象都有意义,因而,胡长因素的引入就跳出了一个因素空间。嵌入性在计算机上的表现就是:在性别空间中单击男子键,就展开一个新的胡长空间。因素藤的视觉画面就像地图一样,先是世界地图,单击中国出现中国地图,粒度从大到小,层次自上而下,知识由浅入深。现有的知识图谱还存在许多值得改进的地方。比如,最早的知识图谱定义就太粗糙,节点中写什么,连线写什么都没有规定清楚;生成的节点越多越不敢用,会出现许多语义错误;字网太宽泛,缺少智能色彩。有智能色彩的图谱必须突出因素的作用。

以上说的是因素藤所形成的网络和因素知识图谱。因素空间网络特征的第二方面是指刘增良提出的因素神经网络。因素空间不仅有坐标框架和网络图谱的表示方法,它本身就是一个神经网络。网络的每个节点就是一个因素,节点的输入就是因素的相值。从一个层到另一个层的变换反映一个因素空间到另一个因素空间的变换。深度学习在当前的最大问题是理解问题。因素是语义的根基,因素神经网络就是理解的钥匙。深度学习网络隐蔽层的节点没有名称,也不知道因素,但我们可以用各种因素去匹配,找出含义。第一层的意义是给定的,从第一层到第一个隐蔽层,层层往上推。深度学习在每一层都有一个回溯等价输出。从相应的权重分配上来加以分析,不难破解难关。

6)因素空间是知识的元表示。

知识工程必须要有统一的表示方法,传统的几种表示法:经典逻辑表示法、产生式表示法、网络结构表示法、框架表示法和脚本表示法,绝不是分庭抗礼的五个派别,在它们之间不能搞对立。这五种表示法都在因素空间中得到统一,只有因素空间才是知识的元表示。

异结构和变结构的数据都可以统一在因素空间中。异质媒体数据和跨模态的复杂对象都可以映射到统一的表示空间。嵌入技术旨在把研究对象表示为低维、稠密、实值的向量,投影到统一的语义空间中,图像处理都要统一到特征空间并向语义空间转换。音频资源要经时域和频域变换统一到音频特征空间,视频资源可以统一到图音结合的视频特征空间,所有这些,都是因素空间。因素空间是对事物的元描述,是数学为知识工程提供的万用平台。

因素空间的思想产生于20世纪60年代,正式发表于20世纪70年代,一直用于模糊数学,是模糊信息智能表示的一种深化理论,其发展历史早已证明因素空间是一个行之有效的数学工具。2012年以来,因素空间被用于数据挖掘,与形式概念分析和粗糙集理论相结合,近来又与机制主义人工智能和柔性逻辑相结合,有希望和形式概念分析、粗糙集及其他兄弟数学学科一起,共同打造出信息革命所需要的智能数学。但由于研究水平的限制,三十多年进展很慢,需要深化的问题还有很多,期望得到专家们的关注和指导。

本章编写人员:汪培庄、李洪兴