
5.2 因素空间的内容、意义与方法
汪培庄在1958年参加了在我国高校首批开设概率论课程,在自编的讲义中要讲清概率究竟是什么,就提出了因素空间的思想。掷一枚硬币究竟会出现正面还是反面?就要考虑硬币形状、初始位置、上抛幅度、手指动作、桌面性状、环境影响等因素,以这些因素为轴画一个坐标系,如果所考虑的因素充分,且每个因素的测量描述得也很细致,则所绘坐标空间中的每一个点都会确定硬币所呈现的面相(正面或反面),硬币的朝向是可以预测的;随机性是由于条件规定不充分而造成的预测不确定性,概率是不充分条件与结果之间所存在的广义因果律。
1936年Kolmogorov提出公理化定义是概率论发展的转折点。他把随机变量定义为从基本空间Ω到实数域R的一个可测映射ξ:Ω→R,通过这个映射,Ω中的概率就被传输到实直线上而形成各种各样的概率分布。没有这个定义,古典概率就不能进化到现代的概率论。但是,Kolmogorov究竟是凭什么才能下这个定义的呢?一边是像命中率、降雨量等这样一些偶然性的现象,另一边则是严格的数学定律:对于Ω中的任意一点Ω,必有唯一确定的函数值ξ(Ω)与之对应,这二者是怎样统一起来的呢?关键就在于它的基本空间!该定义是把影响命中率的所有因素都考虑到一起,以这些因素为轴来形成基本空间Ω,因素越充分,必然性就越大,作为数学家的极限思维,就认定每个Ω都能确定出随机变量所该取的值,这样,命中率就成为一个必然的映射。基本空间就是一种因素空间。Kolmogorov是因素空间思想的最早创立者。随机性是事物的本性,但不可否认的是它与必然性可以互相转化,因素空间就是偶然性向必然性转化的框架。
1978年我们团队开始研究模糊数学,Zadeh把模糊集定义为论域D上的一个隶属函数,论域是不加定义的名词。论域的选择至关重要,可以专门把论域作为一个因素空间来加以研究。因素空间明确了模糊性与随机性这两种不确定性之间的区别与联系。模糊性是由于认知因素的不充分而导致的概念外延的不确定性。随机性的实验模型是“圈圈固定,点子在变”,模糊性的实验模型则是“点子固定,圈圈在变”。在这种对偶性下,我们发现论域U(地上)的模糊性可以转化为幂P(U)(天上)的随机性,隶属度可以用天上随机集(云)在地上的落影来客观地加以度量。这就是我们所建立的“模糊落影理论”。这个理论不仅为集值统计(包括区间统计)提供了理论基础,同时也为国外主观性度量所提出的四种非可加测度(信任、似然、非似然、非信任)证明了统一的存在唯一性定理,使我国在模糊集理论上占领了一个制高点。在这种理论基础上,1988年,北京师范大学的张洪敏等博士研制出国际第二台模糊推理机,把日本山川烈在1987年首创的Fuzzy Computer每秒推理一千万次提高到每秒推理一千五百万次,体积却不到Fuzzy Computer的十分之一。
这一成果是在钱学森教授指导之下取得的,钱学森教授说:“我们搞两弹一星说难并不难,因为有现成的理论,你们搞智能计算机应该说更难,因为还没有真正的理论。”他所说的真正的理论是要从数学这个根上建立起来的。这就促使相关学者开始认真地研究因素空间理论。在20世纪90年代中期,汪培庄、李洪兴一起出版了《知识表示的数学理论》和《模糊信息系统与模糊计算机》两本专著,核心内容是因素空间在知识表示和新一代计算机研制方面的应用。李洪兴的四级倒摆至今还在国际上领先。
网络时代悄然而至,在所有计算机都可以联网的情况下,中心处理器被边缘化,数据软件成为智能化的主要战场,2012年汪培庄在辽宁工程技术大学帮助建立智能工程与数学研究院,把因素空间的研究重点转向数据挖掘。更新了以因素空间为核心的知识表示理论。
世间的一切现象都可以归结为两个字,这就是“因果”。因果映出理性,因果生出逻辑,因果造出学科,按字面来理解,因字既言它事物之所以生,亦言本事物之所以是,前者讲因果联系,后者讲本体成因。表面上看,因果是属性的连接和转换。喜雨迎丰收,说的是从雨量充沛(气象属性)到农作物丰收(农业属性)的连接。但是,为什么会有这样一种因果连接?靠属性就说不清楚了。因素非因,乃因之素。雨量充沛是丰收的一个原因,但不是因素,这里的因素是降雨量。降雨量是可以变化的东西,如果它的变化不能改变粮食收成的话,那么雨量充沛就不能成为丰收的原因。降雨量之所以那么重要,是因为它的变化既可以使人们喜迎丰收,也可以使遍地颗粒无收,这才使人们知道降雨量对粮食收成来说是多么重要。降雨量隐藏在属性表现的背后,它就是因素。因素者,因之素也。只有掌握因之素,才能找到原因和把握原因。从原因论到因素论是人在认识上的一种升华。
因素是“变量”,以属性或其他信息表征为值,它分为以下几种情况:①传统数学中所有的变量,如时间、距离和质量等都是因素,它们的状态都可以用实数值来描述;②所有的指标体系中使用的指标,如产量、价格、成本、收益、能耗等;③所有感知过程中所观测的变量,如身高、体重、性别、相貌、装束、性格等都是因素。这两类因素所表示的属性,既可以取实数值,也可以取高、常、矮等定性的自然语言词。定量与定性这两种描述可以通过模糊数学的方法互相转换;④所有的主观度量,如满意度、舒适度、生活压力、社会冲突、和谐度等;⑤所有带目的或效用性的度量,如目标实现、工作进展、生产效益等也都是因素,这两类因素很难定量地进行描述,人们更多的时候还是取定性的语言值。
因素是比属性高一个层次的东西,它是属性的统领。属性是定词,如红、黄、蓝等,可以言是非,可以问这衣服是不是红的?表示它们的因素是颜色,无是非可言,不能问这衣服是不是颜色?属性名是因素,但因素不一定是属性名,如满意度、生活压力、生产效益等因素就不能称为属性名。属性被动地描述事物,因素更具有启发性和牵引性,因素牵引着人的思维。
属性是质表,因素是质根。只有强调质根,才能认识事物和本质的成因。哲学家早已对属性下过定义,但至今仍忽视质根。属性如果是珍珠,那么质根是串连珍珠的线。线一断,珍珠就洒满地上,再找起来格外困难。人脑是信息提取的优化结构,人脑的感觉细胞是按特征(二相因素)来组织的;生命科学中所诞生的基因就是生命属性的质根。孟德尔深感生物属性纷乱如麻,力图从中理出头绪,提出了基因学说,打开了生命科学的大门,并发现了DNA。它最早对基因起的英文名是Factor,其中文译名就是因素。现在,我们把生命属性的质根扩展到一般事物上来,因素就是广义的基因。我们要用这把曾经打开生命之门的钥匙来打开信息和智能革命的大门。
从数学层面来说,因素是一个从对象到信息的映射f:D→I(f),因素就是提取信息的映射。这里,I(f)称为因素f的属性域或信息域,信息域中的象就是粗糙集所说的信息颗粒。身高究竟分高、中、矮三挡还是加上较高、较矮而变成五挡,这要由粒度理论来划分,粒度可以越来越细,极限情形就是实数点。
事物都是量与值的对立统一,同一个因素保留着两个信息域,一个信息域是定性的,另一个信息域是定量的,两种信息域可以相互转换,模糊集理论提供转换的工具。
因素有分解与合成两种运算,表现为人脑的分析与综合。多个简单因素f1,…,fn合成一个复杂因素f,f的相a=(a1,…,an)就是各个简单因素相a1,…,an的合取,表示f=a当且仅当f与a中的每个因素都对应相等。从简单低维形成一个高维的坐标空间I(f)=I(f1)×…×I(fn)。I(f)也称为相应于f的信息空间。任何事物先经过简单因素的分析,再综合到复杂因素的信息空间上来,便可以被描述成信息空间中的一个点。这样,因素空间就成为事物和认知描述的一个普适性框架。它是笛卡儿坐标空间的推广,所不同的是它以因素f为参数而形成一个维度可变的坐标架系列。物理学中的位势空间、控制论中的状态空间、模式识别中的特征空间、医疗诊断空间等都是信息空间。如图5-1所示,可以把人物张三映射为因素空间中的一个点。

图5-1 张三被映射为因素空间中的一个点
两个因素f1和f2的合成因素f的相域是这两个相域的笛卡儿乘积集:I(f)= I(f1)×I(f2)。若这两个因素是彼此独立的,则它们的性状组态是自由的;否则,搭配就不自由。以气温和降雨量为例,由于二者关系紧密,它们的信息组合就不自由,低温搭配少雨,高温搭配多雨。低温不能与多雨搭配。因素之间的这种搭配和共存关系称为因素之间的背景关系。它的数学定义是
R={a=(a1,a2)|存在d∈D,使f1(d)=a1且f2(d)=a2}。
背景关系就是Wille提出的形式背景,尽管因素空间与形式概念分析是在同年提出的,在当时是独立发展的,但在科学内在的发展上,因素空间继承了形式概念分析的背景思想并把它提升到极致。
在数学上,多个变量之间的关系都是用变域笛卡儿乘积空间的一个子集来表示的,背景关系是一个确切的集合,又称为背景集。背景关系随机化以后称为背景分布,这时,背景集是背景分布的支撑集,即分布列或分布密度不为零的点集。背景分布的意义与多维随机变量的联合分布完全一致。在概率论中,联合分布决定随机变量之间的关联和因果规则;在因素空间里,背景关系决定因素之间的关联与推理。
智能科学是非物质科学,它的基元是概念。概念产生推理,但是推理不能产生新概念。在布尔逻辑系统中给了一组字(原始公式),比如说p、q表示两字,先用非运算生成22=4个亚公式{p,﹁p,q,﹁q},再用与运算生成24=16个公式,这16个公式(包括p、q)都代表概念,它们对于布尔逻辑的与、或、非三种运算封闭,布尔逻辑的推理只能在这16个公式之间转来转去,无论怎样运算都跑不出这个圈子。逻辑系统的字是给定的,经典逻辑的推理产生不了新的字。人类智能的最大特征是能从环境中产生新的字和概念。
计算机早就能够进行推理,还可以证明定理。但是在20世纪80年代以前,一直不能自动产生概念。机器若不能自动产生概念,就没有真正的智能,但若它能自动产生概念,那就非同小可了。机器自动生成概念要归功于Wille,他在1982年首次给出了“概念”严格的数学定义。当时不少数学家认为,任何集合都是某个概念的外延,Wille认为只有满足外延与内涵的对合性条件的集合才能与相应的属性组合搭配成为概念。他建立了以对象为行,属性为列的形式背景表,从背景表提取符合对合性的配对,来建立他的概念格。有了他的严格定义和算法,计算机才能编程,才开始自动生成概念。这是人工智能历史上的一个重大突破。但要强调一点,机器生成的概念和知识还不能像人一样带有感知。其实,即使是人脑中的概念也并非全都来自直接的感知。我们的很多概念都是来自老师讲述和书本图文,通过回忆和联想间接感知出来的。其中不乏无感知的概念。这些无感知的概念并非无用,它们有知识内在的结构和可以描述的形式符号系统,是知识表示的特有产物。符号只有回归人脑才能发挥效力,机器所产生的概念只要能回归人脑就可以加速人的知识增长速度,这正是解放智力劳动的本质。这个知识的形式符号系统就是Wille学说。
Wille学说的缺陷是他以属性值为列,造成列表的困难。他的算法很容易就陷入NP-困难。Wille用Attribute一词表示属性值,如红、绿、蓝等;Pawlak 用Attribute一词表示属性名,如颜色。Wille强调属性值,Pawlak则强调属性名,Pawlak把形式背景表改变成为信息系统表,表中以属性名为列,这样就解决了列表困难,使信息系统成为关系数据库的标准表格。粗糙集以知识挖掘为导向,目标明确,内外夹逼的思想十分巧妙,成为关系数据库的基础理论。国内学者在粗糙集与粒度计算的理论与应用方面进行了创新与开拓,做了很多极为宝贵的贡献。
因素空间是在2012年以后才与形式概念分析、粗糙集合流相结合的。作为一个后来者,因素空间只能进行一些简化和深化的工作。因素空间(D,F={f1,…,fn})的结构十分简单。因素组F把D中的对象映射到信息空间I=I(f1)×…×I(fn)上,设想每个因素都有三个格子,三个因素就有27个格子,每个格子都有明确的内涵描述,也就是说,都有明确的语法和语用信息,所以信息空间就是一个语义空间。语义空间每一个格子都称为一个内涵粒子。这些内涵粒子分成两类,一类是格子的虚空搭配,在D中找不到实际的对象,就像(低温、高降雨量)找不到一个地区有此数据的情形一样,我们要把这些格子删掉,剩下的就是背景关系R,R是实际存在的信息颗粒空间。R中的粒子a是真实的内涵粒子,它们把论域D做了一个划分:每个内涵粒子a都在D中决定一个类[a],它是D中所有取a为内涵粒子的对象集,称为外延粒子,a就代表了[a]。于是,背景集R具有双重身份,它既是内涵空间,又是外延的表现空间,很容易证明a与[a]必定满足Wille所提出的对合性条件而形成一个概念α=(a,[a]),称为一个原子概念。只要有了背景关系,不用计算就可以直接写出所有的原子概念。有了原子概念,所有其他概念都是原子概念的或连接(外延是并连接)。
概念的自动生成不怕生不成而是怕生成太多。10个原子概念就生成210个的概念。为了减少概念个数,我们只提取基本概念,就是能把内涵写成合取范式的那些概念,它们在外延上是信息空间中的超矩形。人脑只接受这种简单的概念。所有原子概念都是基本概念,基本概念就是能满足对合条件的概念。Wille说所有概念都满足对合性,这是不正确的,基本概念只对且运算封闭,对或运算不能封闭,所以不能称为基本概念格而只能称为基本概念半格。我们纠正了这些错误,并且给出了快捷的算法,其复杂度为O(m2n),这里,m是对象个数,n是因素个数,不存在NP-困难。
背景关系不仅决定概念的自动生成,也决定因果推理,这就是所谓的因果分析。早在20世纪20年代,英国心理测量学家C.M. Spearman和美国心理测量学家L.L. Thurstone就提出了Factor analysis理论。尽管他们当时并没有站到智能数学的高度,所用的方法也只是四则运算,但是,他们却在心理测量学中举起了因素的理论和应用大旗而成为因素空间理论的先驱。
基本定理 给定因素空间(D,F={f; g}),设R是F的背景关系,又设I(f)=X,I(g)=Y,A和B分别是X和Y中的子集,如图5-2所示,则A(x)→B(y)是恒真句当且仅当A*⊆B*,这里,A*=(A×Y)∩R,B*=(X×B)∩R。

图5-2 背景关系决定推理
这个定理说明,要使A(x)→B(y)是恒真句只需看A*能否钻入B*(是否满足A*⊆B*)。注意A与B分别属于两个因素的不同相域X和Y,A*和B*是它们在联合相域X×Y上的变形。A*是把A沿Y的方向做柱体扩张,得到A×Y,B*是把B沿X的方向做柱体扩张,得到X×B。但这样还不够,这样的A*永远钻不到B*中去。关键是要落实到背景关系R上:A*=(A×Y)∩R,B*=(X×B)∩R。当两个因素彼此独立时,R=X×Y,这时A*依然钻不进B*,说明独立因素之间不存在推理,推理仅发生在相互关联的因素之间,当R缩小其范围时,就可以找到适当的A和B使A*能钻入B*。究竟哪些A和B能满足这种钻入关系呢?这完全取决于背景关系。定理的意义在于它强调了背景关系决定因果推理。A和B分别称为推理的前件和后件,从内涵上说,推理要求前件的内涵不弱于后件的内涵。从外延上说,推理要求前件的外延不大于后件的外延,也就是前件能钻入后件。
给了一张因素表,每个对象都对应着一行它在各个前件和后件因素下的信息(相值),根据相值来分类,就可以观察每个前件钻入了哪个后件,一旦有了这一信息,就可以把数据转化为因果规则。这种转换称为因果提枝。通过因果提枝把一张表全部变成一组因果规则,这就称为因果分析。
在人工智能已经存在的决策树方法简单明了,应用广泛。它的出现是对因素空间的有力支持,因为它所讲的就是因果分析,研究因果分析可以从理论上对决策树方法进行扩展和拔高。
因果分析有两种不同的方向,一个方向是从因到果的正向分析:内涵由浅入深,外延从D到单个对象。每提取一个枝叶,都要把枝节行(对象在枝节中的行)从表中去掉,把D转换为余集或余集的某个子类。不断地提取枝叶直到换空。能够换空的充分必要条件是:表中不存在条件相同而结果不同的两行,称为相容性条件。现在决策树所走的都是这个方向。这个方向的关键是因素的约简问题,为此而提出了条件因素对结果的决定度。决策树用信息增益来定义决定度,因此又有人提出钻入决定度(等价于粗糙集的重要度)、分辨决定度和背景决定度,为了应对前件数目太大,还有人提出了简熵决定度。对于数量多的前件和后件,也有人提出了前件的归类和后件的归类算法。为了在网上实时地统计吞吐数据,提出了动态因素约简的算法。为了使定性的因果分析用到连续变量,也有人提出了差转算法、等分转换法和直方图转换法。其中的差转算法在实践中效果突出,可以与现有的决策树算法切磋。
逆向因果分析从结果反观条件,把具有相同叶片的枝叶连接在一起形成一颗反向树,每一棵反向树都说明为了获得某个结果所应满足的条件,并得到了一个析取范式。按逻辑学的最小化方法,可以对其进行压缩,最后形成的每一个素蕴涵式对应一条因果取枝的规则。
既然背景关系可以生成概念并决定推理,而概念与推理又是评价、决策与控制等理性思维活动的基础,背景关系及背景分布也被称为研究智能科学的关键,掌握了背景关系R就能掌握相关的知识。那么,怎样才能得到它呢?这就要用到因素数据库的理论。
大家都熟悉关系数据库,都熟悉粗糙集使用的信息系统,当信息系统中使用的属性名都是因素的时候,因素库表就是一个信息系统;当一个因素不是属性名的时候,就把信息系统改称为一个因素库表。一个信息系统去掉对象列以后,就是因素空间中的一组样本点,而且,就是背景分布的样本分布。背景分布就是信息系统割断隐私之后的母体分布。同表头的信息系统可以叠加,这种叠加可以是分布式的,因而很容易通过数据来获得。尤其是大数据样本,几乎就是母体分布。