
第一节 文体特征的频率、概率、条件概率
正如前文介绍的那样,一个作家写作风格从微观上区别于其他作家的重要特点主要体现在同一语言表达形式使用的多与少上。这种衡量语言表达形式使用的多与少,以及某一作家使用某一特定语言表达形式的可能性的大小,就要使用到频度、频率、概率等重要的统计量。
频率
概率论总是使用骰子来说明概率论最基本的概念:频度、频率、概率。以骰子为例确实能够清楚说明这几个概念之间的相互关系。我们常见的骰子通常都是正方体,有六个面,每一个面上分别标记着一至六个点。我们投骰子时,每一次总有一个面是朝上的,我们设定一个变量来代表每次抛掷所得到的骰子朝上那面的点数,这个变量的取值是根据每次抛掷骰子所出现的朝上的那一面的情况而定的,我们事先是无法预测的,是随机的,因此我们把这样的变量叫作随机变量。现在我们做一个试验,将一个质地均匀的骰子抛100次,观察1.2.3.4.5.6点出现的次数,这个次数就叫作每个点出现的频度或者频数。我们将每一个面出现的次数在100次试验中所占的比例叫作该面出现的频率。如下表:
表2.1 骰子点数分布情况

假设我们做N次试验,其中某一事件X出现了nx次,那么事件X出现的频率fN(X)就可以由以下公式得出:

概率
在上述实验中,我们对骰子作了100次抛掷,每一个面出现的次数各不一样,这与我们的感觉似乎不一样。通常我们的直感是,如果骰子的质地是均匀的,那么骰子每一个面出现的机会是一样的,也就是说他们出现的次数是相同的,因此在100次抛掷中每一面出现的次数应该是100/6=16.666次。但是上述结果却与我们的直感有一定的差距。
那么我们的直感到底对不对,什么时候才能够出现和我们直感一致的情况呢?为了说明这个问题有人用钱币做试验,观察钱币正面出现的情况,为了能够说明问题,这种试验往往要重复几千次。这样的试验看上去简单,但是大量的重复试验实际操作起来却非常复杂。过去由于受到技术条件的限制,只能够用这种原始的方法去验证一些概率论的规律。随着计算机技术的进步,我们现在可以用计算机模拟这样的试验。下面我们用EXCEL来模拟抛掷钱币的试验。试验分三组进行,每一组做5遍,第一组每遍抛掷50次;第二组每遍抛掷500次;第三组每遍抛掷5000次。我们观察每组正面出现的频率值。
EXCEL中提供了随机数产生的方法,我们可以按照给定的随机数产生规则让计算机自动产生我们需要的随机数。如果我们将钱币的正面看成是1.反面看成是0;那么抛掷钱币观察其正反面出现的次数实际上就相当于看1和0出现的次数。因此,抛掷钱币的试验实际上就相当于让计算机自动随机产生0和1;抛掷10次钱币,就等于让计算机自动产生10个0和1。由于钱币是均质的,其正反面出现的机会是均等的,所以我们让计算机产生0和1时也必须使0和1出现的机会相等。EXCEL模拟抛掷钱币的试验是由数据分析中的随机数发生器产生的。随机数发生器的参数设置如下图所示:

图2.1 EXCEL随机数发生器参数设置
由于我们考察一个钱币的情况,所以变量个数设为1,随机数个数相当于我们抛掷次数,如果抛掷100次则随机数个数设为100;分布是指抛掷钱币时正反面出现的规律,也就是0和1出现的规律。通常抛掷钱币的试验叫作柏努利试验,我们在分布栏中选择柏努利。参数P(A)是指正面出现的可能性,一般均质的钱币其正面和反面出现的可能性是相等的,各为0.5,因此这里选择0.5。输出项是指每次抛掷钱币的动作,产生的结果(正面1.反面0)在EXCEL表格中所保存的位置。下表为我们用计算机模拟3组抛掷钱币的结果:
表2.2 计算机模拟抛掷钱币正反面出现情况

从上表可以看出,三组试验中,虽然同一组中抛掷钱币的次数一样,但是同一组中钱币正面出现的次数却各不相同,因此其频率也不一样。抛掷次数较少的组(如抛掷次数为50次的组),钱币正面出现的次数差距比较大,抛掷50次的组正面出现的平均频率为44%;而随着钱币抛掷次数增多,正面出现的次数的差距逐渐减少,其频率逐步稳定在50%左右,500次组的平均频率为49.24%;5000次组的平均频率为49.56%。
大量试验证明,抛掷钱币这样的试验,其正面出现的频率会随着试验次数的增多逐步稳定于某一个固定的值附近。这就是随机现象频率的稳定性。这个规律我们通过大量的统计就可以发现。这也是进行统计的意义之所在。我们直感上认为,抛掷质地均匀的钱币,其正面和反面出现的机会是一样的,也就是说其正面和反面出现的可能性各占50%。而上述大量试验也证明,当试验次数足够大时,钱币正面出现的频率也逐渐稳定在50%左右。也就是说大量试验中频率趋于稳定的那个值可以衡量事件发生可能性大小。我们通常将这个值叫作事件发生的概率。这实际上也是概率的统计定义。通常事件A发生的概率记作P(A)。
有一些现象,由于其出现的结果是有限的,比如投掷骰子,每一次投掷,骰子出现的点数总是在1、2、3、4、5、6这个范围内;投掷钱币时,每次结果总是正面或反面中的一个。而且根据我们的经验,只要骰子和钱币的质地是均匀的,那么每次投掷时,这些结果出现的可能性是一样的,因此我们可以计算出投掷骰子时,其某一点出现的概率为1/6;投掷钱币时其正面和反面出现的概率为1/2。但是,也有一些现象,其可能出现的结果是无限的,而且每一个结果出现的可能性并不相等,这样的现象我们就很难精确计算出其某一个结果出现的概率值。比如语言中词汇使用的概率;某一个作家使用某一长度句子的概率。这些现象的概率就需要用概率的统计定义来理解。
另外,投掷骰子时,其结果总是在1、2、3、4、5、6这六个数之中,也就是说随机变量的取值总是这六个数。这六个数是有限的,并且可以进行穷尽性列举的。像这样取值为有限个而且可以穷尽列举的随机变量我们称之为离散型随机变量。进行计量文体研究时所涉及的作家年龄等都属于离散型随机变量。还有一种情况就是,随机变量的可能取值不是有限的,而且不能够进行穷尽性列举,其取值范围可能是某两个实数之间的任意一个数。比如,人的身高等等。这样的随机变量我们将其称之为连续型随机变量。其实句子的长度也可以近似地看成是连续型随机变量。
条件概率
我们在上述描述频率和概率的过程中,有一个十分值得注意的现象就是,试验是独立进行的,也就是前面的试验结果不对后面的试验结果产生影响。比如我们投掷钱币时,假设我们第一次投掷出现的是正面,接着投掷第二次,第二次的结果是正面还是反面和第一次是没有关系的。这叫作事件独立性。但是,日常生活中两个事件的发生不可能都是互不相关的,有时他们是互为因果关系的。比如我们写文章时,当用了“虽然”这个词,那么其后面的行文中出现“但是”的可能性就会很高。也就是说,汉语文章中“但是”出现的概率和其前文中有没有出现“虽然”有很大关系。如果我们要计算“虽然”出现的情况下,“但是”出现的概率,就叫作“虽然”发生的条件下“但是”发生的条件概率。通常事件A发生的条件下B发生的条件概率可记作P(B|A)。上述,“虽然”发生的条件下“但是”发生的条件概率就记为P(但是|虽然)。
和概率的计算一样,有些现象的条件概率是可以精确计算的。比如:我们在一只箱子里面放5只白球和5只黑球,将其摇均匀。然后,从其中摸取一只,并且不放回去,再从剩下的9只中摸取一只。问如果已知第一只球是白色的条件下,摸取第二只球是黑色的概率是多少?这就是条件概率,而且可以精确计算出来,P(黑|白)=1/9。
但是,有很多现象的条件概率是不能够精确计算的。比如上述“虽然”出现的条件下“但是”出现的条件概率P(但是|虽然)。这就需要运用概率的统计定义去分析统计。因为根据概率的统计定义,在多次试验中某一事件发生的频率会稳定在概率附近,因此,我们可以从大量的语料中进行统计,在统计的基础上得出P(但是|虽然)的值。
概率的乘法公式
另外,当我们知道A、B两个事件同时发生的概率P(AB)和某一个事件A单独发生的概率P(A),那么我们就可以利用下面的公式计算事件A发生的条件下,事件B发生的条件概率P(B|A):

这也是条件概率的定义。根据条件概率的这一定义,我们可以得出以下重要公式:
P(AB)=P(B|A)P(A)……………………………2.3
P(AB)=P(A|B)P(B)……………………………2.4
P(ABC)=P(A)P(B|A)P(C|AB)……………2.5
推而广之,有以下公式成立:

这就是概率论中应用非常广泛的乘法公式。在语言研究中由于经常需要计算相邻的字和词同时发生的概率或者某个字(词)出现的情况下另外一个字(词)出现的概率,乘法公式就会发挥重要的作用。