计量文体学导论
上QQ阅读APP看书,第一时间看更新

第二节 国内外计量文体学发展的历史和现状

用统计学的理论方法研究作家的文体在国外可追溯到19世纪。《新约圣经》中有“罗马书、哥林多前书、哥林多后书、加拉太书、以弗所书、腓立比书、帖撒罗尼加前书、帖撒罗尼加后书、提摩太前书、提摩太后书、提多书、腓利门书、希伯来书”等14封保罗写给各地教主的书信。这些书信是否均出自保罗之手,历史上一直存在争议(村上,1994)。尤其是最后一封“希伯来书”,由于现存《新约》的“希伯来书”中没有“保罗致……”字样,有人认为这封书信很有可能不是保罗的作品。因此,保罗书信作者的鉴定一度成为学界的热点问题。最初提出用数学方法证明此问题的是英国著名数学家、理论代数奠基人德・摩根(Augustus de Morgan,1806—1871)。

1851年,德・摩根在给剑桥牧师W.Heald的一封信中提出,每个人的文章都有自己的个性,即便是思维相近的两个作家,其作品或文章中单词的平均词长总是或多或少地存在着差别,同一个人的不同作品的平均词长的差别总是要比不同人所做的内容相同的作品的平均词长的差别要小得多。因此,德·摩根认为用这种办法就可以进行作品真伪的鉴定。

1887年美国地球物理学家门登荷尔(T.C.Mendenhall)受到德・摩根思想的启发,认为词长能够反映作家的写作习惯,就像光谱能够反映各种颜色的光的特点一样。如果能够获取这种“词谱”就能够确定某一部作品的作家。并认为“词谱”能够给作家考证提供科学的解决办法。他利用这种方法对比研究了莎士比亚40万词、培根20万词的作品,获得了反映这两位作家写作习惯的不同的“特征曲线”,从而解决了当时有关莎士比亚和培根是否是一个人的争论,并且在《科学》杂志上发表了论文。同一时期欧洲也有许多学者在从事着同样的研究。由于这种研究需要进行大量的统计分析,受到研究手段的限制,Mendenhall时代的统计文体学研究是一项艰苦的工作。

第二次世界大战以后,随着计算机的出现和统计学理论的发展,文体的统计研究也有了较大的发展。这一时期比较有名的研究成果是瑞典文史学家A.Ellegard关于《Junius投稿集》的研究。《Junius投稿集》是1769年至1772年英国报纸上发表的笔名为Junius的人所写的攻击英国政府和王室的一系列文章。这些文章的作者到底是谁一直是英国文学史上的谜。1962年A.Ellegard发表了《作者考证的统计方法》一书,书中A.Ellegard统计了Junius比同时期作家使用得更多的词汇和不怎么使用的词汇以及Junius对同义词的选择倾向,然后同当时被怀疑为Junius的40名作家一一进行对比。最后发现Junius的写作习惯和Philip Francis的习惯惊人一致,因此A.Ellegard认为他的统计证据有99%的把握可以证明Junius和Philip Francis是同一个人。

20世纪中后期,随着计算机的普及,统计文体学的研究特别是利用统计文体学方法进行西方语言文本的研究已经不像此前那样高深莫测。开始有人用统计文体学的方法研究文学作品的伪作问题。在英国,计量文体学考证作者的方法甚至被警察用来判别自首书的真伪。70年代中期,英国剑桥大学的两位师生曾经运用统计文体方法和计算机技术侦破了出版商伪造莎士比亚作品的案子从而震动西方文学界(贾洪卫等,1991)。80年代,在日本,华岛忠夫、寿岳章子两位学者利用统计学的方法研究了100多名日本作家的写作风格,并出版了《文体的科学》一书。90年代,日本学者村上征胜运用多种统计手段对被誉为世界上最早的小说《源氏物语》的作者存疑问题进行了研究,于1994年出版了专著《真赝的科学》。

进入21世纪后,随着信息技术的进步,特别是自然语言处理技术在汉语、日语自动分词等方面取得了突破性的进展,国外有学者开始利用新的信息技术研究中国古典文献。如日本的石井公成(2002)、师茂树(2002)、山田崇仁(2004)等。山田崇仁利用自然语言处理中的N-GRAM和文本挖掘技术中的聚类方法对我国先秦时期诸子百家留下的历史文献的成书年代进行了探索。石井公成、师茂树等学者用同样的方法对佛教经典的真伪进行了研究。

受到西方研究方法的影响,我国学者真正开始用统计文体学方法研究中国古典文学作者问题始于20世纪80年代初。由于计量文体学涉及数学方法,加上计算机对中文处理能力的限制,尽管中国古典文学作品作者问题存在许多奇案,但是利用计量文体学方法研究中国文学作品作者问题的学者并不太多,成果数量也有限,且主要集中在《红楼梦》的研究上。

根据前文论述可以知道,使用统计方法进行文学作品作者的考证在西方取得了令人信服的成果。而使用同样的方法对《红楼梦》的研究却得出了截然相反的结论。这一方面说明《红楼梦》这部作品的复杂性,同时也让人怀疑在中国古典文学作者的考证研究中计量文体学的方法是否使用得当。自1987年陈大康先生发表《红楼梦“成书新说”难以成立》一文,提出与李贤平商榷以后,至今已经有20多年。这二十多年似乎这方面的研究陷入了停顿,很少能够看到这方面文章的发表。

可以说我国在计量文体学研究方面和世界先进水平还是有一定差距的。这种差距表现在以下三个方面。

一是我国计量文体学研究的现状和社会现实需求存在着很大的距离。我国古典文献的作者问题一直是困扰学界的热点问题,至今没有得到科学的解决。在现实生活中,随着计算机和互联网的普及,计算机输入已经取代了用笔写作的习惯,这又给我们提出了如何科学鉴定电子作品作者的课题。二是计量文体学研究成果的数量存在很大差距。欧美这方面的研究起始于19世纪,而我国20世纪80年代之前基本没有这方面研究成果。即便是现在,针对中文文献进行文体计量研究的原创性论文也非常少。而根据日本学者金明哲、村上征胜在『言語と心理の統計』中提供的资料,截至2002年欧美有关文体计量学和作家鉴定方面的英语论文(著作)有100多篇(部),日本约50余篇(部)。

三是尚未找到汉语文体的有效测量方法。文体的测量方法和指标,根据语言的不同呈现出其独特性。词长分布在进行英语文献的计量分析时能够收到很好的效果;日语助词和标点的组合情况能够有效地反映日语文献的文体特征。但是这些特征指标很难在汉语文体测量上发挥有效的作用。我们必须要找到古代汉语和现代汉语的文体特征指标。