计量文体学导论
上QQ阅读APP看书,第一时间看更新

前言

大概在三十年前,还是在上大学的时候,从一本日语语言学的文献中读到有人尝试使用统计学的方法研究有关莎士比亚及其作品争论的课题。这是第一次听说莎士比亚是否确有其人居然还存在争论。联想到中国大量的古典文献也存在类似问题,特别是《红楼梦》的作者问题,不但一直是红学界争论不休的热点,甚至因电视剧《红楼梦》的热播,也成了中国社会关注的对象,于是就想,难道没有一个科学的方法能够解决此类问题吗?恰好当时数学课程正在讲“概率论和数理统计”,便对用统计学方法研究佚名作品的作者问题产生了兴趣。当然,当时并不知道什么是文体学,更不知道还有计量文体学这门学问。我对文体学有系统认识是在硕士研究生时代。当时洛阳外国语学院的张云多教授开设了“文章论·文体论”,这门课系统介绍了文体学这门学问,同时也介绍了日本学者关于文体学研究方面的成果和方法。张云多教授也是我硕士时候的授业恩师。由于计量文体学研究需要进行大量数据的统计分析,而20世纪八九十年代获取文本数据比较困难,虽然具备从事这项研究所需的基本数学知识和计算机技术,但是,终因时代和数据条件的限制,这项研究暂时被搁置起来了。但是,我对计量文体学研究的兴趣始终未减,而且一直关注着日本在这方面研究的进展。

进入21世纪后,随着信息技术的进步和互联网的普及,数据的获得比较容易,文本数据的分析和挖掘研究受到广泛关注。世界上计量文体学领域的研究也有了长足的进步,日本就出版了一系列这方面的著作,而且出现了多位这方面研究的专家,比如同志社大学的村上征胜教授、金明哲教授就是这些专家学者的杰出代表。国内虽然也有一些学者在开展这方面的研究,但还是相对比较薄弱,我们甚至看不到一本系统介绍利用计量的方法研究中文文体习惯的专著。

文体计量研究有一个非常相似的研究领域,那就是文章的剽窃研究。国内因学术评价的需要有很多学者在研究学术论文的剽窃问题,这方面的成果非常丰富。学术剽窃问题研究也是研究文章的相似性问题,这和文体研究密切相关但又有严格区别。文章的相似性实际上包括两个方面,一是文章内容和观点的相似性,二是文章写作风格的相似性。通常学术剽窃主要是在自己的文章中抄袭别人文章的内容和观点,为了掩盖其抄袭行为通常会将别人的观点用自己的语言描述出来,说成是自己的。这种情况下,虽然内容观点是别人的,但是由于是用自己的语言表述的,所以存在学术剽窃嫌疑的文章通常是内容观点同别人的相似,但是文章所体现出来的写作风格却与别人不同。当然,如果是不加掩饰的全文抄袭,则不但内容观点相同,而且写作习惯也相同,这种情况是彻头彻尾的剽窃。与剽窃研究不同,文体研究的一个主要目标是要鉴别作品的真伪问题。模仿别人的习惯和风格写作,古来有之,有的是善意的,有的是恶意。如《红楼梦》的续写,作者为了能够让这部不朽之作有一个完整的结局以满足读者欣赏的需要,这个出发点不能说是不好的。而如今充斥网络的匿名文章、匿名信,却没有这样的初衷,这些东西往往会模拟别人的口吻和风格,进行造谣、污蔑和对他人进行人身攻击。这些行为有很多是恶意的。无论初衷是善意的还是恶意的,这些文字产品都会给社会留下困惑,有的需要对其作者进行鉴别。这就需要分析内容不同的文章所体现出来的写作习惯和写作风格的相似性。

研究学术剽窃和研究模拟别人写作风格的作品其实存在实质性不同。学术剽窃主要研究文章内容和观点的相似性,需要考察的对象是文章中反映文章内容和作者观点的语言表达形式以及利用这些语言表达形式来判断论文相似度。而计量文体学研究的对象是文章中能够反映文章作者写作风格和写作习惯的语言表达形式以及以此来判断不同文章是否具有相同的写作习惯、是否出自同一人之手。这两种研究都有非常高的实用价值,前者可以用以鉴别学术不端,而后者可以用以鉴别伪作。

人们普遍使用计算机写作的今天,甄别电子文本的真伪已经不能够仅依靠笔迹这种传统的证据,作者写作习惯的分析将是电子文本真伪分析的重要手段。相信随着大数据理念的提出和数据分析技术的进步,这种用计量的方法进行文体研究的学问将会越来越受到人们的关注,同时计量文体学的方法手段将会在很多领域得到应用。基于以上想法,我觉得自己有责任尽自己的能力将有关计量文体学研究的基本知识和理论梳理出来奉献给国内读者,尽管我在这方面的研究和认识是很肤浅的。2011年初我入选教育部“新世纪人才支持计划”,作为本人在该计划支持下的重要研究内容,我真正开始了利用计量方法研究文体的工作。经过3年多的努力,终于完成了拙著《计量文体学导论》。从统计的角度讲,有很多统计学方法可以在文体计量研究中得到应用,特别是多变量分析的方法层出不穷,本书中所涉及的是最基本的,目的是让读者对计量文体学有一基本认识。关于一些复杂方法的应用读者可在自己的研究中进行深入探讨。文体的计量研究至少涉及语言学、文学、数学、计算机信息处理技术等领域,属典型的跨学科交叉研究领域,限于本人能力和知识的限制,书中难免存在诸多疏漏、不足,希望能够得到广大读者的批评指正。同时,也希望拙著能够起到抛砖引玉的作用,能够吸引更多的学者投入到计量文体学研究领域中来。

2016年初,承蒙彭广陆教授的厚爱和努力,北京大学出版社接受了拙著的出版申请。在北京大学出版社兰婷老师的鼓励和帮助下,又承蒙彭广陆教授、陈小明教授的推荐,本书通过北京大学出版社申请了北京市社会科学理论著作出版基金资助并获得了成功。在此向在拙著出版过程中给予帮助的专家、学者和朋友们表示衷心的感谢!本书的出版还与父母、家人的理解、支持是分不开的。特别是妻子和孩子,正是因为有她们在后面默默的付出和努力,我才得以专心致力于此项研究,顺利地完成书稿的写作。值此书出版之际也向亲人们表示由衷的感谢。

施建军

2016年6月19日于北京