语料库在翻译专业本科生翻译能力建设中的应用研究
上QQ阅读APP看书,第一时间看更新

第二章 语料库语言学发展史及其在语言教学中的应用

在开展翻译教学研究之前,我们首先必须要搞清楚以下两个基本概念:语料库和语料库语言学。其次,我们必须了解语料库是否已在语言教学得到了应用以及效果如何。因此,本章主要探讨以下内容:①语料库发展史及语料库语言学的语言研究观;②语料库在语言教学中的使用和语言教学专家对在语言教学中使用语料库存在的分歧。

2.1 语料库发展史及语料库语言学的语言研究观

语料库是在随机采样的基础上收集人们实际使用的、有代表性的真实语言材料而创建的电子文本资源库。我国语料库语言学专家冯志伟教授把语料库定义为:

 

按照一定的语言规则,采用随机抽样方法,收集自然出现的连续的语言,运用文本或话语片段而建成的具有一定容量的大型电子文本库。从其本质上来说,语料库实际上是对自然语言运用的随机抽样,以一定大小的语言样本代表某一研究中所确定的语言运用总体。(冯志伟,2009, p.1)

 

语料库中的语料是真实使用的语言实例,如实地反映了语言现象,克服了“坐在扶手椅上的语言学家”(armchair linguists)凭借自己头脑里的语言直觉和智慧,通过主观臆断来撰写语言规范的不足。所以,“语料库的出现不仅标志着语言研究手段的技术进步,而且还标标志着语言研究思想的重大转变”(于连江,2004, p.40)。语料库语言学家Teubert认为:

 

Today, the corpus is considered the default resource for almost anyone working in linguistics.No introspection can claim credence without verification through real language data.Corpus research has become a key element of almost all language study.This is an indication that the paradigm of linguistics is finally becoming again more pluralistic. (Teubert,2005, p.1)

如今,语料库被认为是从事语言研究者的默认资源。没有通过真实语言数据验证的任何“内省”都无法自圆其说。语料库研究是几乎所有语言研究的关键要素。这表明语言学研究范式终于再一次变得多元化。

 

在Teubert看来,语料库已经成为语言研究者的默认资源和关键要素,促成了语言学研究范式的多样化。接下来,我们将梳理语料库发展史以及语料库语言学独特的语言观。

2.1.1 语料库发展史

语料库发展历史可以分为三个阶段。第一阶段从19世纪末期到20世纪70年代末期;第二阶段从20世纪80年代到90年代中期;第三阶段从20世纪90年代中期至现在。

运用语料库开展语言研究的历史可追溯到19世纪末期,不过当时的研究手段还停留在卡片制作和人工检索的阶段,其成果主要用于词典编撰和语法研究。20世纪初期,美国教育学家Thorndike为了改进英语教学,收集了450万词次的英语语料。这些语料来源于41个不同领域,其中75%来自《圣经》和其他经典文学名著,其余则来自书信、报纸等。到了20世纪30年代,Thorndike 与Lorge 合作,将语料规模扩大至1800万词次。Thorndike 与Lorge 的工作影响了其后30年世界各地的英语教学。至20世纪50年代,以Chomsky为代表的语言学家占据了美国语言学研究的领导地位,他们完全排斥经验主义的统计方法,远离语言事实,这使得美国基于语料库的语言学和语言教学研究进入低谷。

与此同时,英国著名学者Quirk、Leech和Greenbaum为了描述英语语法,开始合作建立百万词次的“英语用法调查”(Survey of English Usage [SEU])语料库。在此基础上,Quirk领导编写了著名的《当代英语语法》。SEU 语料库先采用纸质语料,到80年代初才有了电子版本。SEU语料库是从传统语料库过渡到电子语料库的重要标志。

20世纪60年代初期,美国布朗大学Francis和Kucera在计算机上建立了机器可读的“布朗语料库”,这是世界上第一个根据系统性原则采集样本建成的平衡语料库,规模为100万词次。Francis和Kucera采用手工方式对语料进行了“词性标注”(part of speech tagging [POS Tagging])。布朗语料库是第一个代表美国英语的电子语料库。

20世纪70年代初期,英国兰卡斯特大学Leech、挪威奥斯陆大学Johansson和挪威卑尔根大学Hofland 合作创建了“兰卡斯特—奥斯陆/卑尔根语料库”(The Lancaster-Oslo/Bergen Corpus [LOB Corpus]),规模与布朗语料库相当。这是第一个代表英国英语的电子语料库。

20世纪80年代至90年代中期是语料库发展的第二阶段,其标志是世界各国都在开始建设语料库,跨国联合建立国际性语料库的工作也逐步开展起来。我国首批语料库也在此期间建成,代表性语料库有50万词次的“广州石油大学石油英语语料库”(Guangzhou Petroleum English Corpus [GPEC])和100万词次的“上海交通大学科技英语语料库”(Jiao Da English for Science and Technology [JDEST])。国外代表性的语料库有1亿词次的“英国国家语料库”(British National Corpus [BNC]),库内有9000万词次的书面语言和1000万词次口语素材。由Greenbaum主持建立的“国际英语语料库”(International Corpus of English [ICE])是国际性语料库的代表。ICE 语料库汇集了全球20多个国家和地区的英语语料。

20世纪90年代中期以来是语料库建设和发展的第三个时期。其发展特点主要体现在三方面:①大规模、多语种、多领域语料库的建设;②语料的深加工;③语料库在语言相关领域的广泛应用。得益于计算机处理速度的加快和存储空间的扩充,语料库的建设规模迅速扩大,如美国杨百翰大学Davis主持的COCA规模达到了4.5亿词次,并且还在不断更新中。除了英语语料库之外,其他语种的语料库也在不断开发之中,如兰卡斯特大学肖忠华教授建设的“兰卡斯特汉语语料库”(Lancaster Corpus of Mandarin Chinese [LCMC])。除了单语语料库之外,其他类型语料库也在不断建设之中,如“英语—挪威语平行语料库”(English-Norwegian Parallel Corpus [ENPC])、“曼彻斯特大学翻译英语语料库”(Translational English Corpus [TEC])。90年代中期以来,语料的深加工受到各国学者的普遍重视,许多国家都对语料库文本进行词性标注、“句法标注”(syntactic annotation)和“语义标注”(semantic annotation),把语料库进一步加工成“树库”(treebank)。从语料库的运用上来看,语料库已经从原来语言研究辅助工具的边缘地位,一跃而成为语言研究的主流。“语料库的使用,为语言学的研究提供了一种新的思维角度,辅助人们的语言‘直觉’和‘内省’判断,从而克服研究者本人的主观性和片面性”(冯志伟, 2006, p.14)。

2.1.2 语料库语言学的语言研究观

“语料库语言学”(Corpus Linguistics)是利用语料库对语言进行研究的一门学科,拥有自己的理论体系和操作方法。语料库语言学诞生于20世纪60年代,背景是计算机科学的迅猛发展和大量机器可读的电子文本集的出现。语料库语言学立足于大量的、以语料的形式存储的语言实例,通过对语料做系统而详尽的观察和概括,形成科学的结论。基于语料观察和概括得出的结论既可证实或证伪已有语言理论,亦可用于开创新的语言理论,因此对语言理论的建设有无可比拟的创新意义。

语料库语言学认为:语言研究首先必须基于语言事实。语料库语言学以大量精心采集而来的“真实文本”(authentic texts)为研究素材,主要通过概率统计的方法得出结论,因此语料库语言学从本质上来讲是“实证性的”(empirical)。20世纪50年代以前的语言学传统,无论是规范语言学、历史语言学或是描写语言学,都注重语言事实,提倡经验主义,即“根据对大量事实的广泛观察,得出一个比较有限的结论”(罗素,1976, p.177)。从1956年开始,转换生成语法代表人物Chomsky发表了关于形式语言的一系列论文,主张用公理化、形式化的方法,严格按照一定的规则来描述自然语言的特征。对于语料库语言学基于统计概率得出的结论, Chomsky认为:

 

It must be recognized that the notion“probability of a sentence”is an entirely useless one, under any known interpretation of this term. (Chomsky,1969, p.57)

必须承认“句子概率”这个概念在其所有的已知解释里都是完全无用的。

 

对于以Chomsky为代表的转换生成语法者对语料库语言学研究方法的批判, Sinclair、Sampson、Stubbs、McEnery与Wilson等都提出反驳。Sinclair认为:

 

The comprehensive study of language must be based on textual evidence [because one]does not study all of botany by making artificial flowers.(Sinclair,1991, p.6)

对语言的综合研究必须基于文本证据,因为人们不是通过制作假花来研究所有植物的。

 

Sampson认为:

 

The type of sentence typically analyzed by the introspective linguists is far away from the type of evidence we tend to see typically occurring in the corpus.(Sampson,1992, p.428)

基于“内省”的语言学家惯常研究的句子与语料库中典型句子的差距还是非常远的。

 

Stubbs强调内省材料并不是第一手研究资料,因为

 

The data is selected to illustrate a theory and it is carefully considered and highly edited.(Stubbs,1993, p.13)

这些材料是被挑选出来证明某个理论,是经过认真考量和高度编辑过的。

 

McEnery与Wilson指出:

 

...corpus-based observations are intrinsically more verifiable than introspectively based judgments.(McEnery&Wilson,2001, p.14)

基于语料库的观察从本质上来说比基于“内省”的判断更易于被证实。

 

其次,语言研究应以“词汇”(lexis)为主。语料库语言学强调词汇在语言描述中的作用,这有别于传统语言学中以句法为主的研究路径。在传统语言学中,词汇的重要性没有得到足够的重视。

 

In many cases there is no mention at all of the fact that a structure may be lexically restricted other than by considerations of word-class and related factors.(Francis,1993, p.142)

语言结构受制于词汇而非词类或与之相关的因素,这个事实在很多时候都是被忽视的。

 

在语料库语言学研究者看来,词汇的重要性不容忽视。他们甚至把语料库方法称作为“词汇法”(the lexical approach)。正是得益于语料库语言学的发展,词汇学研究已经逐渐得到应用语言学研究者的青睐。Sinclair 是基于词汇的语言研究的积极倡导者之一,由他领导的“柯林斯伯明翰大学国际语料库”(Collins Birmingham University International Language Database [COBUILD])项目目的如下:

 

...specify all major lexical items in terms of their syntactic environments, and all grammatical structures in terms of their key lexis and phraseology.(Francis&Sinclair,1994, p.199)

根据词汇的句法环境明确主要词汇的用法,根据主要词汇和短语明确所有语法结构。

 

第三、语言研究应关注语言的意义。Teubert把关注语言的意义作为语料库语言学的主要研究目的,因为语料库是

 

...a record of language as a social act(rather than as a psychological phenomenon), and meaning, too, is a social phenomenon.(Teubert, 2004, p.97)

记录作为一种社会行为(而非一种心理现象)的语言,而且意义也是一种社会现象。

 

语言的意义如同语言一样,也是一种社会现象,是由话语社团的成员所决定的。没有一个简单的公式或规则能够总结出一个词语或短语的意义。要想了解一个词语或短语的意义,或了解一个词或短语在任何一个历史节点上的意义,我们需要研究这个词或短语出现的每个实例。很显然,这是不可能完成的任务,但是语料库为我们提供了海量的语言实例,为我们完成这项不可能的任务提供了可能性。在语料库语言学者看来,语言的意义不仅是词汇或短语的字面意义,而应当

 

...extend the dimensions of a unit of meaning until all the relevant patterning was included—all the patterning that was instigated by the presence of the central word....[W]e should extend the unit until the ambiguity disappears.(Sinclair,2004b, p.280)

延伸意义单元的维度直到所有的由中心词语所触发的模式被涵括在内……我们应当延伸意义单元,直至歧义消失。

 

需要指出的是,语料库语言学有其自身的不足。语料库语言学的局限性在于它只能提供语言事实的实例,不能对这些语言实例进行解释,也不能对他们进行推理,更不能直接为文本数据提供文化和社会背景方面的信息。同时,语料库中的语料只代表部分语言事实,即使是最大的语料库也不能涵括语言中的所有表达形式。

2.1.3 小结

从诞生之日起,语料库就与语言研究紧密结合在一起,是语言研究的重要工具和有效手段。随着科技的发展和研究的深入,语料库的创建和规模都取得了令人瞩目的成就。中国的语料库建设和研究虽然起步较晚,但是发展势头喜人。伴随着语料库建设的是语料库语言学的出现、发展和壮大。虽然遭到了转换生成语言学家的批判,语料库语言学因其科学的研究方法、可视化的研究流程和可验证的研究结果而备受研究者的厚爱。

2.2 语料库与语言教学

在过去的20年里,语料库研究发展迅猛,语料库应用领域扩大。除了推动语言学研究范式多样化之外,语料库在语言教学中也得到广泛的运用,而后者是语料库开发者始料未及的运用。使用语料库能帮助学习者积累语言知识,同时,语料库中的语料是语言学习者宝贵的学习素材。自从20世纪60年代大型电子化语料库问世以来,语料库与语言教学的著作就不断涌现,代表性著作有Adel(2006)、Aijmer(2009)、Aston(2001)、Aston、Bernardini & Stewart(2004)、Bernardini (2000)、Braun、Kohn &Mukherjee(2006)、Burnard &McEnery(2000)、Campoy、Fortuno&Valor(2010)、Connor&Upton(2004)、Frankenberg-Garcia、Flowerdew&Aston(2011)、Gavioli(2006)、Ghadessy、Henry&Roseberry(2001)、Granger、Hung&Petch-Tyson(2002)、Hunston(2002)、Lombardo(2009)、Nesselhauf(2005)、Romer (2004a,2004b,2005,2006,2008)、Scott&Tribble(2006)、Sinclair(2004)、Tenorio、Rodriguez-Navarro&Santana(2007)以及Tomlinson(2011)。

除了数量众多的专著之外,国际上还有以“语料库和教学”为主题的研讨会,譬如“教学与语料库”(Teaching and Language Corpora [TALC])国际研讨会。TALC国际研讨会吸引了语料库与语言教学领域的众多顶尖学者,已成为该领域最重要的国际会议之一。会后出版的论文集展示了语料库与语言教学的最新研究成果。

根据语料库在语言教学中的作用和使用方式,Romer 将其在语言教学中使用分成间接使用和直接使用两种。

 

That means that, “indirectly”, corpora can help with decisions about what to teach and when to teach it, but that they can also be accessed“directly”by learners and teachers in the LT classroom, and so assist in the teaching process.(Romer,2008, p.113)

语料库可间接地帮助语言教学研究者和语言材料编撰者决定该教什么语言知识以及什么时候教比较合适。语料库还可直接被学生和教师在语言课堂里使用,从而辅助教学过程。

 

图2-1更加直观地反映了语言教学中语料库的具体使用方式。

图2-1 语言教学中的语料库使用

在以下部分,我们将从三方面来回顾文献:语料库在语言教学中的间接使用、语料库在语言教学中的直接使用以及语言教学者在语言教学中对语料库的使用存在的分歧。

2.2.1 语料库在语言教学中的间接使用

语言教学专家Barlow指出:

 

The results of a corpus-based investigation can serve as a firm base for both linguistic description and, on the applied side, as input for language learning.(Barlow,1996, p.32)

语料库检索结果可作为语言描述的坚实基础;从应用角度来说,它也可作为语言学习的输入。

 

这说明语料库中的语料可作为语言学习的输入,进而对语言课程的课程设计和教学内容产生重要的影响。

大型语料库是制定注重培养学生交际能力的课程大纲的重要资源。把真实的自然语言融入课程大纲中,大纲编撰者就能让学习者接触到那些在日常生活中最有可能碰到的情景和最常使用的语言结构,借此可大大提高学习者的语言交际能力。在语料库辅助课程大纲设计方面,COBUILD 英语教材(COBUILD English Course [CEC])是首创,成果也最具开创性。CEC 教材是基于词汇大纲而制定的,而词汇大纲则来源于COBUILD中收集的语言实例。COBUILD基于语料库的词汇研究证实:

 

The 700 most frequent words of English account for 70% of all English text.The most frequent 1500 words make up 76% of text and a total of 2500 words constitute 80% of all spoken and written English. (Willis,1990, p.46)

70%的英语文本是由700个最常用的英语词汇组成。76%的英语文本是由1500个最常用的英语词汇组成。80%的英语口语和笔头语是由2500个单词组成。

 

以这2500个单词及其意义为核心,CEC教材涵盖了英语中最重要和最典型的句型和句式。学生掌握了这2500个单词以及由这些单词构成的句型和句式,就具备了基本的英语交际能力。

语料库除了可以用于编制教学大纲之外,还可以用来修订教学材料。教材编撰者可将教科书或语法书中某个语言点的搭配模式及分布情况与语料库中该语言点的实际使用情况做比较,从而修订过去教学材料编撰者凭借自己的直觉或依据传统语言学家所确定的语言学习重点而编写的教材。此类工作的出发点通常是那些给语言学习者带来困难的语言点,如英语中的不规则动词(Grabowski&Mindt, 1995)、情态动词(Mindt,1995; Römer,2004a)、将来时表达式(Mindt,1997)、if-从句(Römer,2004b)、连接副词(Conrad,2004)以及动词的进行时形式(Römer,2005, 2006)等。所有这些研究都发现英语教材中描述的英语和实际使用的英语之间有很大差异,研究者因此强调利用语料库信息修改教材中对语言系统的描述,以使其真正呈现语言实际使用的全貌。这些研究也从侧面反映出,不能如实地描述语言实际使用状况的教材会误导学习者,是学习者产生错误的根源之一。

上述语料库与教材之间的对比分析不仅启迪了教材编撰者,而且对教学参考资料的编写工作也产生了重要的影响。基于大型通用语料库的研究成果极大地影响了参考书出版业,促成了新生代词典和语法书籍的诞生。如今:

 

People who have never heard of a corpus are using the products of corpus research.(McEnery, Xiao&Tony,2006, p.97)

从未听说过语料库的人也在使用基于语料库研究成果的产品。

 

在英语语言教学领域,COBUILD系列英语学习参考资料堪称典范。COBUILD词典、语法书、用法指南、语词索引例句等产品以真实使用的英语为基础,充分考虑语言学习者的需求。它们为教师和学生提供的信息要比传统的、不基于语料库编撰的参考资料更可靠,更具说服力。

2.2.2 语料库在语言教学中的直接使用

语料库在语言教学中的间接使用主要侧重于将语料库中的发现应用到课程大纲的设计、教学材料的编撰和参考资料的出版,更多地关注教学研究者和教学材料编撰者的语料库使用,而语料库在语言教学中的直接使用则面向终端用户,即教师和学生。教师和学生不再只依赖研究者为其提供基于语料库的学习材料,而是自己动手使用语料库,建立语词索引,从而

 

...find out about language patterning and the behavior of words and phrases in an“autonomous”way.(Bernardini,2002, p.165)

“自主地”找到语言模式和单词与短语的行为特点。

 

Gavioli&Aston指出:

 

The most traditional way of applying corpora in the language classroom is their use as resources by teachers and learners, inside and outside the classroom.(2001, p.244)

在语言课堂上应用语料库最传统的方法是把它作为教师和学习者的课堂和课外资源。

 

在Hunston看来,语料库除了可以用作课堂内外教学资源之外,还可有以下两种用途:

 

On the one hand, corpora can be used by teachers in order to gain insights into the ways in which native-speakers or learners use language in everyday situations and thus can broaden their personal knowledge of practical language usage.On the other hand, corpora can be analyzed by teachers and introduced to students with the help of varying degrees of mediation.(Hunston,2002, p.137)

一方面,教师可以使用语料库来了解母语使用者或外语学习者在日常生活中是如何使用语言的,从而拓展教师关于语言实际应用的个人知识。另一方面,教师可以分析语料并在对语料进行不同程度的加工之后介绍给学生。

 

Hunston提到,在教学中直接使用语料库时,教师首先要自己分析语料。在将语料介绍给学生之前,要对语料做不同程度的教学加工,以适应教学需求。对此, Braun也指出:

 

A successful use of corpora for learning and teaching hinges to a great extent on a successful“pedagogical mediation”between the corpus materials and corpus users.(Braun,2005, p.61)

语言教学中语料库的成功使用在很大程度上取决于在语料和语料库使用者之间的成功“教学加工”。

 

Hunston所提第二种直接使用语料库的方法获得了广泛的关注,这是因为

 

Teachers mediating between corpora and their students are able to adjust the issues to be dealt with in class exactly to their learners'needs. (Johansson,2009, p.42)

在语料和学生之间充当“加工者”角色的教师能够将课堂上要讨论的话题与学习者的需求恰到好处地对接。

 

将经过加工之后的语料在课堂上呈现给学生的最大优点在于学生能够直接学习所选的真实语言实例,而不是杜撰出来的例句。而对于教师,

 

Corpora are invaluable for teachers, in that they can employ them in a number of ways, such as, for example, to create exercises, demonstrate variation in grammar, show how syntactic structures are used to signal differences in meaning and level of style, discuss near-synonyms and collocations, and last (but not least)to give informed answers to student questions.(Granath,2009, p.49)

语料库价值巨大,因为教师可以用语料库来编制练习,展示语法变化,显示句法结构是如何用来表达意义和语体正式程度上的差异,讨论近义词和搭配,和为学生的问题提供有根据的答案。

 

在简要地回顾了教师如何将语料库融入教学之中后,我们来看学生如何在课堂之中和课堂之外使用语料库。在Aijmer看来,

 

Teachers in higher education may act as mediators, guiding students to the use of corpora so that once they are properly trained, they may come to consider corpus consultation as normal as looking up words in dictionaries or the use of grammars in solving doubts about syntax. (Aijmer,2009, p.8)

高等学校的教师可以充当中介,引导学生使用语料库。一旦学生获得适当的训练,他们会把使用语料库当成和在字典里查新词或通过语法书解决句法问题一样平常。

 

Johns(1986,1991)提出的“数据驱动学习”(Data Driven Learning[DDL])是一种新的基于语料库数据的外语学习方法。它的主要思想是指引学生基于大量的语料库数据观察、概括和归纳语言使用现象,自我发现语法规则、意义表达及语用特征。Johns认为:

 

The language-learner is also, essentially, a research worker whose learning needs to be driven by access to linguistic data.(Johns,1991, p.2)

从本质上来说,语言学习者也是研究者,他们的学习也应当由语言数据驱动。

 

对DDL相关的研究可以参见Römer(Romer,2008)。在此文中,Römer认为,基于语料库的DDL被证明是有效的学习方法。

 

These studies demonstrate that corpora nicely complement existing reference works and that they may provide information which a dictionary or grammar book may not provide.(Romer,2008, p.120)

这些研究表明语料库与现存参考资料良性互补,他们能够提供字典或语法书所不能提供的信息。

 

教师通过让语言学习者使用语料库,为他们提供了接触真实使用的语言的绝佳机会。在复杂的语言学习过程之中,学习者一直在进行形成假定与验证假定的工作。在形成、证实、证伪这些假定的过程中,学生,如同研究者一样,可从语料库中获取证据。

在学生与语料库的直接交互过程中,教师的角色是什么呢?在将语料库呈现给学生之前,教师是语料的加工者。不过,语料库惠及的不仅仅是语言学习者,教师也不仅仅是加工者,因为:

 

The rich potential of corpus tools allows teachers themselves to access the intended corpus in order to offer activities tailored to their learners'proficiency level and their particular learning needs.(Römer, 2008, p.120)

潜力巨大的语料库工具能帮助教师获取到他们需要的语料,从而提供与学生能力水平和学习需求相适应的活动。

2.2.3 语言教学专家们的观点分歧

语料库在语言描述方面的作用毋庸置疑,但是语料库在语言教学中是否有用以及基于语料库的发现能在多大程度影响语言教学,语言教学专家们是存在分歧的。赞成者认为,语料库在教学中作用巨大,因为基于语料库的教学关注词汇,强调使用频率信息和归纳式学习。而反对者则认为:首先,基于语料库的教学在处理文本时采取的是自下而上而非自上而下的策略;其次,语料是脱离语境的;第三,在教学中使用语料库需要学生开展归纳式学习,而归纳式学习和演绎式学习孰优孰劣,学界还有争论。

2.2.3.1 赞成者的观点

首先,基于语料库的教学有助于强调词汇在语言教学中的作用。对于词汇教学法,Richards和Rodgers的定义如下:

 

A lexical approach in language teaching refers to one derived from the belief that the building blocks of language learning and communication are not grammar, functions, notions, or some other unit of planning and teaching but lexis, that is words and word combinations.(Richards &Rodgers,2001:132)

词汇教学法源于这样的信念,即语言教学和交流的根基不是语法、功能、理念,或者其他一些计划和教学,而是词汇,是单词以及单词和单词的组合。

 

在过去的几十年里,由于以Chomsky 为代表的语言学家过分强调语言结构,即句法的重要性,而忽视了词汇。这就导致了在语言教学中,人们对于语法能力、对比分析、阅读、写作等这些方面的兴趣要远远超过对词汇的兴趣。在语言教学中强调词汇的重要性反映出这样一种理念,即词汇是语言结构、二语学习、语言使用以及被当作单个项目学习和使用的多词汇单位(词块)的核心。Widdowson指出:

 

The more one considers the matter, the more it seems to suppose that lexis is where we need to start from, the syntax needs to be put to the service of words and not the other way round.(as cited in Lewis, 1999, p.115 )

人们对语言教学问题考虑得越多,就越会发现教学应从词汇开始。句法应该为词汇服务,而不是颠倒过来的。

 

Francis与Sinclair也指出:

 

There is little point in presenting learners with syntactic structure—how groups and classes are built up—and then presenting lexis separately and haphazardly as a resource for slotting into these structures.In other words, we should not burden learners with vast amounts of syntactic information on the one hand and lexical (“vocabulary”)information on the other, which they then have to match according to principles which are not naturally available to them as non-native speakers.Instead, teachers can present the structures and the lexis at the same time, either in the form of lists, or by means of concordances if the teaching situation allows this.(Francis&Sinclair,1994, p.200)

先把句法结构呈现给学习者,然后将词汇作为填充句法结构的资源独立出来教学,这种做法毫无意义。换句话说,我们不应当一方面把大量的句法信息强加给学生,另一方面把词汇信息也灌输给学生,这样做只会增加学习者负担,因为非母语学习者并不天生掌握句法和词汇搭配的原则。相反地,教师可以同时呈现结构和词汇,或以条目形式出现,或以索引的形式出现(如果教学条件允许的话)。

 

曾将句法作为首要关注点的转换生成语言学家现在也开始关注词汇是如何形成、编码和组织的。Chomsky在最简方案里提出了“词汇为本”的观点,他充分强调了词汇在语言研究和教学中的重要性。

当越来越多的研究者和教师在各自的工作中采用词汇法的时候,一个很关键的问题是,如何能够找出词汇,尤其是那些使用频率很高的词汇?毫无疑问,语料库工具是解决这一问题的最佳途径。

另外需要强调的是,语料库方法反对传统的、过分强调脱离语境的单个词汇的词汇教学法。传统词汇教学假定单词有内在的意义,因此完全脱离语境教学。相比之下,语料库语言学则认为:

 

Words do not have inherent meanings, but depended on their environments to select or at least confirm their meaning.(Francis &Sinclair,1994, p.192)

单词本无固有之意,而是依赖于语境来选择或者至少确定它们的意义。

 

在Krishnamurthy的意义语境观中,他认为:

 

A word may have many potential meanings, but its actual meaning in any authentic written or spoken text is determined by its context:its collocations, structural patterns, and pragmatic functions.(Krishnamurthy, 2006)

一个单词或许有多个潜在的意义,但是其在任何真实书面语或口语里的实际意义取决于语境:搭配、结构模式和语用功能。

 

其次,语料库方法强调频率信息在语言教学中的重要性。英语单词在语篇中的出现频率虽然很不平衡,但却很有规律。通过频率统计,语料库清楚地展示了语言的不对称性分布特征。许多研究者已经强调语言项目的出现频率在语言教学中重要性。Kennedy(1987,1998)认为,如果由于课堂教学时间有限,必须要对课堂材料做出取舍,那么就应当选用那些出现最频繁的单词和最常用的句型,因为我们要确保学习者有机会学到在实际生活中最有可能接触到的内容。在Kennedy看来,

 

The most used ones will generally be the most useful ones for learners of English.(Kennedy,1987, p.83)

对于英语学习者来说,最常使用的也通常是最有用的。

 

他还认为语料库能够帮助课程大纲制定者和教师做出如下决定:

 

Which language items and processes are most likely to be encountered by language users, and which therefore may deserve more investment of time in instruction.(Kennedy,1998, p.281)

哪个语言项目最容易被语言学习者遇到,就需要在教学上付出格外多的时间。

 

Kennedy进一步强调:

 

By concentrating on the usual, rather than the exceptions, in the use of linguistic items or processes, it was argued that teachers could best assist learners acquire the second or foreign language.(Kennedy,1998, p.282)

当教师把时间花在那些经常出现的语言项目而非特例时,他们就能最大限度地帮助学习者掌握第二语言或者外语。

 

Mindt(1995)认为,不基于语料库制定的教学大纲所面临的问题在于,词汇的排序经常与这些词汇在口语或书面语料库中的使用频次不一致。由此,Mindt 强烈建议教学大纲的制定应该基于实证证据,而非传统和直觉,同时还需要利用频率信息确定教学的先后顺序。Leech也指出:

 

If asked what is the benefit that corpora can provide and that cannot be provided by other means, I would reply“information about frequency”.(Leech,2011, p.7)

如果要问语料库能提供其他途径无法获取的好处是什么,我的回答是“频率信息”。

 

他进一步阐释道:

 

Frequency information remains a highly valuable resource for input to language learning materials and testing, and that it is increasingly available.(Leech,2011, p.31)

频率信息是语言学习材料和测试非常有价值的输入,而且现在这些信息也越来越容易获得。

 

第三,语料库方法强调学习者的归纳式学习能力。Johns(1991)认为使用语词索引对于语言学习的过程有重大影响,它要求学习者能自己探索并能做出推测,从而帮助学习者通过归纳的方式找出语言的规则。传统语言教学中,教材的编撰者决定教什么样的语言规则,然后杜撰一些例子来展示这些语言规则。学习者的任务是从这些例子中还原语言规则。语料库的方法则强调:

 

The data is primary, and the teacher does not know in advance exactly what rules or patterns the learners will discover.(Johns,1991, p.3)

数据是第一位的,因为教师也无法提前确切知道学生会发现什么语言规则或模式。

 

实际上,不仅教师有时候不知道学生通过观察语料归纳出来的语言规则,即便一些标准的参考书中也找不到这些规则。通过处理、分析语料数据,学习者能够成为独立的分析者。在分析和归纳的过程中,学习者习得一系列关键能力。O' Sullivan将这些能力归纳为:

 

...predicting, observing, noticing, thinking, reasoning, analyzing, interpreting, reflecting, exploring, making inferences (inductively or deductively), focusing, guessing, comparing, differentiating, theorizing, hypothesizing, and verifying.(O'Sullivan,2007, p.277)

预测、观察、注意、思考、推理、分析、阐述、反思、探索、推理(归纳或演绎)、关注、假设、比较、区分、建立理论、提出假设以及验证假设。

 

这些能力是探索语言所必需的能力,同时这些能力与学习者认知能力的发展密不可分。

2.2.3.2 反对者的观点

首先,语料库方法更多强调自下而上而非自上而下地处理文本。Swales (2002,2004)批评语料库方法,认为它鼓励用微观的方式研究被截断的语词索引行,而且完全不顾及整体话语。Kaltenbock 和Mehlmauer-Larcher 也表达了类似的观点:

 

There are, however, certain parts of a text that even a concordancer cannot reach.These are aspects of the macro-structure of a text, such as textual moves, i.e.a unit of text that expresses a specific communicative function.(Kaltenbock&Mehlmauer-Larcher,2005, p.71)

文本的某些特定部分即便是语词索引行也无法触及。这些部分主要涉及的是文本的宏观结构,譬如用以表达具体社交功能的文本动机。

 

不过,在过去的几年里,语料库语言学家也开始关注这个问题,譬如Biber 等人就认为自下而上和自上而下是不同但却互补的两种文本处理方法。

 

In the“top-down”approach, the functional components of a genre are determined first and then all texts in a corpus are analyzed in terms of these components.In contrast, textual components emerge from the corpus analysis in the“bottom-up”approach, and the discourse organization of individual texts is then analyzed in terms of linguistically-defined textual categories.(Biber et al.2007, p.11)

在自上而下的方法里,先确定文体的功能组成部分,然后根据这些组成部分分析语料库中所有文本。相反地,在自下而上的方法里,通过语料分析获取文本的组成部分,然后再根据文本类型的语言定义分析每个独立文本的语篇组织。

 

在文本处理时,究竟是要先自下而上,还是先自上而下?这是一个难题,依赖于在语料库中查询的内容以及所查询的语料库的构成。Biber等人给出以下建议:

 

Functional analysis is primary in top-down approaches; functional distinctions are determined on a qualitative basis, to determine the set of relevant discourse types and to identify specific discourse units within texts.In contrast, linguistic analysis is primary in bottom-up approaches;a wide range of linguistic distributional patterns are analyzed quantitatively, again being used to determine the set of relevant discourse types and to identify specific discourse units within texts. (Biber et al.2007, p.241)

在自上而下的方法里,功能分析为主。在质性分析基础上先确定不同功能,然后明确相关话语类型和辨识文本内部具体话语单元。相对而言,在自下而上的方法里,语言分析为主。先对一系列语言分布模式进行量化分析,分析结果被用来确定相关话语类型和辨识文本内部具体的话语单元。

 

其次,反对者认为语料库中的语料脱离话语产生时的语境。他们认为,语料数据是去语境化的,因此不适合直接转换为教学资源。譬如,Widdowson(1998, 2002)提醒大家注意语料数据的去语境化特征。Widdowson 强调语料数据只不过是“语言的一个样本”(a sample of language),而不是“真实语言的例子”(an example of authentic language),因为语料数据脱离了产生语料的真实交际语境。

Charles在语料数据去语境化问题上与Widdowson的观点相反,他认为语料数据的一大优点恰恰在于:

 

It allows students to gain a greater sense of contextualization than is possible to achieve through the use of paper-based materials.(Charles, 2007, p.295)

相比传统的纸质资料,语料能帮助学生获得更多的语境意识。

 

另外,教学过程中语料库能否被成功使用取决于教师对语料的加工。也就是说,在将语料数据呈现给学习者之前,教师需要对语料中文化、语境、语用方面的不合适之处进行教学加工。

第三,对教学中使用语料库持反对意见者认为,语料库方法依托的归纳式学习可能不是最合适的学习方法。例如,Meunier(2002)指出,这种由学生从例句中发现和总结规则的归纳式学习存在以下弊端:

 

Despite their advantages, DDL activities have some drawbacks.... The various learning strategies (deductive vs.inductive)that students adopt can lead to problems.Some students hate working inductively and teachers should aim at a combined approach (see Hahn 2000 for a combined approach).(Meunier,2002, p.135)

尽管有很多优点,但是数据驱动学习也有劣势……学生采用的各种学习策略(归纳或是演绎)会产生问题。有些学生讨厌归纳式的学习方法,因此教师应该考虑综合的教学方法(这点请参见Hahn,2000)。

 

持有与Meunier相同观点的Flowerdew也认为,考虑到学生们不同认知风格,归纳式学习并一定适合所有学生(Flowerdew,2008)。那些喜欢通过小组讨论共同从例句中找出规则的学生能够从语料库方法中获益,而那些喜欢聆听教师讲解规则的学生则可能对这种需要学生自己归纳的语料库方法不感兴趣。Vannestal&Lindquist的研究表明,在他们基于语料库的语法课上有些学生表现出下列倾向:

 

...preferred the more traditional way of reading about grammatical rules in the book and did not feel that they learned anything by doing corpus exercises.(Vannestal&Lindquist,2007, p.343)

……更喜欢传统的阅读语法书中语法规则的方法,他们觉得做语料分析学不到东西。

 

需要指出的是,在使用语料库时,学生使用归纳法还是演绎法在很大程度上取决于每次查询的性质。如果说查询本身就是基于某个语法规则,如时间表达连接词for和since的区别,这种区别还是显而易见的。如果查询的内容是关于某个短语的用法,那么学生就很难从语料数据中归纳出一些规律,这时候他们需要教师提示或者暗示,以帮助自己归纳。对此,Flowerdew提出了使用语料库的“4Is”策略:

 

Illustration:looking at data

Interaction:discussion and sharing observations and opinions

Intervention:teacher supplying clues and prompts

Induction:making one's own rule for a particular feature. (Flowerdew,2009, p.407)

例证:看语料数据

交互:讨论,分享观察结果和观点

介入:教师提供线索和提示

归纳:学生自己为语言特征制定规则。

 

在教学研究领域,虽然归纳法和演绎法被看作是两极,但是在基于语料库的教学实践中,正是有了教师的干预,归纳和演绎才有可能成为一个连续体。

2.2.4 小结

在本节中,我们回顾了语料库在语言教学中的间接使用和直接使用。语言教学中间接使用语料库主要侧重于将语料库中的发现应用到课程大纲的设计、教材的编撰、参考资料的出版,更多地关注教学研究者和教学材料编撰者的语料库使用情况。相比较而言,语料库在语言教学中的直接使用则更加关注终端用户,即教师和学生,关注教师与语料库和学生与语料库之间的互动。我们赞成在语言教学过程中间接和/或直接使用语料库,因为语料库既是教辅材料编撰者宝贵的资源库,又是语言教师和学生重要的工具。就本课题研究而言,我们更加关注语料库的直接使用,即语料库辅助下教师的教学活动和学生的翻译实践。在教学实验中,我们不仅观察教师如何使用语料库辅助翻译教学,更注重培养学生使用语料库的能力,引导他们课余时间开展数据驱动学习,自主利用语料库解决翻译难题。

2.3 本章小结

在本章中,我们重点回顾了语料库语言学的发展历史和语料库语言学的语言研究观。语料库语言学的发展壮大离不开语料库规模的不断扩大。现代信息与通信技术的迅猛发展为语料库的扩容和深度标注提供了强大的技术支持。超大型、多维度标注语料库又极大地推动了语料库语言学的发展。除了广泛用于语言研究之外,语料库还渗透到了语言教学的各个环节。虽然教学界对语料库在语言教学中应用的有效性还存有疑惑,但是越来越多的教师热衷于在教学过程中使用语料库却是不争的事实。