
1.1 教学评价的历史发展
谈到教学评价的历史发展,应该从对教学评价的初步理解开始。
1.1.1 对教学评价的初步理解
我们先来看看什么是价值和价值评价。
1.1.1.1 对价值和价值评价的理解
价值是客体与主体需要之间的一种特定的关系,外部世界作为人的生存和发展的客观条件,具有满足人的精神需要和物质需要的属性,人把外部世界作为自己的生存环境,在于他能在外部世界中,或者说能利用外部世界来满足自己生存和发展的需要,外部世界同人的主体需要的关系,就叫价值关系。与主体具有价值关系的事物对主体需要的肯定或否定关系就是该事物的价值。通俗地说,事物的价值就是对主体“有用”。
对价值的评价则是价值即客体与主体需要的关系在主体意识中的反映,是主体对价值的主观判断、情感体验、意志保证及它们的综合。通俗地说,价值评价就是某一事物对主体的“用处有多大”的判定。
价值评价是人们活动的目的和动力,人们要进行什么活动是由人们对它们的价值评价决定的。人们首先要进行的是那些得到较高价值评价的活动,因为这样的活动对人们的用处更大一些,与人们的利益和需要息息相关,进而和人们的价值观有密切的关系。人们根据什么判定一个事物价值的高低?或者说,根据什么做出自己的价值评价?那就是依据自己价值评价的标准。只有心中有一个价值评价的标准,才能对事物的价值做出评价。这个价值评价标准就是价值观。

图1-2 从价值到价值观
1.1.1.2 教学评价
依照前面对价值的解说,教学评价就是人们对教学这一社会活动所具有的价值(即教学在满足人的需要关系方面的主观判断、情感体验、意志保证和它们的综合)所做出的评价,实际上就是判定教学是否满足了人的需要。对教学价值的评价是从有教学活动以来就存在的教学行为,人们一直采用各种方法来检验教学的效果,追问教学效果如何,也就是在进行教学评价。
例如中国古代就采用考试的办法进行教学效果的评价,以唐代的数学教育为例。
例1.1 唐代的数学教学评价
唐代国子监既是全国最高学府,也是朝廷的最高教育行政管理机构。国子监设立“六学”,类似于六个专科学校或者六个专业门类。“六学”为:国子学、太学、四门学、律学、书学、算学。前“三学”为“经学”专科学校,入其分校依据的是学生的出身,“三学”的排列显示着学生出身由高到低的顺序。律学是司法专科学校,学习相关的律令;书学是书法专科学校,实际上是艺术专科学校;算学则是数学专科学校。这三个专科学校在世界教育史上具有开创性的地位,尤其数学专科学校。是什么原因促使中国古代数学的超前分化,分化到可以独立设立专科教育的程度?这是教育史和文化史经久不衰的研究课题。

图1-3 唐代国子监学科专业状况
算学分为两个专业教学,分别采用不同的教材,图1-3标示出了这一点。第四列是当时采用的10部数学著作,也就是10部数学教材,称为《算经十书》。后来,《缀术》和《夏侯阳算经》散失,宋代用《数术记遗》代替《缀术》,用另一部书代替《夏侯阳算经》,但仍然用原名,并出版了新的《算经十书》,一直流传到了现在。
算学的学习效果是通过结业考试评价的。考试题分为两种:一种是“大义”题,“录大义本条为问答,明数造术,详明术理,然后为通”,就是以教科书中的问题作为考试题,要求给出答案(明数)、列出算法(造术)并且写出这样解答的道理(术理)。由于多数教材并没有列出“术理”,因而这种考试是一种比较有难度的考试。“专业1”要求“试《九章》三条,《海岛》《孙子》《五曹》《张丘建》《夏侯阳》《周髀》《五经算》各一条,十通六”。“专业2”要求“《缀术》七条,《缉古》三条,十通六”。其中,一个绝妙的要求是“十通六”,相当于现在的百分制中,以60分为及格分,这一直延续到了现在。另一种考试是“帖经”,就是按照原来的教科书出“填空题”,要求10题填对9题才算及格。两种题都及格了才算算学学习合格。
这里用考试作为算学教学评价的方法,如果进一步问:算学合格对学生有什么进一步的“用处”,即有什么进一步的社会价值呢?那就是:算学合格(毕业)在唐代就相当于通过了当时科举乡试(地方考试),可以直接参加科举的二级考试(中央考试)——制科的明算考试了,中试后再经过一定的程序就可以出任相应的官职。在宋代,算学毕业可以直接得到相应的官职。
可见,有教学就有教学评价,教学评价是自古而然的;考试作为教学评价的方法也有相当漫长的历史;填空题古已有之;“60分万岁”也是自古而然的。
1.1.1.3 考试作为一种评价方式
到了近代,捷克的J.A.夸美纽斯(1592—1670)最先提出了班级授课制以及考试考查制度。从那时起,虽然考试的内容和形式有不少变化,但直到现在,考试仍然是一种极其重要的教学评价方式,很多情况下甚至是一种主要的教学评价方式。
想一想,我们经过了多少考试,特别是作为学生经过了多少考试。不算大学以及其以后时间——实际上学生们在大学甚至大学毕业之后所经历的考试一点也没减少(例如,学位考试、英语级别考试、研究生入学考试、各种职业的入职考试、各行业各种职务的在职测试、素质测试、各种职务的升级考试等),考试已被社会赋予更多的功能。当然,随着考试门类的不断增多,考试系统也日渐庞大,考试制度愈加完善。
一个人在基础教育阶段要经过多少考试?尚没见到权威的统计数据。有研究者指出,仅在初中阶段,一个学生一学期所经历的考试就有30多次。就大规模的教学考试来说,每个学期中每个学科最起码要进行两次;一次是期中考试,一次是期末考试。小学低年级的考试时间是60分钟,小学高年级是90分钟,中学则是120分钟;小学低年级的考试科目是3科,小学高年级是5科,中学则是9科。这些大规模考试的时间一共为15840分钟,这种考试是以评价学生在这一段时间的学习成绩为主。当然,还有评价整个学段学习成绩的考试,那就是学段毕业考试。一般小学3科各120分钟;初中往往与中考合并,中考一般5科各120分钟,共600分钟;高中则与高考合并,常见的考法是每人考6科各120分钟,共720分钟(现在高考科目有所变化,但是考试依旧);非中考、高考的考试学科独立进行学业水平考试,都是120分钟,共有18×120=2160分钟。以上各项之和就是对终结性考试时间的估计,一共为19320分钟。而在平时的学习中,更多的是单元考试的形成性考试——不是为了排名次,主要是为了检测学习中的问题,以便教师改进教学。这样的考试在主要的学科中几乎每个月都有一次,每次的时间不长,主要是在计划课时内解决,因此也就是30分钟左右(小学时间能少一些,为方便起见,一律算成30分钟)。按照前面所说中小学的考试科目数,这样的考试一共有594×30=17820分钟。实际上许多中学各门考试科目都举行月考,考试目标还是在于检测学生成绩,也就是仍然是终结性考试,时间是120分钟,按9科计,则月考时间为4(月次/年,不是每月必考)×9(科)×6(年)×120=25920分钟。其他非大规模教育考试学科,即所谓“辅科”也是有考试的,特别是形成性考试还是教学需要的,而且期末考试也不可或缺。假设每学段各有4科,考试量减半——30分钟的考试每两月1次,60分钟的考试每学期一次,此种考试的时间为240×4×12=11520分钟。此外,还有不少“临时性考试”,例如,为了特定需要的摸底、调研、评价教师、考察学校而组织的统一考试,为了帮助教师改进教学的教学质量考试、学业质量评价考试、某种特别的竞赛考试。假设中学(小学不计)每年需要参加两次考试,每次1个学科120分钟,这样又有1440分钟的考试。合计一下,我们参与的考试时间约为19320+17820+25920+11520+1440=76020分钟=1267小时。可见,每一个人都是“身经百考”,在考试中成长发展的。

图1-4 基础教育阶段学生参加测试所用时间分布(估计)
而实际上还有非常多的“准考试”,例如需要不断地“刷题”,有家长收集的卷子,有教师发的卷子,有培训机构发的卷子,这些卷子虽然并不算是考试卷,但测试卷和测试题都是需要像考试那样解答的,尽管一般并没有人来批改,但仍然像正式考试那样占用时间。估算基础教育阶段参加考试的时间,只是想说明考试对每个人的成长发展的重要性。
教育部办公厅《关于加强义务教育学校考试管理的通知》(教基厅函〔2021〕34号)提出要求:
为深入贯彻落实中央关于教育评价改革和“双减”工作部署要求,严格规范学校教育教学行为,切实降低学生考试压力,促进学生全面发展健康成长,现就加强义务教育学校考试管理通知如下。
…………
二、大幅压减考试次数
小学一二年级不进行纸笔考试,义务教育其他年级由学校每学期组织一次期末考试,初中年级从不同学科的实际出发,可适当安排一次期中考试。各地不得面向小学各年级和初中非毕业年级组织区域性或跨校际的考试;学校和班级不得组织周考、月考、单元考试等其他各类考试,也不得以测试、测验、限时练习、学情调研等各种名义变相组织考试。初中毕业年级为适应学生毕业和升学需要,可在下学期正常完成课程教学任务后,在总复习阶段组织1~2次模拟考试,坚决禁止抢赶教学进度、提前结课备考。初中学业水平考试仍按国家和省级教育部门有关规定执行,除初中学业水平考试外不得组织任何与升学挂钩的选拔性考试。
按照文件要求,上面估算的考试时间将会最大限度地减少。考试次数减少,对每次考试的要求就会有提高——提高考试的质量和对考试成绩的高效运用,通过较少的考试对学生的学习做出精确的评价就成为考试设计的一项重要任务。
1.1.2 现代教学评价的发展概况
现代教学评价是19世纪在西方产生的,“评价”一词是对英文词“evaluation”的翻译。现代教学评价从产生至今已经历四代,基本情况如下:

图1-5 现代教学评价发展简表
19世纪末产生的现代教学评价是社会发展的需要。随着电力革命的迅速推进,当时的西方国家特别是美国正处在资本主义工业化大发展的时期,新兴产业层出不穷,因而对劳动力、对教育提出了新的要求。同时由于美国的移民政策,大量来自不同国家、不同阶层的移民涌入美国。社会需要新的人才培养选拔机制,需要人才培养和选拔的公正和公平。当时,在人才问题上的口号是“无论何人,无论何时都应该得到相同的结论”,打破了严重影响社会生产发展的血统、门第、财产、资历等对人才的限制,相对客观的“测量”被应用到了人才选拔之中。
第一代教学评价是测量式的“测验”,其活动主要是考试,有口试和笔试两种形式。这是教学评价被称为“教育测量”的缘由。把教学评价与教育测量混同起来的历史是短暂的,它的最典型的观点是“学校是人才的加工厂”“学生是原料和产品”“教师是加工者”,在这种教育中能培养出大工业生产急需的各种适合工业化流水线的、规格一致的人才,因此,这种评价产生了相当广泛的影响。
第二代教学评价被称为“描述”,时间是从20世纪30年代初到20世纪50年代中期,代表人物是美国著名教育学家泰勒(R.W.Tyler,1902—1994),他提出了泰勒评价模式(或称泰勒评价原理)。泰勒的思想是用确定学习结果与教育目的之间的达成度来定义教学评价。
泰勒把课程分为教学目标、教学活动、课程内容的组织以及教学评价四个基本要素。教师在课程实施中通常要寻求几个教育目标,之后通过问卷、抽查“产品”样本和测验来评估学生在每个主要目标上的进展情况。因而,评价是一个过程而不仅仅是一两次考试,评价过程中不仅要报告学生的成绩,更要描述教育结果与教育目标的一致程度,这才能体现教育的本质。其主要程序为:

图1-6 泰勒的科学评价流程
在泰勒的影响下,美、英等国出现了诸多针对评价而设计的教育目标体系。同时,这一时期人们也认识到教育目标不是评价的唯一依据,目标本身的科学性、合理性和可行性也必须受到检验。人们认识到用统一的目标模式去评价教育效果,从根本上说是不可接受的,因而相继推出了许多新的评价理念和模式。其中影响最大的是美国著名的心理学家布卢姆(B.Bloom,1913—1999)的教育目标分类理论。布卢姆研制的目标是为了便于客观地评价而不是表述教育的理想,并且只安排可测的目标(即具体的外显行为目标)。他的一个著名公式为:目标=行为=评价技术=测验问题。
第二代教学评价的基本特点是:评价过程是把教育结果与预定教育目标相对照的过程,是根据预定的教育目标对教育结果进行客观描述的过程。评价的关键是确定清晰的、可操作的行为目标。评价不等于考试和测验,但考试和测验可以成为评价的一部分。这一代教学评价即所谓“科学评价”。
第三代教学评价被称为“判断”,时间是从20世纪50年代中期到20世纪70年代。这一代教学评价认为,教学评价本质上是判断,人们对已确定的教育目标质疑,认为它们也应该成为评价的对象,进而涉及对判断的质疑:判断是否应作为评价的一项基本活动?判断是否需要标准?如果需要,又如何建立“价值中立”的客观标准?(科学评价则认为判断无条件地具有价值中立性)因此对目标也要加以判断。这一代教学评价的特点是:把评价视为价值判断的过程,评价不只是根据预定目标对结果进行描述,预定目标自身也需要进行价值判断。这样,目标就不可能成为评价固定不变的标准,因而评价就应该超越固定目标的限制,过程本身的价值也成为评价的重要组成部分。第三代教学评价也有很大的影响,现在常见的“形成性评价”“目标游离评价”“内在评价”“过程性评价”等都体现了第三代教学评价的理念。
第四代教学评价被称为“建构”,出现于20世纪70年代,其对前三代教学评价进行了批判,认为它们存在以下三个问题:
其一,管理主义倾向,指的是管理者决定了评价,因而在评价中出现了管理者无过失、评价者无决定权、其他评价利益相关者无法表述自己的观点或维护自己的利益、评价者服从管理者的情况,因而使评价可能有失公允。
其二,忽视了价值的多元性,导致评价不能被多方接受。
其三,过分依赖科学范式即实证科学技术的范式,过分依赖“数”的测量而忽视了“质”的研究。
针对这三个问题,第四代教学评价提出了一种通过“协商”而形成的“心理建构”评价,属于价值多元的评价。这一代教学评价的特点是:把评价视为评价者和被评价者“协商”进行的共同的心理建构过程。受多元主义价值观的支配,评价是一种民主协商、行为主体参与的过程,而不是评价者对被评价者的控制过程,学生也是评价的参与者、评价的主体,评价的基本方法是质性研究方法。
今天,中国基础教育的教学评价处于第一代、第二代和第三代交混使用并努力(至少在理论上)向第四代过渡的时期。努力推进第四代教学评价是新课程教学评价的重要任务之一。
1.1.3 作为评价的测验
测验作为教学评价的组成部分对于整个教学评价来说具有非常重要的意义,在某些情况下甚至具有核心的意义,关键是成绩测验。
1.1.3.1 成绩测验的两个特点
在第一代教学评价中,伴随着教育测量产生了两种有影响的测验:一个是成绩测验,一个是心理测验。
成绩测验的代表性人物是美国的桑代克(E.L.Thorndike,1874—1949),他有一段著名的话:“如果有事物存在,就会表现为某种量的形式:如果以量的形式存在,就可以测量。(If a thing exists,it exists in some amount,it existsin some amount,it can be measured.)”按照这样的理解,“量化”成为主要的教学评价方式。为了使量化更具客观性,并且更易于操作,客观性测验被大量开发使用(所谓客观题就源于此),问题解答的准确率和速度成为教学评价的指标。
心理测验的一个成果是智力量表的研制和使用,从此“智商(IQ)”成为一个标准的教育学和心理学用语。
很快,人们发现了成绩测验、特别是闭卷纸笔成绩测验,对人才的甄别与选拔具有两大优势,如下图所示:

图1-7 闭卷纸笔成绩测验的两大优势
由于这两大优势,成绩测验很快就进入所有涉及需要人才甄别和选拔的领域。随着时间的推移和公众参与意识的增强,闭卷纸笔成绩测验的公平性日益为社会各个方面所承认,其经济性则是被广泛采用的保证。经济性也是公众能够充分理解的原因之一,这也促使教育学、心理学在这之后有了很大的发展,对人的能力的评价有了许多更为先进的方法。虽然在许多场合,推荐、面试、访谈、调查了解等也作为人才甄别和选拔的方式为各方所采用,但在高利害的大规模的人才甄别和选拔的时候,特别是大规模教育考试,例如升学考试中,闭卷纸笔成绩测验至今依然是唯一的方式。设计更好的测验试卷一直是社会所面临的重要问题之一。
1.1.3.2 测验设计面临的困难
回到教学领域,既然大规模教育考试采用的是闭卷纸笔成绩测验的方式,而参加考试谋求升学又是学生和基础教育学校一致的努力方向,那么现实生活中必然导致对成绩测验的重视,这种重视达到一定程度之后就会把应对测验作为实际教学的主要目标。由于升学对学生、学生家长、教师、学校甚至对社会都具有重大的意义,因而受到越来越多的关注和重视,其结果将直接导致前面说的“一定程度”的迅速达成。这实际上就是使测量行为变成了测量目的,测验由评价的工具变成了评价的目标。这也就是应试教育的由来。
所谓应试教育实际上是把成绩测验的试题当作了教学评价的标准,把分数当作评价的结果。用测验进行评价的一个必然结果就是将试题变成评价的标准。这在我国高考中具有特别典型的表现,高考的出题范围和题型将引起学校的极大重视,并且立即就成为下一年的学习标准。因此每年的高考出题都是相当慎重的,考后还要多方征求学校教师甚至考生的意见。高考出题的一个原则就是对高中教学起到引领的作用。
例1.2 一道数学高考题引起的思考
2011年高考数学陕西卷文、理科都有一道解答题,题目是“叙述并证明余弦定理”……联系到高中数学教学,特别是高三数学复习的现状,不少人为“叙述并证明余弦定理”成为高考试题而叫好。
其导向是非常正确的,那就是:高考命题可以出教材上的原题。这为今后高中数学教学以及高三复习工作指明了方向,有利于改进教学方法,减轻师生不必要的课业负担和工作负担。
【评说】一道高考题为什么能引起这样的反响呢?那是因为高考题本质上成为高中学生学习的评价标准,对教学有着巨大的引领作用。这样一道数学教科书上的原题成为高考题,必将引领数学教学进一步深入教材,做好数学的基础知识和基本技能的教学。从茫茫题海回归到数学课本,当然具有减轻课业负担的重要意义了,无怪人们要叫好欢呼了。
既然大规模教育考试的成绩测验具有远超出测验自身的甄别和选拔的意义,这就给测验设计带来巨大的困难——要设计出既能够指导学校教学走向学习本质,又具有遴选功能的测验题。
这一困难本质上是不可克服的,因为测验设计只能针对具体的可测目标,而且成绩测验的测验题只能是一种抽样产物,对任何一个知识点都可以设计出许许多多不同的题目,每次设计的测验题能否具有代表性,能否提供更多举一反三的可能,也是必须考虑的。只有这样,才能减轻学生和教师过重的课业和工作负担。
1.1.3.3 对教学评价的影响
这种设计困难,使得以测验题为标准的教学评价产生了一系列严重的问题,在此列举一二。
以成绩测验题作为评价标准就是用定量的分数来表达评价结果,一般是为了进行选拔和甄别。如果对学生学习的所有评价都是以定量分数的选拔和甄别为目的,就会使评价的功能异化,过分地强调甄别和选拔的功能,忽视改进、激励与促进学生发展的功能。教师、家长和学生只关心考试得了多少分,排在第几名,却很少关心考试中反映出来的学生发展中存在的问题。
反过来看,以测验为主的评价方式,必然过于重视评价的甄别和选拔功能。在这种情况下,一方面,中、高考为所有的甄别性、选拔性考试提供了可靠有效的样本;另一方面,中、高考的高利害性质必然受到方方面面的重视,导致评价更全面地为中、高考做准备。于是,无论是学校对学生的评价,还是课堂上教师对学生的评价,都完全以中考或者高考为蓝本:评价方法——纸笔考试,评价标准——考试分数,评价内容——考试内容。特别需要指出的是,中考或者高考的考试内容被学校分解到各个学期、各个章节、各个课节上,而且平时考试题型、要求等方面尽可能地模拟中考或者高考。这样做,使得学校教育就是为了学生能够顺利通过高利害的大规模教育考试,从而升入上一级学校,于是,考试获得好的成绩或者说掌握应对高利害考试的能力就成为学校教育的目标,进而也就成为教学评价的目标,学校的教育也就自然转化为如何让学生通过入学考试。日常教学也好,阶段性考试也好,都成了促进学生通过入学考试的工具。为了强化应试的努力,提高应试的效果,不少学校管理者一方面制定了各种管理条例,用来调控教师,使得教师将日常教学变为中、高考的练习,这是外显的;另一方面,则通过将学生评价的结果与教师获得的各种利益挂钩,教师不管在课堂中教学如何生动,评价如何具有发展性,可是在学校的统一考试中,所教的学生成绩一旦不好,教师的利益就会因此而受损。一个直接的做法就是:中、高考考什么,学校就考什么甚至就学什么;中、高考不考什么,学校就将其排除到评价甚至于教学的范围之外。学生的情感、态度、价值观目标的达成,学生的个性培养、全面发展全然被排除在这种评价之外,这必然导致教学评价促进学生发展这一本质功能的缺失。
不仅如此,这种教学评价还会导致教学评价客观性的缺失。
评价的客观性指的是评价要能够真实、全面地反映学生学习水平。要做到这一点,不仅仅要保证评价结果的科学性,还要保证对评价结果解释的科学性。把评价限于模拟中、高考的纸笔考试,并以分数为评价标准,本身已经无法判定学生的个性差异以及学生的发展前景和潜在能力,这是客观性缺失的一种表现;客观性缺失的另一种表现是对考试分数的解释也与对中、高考分数的解释运用相对接,即采用常模参照方式用一般描述性统计量解释,也就是按照考试分数给学生排名次。中考、高考的排名是必要的,只能以分数来选拔学生,但校内评价也采取排名次的方式目的何在?
试问,对学生在校内进行的学业质量测量是一种什么性质的测量呢?就其中的考试而言,是常模参照考试还是标准参照考试?通常认为,测量考试的特点是:先以不同的能力水平或不同的内容领域为参照命题,这无疑具有标准参照考试的特点;对考试结果再以考生群体的表现为参照进行解释,这又成为以全体考生为常模组的常模参照考试,因此是“标准参照+常模参照”的考试。而这里进行标准参照考试的必要条件是对标准能力水平或内容领域要有详细的规定。需要注意的是,参照标准是能力水平或内容领域而不是及格分数,考试还可以用考生对课程内容的掌握程度或以培养目标的达成度对学生进行评价。实际上,中考、高考也应该体现这种评价,考试后要有关于考生对课程内容的掌握程度或学校培养目标达成度的分析。
因此,一考试就排名次的做法不符合对学生的学业质量监测的要求,如果考试评价本质功能还不能一步到位的话,应该选择对考试分数进行标准参照的解释,以此来客观地判定学生是不是达成了规定的教学目标,促进学校、教师和学生对达成完整教学目标的关注和努力,加强评价的客观性。
1.1.4 教学评价的发展
一般来说,人们经常从发展的动力、指向的目标和是否达到了目标的评价来考察一个事物的发展,这里也从这三个方面来考察教学评价的发展。
1.1.4.1 评价发展的动力
把成绩测验的试卷作为教学评价的标准带来了如前所述的问题,但不可否认的是,这种评价方式直到现在仍然被人们广泛认可。随着时代的发展,教学评价的发展与改革就必然提到议事议程上来,因此才有了教学评价多达四代的发展变革,而且人们不仅仅提出变革的设想,也迅速地进行了变革的行动。
成绩测验只是教学评价的一种方法,方法应该为教学评价的目标服务。那么教学评价的目标是什么呢?教学评价的目标就应该是达成教学目标——正是为了达成教学目标才进行教学的,教学评价就是对教学是否达成了教学目标进行判断。从某种意义上说,对教学目标的探讨是进行教学评价改革的动力。
1.1.4.2 教学目标变革行动
正是在这样的背景下,泰勒评价原理得到普遍的认同。关于教学评价和教学目标,人们提出了三个要点,如图1-8所示。

图1-8 教学评价三要点
教学评价的发展在相当程度上就是教学目标设计的发展,所以明确提出课程目标的泰勒提出了教学评价的概念就一点也不奇怪了。泰勒在这个问题上用“评价(evaluation)”取代了“测验(test)”“考试(examination)”“测量(measurement)”,使测验恢复到工具的地位,测量的目标及评价的目标都应该是教学目标。
表1-1 教育测量和教育评价的比较

对泰勒科学评价的质疑也是针对教学目标的,或者说首先是针对“基于目标的评价”的。人们认为教学目标是教师设计的,依据教学目标的评价,带有“自己的对错自己说”的性质。斯特科(B.Stake)有一段被到处引用的话,“所谓的‘形成性评价(formative evaluation)’就像是厨师本人在品尝汤的味道,而‘总结性评价(summative evaluation)’则是客人品尝汤的味道”。厨师是根据自己想要的味道,在做的过程中不断品尝和调味;而汤一旦做好了,就会端出去,由客人来评价味道的好坏。这时,客人一般都会根据自己的需求来评价汤的味道,而不必事先知道厨师的制作意图;如果事先得知厨师为了制作这道汤花费了怎样的功夫和苦心,反倒难以品尝出汤的真正味道。这种围绕评价的微妙关系,和商品管理者与消费者之间的关系是一样的,消费者不必知道商品管理者的意图,而只需评价商品的质量好坏即可。
一位美国教育学者斯克里文(M.Scriven)指出,“基于目标的评价”完全就是出于既定的“目标”,是为实现“目标”的评价和改善活动。但因为“基于目标的评价”紧紧围绕“目标”转,所以那些超出“目标”的活动往往容易被忽视。由于受到“目标”的限制,全面的状况很难掌握。为此,他提出了“目标游离评价(goal-free evaluation)”的概念,指的是不受目标限制的评价,目的不是改善行为,而是对活动结果进行“总结性评价”,其实质是评价者不知道教学的目标,不是为了评价教学的意图,而是为了要弄清楚教学究竟是如何实施的而进行的评价。这种评价不是针对教师确定的教学目标,而是针对教学是否满足了学生的需要来进行评价的。
也就是说,“目标游离评价”的关键是考察教育计划或方案的实际效果而不是预期效果。为此,评价者应该收集大量有关实际效果的资料,评价其在满足教育要求(例如学生的需要)方面的重要性,而不再收集有关目标及目标达成情况的信息;应收集关于课程效果的有关信息,包括期望之中和预料之外的效果信息,并加以评价。不过这里也有一个问题,当不以教学目标为标准的时候,评价以什么为标准?或者根本就没有标准,大家随意判断?实际上,“目标游离评价”并不是不要教学目标,而是不局限于设计好的教学目标,因此最先游离的其实就是教师,教学评价可以不完全依赖于教学目标的设计者——教师去实施,所以最关键的行动改进就是评价者的开放,例如,学生、教师、家长、社区的相关人士都可以成为评价者,为多元评价打下基础。如果对教学目标适当拓展,例如,把原来既定目标之外的但是与学生发展有关的其他因素也纳入教学目标之中,形成多元目标,仍然可以以目标为基础进行评价,这也就进入了第四代教学评价。注意,这里有个逻辑悖论:形成多元目标就仍然可以以目标为基础进行评价。多元目标是不是目标?是目标——又回到目标上来,不过目标设计的方式不同而已;不是目标——是什么?怎样与学生的学习联系起来?所以第四代教学评价的哲学意味更多些,而实践操作的意味更少些。现代的教学评价还只能以教学目标为基础,不过加上了第四代教学评价的某些要素,例如多元评价——评价者多元而且重视学生的自我评价,评价方式多元,评价目标更加全面,叫作新的基于目标的评价。
从上面引述的对泰勒基于目标评价的质疑可以看出,泰勒评价原理包含着形成性评价,倡导在教学中通过对学生学习状况的不断评价和反馈引领学生更好地学习,从而更有效地达成教学目标,促进学生的发展,提高教学的质量。这一点在现代教学评价中得到了发展和强化。
1.1.4.3 新的基于目标的评价
一个行动方案:

图1-9 新的教学评价方案
与图1-6相比较,这个基于目标的评价代表了现代教学评价的发展方向。
1.1.4.4 教学设计流程

图1-10 教学设计的流程
从教学设计的流程中可以发现,教学目标是教学设计的出发点,当然本质上也就是教学过程的归宿,教学的总结性评价毕竟还是要基于这个教学目标才能确定。