为了进行有效的评估,教师们必须考虑到一些影响他们评估准确性和有效性的因素。首先,他们必须选择适当的信息源;其次,他们必须确保他们的测评和判断的准确性;最后,他们必须知道他们将怎样利用这些评估及其利用的意图所在。
信息的来源
在第四章中我们讨论过一些信息的来源,如积累的记录、观察、访谈等一些有助于老师更好地了解自己的学生信息。这些信息源让老师更清楚地把握学生的优缺点、好恶、存在的问题和取得的进步。教师利用这些信息组织课堂教学和制定课程计划。在这一章里,我们主要讨论这样的信息源:这些信息源有助于确定哪些知识学生已经掌握、哪些方面或哪些方法还需要进一步施教。虽然第四章中讨论过的一些更多的信息源也能用来评估教学成绩,但这类信息多数是教师通过分析学生的作业或测验而获得的。
对学生作业的分析
显然,关于教学成绩的大量有用的信息是通过分析学生的作业而获得的。在学生的书面作业比如所布置的家庭作业中,老师不仅仅只注意一个学生所得的分数,他们经常想知道该学生是如何得到一个答案的。例如,这孩子解题的过程和应用了什么方法,他或她使用该方法的准确性如何?通过仔细地察看学生的解题过程,老师便能够确定,是什么样的错误导致了该学生未能准确地完成作业。在布置的家庭作业、练习、论文以及各种大大小小的测验中老师都能对学生的学习进行观察和分析。当老师做此工作时,说明他们对学生所完成的作业给予了反馈信息,这一点非常重要。
测验
测验是最被公认的评估信息源。测验要求学生展示他们对某一确定部分知识内容的掌握程度,从而使得老师得以对学生的学习成绩进行表述。测验与其他一些教育活动一样,还能用来让学生被迫展示他们是怎样解答问题或怎样得出结论的。因此,测验是一种丰富的信息源。然而,跟其他信息一样,测验所提供的信息只有在确保它的准确性和公正性的情况下才是有用的。此外,测验只是学生学习进步程度的一个尺度。
有效的评估要求教师对尽可能多的信息源产生的尽可能准确的信息进行收集和综合。他们必须将他们对学生进行非正式观察和交流中获得的素材与他们通过测验、各种学生作业及其他可能的源泉所获得的更加正式的测评结合起来进行判断。然而,老师的这些判断的价值很大程度上取决于他们所获得的信息的准确性。
信息的准确性
教师所获得的有关学生及其进步的资料不可能是完全准确的。基于种种原因,没有哪一种测评方式能够完全避免偏见或错误。事实上,刚刚提到的一些信息源就明显带有不准确性的特点。例如,教师或家长的看法就很容易趋向于某种程度上的不准确性,因为他们的看法具有高度的主观性。同样地,教师对学生的观察也不可避免地具有选择性和不完全性;它们会受教师们的个人价值观影响从而导致错误和偏见。因此,在收集和运用源于这些活其他源泉的信息时,教师必须留心警惕一些潜在的偏见和错误。
甚至测验也易于导致错误。没有一个测验能够对一个学生在某学科领域的知识和成就进行精确的测量。首先,测验所考察的内容是有选择性的。它们通常只能检测一个教师自己力图教授的内容的一部分。同时,它们无法检测学生从书本、朋友或其他教师等其他途径所获得的知识。它们也可能忽略一个学生从出题教师那里所学到的一些偶然性的知识。而且,该学生在测验时的内部状况也可能影响考试结果。也许,该学生在考试时感到疲倦或身体不适。也可能测验中所强调的内容碰巧被该学生临考前复习到了。在上述每一种情况下,该学生所得的分数都不是他对这一学科所掌握的知识的全面或准确的测量。
一位教师在确定通过测验所获得的信息的准确性时主要应该考虑如下主要因素:(1)该测验是否检测了它所意欲检测的内容(效度);(2)该测验中是否体现了一贯的测量标准(信度)。基于效度和信度这两个因素与测验密切相关,在判断从其他源泉收集的信息时也同等重要,因此我们将对这两个因素进行探讨。
效度
效度(validity)这个术语是指一个测验相对于它意欲检测的内容而言所检测到的程度。一个测验的效度依据以下三个标准而定。第一,一个有效的测验应该恰到好处地检测试剂所教授的内容。换句话说,该测验应尽可能多地囊括整个教育过程所覆盖的内容,但同时,它又不能含有不要求学生掌握的内容。特别地说,一次有效的测验能检测出学生对老师所讲的每一个主要的知识点的掌握情况。
第二,一个有效的测验应该测量出教师教育在各个领域(认知、情感、动作技能领域)所达到的各种水准(见第五章布鲁姆的分类法)。例如,如果一位历史老师首先主要讲授了有关美国革命的知识(史实),然后花大量的时间让其学生对这些史实性的知识进行分析、综合、评价,那么,随后的有效的测验就应把重点放在分析、综合、评价这三种高于史实的认知水准上。
第三,一个有效的测验除了应该反映出教师教育在各个领域和不同水准之间的平衡以外,它还应突出反映教师所教的各方面知识的重点所在。例如,如果在传授有关美国殖民地时期的意识形态的过程中,关于该时期的社会条件和经济条件的知识内容所占据的教育时间大体相当,那么,随后的有效的测验中这两方面的内容所占有的比例就应基本相等。
也许,再举一个例子是有用的。让我们假设你讲授一个有关奴隶制度的单元内容,为时3个星期,你的讲授基于4个认知目标——一个基于知识水准、两个基于综合水准、一个基于评价水准。在讲授过程中,你用一天时间讲解美国奴隶制形成的原因,3天讲授奴隶制度的盛行,3天分析促使奴隶制衰亡的因素,两天讲解废奴宣言对奴隶制度和南方经济的冲击。一个有效的测验应该要求你的学生对原因、盛行、衰亡的因素和冲击这几个主题的理解进行展示。此外,该测验应该让学生运用他们所学的知识进行以下事项:(1)回忆一些信息(知识水准的目标)。(2)综合一些信息。(3)对一种或多种情形进行评价。该测验的首要重点应放在有关奴隶制度盛行和衰亡的主题上(因为每个主题占据了3天时间),次重点应放在花费了两天时间的废奴宣言的冲击上,最后才是只花了一天时间的奴隶制度形成的原因。学生不应被问及有关其他主题的问题,如有关奴隶制度对非洲文化的冲击的问题,即使这些问题有可能在这个领域里被偶然地学到过。
总而言之,效度是指一个测验检测你预期它检测内容的准确性。因此,它能为你提供有关学生的学习情况和你的教育效果的信息。通过我们的讨论你也许已经明白,任何一个测验都不可能完全符合效度的每一个标准。效度不是一个二选一的问题,而是存在着一个程度的问题,因此,对于一个特定的测验来说,你必须考虑它对你的目的是否足够有效。在随后的章节中我们将讨论一些如何让你的测验更有效的方法。
信度
除了检测你所期望检测的内容以外,你也许还希望你的测验能够提供测量学生学习情况的一贯的测量尺度。这种一贯性就是指信度(reliability)。特别地说,一个测验的信度意味着,如果让学生多次进行该测试,每次所产生的分数应该是几乎近似的。而事实上,没有一个测验能在学生进行该测验的不同次数中都提供完全一致的分数,因此,与效度一样,信度也必须被看做是存在着一个程度的问题。
由于测验本身的某一错误,一个缺乏信度的测验所提供的分数可能不能准确地反映学生的实际水平和能力。也许可用一个类推的例子来帮助理解。让我们假设你需要测量你教室里书架的长度。你先用一根从窗台上取来、被强烈的太阳光照射过的、细细的金属量尺来测量书架。你记录下4个书架的长度。然后你被办公室里的一个电话给打断了。你把这个量尺随手放在空调的排气管上,就去办公室接电话去了。当你从办公室回来时,你意识到你把记有测量数据的纸忘在了办公室里。你不愿回到办公室去取,便从空调排气管上拿起量尺,重新测量了刚刚测量过的4个书架的长度。当天晚些时候,你发现了忘在办公室里的那张纸,并注意到,对这4个书架所进行的两次测量的数据不一致:第一次测得的书架的长度比第二次的略微偏小。你有可能作出结论说,暑假的长度在那短短的时间里起了变化,然而,正确的解释却是:这个金属尺没能为你提供可靠的测量,因为它在被置于窗台上的阳光下发生了热膨胀,从而导致量得的书架长度显得偏小,而在被置于空调的排气管上以后发生了冷收缩,从而导致量得书架的长度显得偏大。
当一个测验不具信度时,也会出现同样的问题。缺乏信度的测验会导致我们对学生的学习作出不准确的结论。如果学生们所参加的测验本身有缺陷,不能提供可靠的结论,那么,有可能,当学生们事实上已经掌握得很不错时,通过测验却显示出他们所取得的进步很小。信度是很难评估得。一些商业性用途测验的制定者通常为它们的测验提供一些信度的统计指标,这种指标被称为信度系数。信度系数从0.00到1.00排列,0代表不具信度,1.00表示完全的信度。一般来说,信度系数如果高于0.85就被认为是可以接受的。尽管你也许不能计算出你自己的测验的信度系数,但是你可以通过增加测验所包含的问题数、通过确保评分的客观性和一贯性来提高你的经测验的信度指数。在随后的章节中将介绍建构信度测验的指导方针。
评价的类型:形成性评价和总结性评价
我们已经明白教育评价所运用的信息来源众多,而且,这些信息可能具有不同程度的准确性。教育评价的用途也各种各样。一般来说,我们认为,教育评价时出现在教育行为之后用以判定学生分数的。然而,斯克里文(Scriven)(1967年)指出,教育行为之后的评价对于提高教学并不是很有用。虽然评分是必要的,但教育行为之后的评价并不能帮助教师或学生纠正其不足之处。斯克里文认为,教育行为过程中的评价更为重要。在教育行为进行过程中,这种评价有利于教师调整其教育方法,以便适应学生的需要。
斯克里文介绍了两个术语来描述这些不同的评价类型,一个是形成性评价,一个是总结性评价。形成性评价是指教育行为过程中的评价。这种评价为教学提供反馈信息以便及时可能地影响教学过程。虽然形成性评价也可以对学生的成绩进行评分,但其主要目的是提供反馈信息,以有利于制定和改变教育计划。形成性评价能够促使教师采取有效的教育措施,从而提高学生的学习成绩。形成性评价既包括教师所进行的非正式的观察,也包括学生的各种表现事例,如教师提问的反应,或在一个较大的教学单元里学生所完成的任何作业。通过形成性评价所获得的反馈信息能帮助教师在教学的总结评价之前调整教学方法,提高学生成绩。
总结性评价是指教育行为完成之后所作出的评价。这种评价是用来对学生的学习进行最终的判断。其主要目的不是调整教育方法或纠正学习中的不足,而是对学生的成绩和进步进行总结,一般采用等级或分数的形式。总结性评价一般包括从单元测验、期末考试或其他学期末的考试项目中收集的信息。多数情况下,在这种总结性评价之前就已经进行了相似的、但所反映学生表现更少的形成性评价。
优秀的教师常常运用形成性和总结性两种评价。然而,通过各种各样正式和非正式方法形成并随后传达给学生的形成性评价才是最有利于提高教学质量(Brophy, 1981)。表8-1对形成性评价和总结性评价进行了大致的比较。
表8-1 形成性评价和总结性评价的特征
|
|
形成性评价
|
总结性评价
|
|
目的
|
在教学过程中监控和指导教学过程
|
教学过程结束时对教学效果进行评判
|
|
评价的时间
|
教学过程中
|
教学过程结束时
|
|
评价技术类型
|
非正式的观察、小型测验、家庭作业、学生的问题、学生的作业单
|
正式测验、作业、试卷
|
|
评价信息的运用
|
在教学过程中提高和改善教学进程
|
对教学的总体效果进行评判;评分、排列名次、并予以鼓励
|
