type
status
date
slug
summary
tags
category
icon
password
“二西格玛问题”的提出
教育心理学家Benjamin Bloom发现,一对一辅导(one-on-one tutoring)结合掌握学习(Mastery Learning)能带来学生表现的巨大提升,效果高达 two standard deviations(即“二西格玛”,a MASSIVE effect)。由于一对一辅导成本高昂,Bloom提出了“二西格玛问题”(Two Sigma problem):如何在更具实践性、更可扩展的条件下实现类似的成效?
核心教学方法:直接教学法 (Direct Instruction) 和掌握学习 (Mastery Learning)
文章重点分析了两种可能解决此问题的方法:Direct Instruction (DI) 和 Mastery Learning (ML)。DI是一种高度结构化、教师主导的教学项目,强调学生掌握先决知识和技能,并接受清晰无歧义的指导。其特点包括按技能水平分组、确保内容掌握的结构化课程(如90%复习+10%新内容)、根据学生学习速度调整以及经过实地测试和修订。与此不同,ML是一种教学理念,也是DI的组成部分,核心在于要求学生在进入下一课前必须掌握当前内容,通常通过测试和补救教学实现。ML可以是集体进行(如Bloom的Learning for Mastery, LFM)或个体进行(如Keller的Personalized System of Instruction, PSI)。文章区分了资本化的 Direct Instruction (特指Engelmann开发的程序) 和小写 direct instruction (泛指教师中心教学法)。
研究发现与效应大小 (Effect Sizes)
综述表明,相关文献存在大量小样本、非随机试验和高度异质性的结果。Tutoring(辅导)的平均 effect size 约为 d=0.79(非常大 Very large 到巨大 Huge),而 Mastery Learning 的效果通常为 Medium (d=0.05-0.2) 到 Large (d=0.2-0.5),对 disadvantaged students(弱势学生)效果更佳(Large 到 Extremely large)。Direct Instruction 通常也显示 Medium 到 Large 的 effect size,尤其对 disadvantaged students 有显著效果(Large)。高质量的辅导员和软件辅导有可能达到或超过 two sigma 的提升。这些方法对于技能较低的学生通常更有效,且在设置了清晰的学习目标和事实时效果更好,但 learning transfer(学习迁移)证据不足。长期研究显示存在 fade-out effect(消退效应)。文章使用了 adapted from Kraft (2018) 的 effect size 标准,将 Large 定义为 d=0.2-0.5,Very large 为 d=0.5-1,Extremely large 为 d=1-1.5,Huge 为 >1.5。
学术争论与方法学问题
文章探讨了关于ML有效性的争论,特别是Robert Slavin的“best-evidence synthesis”研究,他倾向于认为ML对 standardized tests(标准化测试)的效果接近 nil,而对 experimenter-made achievement measures(研究者自编测试)的效果有限,并指出效果可能主要来自额外学习时间或 testing effect(测试效应),而非ML本身。其他研究者如Kulik等则认为Slavin的研究标准过于严格,且忽略了某些ML变体(如PSI)和大学水平的研究。争论反映了教育研究在方法学、测试类型和结果解释上的挑战。近期大型 RCTs (Randomized Controlled Trials) 对某些“掌握”项目的评估也未能发现显著效果,可能与具体实施方式有关。
软件辅导的潜力与 DARPA 案例
文章强调了高质量软件辅导的巨大潜力。VanLehn (2011) 的综述发现人类辅导与优秀软件辅导的平均效果相当,均为 d=0.79左右。DARPA 的 Digital Tutor 项目是软件辅导的一个杰出案例,在针对美国海军信息系统技术员的试验中取得了 extraordinary 的效果(effect sizes 从 d=1.97 到 3.18),甚至超过了传统教学的讲师,且所需时间更短。这表明精心设计的 Intelligent Tutoring Systems (ITS) 有能力实现甚至超越 Bloom 设想的“二西格玛”目标。然而,开发此类高质量软件是困难的。
更广泛的教育研究背景
与ML、DI和Tutoring相比,一般大型教育干预 RCTs 的平均 effect size 较低(如Hugues & Matthew (2019) 发现的平均 effect size 为 0.06),这使得对这些方法的高效声明更显突出,但也提示了文献中可能存在的 Publication bias(出版偏倚)或研究质量问题。Deliberate practice(刻意练习)在教育领域的 effect size 相对较低(Macnamara et al., 2014),而 Spaced Repetition(间隔重复)对记忆保持的 effect size 约为 d=0.42(vs cramming)。这些相关领域的发现有助于理解ML/DI/Tutoring起作用的潜在机制(如更多接触、测试)以及设定合理的预期。
- 作者:Clov614
- 链接:http://blog.rikka.net.cn/article/1fd645fc-b4a3-8192-8ab5-f500aeb473c7
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。




