ChatGPT核心研发者的跨界思维: 怎样打破禁锢教育和创新的枷锁
当梦想家都对陈旧的愿景感到厌倦时,当不求回报的期望的灰烬沉淀在不可逾越的未来之上时,只有一种理性的光芒可以穿透黑暗:
为了实现我们的最至高无上的目标,我们首先必须心甘情愿地抛弃它们。
本文经授权摘选自《为什么伟大不能被计划》(中译出版社2023年5月),标题为编辑所拟。前往“返朴”,点击“在看”并发表您的感想至留言区,截至7月2日我们会选出一条留言,赠书一本。
撰文 | 肯尼斯·斯坦利(Kenneth Stanley)、乔尔·雷曼(Joel Lehman)
翻译 | 彭相珍
一
对目标的质疑,探索空间,踏脚石
想象一下,每天一觉醒来,不用去琢磨今天该干点什么,你有过这样的体验吗?假设你去上班,你的老板一反常态的没有开例会,既不讨论工作基准,也不说明工作节点,而是告诉你要做你最感兴趣的事,你该如何自处?待稍后你上网浏览新闻,里面既没有提到关于学习成绩的国家标准测试,也没有提及未达成的经济目标。说来也奇怪,当老师的还是该上课的上课,市场上该进行的交易也没有受到影响。或许近期你不会碰上这么漫无目的的一天,但万一碰上了,这样的日子该怎么过?你或许会感到茫然困惑,或不知所措,或迷失方向。但有没有可能,你反而会觉得日子更好了?
有意思的是,我们难得去谈论“目标”在自身文化体系中的主导地位,尽管我们自出生起就受其影响。从蹒跚学步到第一天进幼儿园再到成年,我们跨入了一场评估的无限循环之中,且所有评估既有目的用于衡量特定目标,由社会或我们自己设定的进展。比如精通一门学科并找到一份对口的工作。实际上,“目标”从一开始就躲在幕后,从源头开始,随着时间的推移不断积蓄力量,最终主宰我们的一切。
在某种程度上,我们不得不相信目标的意义,才能允许他主导我们生活的方方面面,但背后的原因也可能恰恰相反,即我们已经太习惯于通过目标来界定所有的努力,甚至忘了我们可以去质疑目标的价值。
在本书中我们将提出一系列的问题,质疑做事“有目标”的好处,但在此需要着重指出的是,我们主要针对的是所谓的高大上的目标,因为此类目标的实现是彻底的未知数。比如医学研究人员尚未研发出治愈癌症的方法,计算机科学在短期内也很难说是否可以创造出足以媲美人类智力的人工智能。如果能发明一种不存在任何风险、环境友好且用之不尽的能源当然很好,但没有人知道何时会实现。或者更天马行空一些,发明时间旅行机器或瞬间移动怎么样?你甚至会给自己设定一些“大目标”,比如赚它10个亿。……随着“志向”变得越来越“高远”,实现的希望便越发渺茫——这便是最耐人寻味的地方了。
那么问题来了,如何才能实现“高大上”的目标呢?
把成功视为探索发现的过程会很有用。我们可以认为,画出一幅杰作,本质上是在所有具备可能性的作品集合中将其发现,好比我们在一切可能性中,搜寻想要的那个“唯一”,即我们所谓的“目标”。
因此,我们可以把创造力看作一种搜索的手段,但这种类比并不全面,如果我们在寻找目标,那么我们必定是在某些范围内找出目标,这个范围可以被称作“搜索空间”,即所有具备可能性事物的集合。现在试着发挥一下想象力——就好像不同的可能性出现在一个大房间的不同位置,在这个巨大的房间里,从一面墙到另一面墙从地面到天花板,每一个你能想到的图像都在空中某个位置盘旋着,数万亿的图像在黑暗中闪闪发光。
从“搜索空间”的角度思考,“发现”便是我们把创造的过程,看作搜索这个庞大房间的过程。从某种意义上说,自古以来人类文明的发展过程就是不断探索这个房间的过程,我们探索的越多,就越清楚创造发明的可能性。你对这个房间探索得越多,就越能明白接下来该去往何处。通过这种方式,艺术家在创作时恰恰就是在存储了所有具备可能性图像的大空间中,寻找一些特殊或异常美丽的事物。他们在房间里探索的越多,成功的可能性也就越大。
上述思维方式不仅适用于绘画,我们同样可以想象出一个装满任何其他东西的房间,举个例子,它可以是装满了电脑的大房间。如果你在计算机领域钻研了很长时间,那就会发现一件很有趣的事:你首先会开始理解这个房间的形状,知道一台电脑是如何联通另一台的,就像铺着脚踏石的蜿蜒小路一样。如果你在这条路上徘徊的时间足够长,甚至能看到一些有趣的“可能性”开始在某些地方“探头探脑”。
那我们为什么要徘徊于此,何不直接前往顶尖计算机所在的位置呢?原因便是通往未来的唯一线索,只能在过去中寻获。世界上第一台计算机ENIAC于1946年问世,每秒可运行5000条指令,而现如今一台普通的台式电脑,每秒能运行超过100亿条指令。换言之,ENIAC的运行速率只有现今一台普通电脑速率的200万分之一,真算得上是蜗牛爬了。
你可能会想,设计师们为何不在1946年就把目标定为制造一台高速计算机呢?当然现代人都知道这是可能实现的目标,但为什么第一台计算机运行得这么慢?这就是世界运作的方式,在这个满是电脑的大房间被人踏足之前,没有人知道那里会存在何种可能性,你得在出发之前先参观一番。简而言之,在1946年,制造更高速计算机的踏脚石还不为人知,因为其尚未被发现,就像我们目前还不知道把如今的计算机速度再提升200万倍的踏脚石在哪里一样。带有踏脚石(stepping stone)性质的事物是通往更高层可能性的门户,我们必须先找到这块石头,踩稳后才能跨出发现的一步。
二
教学评估,成绩,欺骗
对目标的日益迷恋会给社会造成怎样的危害?是否有明确的案例表明,确立一个社会总体目标弊大于利?事实上,已有大量的科学证据表明这种情况经常发生。例如,下面的引言就呼应了社会科学中众所周知的坎贝尔定律(Campbell’s law):任何量化的社会指标,越是被用于社会决策,社会腐败的压力便越大,也就越容易扭曲和腐蚀它所要监测的社会进程。
为了证明美国正在进步,你可以展示各种各样的证据:学校的考试成绩、犯罪统计率、逮捕报告,或其他可能让政治家顺利当选、让普通职员获得晋升的任何东西。在制定了此类统计标准之后,机构中的许多人就会绞尽脑汁地想办法让它看起来有进步,哪怕实际上根本没有。
——大卫·西蒙(David Simon)
换句话说,类似学业成绩测试这样的社会指标,当其目标是“让成绩更上一层楼”时,效果往往是最差的。原因在于,单一的指标很难把握人们真正关注的是什么。例如,以学生的考试成绩为标准来评估教师,会直接迫使教师开展应试型教学,而最终的结果,不是培养出具备丰富知识和实用技能的学生,而是产出擅长记忆和考试的应试型学生。以考试成绩为目标时,学生的成绩可能会提高,但同时也意味着他们真正掌握的实用知识反而变少了。
任何“高大上”的社会追求,最终都会面临同样令人沮丧的悖论。当社会对进步的追求被打包为一种措施进行衡量时,就会产生目标驱动效应。如果目标十分“高大上”,那么提升目标表现的驱动力很可能产生欺骗性,反而阻碍了人们发现最佳结果的能力。以国内生产总值(GDP)为例,这是衡量国家生产力的一项国际通用标准。每个国家都希望最大限度地提升GDP,因而“GDP最大化”就成了国家层面的一个目标。但GDP的增加,并不意味着保持当前的经济政策一定能够继续提升GDP。因此,经济发展可能会陷入一个“中国指铐”式陷阱——需要来一招“以退为进”才能够获得更大的增长。事实上,经济学家们已经意识到,过度依赖GDP没有意义,即使它是全球各国广泛采用的经济指标。这种悖论也被称为“GDP崇拜主义”。
就像考试成绩一样,GDP这类指标越是“金玉其外”,反而越会变得“败絮其中”。究其原因,GDP是如此单一的衡量标准,它并不能真正反映健康经济体的真正内涵。一名善于玩弄权术的政客为了寻求连任可能会制定一些政策来在短期内大幅提高GDP,但从长远来看,这些政策对经济是有害无利的。这类问题恰恰说明了通过单一指标来制定国家政策的危险性——它们很容易导致欺骗。
但是,在谈论教育这样重要的社会支柱时,要求人们承认目标导向型思维的不足之处可能十分困难。但如果提升与特定目标相关的表现不是取得成功的正确途径,那么我们要怎么做才能够确保“自己对自己负责”呢?我们希望这些简单的、基于目标进展的衡量标准能够告诉我们,一位教师或一所学校是否做得很好,这样我们就可以奖励那些成绩提高者,惩罚那些成绩下滑者。但不幸的是,问题越复杂,目标导向的思维就会越乏力,而教育无疑是一个非常复杂的社会问题。
尽管这听起来有违常理,但一个班级的学生在某次考试中的分数高于去年,可能并不会比他们的分数低于去年更好——尤其是在考虑到学校未来的光明前景时。这是因为通向真正的、近乎完美的全班表现的踏脚石,很可能与任何常见的教育衡量指标毫无关联。各种测试驱使每个学生取得更好的成绩,这些成绩代表了人们期望的理想结果(即目标)。但我们已经看到,这几乎是一条注定行不通的死胡同。换句话说,试图通过衡量成绩来实现任何远大的教育目标,都是自欺欺人。这也就是说整个伟大教育事业的追求过程,完全基于对目标的盲目崇拜。这就是为什么我们需要意识到,在由目标驱动的成功中,隐藏着欺骗性的暗流。这种欺骗性甚至会影响到整个社会层面的努力,并且人们可能在很长一段时间内都意识不到它造成的伤害。
比如,在软件工程领域(开发新软件的行业)发展的早期阶段,也曾出现过类似“一切皆可测量”的风潮。许多人尤为关注具体测量标准带来的前景,期望以此提高生产力和软件质量。汤姆·狄马克(Tom DeMarco)在1982年写了一本颇具影响力的书,描述了这一风潮的特点,其中最有名的一句话是“无法测量的东西,就是不可控的东西”。35年后,狄马克又发表了一篇文章,表示自己的观点已经随着时间的推移发生了转变。“那本书想要表达的言外之意其实是,‘衡量标准是好的,更多就更好,越多就越好’;但最终事实证明,‘它们的使用,反而应该谨慎而节制’。”因为,对由数百万行代码和无数相互作用的部分组成的更复杂的软件而言,“一刀切”的简单衡量标准将变得毫无价值。在同一篇文章中,狄马克写道:“尽管衡量标准使我们能够对进程施加控制,但严格的控制只适用于那些没有潜力产生重大影响的项目。”换句话说,只有在目标相对平凡的情况下,衡量标准才是有用的。如果我们将其应用到宏伟事业上,就会使其失去其价值。在软件开发领域,对衡量标准的盲目推崇,导致工程师们被迫不断抬高衡量标准,哪怕他们知道这些衡量标准已经日益与现实脱节——这种盲目追逐目标的主导性风潮,在持续多年之后才开始消退。目前,美国的教育系统可能正在上演同样的、盲目推崇“一刀切”目标衡量标准的错误。但这一次,受到自欺欺人式成就衡量标准束缚的对象,从软件工程师变成了儿童和教师。
三
“一刀切”,统一标准,多样性探索
除了对精准测量的错误信任外,基于目标导向型思维给教育领域带来的另一个长期伤害,是对“一刀切”的统一标准的追求。其背后的逻辑是,无论身处何处,每个学生都应该有机会获得相同类型和同等质量的教育。其背后的驱动逻辑是确保教育的公平性,即生活在美国东北地区的学生,应该接受与生活在西部或南部的学生同等的教育。换句话说,各地的学校应该在教给学生什么样的知识上,遵循统一的标准。这样一来,无论住在哪里,所有的学生都能学到相同的知识,并且能在高中毕业后,为进入职场或下一阶段的高等教育做好同等的准备。
全国各地的学校以不同的方式执行同一个教育理念,可以定期对学生的表现进行统一评估。这样一来,我们就有了适用于不同地区的国家统一标准,以及许多具体的衡量标准,用以反映学生个人和他们的教师在其学业或职业生涯中的具体进展。因此,如果某个地区的学生接受的教育质量较差,或者某所学校的教师表现不佳,人们就很容易发现问题。这一举措背后的逻辑是,全国统一的评估,可以帮助确保教育平等,更清晰的横向比较也可以提高评估的严格程度。
推动全国教育统一标准的一个例子,就是美国“共同核心州立标准”(CCSS)。该标准由全美州长协会(包括其他机构)发起,与华盛顿成就公司(Achieve, Inc)合作制定。CCSS的主要目标,是建立一套统一的国家教学标准,以及一套与之匹配的定期和统一的评估体系。尽管仍存在争议,但美国绝大多数州已经采用了CCSS,问责制、标准量化和统一性等方面均得以进一步强化。虽然这种统一性表面看起来可能是有益的,但隐藏在光鲜表象之下的,就是我们熟悉的目标神话的谬误。
事实上,CCSS的一个明确功能是设定各种教育目标,正如CCSS网站上的常见问题板块表明的那样,“通过为学生的学习提供明确的目标,教育标准旨在帮助教师们确保学生拥有通向成功所需的技能和知识。”当然,如果我们不能时常准确地衡量各项目标的进展来使之保持统一,以便于进行普遍性的横向比较,那目标又有什么用呢?出于这个原因,CCSS也帮助“开发和实施共同的综合评估系统,用于每年衡量学生的表现,以取代各州现有的、不统一的测试系统”。
尽管我们可以轻易地理解推动统一教育标准背后的良好意图,但在这一点上,我们也能看到,目标的误导性是如何破坏这件“美事”的。统一标准很像前文提及的准确性问题,它是评估和测量的一个好帮手,但却是教育领域“寻宝者”的劲敌。
一个彻底统一的教育系统,能从细枝末节之处确保每个学生拥有平等的经历,但其意义不大。学生们的课程、学业目标和测试都是一模一样的,这种“一刀切”的统一性,尽管可能通过增强的目标感和科学性给人带来安全感,但与提升孩子们的教育质量没有必然的联系。无论选择什么样的统一标准,都有可能带来好的或坏的结果。当然,制定一套劣质的统一标准,必然会让情况变得更糟。
强加的教育统一性可能会造成更多不易察觉的“内伤”,因为除了没有任何内在的益处之外,统一性还会损害孩子们在未来探索和发现的能力。执行统一的标准意味着向一个单一的标准聚合,同时也消灭了个别学校或个别州目前可能正在探索的其他标准的多样性。因此,未来的标准和测试,可能只是对强制实施的现有标准的调整,因为这是教师们在课堂上可以应用和探索的唯一标准。
教育问题如此复杂,以至于人们几十年来都没有找到一种“一劳永逸”的解决方案。为此,我们必然要思考一个问题——非目标思维对教育意味着什么?到目前为止,本章就教育领域的论述,遵循的是一种熟悉的模式,即目标导向的方法成为目标欺骗性的牺牲品,使关于“如何取得进步”的传统设想变得岌岌可危。但我们同样熟悉的是,如果我们能够设法摆脱只考虑目标的做法,教育事业就能再次获得一线生机。有时也许应该允许广大教师和学校系统遵循其本能和直觉,哪怕他们在评估中的得分连年下跌。但是,随着“应试教育”的流行和“力争高分”等目标压力的增加,对这种“直觉”的依赖显然受到了压制,其结果是教师们大部分的自主权、直觉和创造力被剥夺,教师们对教学的热情和初心也被慢慢耗尽。
或许,我们最好将投入评估方面的精力转移至尝试不同的想法,而不要过分强调衡量标准的精确度。这将使教师们能够充分利用其多年来在与学生的互动中磨炼和积累的创造力和近乎直觉化的专业知识,让他们去自由地探索更有潜力的路径。就像在图片孵化器网站上一样,多样性探索产生的一些想法可能注定要失败,但另一些则可能带来有价值的发现,而整个体系(就教育而言,是整个社会)将会同时从不同的路径和尝试中受益。那些看起来有趣或有前途的方法,会成为通向成功的踏脚石,其他人可以在此基础上继续探索和发现。通过这个方法,整个社会就能成为教学方法的“寻宝者”。但是这种对不同可能性的有益探索,可能会受到当前僵化的、以目标为导向的主流文化的排斥,至少在美国会这样。(以芬兰的小学教育系统为例,它为芬兰的教师们提供了更大的个人自主权,并且不会要求学生参与标准化的测试。在这个意义上,芬兰的教育系统,更多遵循了非目标的探索精神。所以,芬兰在教育方面也处于世界领先地位,远远超过了美国。)
四
经费申请中的分歧与共识,砸钱与出成果
要了解目标对科学进步可能产生的影响,就得了解科学在实践中是如何运作的。科学进步最基本的驱动力,来自科学家们的实验,但这样的实验往往成本很高。因此,资金往往成为限制科学发展的因素——尤其是考虑到知识的进步并不总是能够在短期内带来回报这个事实,这就意味着,寻求新探索和新发现的科学家们,首先要为实验的项目筹募资金。
科研项目申请经费的大致流程是:科学家们向资助机构提交申请,并提供阐释了科研想法的提案;提案随即被送到一个由专家同行评审员组成的评审小组,这些评审员通常是提案所涉领域,如生物学或计算机科学领域的资深科学家;评审专家随后给出评级,包括从差到优的不同等级。一般来说,获得最高平均评级的提案,最有可能获得资助。
乍看之下,这是一个十分合理的筛选过程。理想情况下,某个领域中最优秀的想法,就应该能够说服一个由专业科学家组成的小组,并将其评定为优秀。然而,这种表面合理的常识背后,同样隐藏着麻烦,因为这个评审体系的主要作用是支持共识。换句话说,评审员群体越是认同提案的优秀性,机构提供资助的概率就越大。然而问题在于,共识往往是通往成功的踏脚石的最大障碍。
寻求共识将阻止人们沿着有趣的踏脚石前进,因为不同的人对什么是最有趣的踏脚石的看法或许并不一致。解决不同人群在喜好上的分歧,往往会导致相互对立的踏脚石之间彼此妥协,就好像将对比鲜明的黑白两色混合到一起,最终只会产生了寡淡的灰色。这种妥协的产物,最终往往只会冲淡两个原始理念的色彩。对于撰写提案的科学家来说,赢得资助的最佳方式是提出完美的妥协方案,即最柔和的灰色——足以满足所有人的眼光,但不太可能带来高度的新奇性或趣味性。因此,当人们尝试在探索中寻求共识时,其结果只能是“清汤寡水,无甚滋味”。整个系统不是让每个人去发现自己的踏脚石链,而是将各种不同的意见压缩成一个四平八稳的平均值。
也许有时候支持最大限度的分歧,而不是一致的意见,会更有意义。如果你跟风去做热门的研究,并且鹦鹉学舌似的随大流,或许能够得到广泛的认可和支持;相反,一个真正有趣的想法,或许会引发争议。在我们目前已知和未知的边界,仍存在一些尚不确定答案的问题,这就是为什么在科学的未知领域,专家们的意见应该保持分歧和发散状态,正是在这片位于已知和未知之间的“蛮荒”边界地带,我们应该让人类最伟大的头脑进行探索,而不是在最大共识的舒适区“沉迷享乐”。试想一下,哪个项目可能更具有革命性:是评分“喜忧参半”的项目,还是“全体好评”的项目?意见分歧的专家们,或许比总是达成一致意见的专家们更有推动伟大成就的能力。
除了推动人们达成共识之外,基于目标的思维还可能从其他方面影响科研投资的决策。例如,假设你是目标论的信徒,可能会认为科学进步的框架是可预测的。换句话说,根据“有志者,事竟成”的目标性思维,通往重大发现的踏脚石,将以一种有序、可预测的方式排列。在这种思维导向下,治愈癌症的关键创新,似乎应该是对已经存在的癌症治疗方法的改进或完善,或至少应该来自与癌症直接相关的研究领域。然而,在本书中,我们一次又一次地看到,通向卓越成果的踏脚石是不可预测的。因此,如果我们想要治愈癌症,只专注于癌症领域可能无法使我们实现这个宏伟目标。但是,即使一项研究未能实现其原始目标,其副产品也可能会在看似不相关的领域实现意外的突破性发现。
事实上,各国政府已经投入巨额研究资金,开展了众多诸如此类的重点研究项目,以期解决某些特定的科学问题。例如,日本通商产业省在1982年启动了一个长达10年的大规模研究项目,即“第五代计算机系统项目”,旨在推动日本的计算机技术跻身世界领先地位。虽然日本政府投入了大量资金用于定向研发,但人们普遍认为这个项目没有实现其目标——开发出具备商业成功潜力的产品,尽管这个项目的确为日本培养了新一代有潜力的日本计算机研究人员。同样,美国总统尼克松于1971年发起的“抗癌战争”(旨在消灭癌症这一高死亡率的疾病)也尚未取得成功,尽管这个项目在研发更有效的癌症治疗方法方面进行了针对性研究,并加深了人们对肿瘤生物学的理解。事实上,类似人类基因组计划等看似不相关的科学研究项目,更有希望发现更好的癌症治疗方法。
当然,有时雄心勃勃的科学探索计划也能获得成功,比如20世纪60年代的美苏登月竞赛就是由肯尼迪总统发起的,他在国会演讲中承诺,“我相信这个国家能够齐聚一心,全力以赴达成这个目标,十年之后,人类将乘坐宇宙飞船登陆月球并且安全返回。”但这份充满不确定性的宣言后来之所以能够实现,是因为它当时正好处于技术可能性的边缘(也就是说,这个宏伟的目标彼时离实现只有一步之遥)。于航天飞机之前出现,并促使航天飞机的问世成为可能的一连串发明,并不是太空计划本身的目标,但航天飞机的发明必须依赖于它们的出现。假如登月目标在19世纪60年代提出,则必然会以失败告终。
然而,从这些成功案例中得出的关于目标力量的潜在误导性结论,往往助长了天真的目标乐观主义——认为只要有足够的资源支持,任何目标都可以在历史上任何时期坚定地成立并一定能够实现。例如,美国癌症协会的一位前任主席曾经说过:“我们离治愈癌症的目标已经非常近了,只是缺少将人送上月球的那种意愿、资金和全面规划。”最后,即使在这些宏伟的科学事业的成功案例中,最终给人类社会带来最深远影响的技术,往往是未曾预料到的。例如,太空竞赛给我们带来了人工耳蜗、记忆海绵床垫、冻干食品和改进后的急救毯等创新产品。
五
应该投资给谁?
一个类似的思路是,科学项目如何影响世界同样存在着可预测的框架。也就是说,我们也许能持续地靠投资来不断优化那些目前看起来最有可能产生影响的科研项目,最终会催生出一些具备突破性影响的科研项目。背后的逻辑是,具有适度影响力的科研项目将带来更多更具影响力的科研项目,最终使科学的探索和发现给世界带来颠覆性变革。
事实上,类似美国国家科学基金会等资助机构评估科研经费申请的一个主要标准是拟议研究项目的影响力范围。因此,被认为影响潜力较小的科研项目,获得资金的可能性也低。而政客们倾向于嘲笑那些目标看似异想天开的科研项目,即显然不会带来任何重要成果的研究,认为它们纯粹就是浪费钱,这种态度的背后也体现了同样的逻辑。例如,美国参议员汤姆·科伯恩(Tom Coburn)在2010年的一份报告中,将一项实验称为“一群对科学上瘾的猴子”,他在2011年的另一份报告中,则将另一项实验讽刺为“跑步机上的虾”。美国参议员威廉·普