你会怎么教一个带轮子的机器人走出迷宫?
大多数计算机程序员可能会这样做:为机器人编制一套名为“走出迷宫”或“直达出口”的程序或AI算法,该程序或AI算法的每一个环节都是将“是否比前一步更接近迷宫出口”作为有效与否的标准,然后按部就班地实现这些精心设计的“目标驱动型搜索”。最终机器人会按照精心设计的程序或AI算法成功走出迷宫。
有没有其他方式呢?
人工智能公司OpenAI(开放式人工智能公司)两位研究员肯尼斯·斯坦利和乔尔·雷曼在合著的《为什么伟大不能被计划》一书中,详细记录了他们的实验。在40次基于“目标驱动型搜索”的迷宫实验中,机器人只成功了3次,而不用“目标驱动型搜索”的行为却一直成功。这个实验颠覆了人类习惯的思维方式——设定目标不一定总是对的。
“新奇性搜索”带来复杂性
“目标驱动型搜索”完成任务或成功率如此之低,一定程度上反映出实验思路的问题。斯坦利和雷曼两位研究员反其道而行之,抛弃“目标驱动型搜索”,而是站在“踏脚石理论”(该理论源于生态学,常常被用于描述自然种群中居群分布不连续的现象,且在其中,只有相近或相邻的居群之间才有基因交流;而在人工智能当中,不为模型设定目标,有时反而会产生更好的结果)基础上,探索出一项名为“新奇性搜索”(Novel Search)的实验或算法,从而绘制了一幅全新的创新创造的进阶图景。
该算法的核心是“新奇行为事实上是通往更多新奇行为的最佳‘踏脚石’”,即新的东西可以带来更新的东西。实验的基本想法是,计算机程序可以先产生新的“想法”,然后机器人尝试做出相应的行为。如果该行为被证明是新奇的,那么该行为可能是有趣的,程序可以将其认作一个好主意。请注意,这种判断想法质量的方式,与设定了具体“目标驱动型搜索”的情况完全不同。例如,如果设定的目标是让机器人从起点位置走到迷宫的终点,那么“好”的行为,就应该是那些让机器人最终会比之前更接近迷宫终点的行为。“什么行为是好的或坏的”是一个很重要的问题,因为程序将只会继续探索被认定为“好”的想法。“新奇性搜索”的希望在于,好的想法可能是通往有趣事物的“踏脚石”。因此,在尝试了一系列的行为之后,程序决定专注于测试那些看起来有趣的行为。为了做到这一点,程序将采用这些新奇的想法并进行微调,继而观察是否会出现更有趣、更新奇的东西。
比如,如果机器人绕过一堵从未绕过的墙,那么对该行为的微调就有可能让机器人走得更远。另一方面,如果机器人做了以前做过很多次的事情(比如撞墙),那么这个行为就会被忽略,不会被进一步探索。这种专注于如何在迷宫中实践更新奇想法的方式,与任何其他类型的创造性思维颇为相似,即你可能有一个有趣的想法,然后在思考一段时间后,发现它启发了其他有趣的想法。
这是该实验耐人寻味的地方。想象一下,如果机器人不断尝试新的行为并进一步探索最新奇的行为,那它就会一开始总是撞墙,然后知道了如何避免撞墙,最后学会了穿过门洞;如果持续这样的“新奇性搜索”过程,机器人最终会发现一个能走出整个迷宫的行为。换句话说,“新奇性搜索”能驱动机器人从起点顺利走到终点的行为,哪怕走出迷宫并不是它的目标。
一个只被告知要寻求新奇行为的机器人,却学会了如何避开墙壁在走廊里自如穿梭,最终走向敞开的大门,而且这些动作都没被当成指令、奖励这样的目标(即“从来没有人告诉机器人应该做什么”)。按照这个逻辑,追求新奇性过程中所产生的行为,似乎要比预期的复杂。复杂意味着掌握更多信息,掌握更多信息意味着更高级,也就是更容易解决问题。更重要的原因是,新方案是通往其他新方案的“踏脚石”。这就如同你在一片沼泽地里寻宝,必须踩到更多的“踏脚石”才能探索更多的地方,而你必须探索很多很多地方才更有可能找到好东西。
审视目标的欺骗性
享誉全球的心理学大师理查德·怀斯曼曾做过一个有趣的实验,他要求受试者数出一份报纸中照片的数量。研究结果表明,那些沉浸于数照片这个目标的人,完成任务的时间比那些不太专注于这个目标的人更长。为什么会这样?那些没把“目标”太当回事的受试者发现,在报纸第二页的内侧已经写着:“不要再数了,这份报纸总共有43张照片。”尽管有人会争辩说,这些人不过是纯粹的运气使然,但过度专注于既定目标,确实会限制我们获得意外发现的能力。
“新奇性搜索”不会受到目标的欺骗性的影响(因为其并未试图从中获取任何特定的东西),欺骗性往往是目标不能带来伟大成就的关键原因。要做成某事,一般都要先“谋定目标”而后动。只要目标明确,努力和付出必有回报。在各行各业中,只要提出一项新计划,大家听到的第一个问题通常是:“目标是什么?”如果你不能把某个特定追求目标化,人们便觉得它有“不甚完善”之嫌,而“能否目标化”也是证明该想法是否值得被考虑的唯一途径。
比如工程师经常会设置一系列严谨的产品标准,作为需要达成的“目标”,然后将自己设计出的原型机与设定的标准逐一比对。为确保项目获得充足的资金,科学家必须先确立一个明确的目标,然后这些目标的可实现性就成了评判项目能否获得资助的标准。“目标”在世人思维中的分量,甚至还影响到了人们的交流方式。譬如,谈到自然界的动物,但凡涉及进化论,人们通常会从两大角度看待动物的演化——生存和繁衍,即生物进化的预设目标。
目标在生活和工作中如此常见,以至于人们很少质疑目标的必要性。人们之所以紧紧抓住目标不放,对风险的恐惧是一大主因。尽管一定程度的风险是探索和进步必须付出的代价,但那些负责掏钱的人,通常不希望承担过高的风险,以免资源被浪费在那些不切实际、异想天开的项目上。
但在斯坦利和雷曼看来,当社会对进步的追求被打包为一种措施进行衡量时,就会产生目标驱动效应。如果目标十分“高大上”,那么提升目标表现的驱动力很可能产生欺骗性,反而阻碍了人们发现最佳结果的能力。借用社会科学中众所周知的“坎贝尔定律”来审视就是:任何量化的社会指标越是被用于社会决策,社会腐败的压力便越大,也就越容易扭曲和腐蚀它所要监测的社会进程。换句话说,类似学业成绩测试这样的社会指标,当其目标是“让成绩更上一层楼”时,效果往往是最差的。原因在于,单一的指标很难把握人们真正关注的是什么。
以学生的考试成绩为标准来评估教师,会直接迫使教师开展应试型教学,而最终的结果,不是培养出具备丰富知识和实用技能的学生,而是产出擅长记忆和考试的应试型学生。
通过对比研究,斯坦利和雷曼还发现,“坎贝尔定律”的另一种更有害、更极端的形式是不当激励,即有时为了使事情变得更好而选择的奖励或措施,实际上会使事情变得更糟。例如,印度受英国殖民统治时期,英国政府为了消灭毒蛇出台了一项政策:印度公民每上交一条死蛇,就能领取一笔报酬。但这项措施并没有达到预期的效果,反而导致印度公民为了获得赏金而争相饲养眼镜蛇,然后杀死它们牟利。最终,印度的毒蛇数量增加了。
伟大的目标与平常的目标
在追求日常的成就时,目标发挥着重要作用,并将在未来继续发挥作用。一家制造型企业要提升5%的产能,或者一家软件科技公司想把自家产品从2.0版更新成3.0版,是可以通过设定目标逐步实现的。但随着目标变得越来越“高远”,实现的希望便越发渺茫。
鸟类的飞行激发了航空旅行的灵感,但从来没有人为了实现“飞行”的目标而选择繁育鸟类的遥远祖先;光合作用给人们带来了利用太阳能的灵感,但植物得以进化出光合作用,并非因为这是刻意设定的目标;甚至人类的思维,也激发了人工智能研究的灵感,以产生人类智能为唯一目标而开启的进化过程是愚蠢的。归根结底,人类社会许多伟大的工程发明,如飞行、太阳能、人工智能,并不是进化的预设目标,尽管进化过程的确创造了所有这些东西。
换句话说,那些颠覆整个行业或体系的成就,通常不会遵循“预先设定目标”的剧本。正如《为什么伟大不能被计划》中指出的那样:任何重大发明,几乎都是在没有考虑到该发明的情况下产生的。真空管是早期计算机的奠基性踏脚石,但是计算的概念并没有提供任何关于真空管需求的线索,也没有提供关于电力需求的线索。现代内燃机的前身是感应线圈,其最初也不是以制造发动机为目的。作为一种简便的高电压触发器,它主要被应用于早期的电气实验。它在“克鲁克斯放电管”中被使用,从而促成了阴极射线(即电子)和后来X射线的发现。从感应线圈到内燃机,再到飞机的创新链中的每一个环节,其发明者都没有想到下一个环节可能是什么。过去所创造的未来,并不是过去所设想的愿景,而是过去意外促成的结果。
日本通商产业省在1982年曾启动了一个长达10年的大规模研究项目,即“第五代计算机系统项目”,旨在推动日本的计算机技术跻身世界领先地位。虽然日本政府投入了大量资金用于定向研发,但人们普遍认为这个项目没有实现其目标——开发出具备商业成功潜力的产品,尽管这个项目的确为日本培养了新一代有潜力的计算机研究人员。同样,美国总统尼克松于1971年发起的“抗癌战争”(旨在消灭癌症这一高死亡率的疾病)也尚未取得成功,尽管这个项目在研发更有效的癌症治疗方法方面进行了针对性研究,并加深了人们对肿瘤生物学的理解。事实上,类似人类基因组计划等看似不相关的科学研究项目,更有希望发现更好的癌症治疗方法。
如果距离目标只有一块踏脚石的距离,那么设置并遵循目标依然是有意义的。问题是,伟大的目标与平常的目标不同,好东西从来都不是按照某个目标刻意计划出来的。