By James Somers 2023年秋天,我的儿子刚出生时,除了睡觉和吃饭,他大部分时间都在进行认知科学家所说的"动作学习"。他的手脚不停地摆动,眼睛机械般地转动、游移。一天晚上,就在他快要入睡时,他第一次露出了笑容。当我凝视着他,猜想着他的心思时,他的表情突然变得空白——随后快速变换:先是不悦,接着是惊讶,最后又露出喜悦。这一切就像是在进行某种设备校准。这似乎正是动作学习的意义所在:通过随机运动,帮助大脑逐渐熟悉它所掌控的身体。在我们的智力发展历程中,身体感知是最基础的能力。我们的大脑质量主要用于协调身体活动。有趣的是,神经科学家发现,即便是在处理抽象概念时——比如思考公司的组织结构——我们依然会调用与空间导航相同的神经机制。在大脑的初级运动皮层中,活动方式越复杂的身体部位,占用的控制区域就越大。其中,面部和嘴唇的控制区域特别大,手部的控制区域也同样可观。人手堪称人体最灵活的器官,可以做出27种不同的动作,远超其他任何身体部位:手腕能够旋转,指关节可以独立活动,手指能够伸展或收缩。手部皮肤上的感应器分布极其密集,它们与沿脊髓延伸的神经网络紧密相连。"许多人以为脊柱只是传递信号的通道,"麻省理工学院生物机械学博士、机器人专家亚瑟·佩特龙说,"但实际上,它本身就是大脑的延伸。"他特别强调手部的神奇之处:"它的敏感度如此之高,简直就是一个视觉传感器。在完全黑暗中,仅凭触摸,你就能在脑海中勾勒出物体的形状。"我清晰地记得儿子的手部能力开始觉醒的那一周。我们有个带摇铃的球形玩具,最初几周他对它毫无反应。突然有一天,他似乎不经意间碰到了它。第二天,他就学会了握住它。一周之内,他开始有意识地伸手去抓,两周后他已经能熟练地把玩具翻来覆去了。这种进步速度令人惊叹:短短两周,就能掌握如此精密的"设备",这是何等神奇!我的儿子似乎也为自己的进步感到新奇。他时常凝视自己的手掌,反复屈伸手指,仿佛在思索:这神奇的工具究竟还能做些什么? 20世纪80年代,加拿大机器人专家汉斯·莫拉维克提出了一个看似矛盾的现象:人类轻而易举就能完成的动作,比如用手抓取物体,往往恰恰是计算机最难掌握的技能。即便在今天,当写作和编程等复杂任务已被人工智能攻克之际,这一现象仍然存在。以我的程序员工作为例,使用人工智能,我可以在几分钟内解决过去需要一整个下午才能完成的编程任务;然而,这个人工智能却无法操作我面前的键盘。它有"大脑"而无"躯体"。因此,最难被人工智能取代的可能恰恰是那些传统工种:水管工、木匠、育儿员、厨师。苹果公司联合创始人史蒂夫·沃兹尼亚克曾设计了一个至今无人通过的简单测试:让机器人进入一个陌生的家庭,并煮一杯咖啡。直到几年前,机器人技术的进展仍远远落后于人工智能的飞速发展。在YouTube上,工业机器人公司波士顿动力的人形机器人能够翩翩起舞,或像跑酷运动员一样跨越障碍。但这些动作都是预先设定的——同样的机器人却无法完成煮咖啡这样的日常任务。要知道,仅仅是取一个咖啡滤纸,机器人就需要完成一系列复杂的动作:绕过厨房中岛,识别并找到橱柜,轻柔地打开橱柜门而不至于损坏铰链。甚至连分开咖啡滤纸这样看似简单的动作,在机器人领域都被视为一项难度惊人的挑战。这种技术困境一度让整个领域陷入绝望。但随后,人工智能领域的突破开始为机器人技术带来曙光。托尼·赵最初在加州大学伯克利分校从事人工智能研究,后来转向机器人领域。他回忆说,当他第一次接触到OpenAI在2020年推出的大型语言模型GPT-3时,立即意识到自己在见证历史性时刻。"我之前见过不少语言模型,但GPT-3是第一个给人以'生命力'的模型,"他说。与此同时,佩特龙正在OpenAI开发另一个突破性项目——一个能够灵巧操控魔方的机械手。到了2022年8月,谷歌研究人员展示的成果更是令人振奋:他们的由语言模型驱动的机器人,展现出了令人惊讶的常识理解能力。比如,当研究人员要求机器人准备点心和饮料时,它能自主在厨房找到香蕉和水瓶,并准确送达。机器人领域的专家们越来越坚信,他们即将迎来一个堪比ChatGPT的突破性时刻。当赵运行他最新研发的作品时,立即让他联想到了GPT-3带来的震撼。"这是一种前所未见的体验,"他说。在顶级实验室里,那些曾经给人以生硬机械感的设备,如今的动作开始展现出智能的特质。可以说,人工智能终于获得了"手"的能力。谷歌DeepMind机器人团队负责人卡罗莱娜·帕拉达告诉我:"过去两年,我们见证了技术进步曲线的急剧攀升。"她的团队在近期机器人技术的重大突破中功不可没,尤其是在精细操作能力方面。"今年,人们终于认识到通用型机器人的构建已经成为现实,"她说。这些进展最令人瞩目的特点在于:它们几乎不依赖传统的程序编写,机器人的行为模式完全来自学习。
tony zhao 今年夏天一个清凉的早晨,我来到了加州山景城的一座改建办公楼,这里曾是一处购物中心,现已成为谷歌的产业基地。步入大楼时,我经过了一个小型展览区,那里陈列着公司过往的"登月计划"成果,包括Waymo(谷歌旗下自动驾驶公司)的首款自动驾驶汽车。上到二楼,谷歌DeepMind机器人部门的研究科学家乔纳森·汤普森和丹尼·德里斯正站在一个酷似工厂车间的空间中央,四周布满错综复杂的线缆。约二十几个工作台前,操作员们正专注地进行着各种精密操作。有趣的是,他们并非使用自己的双手,而是在操控一对金属机械臂。这套名为"ALOHA"的系统,全称是"低成本开源双手远程操作硬件系统",最初源于赵在斯坦福大学的博士研究项目。每个机械臂的末端都装有一个能够在腕部旋转的机械爪,它们的动作让人联想到迅猛龙的头部——虽有几分生硬,却也透着优雅。我看到一位女性操作员正小心翼翼地用机械臂将一条项链放入珠宝盒;她身后的另一位女性则在开启一个密封袋;不远处,一名年轻男子正指挥机械臂折叠一件儿童衬衫。这些都是需要极高精确度的工作,整个空间静谧得只能听见机械关节运作时发出的细微声响。"这些平行夹持器的能力总是让人惊喜,"汤普森一边说,一边邀请我在一个空置的工作台前就座。
我握住了两个控制手柄,只要推动或拉动任一只手,对应的机械爪就会随之移动。汤普森在桌上摆放了几个玩具和一支荧光笔。我用右手笨拙地去夹一颗小塑料钻石,想把它塞进积木上的一个钻石形状的孔里。"真不太容易掌握,"我说。虽然我的大脑惊人地快就接受了这对机械爪是我"新手"的设定,但还没学会灵活地控制它们。那颗钻石就是不听使唤,让我想起儿子最初接触玩具时的手足无措。"试试在两只手之间传递物体,这样调整位置会容易很多,"汤普森建议道。这时我才想起还有左手可用。我试着开合左边的机械爪,很快就掌握了在双手间传递钻石的诀窍。德里斯补充说:"虽然没有触觉反馈,但你会发现这并不影响操作。"确实,当机械爪握住钻石时,我感受不到任何压力——但我终于成功地将钻石对准孔位放了进去。渐渐有了信心后,我尝试了个更有挑战的动作:左爪夹住荧光笔,右爪拔掉笔帽。汤普森告诉我,这也是他们给操作员设计的训练任务之一。在工作台下方有两个踏板,分别标注着"成功"和"失败"。操作员可能要花上几个小时,反复练习取放笔帽的动作,成功时踩右踏板,失败则踩左踏板。通过这种方式,人工智能系统能运用"模仿学习"技术,归纳总结成功操作的要领,最终无需人工操控就能完成任务。这就像网球教练扶着学生的手臂,教导标准反手动作一样,让机器通过模仿来掌握技能。我注意到桌下有台电脑。德里斯解释说,整套系统配备了四个摄像头用于数据采集,还有多个传感器实时追踪机器人的空间位置。这些数据经过多层神经网络的处理提炼,最终会形成一个"行为策略"——本质上是指导机器人行动的程序。普通流水线上的机械臂可能只需要简单的策略:转动十度、抓取、放下、回位、重复。而这里开发的策略要复杂得多,它是对所有成功操作经验的综合提炼。 德里斯走到控制台前开始输入指令。他想向我展示一个自动挂衣服的程序。"这个程序是通过多少次示范训练出来的?"汤普森问道。"八千次,"德里斯答道。八千次反复挂衣服——光是想象这个场景就让人叹为观止。这时,一位新来的操作员走到我们身后,正在活动手腕热身。汤普森解释说:"我们规定操作员每工作一小时必须休息一小时。"程序准备就绪后,汤普森在桌上展开一件儿童polo衫,德里斯按下回车键。瞬间,我刚才还在手动操控的ALOHA系统开始自主运转。那对机械手仿佛注入了生命,带着明确的目标向衣服伸去,它们的动作让我想起迪士尼《幻想曲》中那些被施了魔法的扫帚。右侧机械爪精准地抓住衣服一角,伴随着马达的轻响,将衣服举向放着衣架的支架。左侧机械爪则稳稳抓住衣架。接下来的动作更为精细:将衣架穿过一侧肩膀,固定妥当,再处理另一侧。机器人短暂停顿了一下,似乎在思考,随后继续完成动作。最后,它将挂好的衣服稳稳放在了架子上。"这次表现不错,"汤普森说着踩下了表示成功的踏板。这个看似简单的任务实际涉及复杂的协调:就像人类需要眼手配合,不断作出微调一样。虽然ALOHA是市面上最基础、最经济的机械臂系统之一,但研究人员们用它不断突破机器人精细操作的极限。"它甚至能剥鸡蛋,"汤普森说。更令人惊叹的是,赵还成功地用它从镜片盒中取出隐形眼镜,并将其准确放置在玩具青蛙的眼睛上。当然,某些特别精细的任务,比如缝纫,目前仍然难以实现。 就像在谷歌图书计划的初期,需要工作人员手动翻阅数百万页书籍来数字化知识一样,这一屋子的ALOHA系统正在破解人类日常生活中那些看似简单却极其精妙的物理动作——这些是人类行为中最后一片尚未被完整记录的处女地。这些实验收集的数据将用于训练研究人员所说的"大型行为模型"。我向汤普森和德里斯请教他们最负盛名的机器人程序。"有位德高望重的教授曾说,只要机器人能够系鞋带,他就立即退休,"德里斯说着,汤普森将一只鞋放在了桌上。机械爪启动后,动作行云流水:先是抓住鞋带两端,将其打成圆环,然后熟练地穿插翻转。当机械爪完成动作分开时,我们都情不自禁欢呼起来:机器人真的系好了鞋带!"那位教授真的退休了吗?"我好奇地问。答案是否定的。这涉及人工智能领域的一个终极挑战:泛化能力。也就是说,当面对超出训练范围的情况时,程序是否依然有效?要知道,这个程序仅仅接受过两三只鞋的训练数据。"用我的鞋子试试看会怎样?"我提议道。"没问题,"汤普森欣然应允。我脱下右脚的运动鞋,并为之后要处理这只鞋的人报以歉意。汤普森爽快地把鞋放在桌上,德里斯则重新启动程序。"先说好,"德里斯提醒道,"这在业内一直被认为是个不可能完成的任务。"汤普森打量着这个新的实验对象,略显忧虑:"鞋带太短了。"程序启动后,机械爪开始行动。但这次它们只是在鞋带周围徒劳地试探。"要不要先征求一下你对鞋子报废的同意?"看着机械爪抓住鞋舌时,德里斯打趣道。汤普森让它再试了几秒,便按下了失败踏板。 儿童发展专家常说,婴儿在九个月大左右会发展出"精细抓握"能力——用拇指和食指捏住小物件的技能。这种描述仅仅从手部动作的角度定义了这项能力,但同样重要的是背后所需的认知。孩子们必须通过实践来掌握:要用多大的力气捏住一块牛油果而不让它滑走,或是如何恰到好处地捏住一个麦圈而不把它捏碎。从出生那刻起,我的儿子就在不断进行着人工智能研究者所说的"下一步预测"训练。当他伸手去抓香蕉时,大脑已在预测指尖将有怎样的触感。当香蕉滑落时,这就成了一次学习。这与当下ChatGPT等大语言模型的训练方式惊人地相似:当模型在处理互联网上的文本时,它会故意遮掩句子中的下一个词块(称为"标记")。它根据已知内容预测被遮掩的部分,然后通过对比预测与实际,从中学习。这种方法的妙处在于几乎不需要人工干预,只需要输入互联网规模的原始文本数据即可。作为成年人,我们对物理世界已建立起一个难以言表的丰富认知模型,这是一生积累的结果。不妨做个小实验:随意看看周围的任何物体或表面,想象它的味道。你的预测很可能是准确的,这得益于你幼年时期那些爬行摸索、什么都往嘴里放的经历。像所有成年人一样,我在不知不觉中就完成了需要精细控制的动作:把被子塞进被套,单手撕开一袋封口的狗粮。我与儿子的区别在于,我的预测大多准确无误。我不会天真地去抓流动的水。正因如此,那些出乎意料的经历反而格外深刻。前不久在一家餐厅,朋友示意我去碰一个看似玻璃制品的装饰,谁知它却像橡胶般摇晃——我的"世界模型"又更新了一次。 ALOHA系统在系鞋带这样的任务上不及人类,并非因为它只有简陋的、没有触觉的机械爪,而是因为现实世界中每双鞋都独一无二——鞋带的编排方式、每次提起时的弯折和下垂都各不相同。遗憾的是,物理世界中物体之间的互动方式并没有像互联网文本那样可供参考的海量数据库。为此,研究人员发展出了几种相互竞争的机器人学习方法。其中一派专注于虚拟模拟。人工智能芯片巨头英伟达开发了工业流程"数字孪生"软件,让计算机能在机器人实际操作之前进行动作练习。OpenAI在训练机械手转动魔方时也采用了模拟数据:通过多个机械手同时并行练习,压缩完成了相当于真实机器人需要一万年才能完成的训练量。这种方法的优势显而易见:只要有足够的计算力,就能产生无限的训练数据,让机器人像《黑客帝国》中尼奥下载功夫般快速掌握技能。然而,机械手和魔方的物理特性无法被完美模拟,就连一张普通的纸巾,在揉皱或撕裂时的表现都难以预测。去年,英伟达发表论文展示了一项突破:他们教会了虚拟机械手模仿学生百无聊赖时的转笔动作——这个动作的特点是笔大多时候都在空中翻转。但论文对这个技巧能否在真实机器人上实现只字未提。 相比之下,模仿学习似乎更有前途。美国初创公司Figure已募集超过6亿美元,专注开发一款完整的"类人机器人",配备头部、躯干、手臂、腿部和五指机械手。据Figure创始人布雷特·阿德科克介绍,该机器人最精妙的操作技能是"单片意大利香肠分离"——能够从整条香肠中精确剥离出单片。"如果你想实现人类的能力,"阿德科克说,"就需要一个能像人类一样与环境互动的机器人。"(特斯拉、1x、Agility以及数十家中国企业都在开发类人机器人。)温哥华机器人与人工智能公司Sanctuary AI的联合创始人乔迪·罗斯认为,收集人形机器人的数据更为直观。"假设让你用一个有八个吸盘触手的章鱼机器人来拿杯子,你肯定无从下手,对吧?"他说,"但如果是人手的形状,你立刻就知道该怎么做。"Sanctuary公司的优雅人形机器人Phoenix正是通过人类远程操控来学习。"操作员"需要穿戴触觉手套、覆盖上身的外骨骼装置,以及能显示机器人"视角"的虚拟现实头盔。操作员的每个动作,哪怕是小指最细微的弯曲,都会被机器人精确复制。虽然Phoenix的学习原理与ALOHA相似,但它的动作表现力要强得多。显然,如果每项技能都需要人工示范,要让机器人真正派上用场,不仅需要漫长时间,还需要大量的操作设备。就像我想学烤面包时,不会请来《英国烘焙大赛》的评委保罗和普鲁来手把手指导,而是直接看节目学习。"这就是我们追求的理想境界,不是吗?"ALOHA项目负责人汤普森说。"想象一下,让机器人通过观看YouTube视频来学习任何你想要它掌握的技能。"但问题在于,视频中看不到面包师弯曲手肘的精确角度,也无法得知揉面时指尖施加的力度。要实现远程示范学习,机器人首先需要能够将自己的动作与人类动作对应起来。这需要两个基础:一是对物理世界和自身存在的认知模型,二是一套基本动作技能库。