清华大学孙富春：大模型+机器人可能会导致失业，未来80%的人工劳动会被取代

2023-10-27 搜狐科技

搜狐科技《思想大爆炸-对话科学家》栏目第42期，对话清华大学计算机系教授，清华大学人工智能研究院智能机器人中心主任孙富春。

嘉宾简介：

孙富春，清华大学计算机科学与技术系教授，博士生导师，清华大学人工智能研究院智能机器人中心主任，IEEE/CAAI/CAA Fellow，国家杰出青年基金获得者。同时担任国家重点研发计划机器人总体专家组成员，中国人工智能学会副理事长，中国自动化学会和中国认知科学学会常务理事，并兼任多个国际刊物主编。

出品 | 搜狐科技

作者 | 梁昌均

“人形机器人跟人相比，现在也就两三岁的水平，还处于幼崽时期。”谈及目前机器人的发展水平，清华大学教授、人工智能研究院智能机器人中心主任孙富春对搜狐科技表示。

今年以来，在AI大模型加持下，机器人也成为市场热点。特斯拉多次公布人形机器人Optimus进展，从浇花到瑜伽表演，其运动、平衡能力越来越强。另外，机器人创投市场也保持活跃。

孙富春表示，可以把机器人看作是机器+人。在机器本体方面，传感器技术、执行器技术等发展非常快，也使机器人机构的自平衡和协调能力大大提高。人的方面主要就是AI技术，而大模型发展恰恰为机器人增加了一个聪明的脑袋。

在这波机器人热潮中，人形机器人尤其受到追捧。华为前天才少年稚晖君投身创业，小鹏、科大讯飞等公司近日也披露了人形机器人的进展。

对此孙富春认为，我们的生活和工作环境主要是为人设计的，如果机器在形体、行为等方面和人接近，那么它会更容易在人的工作生活环境中取代人去做更多事情。另外，人总是喜欢跟同类去交流，如果机器人做得像人一样逼真，就更加容易跟人去交互。

不过，孙富春表示，现在人形机器人跟人之间还存在很多差别，比如人有灵感，有顿悟的能力，而机器人还是利用编程和设计去做事情，即便是大模型，也还是利用人类知识与智能算法去推理和学习。同时，现在机器人的躯体和四肢是通过电机控制，灵巧性、适应性等跟人差距也很大。

因此在孙富春看来，目前人形机器人仅相当于人两三岁的水平，要想达到人类成年的水平，可能还需要很多年的努力。

此外，随着大模型的兴起，人形机器人也在朝着通用的方向发展。“大模型能提高机器人的交互能力、多模态融合感知与任务规划能力，能让机器人实现多任务，进而实现通用化。”孙富春表示。

不过，这还需要做很多研究。比如大模型与知识图谱结合，提高机器人的推理能力，与扩散模型的结合，提高机器人的跨模态感知能力，以及如何通过具身优化让机器人能够适应具体的场景等。在10月26日开幕的中国计算机大会上，孙富春作为具身智能研讨会共同主席，将就此展开更多探讨。

这也意味着，人形机器人的规模化应用还有距离。孙富春认为，迎宾服务、工业巡检、生产线上的自主作业等领域会较快落地，而家庭场景会相对较慢。“这类机器人的成本比较高，它应对一些场景的适应能力还不够强，还需进一步研究开发。”

虽然目前机器人取代人的很多工作还很困难，但如AI一样，机器人的发展也引发了不少人对失业的担忧。“大模型跟机器人的结合，可能会取代很多人类做的事情。我个人认为，15年到20年时间，80%的人工劳动会被机器人取代。”孙富春判断。

同时，他强调，未来机器人的发展也要关注伦理安全和治理问题，需要兼顾阿西莫夫的机器人三定律和AI原则。“我们不应该让机器人去控制人，必须把这种情况消灭在摇篮里。”

以下为对话实录（经编辑整理）

搜狐科技：现在经常把ChatGPT称为对话机器人，这个说法有问题吗？智能机器人到底如何定义？

孙富春：中国机械工业部在1986年定义机器人为“一种能自动定位控制、可重复编程的、多功能、多自由度的操作机。它能搬运材料、零件或夹持工具，用以完成各种作业。根据国家机械工业部的定义，那时机器人更多体现的是机器，能执行搬运、操作、定位、导航等能力。机器人与人工智能相结合，人工智能程序将实现机器人的感觉（Sensing）、思考（Thinking）与行动（Action）。我们将具备感觉、思考和行动的机器人称为智能机器人。

搜狐科技：特斯拉Optimus披露新进展引发关注，创业者、资本也在进入，您怎么看目前机器人的发展？

孙富春：可以把人形机器人分为人形机器+人两方面。在机器本体方面，要有很好的躯体，手脚要灵巧，眼睛要看得远，相关的传感器技术、执行器技术，这几年发展非常快。人的方面主要就是AI技术，而大模型恰恰为机器人增加了一个聪明的脑袋。这两者结合在一起，才引起大家高度关注。

搜狐科技：从您说的感知、思考、行动三个层面来看，大模型对机器人能带来哪些提升？

孙富春：大模型能提高机器人的交互能力、多模态融合感知与任务规划能力。它改变了传统机器人就事论事的做事方式，就是针对具体的场景、具体的任务，需要用具体的算法去实现，很难做到通用。但大模型能让机器人实现多任务，进而迈向实现通用化。

这具体怎么做？首先在数学上，把分离的传感器投影到标准空间。其次在物理上，要形成从数据空间、特征空间，再到概念空间、知识空间的映射，实现感知模组的标准化。此外，还需研究基于形态的进化学习，实现工具集的合理调度，这些都需要与物理世界进行交互。

第三要建立知识库，通过知识去学习。大模型带来的是一种范式的改变，就是知识+数据+反馈。一方面机器人要向人学习，即模仿学习，另一方面也需要偏好学习，学习特定的人做事情的技巧和方法。

此外，还需要具身优化，让机器人能够适应具体的场景。通过这些过程来实现大模型的通用化，这是未来要做的工作，而大模型恰恰为机器人面向场景的通用化应用奠定了基础。

搜狐科技：波士顿动力、特斯拉，国内有企业都在做人形机器人，为什么它会受到追捧？

孙富春：我们特别期盼机器人像人一样，为什么？第一，人总是喜欢跟同类去交流，如果机器人跟人一样逼真，就更加容易跟人去交互，特别是情感层面，包括意图理解等。

第二，人所处的环境都是按照人的行为习惯设计的，如果机器人像人一样，就更能像人一样去做更多的事情。所以最好让机器人在形体、行为等方面和人更接近，那么它会更容易在人的工作生活环境中取代人去做更多事情。

搜狐科技：随着大模型带来AGI的曙光，业内也提出通用机器人，有观点认为，人形机器人是通用机器人的终极形态，您怎么看？

孙富春：通用机器人的外观形态是否像人，不是最重要的。更重要的是，机器人的信息处理层能够有自我认知和环境理解，极少量的成本可以实现功能迁移，功能上是否具有好的扩展性。变形金刚在需要快速运动的时候就是车的形态，在需要战斗的时候就是人形。

通用机器人应该可以根据任务需求调整自己，可以是像变形金刚一样的硬件结构重构，也可以像人调整脑补的神经元连接一样调整软件系统的功能重构。通用机器人在综合能力或智慧方面，人类可能是它的终极，但从行为层面来看这个观点有问题。比如在某些行为方面最好的是动物，而不是人。

搜狐科技：如果是以人来作为参照对象，人形机器人现在达到什么水平？

孙富春：目前机器人和人之间差距还很大。从硬件结构方面，人通过大量的肌肉纤维来控制骨骼运动，骨骼的形态是人在逐渐进化的过程不断修正完善的。而目前的人形机器人往往都是电机控制的连杆，运动的柔顺性方面较差。从决策层面，人有灵感，有顿悟的能力，而机器人更多还是利用编程和设计去做事情，即便是大模型，也还是利用人类知识与智能算法去推理和学习。

从能耗方面，人和动物等生物的能耗比是非常高，但是现阶段机器人的能量系统在许多方面也制约了其应用。此外，机器人目前可以具有识别物体的能力，但是上下文推理能力仍是其短板，跟人相比，现在也就两三岁的水平，还处于幼崽时期。

搜狐科技：人形机器人现在只有两三岁的水平，要达到10岁或者成年的水平，还需要多久？

孙富春：按目前趋势发展，我觉得20年能见到雏形，50年左右我觉得应该差不多。像AI一样，机器现在也是在按照人的思路在进化去学习。但很多关键技术还没有突破，比如类似肌肉纤维控制关节的高效驱动技术，还需要深入研究。

搜狐科技：现在特斯拉的人形机器人去浇花或跳舞，感觉还是比较笨拙，这需要从哪些方面去解决？

孙富春：这一方面要提高机器本身的机械结构，提升机构的自平衡和协调能能力。另一方面，要模仿学习，向人学习，学习人的操作技能，比如学习护工浇花，把浇花的行为变成知识，建立场景库、技能库和基元库，通过技能的认知学习，就能达到人的灵巧度，这个也是我团队目前在做的事情。

搜狐科技：波士顿动力或特斯拉现在只是放了演示视频，人形机器人还在概念阶段，什么时候能够大规模应用？

孙富春：还有很长的路要走。我觉得现在人形机器人最佳的发展途径就是，推动科研工作同产业结合。一方面突破人形机器人的主要关键技术；另一方面要推动落地，逐渐形成新的产业。

搜狐科技：工业领域已有机器人取代了枯燥重复的工作，酒店、餐饮也出现了服务机器人，人形机器人会在哪些领域落地比较快？

孙富春：未来落地比较快的领域包括：服务迎宾、工业巡查、生产线的人工替代装配作业等。巡检有些场景比较危险，用移动机器人可能会更好，在公路上用轮子去运动，在崎岖不平的地方用腿去运动。

搜狐科技：相较工业和商业场景，家庭场景的机器人还比较少见，为什它落地比较慢？

孙富春：工业和商业场景，从任务来讲，是相对确定性，如巡检。从环境上来讲，结构化程度更好。从法律责任方面，也相对清晰。与工业和商业场景相比，家庭场景下的机器人的功能需求非常复杂。

比如，家务劳动服务机器人需要完成洗碗、扫地、做饭、整理等，这些任务千差万别，家庭环境也千差万别。这些任务至少是确定性任务，但家庭场景中有更为复杂的任务，比如老人陪护，需要考虑老人的健康状态、心情，需要聊天、辅助生活等。从技术角度，机器人的本体设计要求灵活、安全，制造成本低；从软件决策层面，需要具有良好的环境理解能力，根据环境状态自适应调整决策方案。

搜狐科技：现在很多人认为AI、机器人会给人带来生存危机，您认为机器人会造成人的大面积失业吗？

孙富春：现在机器人完全取代人的很多工作还很困难，但大模型跟机器人的结合，可能会取代很多人类做的事情。我个人认为，15年到20年时间，80%的人工劳动会被机器人取代。不会被取代的20%，比如创造性工作、科学研究、生命健康等层面仍然需要人，也需要人和机器的合作。另外，对机器的监管也需要人。

随着AI、机器人技术的发展，行业更新速度加快。虽然老行业消失，但会诞生新行业，而且新行业越来越关注人本主义，就是以人为中心的服务。某些行业可能很快被机器取代，那么我们要构造新的就业场景，这需要政府和市场结合去解决这些问题。

搜狐科技：目前在机器人发展过程中，您认为有哪些问题值得关注？阿西莫夫的机器人三定律现还是适用的吗？

孙富春：机器人发展也要关注伦理安全，包括治理问题。它既会涉及机器人三定律，还要兼顾人工智能的三个原则，目的性原则，是要让机器人增强人、服务人和扩展人的能力，而不是取代人；透明性原则，人工智能系统用哪些算法，用哪些数据训练，我们必须知道。此外，我们希望AI系统在人的回路中。机器人未来的发展也要考虑AI的这些原则。

搜狐科技：很多科幻电影中机器人都有自主意识，这会成为现实吗？会出现机器人控制人的情况吗？

孙富春：我认为总有一天会，这不是乐观，而是肯定避免不了。现在机器人是硅基系统，它也可能具有生命。但我们不应该让它去控制人，必须把这种情况消灭在摇篮里。

第二十届中国计算机大会（CNCC2023）将于2023年10月26-28日在沈阳举行，会议以“发展数字基础设施，支撑数字中国建设”为主题，展望前沿趋势，分享创新成果。本届大会共设19个特邀报告、3场大会论坛，130场技术论坛和丰富的活动及展览展示，ACM、IEEE CS、IPSJ、KIISE等国际合作学会的代表将出席这一盛会，线下参会人员预计达到万人规模。