由深圳市人民政府主办的第二十七届高交会于2025年11月14日-16日在深圳举行。作为高交会的重要论坛“中国高新技术论坛”于11月14日举办,论坛主题为:人工智能赋能未来产业发展”。人工智能发展本质的前进动力是什么?招商局集团人工智能首席科学家、狮子山人工智能实验室主任张家兴认为,是人工智能领域的三大核心信仰:一是端到端(end-to-end);二是探索式学习(Learning by Exploration);三是持续不断发现自然语言的价值。
以下为演讲实录:
张家兴:我演讲的话题是《世界与模型:Bring Models into the Physical World》,开始讨论AI模型和物理世界的关系。
正在发生的历史,是“模型征服世界”(Models Conquer the World),从实验室产物——过去为每一个任务都研发专门的模型,到今年以π0.5为代表的模型,如今已经看到这样的可能性,把一个模型应用到任何一个家庭,驱动自主完成家务。
我个人加入具身智能领域之前,一直专注于AI模型研究,这里的模型特指以深度神经网络为代表的各类AI模型。人工智能的一条主线就是模型的不断进步,从AlexNet到LLM,十几年的发展过程。人工智能的另一条主线就是机器人技术,从70年代早稻田大学的人形机器人,发展到特斯拉机器人和众多国产人形机器人等产品。当下,模型技术与机器人硬件结合,我们可以称为“大合流”,催生了具身智能。从模型角度来看,这是“模型终于有了一个身体”;从机器人角度来看,则是“机器人终于有了一个大脑”。
今天我想给大家传达的一个很重要的想法是:人工智能发展了这么多年,未来必定还要有很多年的发展历程,从一个十年到下一个十年,这其中的本质前进动力是什么?我认为是人工智能领域的三大核心信仰:一是端到端(end-to-end);二是探索式学习(Learning by Exploration);三是持续不断发现自然语言的价值。
今天我们以具身智能为例来讨论端到端。我们实验室研发的第一个端到端模型,是在机器狗身上部署的导航VLA模型。视频输入通过视觉编码器输入到语言模型(Language Model),语言模型同时接受指令,并且生成动作。我们在实验室场景下仅采集了16个小时的数据,训练了这样的VLA模型,放到真实场景中会有怎样的表现?我们把机器狗放到街头,无论是让它跟随一个人、指派它前往一个水果摊,还是让它进入一家商店,这个单一模型都能驱动机器狗顺利完成任务。
VLA目前的重要应用之一是完成一些复杂操作,比如叠毛巾。柔性物体操作在机器人领域是公认的难题,过去几十年一直没有攻克,试图对任务和操作对象进行结构化是没有希望的。借助VLA技术,这一问题已不再是阻碍——模型通过从数据中自主学习,就掌握了如何叠毛巾的隐性知识。
VLA还为我们带来一个新的优势:终于可以在低成本基础上实现高精度任务。比如我们用VLA来驱动SO-101机械臂,能持续将笔放入笔筒。这款机械臂在淘宝上购买仅需一千多元钱;而前文中用于叠毛巾的机械臂,单价是4万元一个;至于传统机器人实验室里使用的机械臂,单台价格都在20万元以上,配齐一整套设备更是高达60万,三者之间存在巨大的价格差距。尽管成本相差两个数量级以上,但VLA驱动的低成本设备依然能精准完成任务,充分展示了端到端模型的核心价值。
人工智能没有免费的午餐,如果你选择采用端到端架构,数据采集就是一大难题——这和语言模型不同,训练语言模型时,互联网上已存在大量现成数据可直接使用,而具身智能所需的真实场景数据十分稀缺。包括特斯拉在内的很多公司都在建设大规模数据采集工厂,依靠人工来生产大量机器人数据。但与当下大语言模型训练数据万亿token或者等价于数十数百亿(Billions)样本对比,我们现在能采集到的真实机器人数据仅为数百万样本(Millions)。两者之间相差了大约四个数量级,有人估计数据采集需要1万年。另外,我们面临的机器人本体种类繁多,每一种类型的本体之下,不同个体还存在差异,如何让同一个模型适应不同类型、甚至不同个体的机器人。以上两点都是亟待解决的挑战,整个具身智能领域都在为了攻克这两个挑战而努力。
第二个信仰是有关机器学习。我没有按照学术领域的常规的监督学习和强化学习的分类方式,而是重新做了归类:一类是模仿式学习(Learning by Imitation),所有数据都是事先准备好,模型从数据中学习,产生一定程度的泛化性;另一类我称之为探索式学习(Learning by Exploration),更具本质意义。探索式类学习的核心特点是,所有训练样本都不是由人类预先准备好的,而是由模型自主生成,再由一些机制来评判好坏,接下来优化模型(策略),最典型代表是在线强化学习(online on-policy),也可能是一些更简洁高效的方法。探索式学习的最大好处是能让模型突破预设数据的局限,自主探索未知场景的解决方案。
目前探索式学习最成功的应用案例是运动控制。我们在对机器狗步态进行强化学习时,对机器人关节设计了一些特别的奖励机制,所以我们的机器狗步态非常平缓,不是上下跺脚,运行时的体感声音非常小,更适合各类服务场景落地应用。
沿着探索式学习的思路,我们不仅探索优化步态,还为机器狗加装了激光雷达传感器,让它能够感知周围环境,并在探索过程中学会根据实时环境决定行进方式。现场演示的场景包括上楼梯——机器狗通过激光雷达识别楼梯结构,每一步都踩的准,爬楼梯更快更安全;还有爬高台、过沟渠等,这些都是探索式学习的重要成果。
既然我们可以通过探索式学习让模型自主掌握技能,那我们就可以重新思考数据与智能的关系——过去行业普遍认为“有多少数据就有多少智能”,但今天的实践表明,很多时候并不需要预先准备大量数据,而是可以让模型在运行过程中自主探索和学习。这让我们不得不思考:预先准备数据这件事情到底是不是必要的,甚至是不是那么重要?我一直在倡导数据的新范式:“有多少算力就有多少数据”。借助充足的算力,我们可以让模型探索各种可能性,在这个过程中自然会产生大量有效数据,而这些数据并非预先准备好的。
第三个信仰是有关语言。人工智能的发展历程,是不断发掘和创造自然语言价值的过程。从最初,自然语言领域仅仅把语言当做沟通的工具,从而专注于研究如何理解语言;到今天,当我们谈及智能体(Agent)时,核心就是用自然语言进行思考;未来,智能体更多的以语言作为机器学习的方式。
当我们把语言模型,或者集成了视觉的语言模型作为机器狗的核心,打造具身智能体(embodied agent),用户可以任意发出自然语言指令,模型背后会自动规划路径、规避障碍。当语言指令较长或逻辑复杂时,系统会自动将其分解为多个子任务(subtask)逐步执行。
机器人运作在物理世界中,而非数字世界——数字世界里,给出一个问题就能直接得到答案,但物理世界的时间是持续不断往下推进的。基于这一特性,我们一直在思考:到底能不能构建一个持续不间断的思维链。在这个永远不停止的思维链架构下,智能体听用户的一句话就会将其融入思维链中,进而影响思维链的后续走向。同时思维链会随时生成动作指令(action),可能是语言回应或执行物理动作。在一定程度上,我们已经通过思维链构建了类似人类的心智模型。比如我对智能体说“3分钟后提醒我买菜”,然后我们开始继续原来的讨论话题,到了3分钟,它就会主动提醒我买菜。我们预先并没有设计任何规则,智能体完全凭借对自然语言的理解,过程中不停的用语言提醒自己,最终完成这类任务。
以上就是今天整个技术思考的总结:一个核心模型理念(端到端)、两种核心学习方式(模仿式学习与探索式学习)、三类自然语言的核心价值(沟通,思考,学习)。
当下这个时代,大模型的出现推动产品创新朝着通用化方向发展,而通用化才是产品真正实现落地应用的关键机会。然后,模型进入物理世界,这是我们当下面临的另一个重大产品机会。模型让世界更美好!
新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。



还没有评论,来说两句吧...