学术活动

名家讲坛 | 国际工程智能大会主旨演讲(三)曾文军:迈向可信世界模型与具身智能体

作者: 时间:2026-01-21 点击数:

2025 国际工程智能大会奉献了 6 场代表着工程智能领域前沿水准的主旨报告,6 位顶级专家学者对工程智能关键领域的创新探索与深度思考,给现场嘉宾和观众带来了深刻的启迪。这 6 场主旨报告是 2025 国际工程智能大会重要的思想沉淀,将陆续与全球工程智能领域的同道分享。

名家讲坛第三期重磅上线!下文为报告精华整理,关注“同济大学工程智能研究院”微信公众号获取完整演讲视频。


迈向可信世界模型与具身智能体

曾文军

宁波东方理工大学副校长

加拿大工程院外籍院士

IEEE Fellow

大家好,非常荣幸能在本次大会上分享关于可信世界模型与具身智能体的思考。今天的汇报将围绕四个维度展开:首先简要介绍“空间智能”的概念,在此框架下分析可信世界模型的作用,随后探讨具身智能体如何连接虚拟世界与物理现实,最后介绍数字衍生技术如何解决数据稀缺这一核心挑战。

人工智能历经十余年发展,在数据、算力与算法层面均取得了显著突破。大模型的出现极大地拓展了技术边界,同时也为空间智能的研究创造了成熟条件。空间智能,原指人类理解和运用空间关系的能力,涵盖感知、推理、表征和想象;如今,这一内涵已延伸至机器在物理环境中的感知、理解与交互。其典型应用包括基于传感器数据进行决策规划的机器人系统,以及居家养老、医疗手术等场景下的智能化解决方案。

近年来,空间智能领域涌现出多项突破性进展。例如,斯坦福大学团队实现了仅凭单帧图像即可生成符合物理规律的三维世界模型,Genie 3框架支持从文本或图像提示生成具备较好交互性和即时性的三维环境。与其它类型的智能相比,空间智能具有两个显著特征:一是聚焦于三维空间里的感知、理解与交互能力,这是实现人与人、人与机器、机器与机器之间交互的基础;二是涉及物理安全性,因为系统直接作用于现实世界,模型的可信性将直接关乎人身与设备的安全。此外,该领域的发展亟需数字孪生、数字衍生等关键技术的支撑,这也是实现人工智能与实体经济深度融合的必要途径。

当前,空间智能主要面临两大核心挑战:第一个问题是空间理解,我们需要构建能够刻画真实物理世界并且符合物理规律的三维模型,这是空间智能的推理基础;在此之上,第二个问题是空间交互,就是解决智能体与物理环境动态交互的难题,这是具身智能落实到应用场景的关键。这两大问题的背后,都存在“数据稀缺”这一重大挑战——毕竟,物理场景的数据获取成本远高于互联网数据。对此,我们认为数字衍生技术将是破局的关键。

我们认为,一个可信的世界模型需满足三重要求:首先是通过高保真三维建模实现对物理世界的刻画;其次是建立模型的可解释机制,而不是一个黑匣子;最后是保障系统的轻量化与实时性。我们希望建立的世界模型能够作为虚拟训练环境来训练智能体,该模型不仅要具备场景的可控生成能力,为智能体训练提供大量多样化数据,还应兼具对未来状态的预测功能。

为了构建这样的世界模型,我们提出的框架融合了三种技术路径:一是模型如何表达,我们采用混合表达方式,包括传统三维表示、神经辐射场或者更新的Gaussian Splatting的方式;二是模型的可解释性,我们通过三维解耦表征学习,实现具有物理语义的特征控制;三是引入多模态大模型以增强语义理解能力。我们举例来说明三维解耦表征学习的作用:在车辆生成场景中,我们通过解耦控制尺寸、颜色等特征变量,即可生成符合物理约束的多样化实例。此外,我们近期的工作也表明,利用预训练模型迁移与多样化视频数据训练,能有效提升表征解耦的质量。

在智能体训练层面,可信世界模型为复杂任务提供了理想的虚拟训练场。我们采用视觉-语言-动作(VLA)框架,构建了大规模数据集以支持动作预测模型的训练。针对群体智能场景,我们还重点解决了多层次任务规划协同与智能体自适应能力等难题。例如,自动驾驶车辆需实时调整路径以规避障碍,而交互智能体则需具备相互适应的响应能力。

最后,关于数字衍生技术,该技术致力于解决生成数据的“合理性”问题。我们探索了三种实现路径:一是利用数字孪生技术来对现实世界建模,在模型基础上注入语义特征与拓扑约束,生成可靠数据;二是采用视觉匹配技术从物理数据提取三维语义特征,进而生成多模态合成数据。三是在主流VLA框架中,我们引入了“Dream Query”机制,在动作预测前显式地生成深度信息等辅助特征,从而显著提升动作决策的可靠性。

综上所述,空间智能作为一种新质生产力,可以有力推动具身智能的快速发展,但它的发展也面临着很多挑战。我们认为:三维建模与推理(可信世界模型)是空间智能的重要基础;智能交互与协同(具身智能体)是空间智能进阶发展的核心要素;数字衍生是解决空间智能高效训练与数据稀缺的重要路径。谢谢大家!

本主旨演讲内容仅限学术交流之用,不得随意转载、编辑。

©2025 同济大学工程智能研究院   版权所有