学术活动

名家讲坛 | 国际工程智能大会主旨演讲(五)司罗:智能座舱AI新时代

作者: 时间:2026-03-04 点击数:

2025 国际工程智能大会奉献了 6 场代表着工程智能领域前沿水准的主旨报告,6 位顶级专家学者对工程智能关键领域的创新探索与深度思考,给现场嘉宾和观众带来了深刻的启迪。这 6 场主旨报告是 2025 国际工程智能大会重要的思想沉淀,将陆续与全球工程智能领域的同道分享。

名家讲坛第五期重磅上线!下文为报告精华整理,关注“同济大学工程智能研究院”微信公众号获取完整演讲视频。

智能座舱AI新时代

司罗

阿里巴巴斑马智行首席技术官

非常荣幸在此与大家交流,我是来自阿里巴巴体系下斑马智能的司罗。斑马智能是一家聚焦于科技的公司,我们期待着用技术能够能将先进科学转化为广泛应用的生产力。今天,我将聚焦于“智能座舱AI”这一具体应用场景来探讨。

首先,回顾历史,我们可以看到技术革命与工业革命始终是相辅相成的关系。18世纪末的蒸汽机推动了现代化进程,促使世界GDP增长近3%。19世纪末的电力革命则带来了近10%的巨大经济提升。近代,以PC和互联网为代表的技术革命带来了更为显著的经济增长。而AI几乎是人类历史上能够影响人类经济发展的最大的重要的技术革命。同时,intelligent devices(智能设备)、advanced batteries(先进电池)、包括汽车相应的能力等也与AI共同构成这一变革浪潮。我们从事工程智能的同行,正有机会通过技术创新推动人类社会经济的快速发展。

近年来,AI技术,特别是大模型技术的发展从感知AI发展到生成式AI以及智能体AI。但目前,我们的大量工作仍将大模型应用于cyberspace,但一个重要趋势是我们一定是向实体AI(Physical AI)的方向发展,包括具身智能和行业落地。

Physical AI的经济规模与社会效益是更为巨大的,而智能汽车正是其重要载体之一。智能汽车分为智能座舱、智能驾驶等多个不同的核心场景。我们认为智能座舱具备显著的技术与商业价值,今天也是在这里向大家分享汇报一下我们观察到的智能座舱系统的技术发展一些重要的趋势。

首先是技术体系方面,智能座舱AI的主要技术体系是流水线体系,就是将声学信号处理、语音识别、自然语言理解、对话管理、语音合成等模块串联,实现端到端的交互。它与现有AI算法、AI能力及端侧上计算能力是相辅相成的,有着巨大的现实意义。而我们目前主流的工作是在当下的流水线架构上,通过引入协同智能体等能力,对流水线架构进行智能化改造,融合不同的大模型能力,协调管理各智能体,共同提升智能座舱的驾乘体验。目前行业的趋势就是智能座舱的AI能力正在显著改变用户体验,且现有技术已具备相当基础,当然未来需依托大模型与AI技术的进一步发展,使体验更加流畅。

然而,智能座舱行业正发生深刻变革,技术日新月异,并将创造更大的产业与商业价值。一个关键的技术判断是:智能座舱AI技术将从流水线架构主导向端到端架构演进。这是因为传统流水线架构由多模块拼接而成,交互链路长,且模块间信息传递易导致重要信息丢失。所以我们期待用更加完善的端到端模型来替换流水线架构,其延迟可接近人与人交流的延迟水平。同时,由于我们用同一个模块来融合多种模态的信息,它有机会可以做的更准确、更加有感情。目前,端到端模型正逐步替代流水线架构,并在明后年会有着非常大的发展。其中端到端模型一个非常重要的趋势就是端到端模型在汽车端上的应用。

智能车领域是具身智能在端侧落地的重要场景。端模型将催生非常多新的交互变革。在智能座舱的人机交互中,存在两条技术主线:一是人类参与度,即从“人找服务”转向服务更自然地满足人的需求,用户无需了解所有功能,只需提出想法;二是通过agent代理的方式,增强车机的主动智能,实现自然交流、自由服务与自主进化。

在端侧实现全模态模型的意义,并非简单将算力从云端迁移至端侧,其核心在于加速人机交互和智能座舱的交互革命。以往的智能座舱仍属于“被动交互”——由用户发起指令,车机响应。而若将大量认知与感知能力部署于车端,凭借足够算力,车机即可在端侧实现主动观察与聆听,将车辆视为隐私空间,依据多模态信息主动触发服务。由此,智能座舱可从被动的智能助手,升级为主动的“硅基伙伴”,实现顺畅、具有“眼力见”的交互,并依托端侧能力更好地保护数据隐私、降低云端依赖与成本。

我们已在此方向进行探索,并完成了从被动服务到主动服务的交互范式的革命。实现这样的主动服务,不仅需要云端的服务调用,更依赖端侧的很强的能力以及端侧智能体的相应的能力。我们荣幸地能够与阿里巴巴通义实验室合作,在端上多模态基础模型上取得重要行业突破和进展,并与高通等芯片供应厂商紧密合作,优化端侧应用的适配与量化。相关实车体验已在大会上展示,而不只是一个实验室概念。我们相信,随着能力持续提升,我们能够将智能座舱的交互方式进行革命性的升级。

最后,浅谈一下智能座舱的另一技术趋势——智驾和智舱融合。刚刚我们谈到端上的全模态模型,它能处理语音、图像、视频、文本等多类信号。目前,智能驾驶主要处理视觉信号。因此很自然的可以推断,随着车端处理器算力提升与多模态能力增强,我们有望突破当前智驾与智舱分离的现状,实现两者的深度融合,在同一Soc上协同运行,提升车主体验,为智能座舱创造更大的产业价值。

以上是我的全部汇报。期待与业界同仁共同努力,探索如何通过工程智能,将先进技术转化为巨大的新质生产力。谢谢大家。

本主旨演讲内容仅限学术交流之用,不得随意转载、编辑。

©2025 同济大学工程智能研究院   版权所有