English

新闻动态

首页新闻动态正文

华先胜：工程智能操作系统——人工智能规模化之路

作者：时间：2025-09-01 点击数：

首次详细解读“工程智能”（AI for Engineering）”——本文根据同济大学工程智能研究院执行院长华先胜2025年7月在第二届AI4Cities国际会议暨首届AI4Cities暑期工作营中的主旨报告整理。

引言：AI与领域Know-How的鸿沟

大家好！对于城市规划，我是个外行，我是做AI出身的。之前虽然也做过智慧城市，做了六年，也做过智慧园区、智慧楼宇，做了三年，但仍然觉得自己是个外行。但是今天，人工智能正跟各行各业深度结合。在这个结合的过程中，最大的障碍就是：懂AI的人不太懂具体行业，而懂具体行业的人又不太懂AI。但是比这个更大的障碍是：懂AI的人觉得自己懂了行业，而行业的人觉得自己懂了AI。

今天我主要是从一个AI从业者的角度，来看一看工程相关的领域，不仅仅是建筑，也不仅仅是城市——当然城市也是在这个范围之内。我想讲一讲，我们怎么样能够更深入地将人工智能和行业/学科结合起来。这个路径我们称之为“工程智能”，它实际上是介于行业/学科和AI之间的一个系统，甚至我们可以把它叫做“操作系统”。这个词当然是借鉴了计算机操作系统的说法，含义有相似之处但不等同。

AI产业化的核心挑战：实现规模化

我们今天先看一看AI今天的发展情况，我经常用四句很简单的话来描述人工智能的现状，四句大白话：

第一句话是：各个行业、各个学科存在大量的需求；

第二句话是：人工智能有很多技术可用；

第三句话是：这些需求、这些问题，很多都可以被这些技术解决掉，尽管不见得是直接使用就能解决；

那第四句话一定是个“但是”：但是，这件事情没有规模化地发生，只是点状地发生这样的事情。

我们今天是智能时代的开端，回到“数字化时代”，有没有规模化“数字化”的例子呢？其实是有的，但这个不是人工智能。

例如，在软件行业和数字化办公领域都有这样的例子。我以前在微软工作过14年，这两个例子都是微软的例子。首先，我们软件工程师常常使用Visual Studio，我们用Visual Studio写个程序，我们还需要找微软的人跟我们一块儿写吗？不大需要，你知道你要做什么，你知道这个编码的环境怎么用就好了，知道编程语言怎么用就行了。

其次，再简单一点的例子，我们今天要写一个PowerPoint报告，或者写一篇论文、写篇稿子，我们还需要找做Office的人跟我们一块儿写吗？肯定也不需要，自己拿来这个软件就开始写了。这才叫规模化地被使用了。

但今天的人工智能，显然是没有到这个阶段。当然它也更复杂，肯定不像做一个Office、做一个Visual Studio这么简单（其实这些也不简单），但是AI可能会比它更为复杂，AI在各个领域的规模化的使用会更为复杂。当然这也不是个坏事情，这说明我们都有饭碗，我们还有很多事情可以做，可以持续做很多年。

工程智能：连接AI与工程领域的桥梁

那什么叫规模化？规模化有很多的定义，我这里提出了一些。我们今天讲AI，有时候会讲AI是生产力，但我认为我们今天的AI还不是生产力，因为它没有被规模化，只能说AI是个先进技术。先进技术在各个领域里面尝试使用，但它还不是生产力。我们过去的几次工业革命也一样，只有先进技术就叫工业革命吗？不是的，只有这个先进技术被规模化地使用了，真正改变了这个社会、改变了这个行业，甚至还不仅仅一个行业，改变了很多行业，那才叫做工业革命。

今天介绍的工程智能的目标，就是实现人工智能规模化。规模化有很多维度来讲：

首先，行业或学科里面的AI技术的研发能不能规模化？是不是每一个技术都需要找一群顶级的AI专家来做？今天是这个状态，仍然需要这样做。但未来如果每一个需求都需要AI的人一起来搞，这个事就很难规模化。因为现实世界里面有大量的问题，尤其是有一些问题它本身并没有那么难，但是你没有AI的人还是搞不定。当然今天大模型技术出来以后，状况稍微地有些变化，也造成了我刚开始提到的那个现象，就是说可能各个领域的人觉得自己懂AI了。但是实际上，你要深入地解决这个问题，深入地去理解AI，深入地去解决这个行业或学科里面的最本质的、最核心的问题，其实还是很不容易的。

再进一步，我们把AI工具做好了以后，那这个领域里面不太懂AI的人能不能利用这些工具做更快、更好的各自行业的创新？这就是第二种规模化，规模化行业和学科的创新，由行业和学科的人来完成，且不需要这些人太懂AI技术。就如同医生有了CT机，生物学家有了冷冻电镜，他需要特别懂那个冷冻电镜的原理吗？也不太需要是专家，但是他能用就行了。就像天文学家有了“天眼”望远镜一样，他不一定需要懂那里面的原理，但是他可以作为一个强大的工具去提升自己的研发的效率和效果。

第三，是人才的培养，尤其是复合人才的培养。我们今天面临的这个AI难以规模化产业化的局面，其实也是因为复合人才比较少。那未来也许可以培养更多的复合人才，既懂AI，又懂各个领域。

第四，是规模化地落地，能够真实地产生对产业的影响，不然的话都是纸上谈兵，只能写论文、打标杆、吸引眼球，不能够在产业上产生真正的成功。

当然还有其他维度的规模化，比如：行业/学科的宽度，能支持多少行业、多少学科；行业/学科的深度，能覆盖多少不同级别的问题；用户的广度，能服务多少不同类型的用户。这些都是规模化的问题。

那么，如果我们去构建一套东西，能够实现刚才提到的四个主要维度的规模化（即：技术规模化研发、行业或学科规模化创新、人才规模化培养和产业规模化落地），这个时候，AI技术就变成了生产力。这里面最关键的一个词就是“规模化”。如果能实现这个，我觉得才可以叫做范式的变化，不然的话只能是一个点上的结合，是一个尝试。这种点上的结合有用没有？当然很有用、很有意义，但是没有到改变范式这个程度。

工程智能的实现路径与技术框架

其实刚才我讲的是我们为什么要去做工程智能操作系统这件事情，总结为两个方面的原因。

第一是工程学科需要工程智能。今天大家大部分人都是工程领域的人，确实需要人工智能来赋能，推动其进一步的发展和变革，解决其中人力难以解决的问题。同时也需要人工智能来吸引更多的人参与到这个学科，不然的话招生都会越来越困难。复杂的工程系统其实是越来越难保证它的可靠性、效率和对其全生命周期状态的全盘把握。基于这些因素，从工程学科、工程实践的角度，工程需要工程智能。

另外一个角度，从AI的角度来看，人工智能也需要工程智能。也就是刚才讲的四个规模化，中间缺了一个东西，就难以实现规模化。中间这个东西，就是工程智能，其具体形态就是工程智能操作系统。

那到底什么是工程智能（AI for Engineering）？

首先，不是说只是把大模型或者小模型用在某个工程领域里面解决了其中某一个问题就是工程智能，而是要真正去看这个领域里面的一些核心的问题，需要将AI与工程原理进行深度的融合，甚至有可能还要跳出今天的AI的基本的技术假设。今天所有的AI技术，几乎所有，都是基于数据的，更进一步其实是基于相关性的，虽然也有做因果推理的，但主流是基于相关性的。那能不能有物理规律和数据双轮驱动的方法？当然这个领域里面也有人做了一些尝试，但是我觉得这个尝试如果从AI的人的角度来讲，还是一个非常初步的尝试，可能更多的是在loss里面做一些变化。当然这也是个非常好的一个手段，那有没有更好的手段？能不能做得更深入、更有普适性？

还有就是覆盖工程领域里面的全生命周期，进入它的核心，例如策划、设计、仿真、建造、优化、推演、预测等等，甚至还有运营、维护都算，而且要进入其核心问题。

我举一个例子讲什么是核心，什么不是核心。我经常讲的一个例子：智慧校园。我之前也做过很多这样的项目。那智慧校园通常怎么做呢？做的就是校园的安全、校园的消防、校园的通行等等，还有一点可能校园的课堂的一些监测。那这个算不算有用呢？它肯定是有用的。但是一个学校最核心的是什么？肯定是教学，对不对？你能不能提升教学的效率？夸张一点，能不能让我们今天培养一个博士的时间从20年缩短到15年？能不能缩短到10年？我们20年念书，之后毕业了都不见得能工作20年，对不对？所以这个很不划算的。而且教育这件事情，好像也不是那么快乐的一件事情。你想想，我常常开玩笑的一句话“有多少人沉迷于学习不能自拔的”？我也问过我儿子，我说你爱学习吗？他说：我爱学习啊，学习使妈妈快乐，妈妈快乐全家快乐。其实就反映了学习通常不是那么快乐的一个事情。但是假如我们的AI系统能够帮助人，实现规模化的、个性化的教育，每一个人都以最合适的方式学习，学习最需要的东西，以自己最高的效率方式去学习的话，也许学习就不见得是一个痛苦的事情，也可能是一个快乐的事情，而且有可能是一个终身成长的事情。那么这么做，是进入了教育的核心。

当然最后还要以平台化、系统化的方式来实现。这样才能实现规模化，不然的话只能做点状的突破。工程智能不能只是“点状”的研究或实践，是需要“线状”和“面状”的能力，这点后面我们还会提到。

技术挑战与攻关方向

工程智能方向，同济大学在郑庆华院士的领导和倡导下也是第一次正式举起了这面旗帜，成立了世界上第一个工程智能研究院。现在讲工程智能的当然也不少，虽然没有科学智能那么多，但是真正举旗子的，同济是第一家，我也很有幸成为这个研究院的执行院长。当然，同济做工程智能有个比较独特的好处——做工程智能，有两个大的方向，要么是做工程的人往工程智能走，要么是做AI的人往工程智能走。我们在同济，既有很好的工程学科，也有不错的人工智能实力，可以两个方向放在一起走，可能会是更好一点的路径。

那这里面的挑战是什么？这个事没有那么容易的，不是说弄个大模型往里一用就解决了。这里面困难很多，其中一个典型的挑战是数据的异构性和物理约束。我们怎么样去处理复杂的异构数据？怎么样能够把物理世界的约束放到模型里面去？还有就是它的可解释性、可验证性。我搞一个工程项目，结果还有点幻觉，模型自己也不知道自己做的怎么样，这在实际应用中就比较难办。还有就是刚才讲的规模化这件事情，不能说我解每一个问题都要一群人上去做，那工程智能就不能成为生产力了。

核心技术框架：模型、智能体与平台

那这些问题怎么解？我们也提出了我们的思路，尤其是结合大模型时代、智能体时代的一个思路。我们提出了三个重要的组件，第一个是工程智能的时空多模态大模型；第二个是工程智能的超级智能体；第三个是支持这些能力的平台化能力，我后面会稍微地展开一下。三个组件合在一起，就称作工程智能的操作系统，它具备计算机操作系统的一些类似的特征（例如管理与调度，封装与借口，平台化与生态），但是它不是计算机操作系统。

关于时空多模态大模型，工程领域里面很多问题用今天的大模型还解决不了。工程学科里面的问题，大家比我了解更多，我也是在不断地学习，不断地学习各个领域，学习建筑、建造、制造、交通、汽车、环境、能源等等，很多都在学习，确实看到里面还有很多问题是通常我们做AI的人还不太了解的。时空多模态大模型是真正的全域多模态，除了语言、语音、影像，还有图表、公式、还有各种时序数据、空间数据等等。它真正地融合了时空数据，而且不仅仅是数字世界的事，它还跟物理世界联系起来，还考虑真实世界的约束，而且需要知道自己做的怎么样，需要高度的可靠性、可验证性和可解释性。

我们也有一个大致的研究思路，简单来说就是，能跟语言对齐的数据，就放在一起对齐做，去做Tokenization，去做对齐。能放在一起做，是要满足一定的条件的。而不好处理的，我们把它当做数据来使用，就像RAG或Database这样来使用它，但是都需要放在一起来做计算。

另一方面光有大模型也不行，大模型也不是万能的，你要让它算两个数，还不如找个计算器算算。让大模型直接去处理数据，直接去优化求解，直接去做仿真计算，往往还不行或者不太可靠。那怎么办？我们可以利用大模型的超强的融合能力，用大模型能力和已有的成熟的系统进行融合。你要做科学计算，你用大模型不如用MATLAB，你要制图不如用AutoCAD。我们用大模型把它们融合起来，变成一个超级的智能体。当然还有很多其他的工具，都可以通过智能体链接起来。而且这里面还要考虑跨越虚实，要考虑以人为本，人一定要在里面。我们不能搞了半天以后，自己把自己的命给革掉了。这个原因是什么呢？第一是今天无论大模型还是智能体系统也好，它不可能做所有的事情的，还有很多事情它搞不定的，所以需要人和它融合，产生更强大的智能。

这个事情，我用另外一种表述是：我们今天的AI系统要做到给人留下空间。但这句话听起来有点好像人有点悲催啊，还要大模型给我们礼让一下，留下生存空间。其实还不是这个意思，而是你的AI系统要做得足够好，才可以做到这件事情。你的AI系统足够好，你才能一方面去挤兑人，inspire大家去产生更多更好的超越逻辑思维的idea，同时还能take这些idea进来，从而产生更好的结果。这个叫用技术实现的以人为本，而不是用伦理来约束的以人为本，或者用我提出的另外一个词，称之为“人-模型-系统”的三位一体。当然高度的可靠性从智能体的角度也是要做的，还有多智能体的系统，还有多人的系统，这个因为时间关系不做详细的阐述了。

第三点是支撑平台，主要是数据、计算相关的工具平台（融入了大模型和智能体的能力），以及智能体的生成平台，还包括底层的智算平台等等，是整个工程智能操作系统的基座部分。

工程智能“三三”发展策略

我们提出了三个工程智能研发的重要原则，或者叫methodology。第一个原则是叫点线面一体化，第二个原则是人模系统一体化，第三个原则是产学研一体化。

“点线面一体化”什么意思？就是“一打要打一片”，不是说我只解一个单点的问题。这里举了一个例子，是农业的例子，这也是我曾经做过的。例如，我们做一个大豆的育种，AI赋能育种过程，从基因和种植条件去预测它的表型，大幅度提升育种效率，这个叫点上的AI赋能。如果做成智慧育种平台，不仅仅能做大豆，还能做别的作物，水稻什么都能做，甚至还能做动物，那就是线上的AI系统，能力就强大得多。这个时候其实就变成了什么呀？对于人工智能的人来讲，它其实做了一个人工智能的平台。而对于育种专家来说，其实是他的一个工作的、科研的平台。他真正用这个平台的时候，其实不需要AI的人了，自己用就好了。

那么面是什么呢？例如农业方向，你还要有更多的东西，有育种，有精准种植，有自动化收割或采摘、加工、储存、营养安全等等，这一套都做全了，那叫面上的AI系统。但这个就很不容易，可能要很多年的发展。逐渐从点状到线状、到多个线状的AI系统，就能逐步构建面状的AI能力了。线和点肯定是相对来说要容易一点，但如果只停留在点上，我们就不能把它叫做工程智能操作系统，只能叫做工程智能的一个案例。到线上，我们才可以开始叫它是一个工程智能系统。当然这个里面还有相辅相成的关系，从点上切入，逐渐形成线成面，然后有了线面以后又可以推动点上的创新的大面积产生。

第二个原则，是“人模系统一体化”。刚才也提到过，光靠模型也不行，一定要充分利用已有的系统的能力。也许十年以后，大模型能够替代其中的部分的系统，但是很可能是不太可能替换所有的东西的。

还有就是人这个因素，前面也已经提到了，人、模型、系统合在一起能够形成更强大的智能。一方面也是解决了人与AI的矛盾的问题。它不是一个妥协，它是融合之后产生更强大能力的一种方式，让人在里面一直都是能够有强大的作用的。也就是说一个一般的人用这个系统，和一个厉害的人用这个系统，结果一定是要不一样的。如果是一样的，那这个不是一个很好的AI系统。虽然有些情况需要这样的系统，但尤其是对于我们这种工程领域来说，那这样的系统我觉得不是一个好的系统。一定是做出来的不一样，不同水平的人做出来的是不一样的。

产学研比较好理解，我们天天都在讲这件事情，但如何落实呢？我们强调的“产学研”一体化是讲产学研不要是三张皮。这个是做科研的，这个是做教学的，那个是做产业落地的，这就太费劲了。我们就一个东西，它既是科研的平台，又是教学的平台，又是产业落地的平台，虽然可能里面挂的组件不会完全一样。

总体架构和初步实践

在大模型时代、智能体时代，整个系统的架构其实是相当简单的。最底层是智算云平台，然后就是数据，数据上面就是大模型，大模型上面是智能体，再配合各种工具以及与工具进行融合的能力，这事就完了。这种架构比较简单，也很容易去做更新、迭代和变化，传统的复杂体系架构就没有这么灵活敏捷。

整体做出来，就是工程智能操作系统，以及在这个操作系统之上的各类工程智能大模型和智能体。当然这些模型可能有很多方面，可能有策划、设计，建造或制造、运维、预测、优化，等等，也可能会针对学科构建学科的专用模型系列，然后形成一个或多个智能体。

我们正在研究的一些点状的课题和线状的课题，涉及建造、制造、城市规划、汽车、交通等领域，既有具体的核心问题，也有平台型的工作。例如，交通方面的交通通行效率和安全性的优化、智能驾驶舱等；建造方向有空间模型到力学模型，工程智能互联网等；城市规划方向有城市时空模型、城市体检……工程智能操作系统有望成为很多领域的智能化基础设施或者基座，而且构建在这个基座上的多个学科和行业的能力还可以融合在一起，形成交叉的更复杂的智能化能力。

最后总结一下：刚才我也提到说，我们要做工程领域跟AI的深度融合，要到一个更高的高度，就是Paradigm Shift的这样一个高度。不只是解一些点状问题，不只是赋能一些边角的场景，也不是部分替代人的工作，而是研究、创新、人才培养和实践多个方面在做事方式上的大变化。

我在工程智能研究院内部讲过，工程智能研究院的成功标志之一，是赋能各个工程学科，在工程智能操作系统的帮助下他们的智慧化做得更好，这才是工程智能研究院的成功。我们不是去把本来属于工程学科该做的事情做掉，那不是成功；我们做的更底层的、更工具性的、更通用的一些能力，然后去赋能工程学科里自己的创新。他们不需要去创建甚至调试一个大模型，说实话也不见得是很擅长的。虽然现在也有这样的能力，但这里面其实也不是那么简单的一件事情。还不如我们把它封装好，各个工程学科发挥自己专业的这个能力，利用这些能力去做他们更擅长的、更深入的、更高效的创新和实践。

具体说，到底什么是工程学科发展的范式变化呢？我从规模化的角度给出一个具象的定义：第一是具体学科或行业的AI技术研究的规模化，不是AI通用基础技术，而是与具体领域结合的AI核心技术的研发；第二是行业或学科内部的创新的规模化。大量学科专家，转身去学习AI，需要很长时间的，但是如果有强大的AI工具能力以后，他们在各自工程领域的创新就可以做得更快、做得更好。第三是人才培养，特别是工程与AI结合的复合型人才的培养的规模化。而且，我们如果有一套工程智能操作系统，可能未来对复合人才的要求也会降低。因为有这套系统以后，相关人才的复合能力不见得是要AI和工程两方面都很精深，但是做这套系统、提升这套系统能力需要两方面的高手一起来做。第四是产业落地的规模化，产业落地要实现规模化，主要在于AI能创造的核心价值和落地应用的性价比。今天AI的创新赋能落地是一个非常大的困境，常常是九死一生。能不能从九死一生变成十之八九能够成功？当然这里面除了技术还有很多其他的因素，技术讲的是生产力，但还有一个很大的一个维度是生产关系，今天没有太多时间去探讨。

第一个规模化能力是给行业或学科的AI研究人员使用的，第二个是给行业或学科里面的研究创新人员使用的，不见得要是AI专家；第三个是学科的师生使用；第四个是工程实践者和创业者的来使用的。但是实际上这四个能力是一个东西，基于一个系统。

最后，我们用一句口号来总结一下：“智工融合，范式变革”，或者是“智能驱动，工程焕新，智工融合，创见未来”，谢谢大家！

现场提问摘录

▶问题：华院长好！我看到您说这个AI for E（AI for Engineering），是第一次聆听。我们是做城市规划系的，我们这次的主题是“AI for C”（AI for Cities），感觉这26个字母快要不够用了。我是想是不是请这个华院长简单地给我们AI for C的这个框架和思路稍微点拨几句，接下来我们在座将近100位师生能够再深化去尝试？

▶华先胜：谢谢，点拨说不上，只能说是一些建议吧。我们在考虑AI for Engineering的时候，其实就考虑了各个领域，城市规划当然也是其中一个很重要的领域。那怎么样构建相对通用性的框架？我们今天介绍的就是这样一个框架，其实不外乎几件事情：第一是你肯定还是要有模型，但可能不只是一个模型。想通过一个大一统的模型来实现这个事情，目前来看困难很大。虽然大模型能力很强，但不见得能解所有的问题。规划可能是规划的模型，优化可能是优化的模型，也许未来大一统可能是通过智能体来实现的。

另外就是模态的问题也会比较重要，例如图纸，BIM，FEA，物联网数据等等，这些核心数据我们的大模型需要能处理。当然语言模型也很强大，尤其它这种融合能力比较强大，它可以跟已有的系统进行融合，结合起来以后可以看起来像一个具有超级智能的AI系统。

城市建筑我们做BIM、做数字孪生，也做了很多年，但是还是用于展示更多一点，对于建筑的整个生命的体征的把握还不够，还不能说我们对它了如指掌，对它的过去、现在、未来都了如指掌。碰到任何问题之后，我知道它的原因是什么，未来影响和变化趋势是什么，这些都是特别值得去做的问题。实现的方法，可能还是今天最流行的技术，可能还是要结合大模型，可能也会结合物联网这样的一些技术。当然，是不是一定要全部用大模型呢？也不见得，可能是大模型和小模型的融合。

呈现形式上，我觉得智能体是一个更好形式，而且它不只是依赖于大模型的能力，而是可以通过MCP或者通过别的方式，把已有的系统的能力充分地融合进来，然后再想办法能够把人放进去，不断启发人的创新能力，同时又不断利用人的输入。人放进去它不仅仅是一个伦理问题，它其实也是个技术活，不是说为了放人而放人。

上一篇：同济大学工程智能研究院正式揭牌