阅读视图

十二个问题解剖VLA,深度对话小米陈龙、上交穆尧

作者KIK

2025 年末,首批 L3 级自动驾驶车型获得准入,标志着中国智能驾驶产业迈入新纪元。与此同时,具身智能机器人领域也在过去一年间经历了“天翻地覆”的变化,从 2024 年初“抓苹果都费劲”,到如今叠衣服已成为行业的入门任务,穿鞋带这样曾被认为遥不可及的精细操作也已被攻克。

在这场技术跃迁的背后,一项被称为 VLA(Vision-Language-Action,视觉语言动作大模型)的技术正成为连接自动驾驶与具身智能的关键枢纽。不同于传统端到端模型从视觉直接映射到动作的“条件反射”式决策,VLA 将语言理解与推理能力引入物理世界的决策链路,赋予机器“看了就懂、懂了就做”的认知能力。

然而,VLA 的兴起也伴随着争议。在 2025 年世界机器人大会上,宇树科技创始人王兴兴公开质疑这一技术路线,引发行业热议。这场争论的背后,是软件与硬件、泛化性与可靠性、学术探索与商业落地之间的深层张力。

为深入探讨这一前沿技术的本质、挑战与前景,我们邀请到两位走在 VLA 研究最前沿的嘉宾:小米汽车智能驾驶 VLA 技术负责人陈龙,以及上海交通大学计算机学院助理教授、ScaleLab 负责人穆尧。他们分别从自动驾驶和具身智能机器人的视角,为我们拆解 VLA 的技术内核,剖析数据困境与安全挑战,并回应来自产业界的质疑。

以下是本次对话的完整内容。

一、什么是 VLA ?

DeepTech:先请两位解释一下什么是 VLA 技术。

陈龙:VLA 是最近几年比较火的一个话题。它本质上是利用大语言模型的泛化能力,包括从互联网数据预训练得到的通识知识,再辅以语言模态的推理能力,来解决现实世界中行为决策的问题。

现在不管是自动驾驶还是机器人, VLA 都非常火。因为自动驾驶面临很多长尾问题,当你在路上开车时,大部分时间遇到的是见过的东西,但有时候会遇到没见过的场景,这时候就需要思考能力,在这些场景下做出更好的决策。

机器人也在利用 VLA 的能力,主要是因为机器人的任务比较复杂,有很多长程任务。它需要利用语言能力来理解人类给它的任务,包括对整体任务的拆解,把它分解成 sub task (子任务) 来执行。所以总体来说, VLA 是未来物理世界人工智能发展的趋势,是大模型能力走向物理世界的必要网络架构。

穆尧:VLA 给机器人带来了非常大的机会。具身智能和传统机器人研究的一个很大不同点在于,具身智能更关注泛化性,包括对场景的泛化性、视觉和物理上的泛化性,也包括我们希望交互的物体的不同形状、颜色等更细致的泛化性。

在 VLA 技术下,实际上赋予了机器人几方面的能力:第一,使机器人能够用语言沟通,听懂人类指令;第二,由于 VL (视觉语言模型) 在大规模互联网数据上进行了很好的预训练,可以有非常好的场景和视觉上的泛化性,逐渐迈向开放世界;第三是 A (Action ,动作) 这一块,怎么把 VL 对接到 A 上,在机器人领域目前还处于研究探索阶段。当然已经有一些比较好的模型出来,比如 π0 、 π0.6 ,展现了一些精细操作的能力。

VLA 带给机器人的核心机会在于赋予了机器人一个柔性的能力。之前机器人可能要写死一些机械定位,差一点都不行;现在可以根据情况随机应变。当然这部分泛化性目前还没有达到工业上真正四个九的要求,所以不管是学界还是工业界,都在逐渐发力。

DeepTech:过去训练机器人或者机器人的工作方式是什么?

穆尧:传统机器人大部分面向特定场景、特定任务,在这个任务上达到 SOTA (当前最佳水平) 。传统的方法基于规划加柔顺力控,或者基于强化学习,解决的核心问题都是单一场景、单一任务的。当具身智能要求走向多任务、开放世界、开放场景时,VLA 就成为非常重要的实现路径。

DeepTech:举个例子,现在的机器人更多在工业上应用,未来走入生活场景,是不是就用到了 VLA 的核心技术?因为生活中的场景和指令都是非标准化的。

穆尧:是的,家庭场景最符合具身智能的要求,当然也是最难的。但工业场景的泛化性要求也很高。到现在能通过自动化产线完成的都已经大规模在做了,比如小米汽车的生产线,除了最后的总装车间,其他车间都是 95% 以上自动化。剩下需要人类操作的部分,往往是因为单独搭建产线非常昂贵,而且可能今天来的是这批零件,明天来的是另一批零件,有柔性生产制造的需求。这种需求本质上还是对泛化性的需求,所以工业场景上也有很大的应用空间。

二、 VLA 与端到端自动驾驶的区别

DeepTech:VLA 技术在自动驾驶上,和现在的端到端自动驾驶有什么区别?

陈龙:自动驾驶研究了几十年,是比较有历史的方向。早期类似穆尧讲的机器人方法,是模块化的方式来实现—— 区分感知模块、预测模块和规控模块。感知通过计算机视觉模型检测物体,预测会预测每个车的运动轨迹,规划则利用路径规划算法,在知道周围物体和它们未来运动的条件下,规划出自车的运动轨迹。这是自动驾驶的第一阶段,通过规则算法来实现。

端到端是最近几年才兴起的。我之前在 Wayve,我们从 2018 年就开始做端到端自动驾驶,当时还是比较激进的方式。端到端本质上非常简单,就是使用一个大模型,利用很多收集起来的自动驾驶数据,训练一个端到端的模型,直接把传感器输入映射到驾驶信号上面。

端到端解决了传统算法的很多问题,因为传统算法需要手动设置很多规则,比如红灯情况下怎么样、遇到别的车应该怎么做。端到端不用手动设计这些规则,而是通过数据驱动的方式,利用大量人类驾驶行为,让神经网络学习这些行为并进行拟合。

但它也有很多缺点:首先是黑盒模型,你不知道它的决策是怎么做的,不是特别可控;第二是对长尾问题的泛化性不够好,因为现实生活中有很多场景是收集数据收集不到的,遇到这种场景可能就会做出错误行为。

VLA 本质上就是为了解决这些问题。首先是可解释性, VLA 通过语言可以做出解释,包括决策的原因,你可以通过这些原因了解它是怎么做决策的,透明度会加深。其次, VLA 可以提供比较好的推理能力,特别是 VLM (视觉语言模型)可能经过互联网知识的预训练,对世界的通识知识、人类的价值观都有一定了解,再辅以推理能力,可以在长尾情况下通过推理做出更正确的决策,使自动驾驶更加安全、泛化性更好。这也是为什么 VLA 在最近几年慢慢兴起,成为主流方向。

三、什么是长尾问题和泛化问题?

DeepTech:两位反复提到长尾和泛化。能不能举一些特殊的例子,帮助我们了解机器人或自动驾驶在某些场景下失效的情况?

穆尧:在机器人上,泛化的圈子会画得比较大。可以细分为:首先是背景,就是操作台以外的所有背景,涵盖各种光照信息、复杂的 layout (布局) 分布;再往上是前景,就是当前机器人的操作台和 target (目标) 物体;同时桌子上还有各种杂物——我们每个人家庭的桌子不是一尘不染的,有各种东西,所以操作台上有任务相关和任务无关的物体。

最细的层级是任务相关物体本身。比如任务是收拾桌子上的瓶子,瓶子的种类很多——可乐、雪碧是圆柱形的,东方树叶是四棱柱的,形状都不一样。这就是从最粗到最细粒度的泛化。

什么是长尾呢?长尾是一些在预收集数据中很难出现的状况。比如机器人在夹东西时掉下来了,或者夹东西时碰到了某个东西,或者尝试抓取时东西被碰倒了。人类一次尝试没成功,东西倒了之后我们知道怎么抓,但机器人可能完全没见过这个倒下的状态,很难 recover (恢复) 。还有更具有挑战性的长尾,比如场景中有第三个可移动的物体——人。一个人直接把你本来瞄准好的物体位置变了,或者把立着的瓶子弄倒了,把茶杯弄翻了,这就是长尾。

专家数据集也会包含泛化部分,包括场景泛化、操作台泛化、任务无关物体泛化、任务相关物体泛化,这些都会有。但有些突发情况是专家数据集很难收集到的,一般要通过真机强化学习这样的方式才能收集到。

DeepTech:在自动驾驶方面呢?

陈龙:自动驾驶方面定义也类似。你的专家数据集不可能把所有场景都收集完,因为道路上有很多不可预知的事情。比如我们在新的地方开车时,会碰到不一样的交通标识牌或不一样的场景。人在新环境下也会遇到很多长尾问题,有时候也会开慢点或停下来想一想具体应该怎么开。

DeepTech:就是说有的路口只有本地人才能走对?

陈龙:对,类似这种。 VLA 比较适合解决这些长尾问题。具体例子比如施工场景会有一些标识牌,每个标识牌都不统一,有的画了车辆和箭头示意你应该往哪个方向走,有的是文字形式,有的是其他方式指示你应该怎么走。在这种非结构化信号下,需要 VLA 对整个场景的理解,包括利用互联网预训练知识进行理解和推理,得出在这个长尾问题下应该具体做什么决策。

VLA 还解决了比较长序列的问题。比如开车时拐进了一个死胡同,应该倒车退回去换一个路口。但如果没有 VLA ,你可能开到死胡同里,即使知道退回来,也可能再开到这个死胡同里,因为你不知道刚才已经开到这里了。 VLA 可以在需要长时记忆的情况下,用语言这个比较抽象的模态来做长期路径规划。

四、 VLA 不只是加了一层语言

DeepTech:传统或现在用的是从视觉直接映射到动作,VLA 是从视觉映射到语言再映射到动作。是不是只是在中间加了一层语言?还是 VLA 中间加入语言能解决一些其他核心问题?

陈龙:肯定不是只加了一层语言。这本质上是一个范式转变。 VLA 利用大模型的范式来训练自动驾驶或机器人算法。 VA(视觉动作)是直接把图像映射到最终的 action(动作)上,不管是自动驾驶的端到端算法还是机器人比较经典的 ACT (动作分块) 算法,本质上没有利用模型的思考能力。 VLA 本质上转换到了认知驱动的范式,通过大模型的能力,利用大模型的知识和推理能力来解决路径规划或抓取导航这些问题。

现在自动驾驶领域对 VLA 的理解都不尽一样。我个人理解,本质上 L 这个模态是对图像的补充。 VA 只有图像和传感器信息来做一次决策,而 L 可以通过语言模态不断 sample (采样) 下一个 token。通过这个 sampling 的方式, sample token 的过程其实是信息量增加的过程,熵也是一个减少的过程。

所以通过首先有图像,然后不断 sample 语言 token 带来信息量增加的过程,最终做决策时是通过图像信息辅以语言 sample 之后的信息,共同做出决策。理论上比只用图像做决策会更好。 VLA 是利用了语言的预训练能力和推理能力,进一步增强了决策过程。

DeepTech:我看到过一些自动驾驶 demo ,会把思考逻辑打在车机屏幕上。在我们看来,它相当于是一个相对滞后的决策逻辑。在语言生成推理逻辑时已经拐过去了,推理逻辑才到屏幕上。这个过程能够被打断吗?或者执行过程中能够沟通吗?

陈龙:这是个很好的问题。现在 VLA 的框架还没有发展到特别成熟、特别拟人的阶段。现在市面上有些产品可能会显示思考过程,但显示这个过程可能已经是几秒前的,做决策时确实利用到了,不管是做 CoT (思维链) 还是描述场景来做决策。但这些显示的信息可能更多是为了展示智能化,对整个自驾体验没有特别大影响。

我觉得最终的 VLA ,思考过程可能并不需要用这么口语化的文字来描述场景和做推理,因为这些口语化的词是很冗余的。最终的 VLA 可能更类似人脑的思考方式,我可能不需要说出来也可以去思考,甚至可以利用更简短的token ,甚至是一些隐式的 token 来做思考。这样会更高效,不需要输出很长的思维链,只需要输出一些精简的 token 就可以最终做决策。而且自驾是一个实时要求比较高的系统,不可能接受你sample 这么多 token 最终做出决策。

DeepTech:所以也很难中途打断,比如像现在告诉司机一样说“前面右拐”?

陈龙:对,现在 VLA 范式是没有这个打断功能的,只能是你说出指令之后再重新执行理解指令语义的过程。

五、机器人对语言的要求更高

DeepTech:在机器人上呢?

穆尧:机器人的 VLA 非常难。大部分机器人 VLA 的训练都是以一个 well pre-trained (预训练好的)的 VL model ,然后后面接 expert(专家模型) 。以目前最著名的 Physical Intelligence提出的 π 系列为例,前面是 Google 提出来的 PaLM (一种大语言模型) ,是一个 well pre-trained 的视觉语言模型,后面接了一个以 flow matching(流匹配)为原理的 action expert(动作专家)网络。

本质上机器人对 language 的要求非常高。首先,机器人要做任务拆解。自动驾驶可能就是按照固定的期望路线安全行走、不发生碰撞、到达目的地就可以了。但机器人比如听到人类的指令“请你帮我做一杯咖啡” ,要具体到动作原语 —— 拿出什么东西、放下什么东西、打开什么东西、把什么东西从左边挪到右边。机器人需要把人类非常抽象的指令分解成动作原语级别,然后每个原语作为一个 language condition (语言条件)去输出对应的 action 。从这个角度来说, language 对机器人意义非常大。

VLA 大部分是 3B 左右的,比较大的会有 7B、 8B 的,但目前还没有看到13B 的。所以我觉得它算是一个比较大的“小脑”,可能还没到“大脑”的 level 。但关于机器人大脑的研究也非常多,以视觉语言为主的大脑研究,大家会做更长程任务的推理。大家对机器人的期待是人类都不用说话,机器人通过视觉观察能做逻辑推理——你当前是什么状态,是不是疲惫了、是不是渴了,疲惫困了我给你端来一杯咖啡。所以在机器人这端, language 起到非常重要的作用。

DeepTech:我们聊机器人时往往会聊“大脑”和“本体”。像宇树做本体,很多实验室或公司专注做大脑,只要采购到强的本体就可以了。你刚才提到研究大脑用到的模型参数量都更大, VLA 是不是把大脑和本体都统一到一个模型里面了?

穆尧:VLA 实际上兼顾了一些大脑的能力,比较简单的逻辑推理是可以做的,比如 pick and place(拾取和放置) 这些简单任务。更大更复杂的推理可能还需要更大的大脑。目前一个比较主流的范式是端云协同,大脑跑在云端,一个稍微小一点的模型跑在端侧或边端,最底层比如人形机器人的运动控制属于纯小脑,也跑在端侧。

DeepTech:相当于 VLA 模型部署在本体上,还有一个更大模型的大脑在云端?

穆尧:对,目前这一块业界解决方案没有特别好。能在端侧芯片部署 VLA 模型的板子也不是很多,大家可能更多是以比如 4090 的服务器来做,属于边端。

DeepTech:所以在机器人的控制中,目前还是大脑和本体分离的状态。

穆尧:13B 以上的大脑一般都是跑在云端的。

六、自动驾驶与机器人能共用一套底座模型吗?

DeepTech:我们看到很多报道说机器人和自动驾驶能共用一套底座模型。小米也刚开源了打通自动驾驶和具身的基础模型。这两者之间有哪些挑战?技术上有哪些解决思路?

陈龙:肯定有很多挑战。本质上我们想要解决一个跨本体的问题。人类不管是在家做家务、操作物体,还是在室外开车,是用一个大脑做这些不同行为的。我们认为最终不管是具身、自驾还是其他任务,都要共用一个大脑模型。这样我们的大脑模型才具有很强的对世界的认知能力,而且统一的模型可能使任务的连续性更好。

我们前段时间发布了一些探索性工作,叫 MiMo Embodied ,和小米集团的 MiMo 模型团队一起做了一些具身大脑的探索。本质上是使用自驾数据和机器人数据,进行融合,通过分阶段训练:第一阶段加入很多空间智能数据,让它学习空间感知和空间推理能力;第二阶段放入自驾和具身的专有数据;第三阶段通过 CoT 微调;第四阶段使用强化学习微调。

通过这四阶段训练,我们发现自驾和机器人的数据是可以融合的。它们共有的能力,也就是空间感知和空间推理能力,是可以互相加强的。一个是室内数据(具身操作) ,一个是室外数据(自驾场景) ,如果训练得好是可以互相增强的。这也是我们前期具身基座模型的探索。

这是比较大的模型,大概 7B 。 7B 的模型尺寸在端侧也不能完全部署,而且需要使用很长的思维链方式进行推理,最终可能是一个云端模型。

七、数据问题:自动驾驶 vs 机器人

DeepTech:陈龙聊到数据问题。我感觉自动驾驶数据可能更好获取,机器人数据更难获取,是这样吗?

穆尧:是的,这也是具身智能行业和自动驾驶产业一个根本性的区别。自动驾驶产业所有跑在路上的车都可以回流作为专家数据,当然要经过大量清洗,但每天可以回流上亿条数据。而具身智能把所有开源的闭源的加在一起,可能也没有 1 亿条数据,数据体量差距很大。

所以具身智能学术界和工业界想了各种办法,包括仿真合成数据,包括用人类更便携的方案比如 UMI 这样的手持式设备采集,本质上都是希望以廉价成本 scale up (扩展) 数据。但核心困境还是需要人主动去收集,没有一个自动的飞轮。我们很期待在某一个产线、某一个商业场景下的机器人真正能 24 小时转起来,这样就可以产生源源不断的数据飞轮。自动驾驶天然就有这样的优势。但我觉得大概两年之内,具身也会有一个初步的数据飞轮出来。

DeepTech:数据方面前期调研时,我看到穆尧有“人 - 数字人 - 机器人”一体的架构,也是为了解决数据问题吗?

穆尧:对,核心就是解决数据问题。人类数据是最本质的,所有机器人都应该向人学习,而且人的数据最廉价、最容易收集——戴个 AI 眼镜,或者头顶上绑个相机就可以采集。但人和机器人确实 gap(鸿沟)比较大,所以我们提出 “人 - 数字人 - 机器人” 的三位一体管线,希望搭建好从人的行为到机器人行为的调节,把人的数据利用效率大大提升,并且为仿真合成数据注入人类丰富的行为信息,使行为多样性有显著提高。

DeepTech:机器人和自动驾驶数据的 gap ,陈龙怎么解决?

陈龙:穆尧说得非常好。自驾因为汽车本身是很好的产品,用户会去开车,所以采集数据更方便,每天会有很多数据传上来。而且数据多样性非常好,全国不同省份都有人在开小米汽车。

具身的问题是现在没有成熟的产品在用户侧使用,没有数据飞轮效应。现在大家都是自己建采集场或小规模采集数据,不管数量还是多样性都非常有限。现在有很多人用合成数据来增强真实数据的不足,但本质上量和多样性都跟自驾差得很远。所以为什么 VLA 这么火,其实也是利用了 VLA 的泛化性来解决数据缺少的问题。

当你有了一个很强的 VLA 模型,可能真正需要的数据就不需要那么多了。打个比方,如果你教人一个新任务,不需要很多数据,可能只需要几条 demonstration (演示) ,人就可以学习出这个任务具体应该怎么做。所以当VLA 模型做得非常好,它的泛化能力和三种模态的 grounding (接地) 做得非常好时,可能并不需要特别多的数据,只需要几条演示数据就可以把任务做得非常好。数据少的时候,模型侧可以做更多优化来弥补。

DeepTech:这两部分数据的融合,穆尧怎么看?

穆尧:这两部分数据有 gap 。机器人的数据聚焦点主要在操作台上面, focus 一些非常小的物体。自动驾驶可能关注的更多是路况、行人、红绿灯这样的信息。

但两者的交汇点是 World Model (世界模型) ,这是一个非常好的交汇面。一个通用的对未来数据的推演,自动驾驶的能力能够为机器人赋能。因为机器人也需要导航,也需要 mobile manipulation (移动操作) 或 locomotion (运动) 。自动驾驶的数据能为机器人提供的服务是空间理解和推理——知道这个车往前走一段,视野会变成什么样,近大远小这些 common sense(常识)是可以获取到的,这种基础知识对机器人学习有很大帮助。

当然二者的 attention 和 focus 各有侧重。自动驾驶会跟车道线、红绿灯、行人、车辆的 feature(特征)更相关;具身可能 focus 在一些具体的起草物体的交互。所以在设计网络时,要能让它们共有的知识得到促进作用,并且有效分离开。对应的网络结构设计也是比较需要的。

八、安全性问题:如何保证 VLA 不出错?

DeepTech:不管自动驾驶还是机器人和人的交互,都有一个绕不开的话题 —— 安全性。我们都知道语言模型有幻觉问题。在电脑上和大模型交互时,错了我们人为改正就行了。但在自动驾驶和机器人的交互过程中,穆尧也提到工业上还做不到四个九。在这个安全性极高的场景里, VLA 是如何保证它既有泛化能力,又能解决长尾问题,同时又不会出错的?

穆尧:我能想到的路径主要是强化学习。安全分两块:一块是意识层面的安全,不能做出伤害人类的行为、危险的行为;另一块是行为动作上的安全,也就是 safety (安全性) 。

在意识层面上,大模型包括 LLM (大语言模型) 的安全对齐主要通过强化学习来做。对于操作的精准度、不能发生碰撞等安全性问题,强化学习也是非常好的手段。我们有一篇 paper 叫 Simple VL-RL ,首次在一些标准 benchmark 上达到了两个 99% 的精度。离工业四个九还稍微远一点,但已经看到很大的曙光,强化学习确实在这一块能带来比较好的性能提升。

DeepTech:陈龙有什么看法?

陈龙:自驾还是不太一样的。具身你是可以试错的,不仅能在虚拟环境中做强化,在真实世界中也可以做强化学习。自驾毕竟安全性是第一位的,更多的是从系统层面上做安全性冗余。大模型可能会有幻觉问题,纯模型可能都会有不可预测的问题。在自驾安全性要求这么高的环境下,肯定需要很多不同的网络做兜底。

比如在运行 VLA 的时候,我们可能还有另一套网络,比如传统的感知和规控网络不断做 safety check(安全检查) ,做一些简单的安全性检测,比如未来几秒会不会碰撞、会不会有风险。这类传统算法稳定性都非常好,当我们检测到有风险时,可能会用其他模型来做安全操作。

DeepTech:相当于有一个校验过程或安全兜底的过程?

陈龙:是的,在自驾安全性要求这么高的情况下,肯定需要安全兜底。

九、实时性问题: VLA 的延迟怎么解决?

DeepTech:另一个我比较关心的点是,如果加入语言的决策逻辑,我们都知道像 DeepSeek 在思考过程中是非常慢的。模型在调用过程中还是有时间响应上的问题。这个问题在自动驾驶和机器人上怎么解决?现在能做到多少毫秒的响应?

陈龙:自动驾驶不仅要求安全性高,对实时的要求也非常高。最少要到 10 赫兹的级别,每秒要做十次决策才能做一些比较快的响应,比如紧急情况下的响应。所以我认为 VLA 模型在自驾上可能还需要一些范式上的转变。

现在有所谓的 “双系统” , VLA 作为一个慢通路,还有另一个快系统,可能是端到端模型或其他模型。大语言模型和端到端模型可以运行在不同频率上 —— 大模型可能每秒做一次决策,做比较深度的思考;端到端模型可能运行在十赫兹,做快速响应。但这类方式有个通病:大模型的决策和端到端怎么结合,是比较困难的问题。

另一端是 VLA 本身,往往我可能每一帧都要做一个 CoT 的思考,或者比较高级的是知道什么时候要做 CoT 思考,但这还是有问题。因为当你需要 CoT 思考时,可能是比较紧急的情况,但这时候做很多 CoT 思考,最终做决策的时间就会很长,可能导致安全性问题。

所以不管是双系统还是一端式 VLA 都是两个极端,要不然思考时间过长,要不然双系统区分得太明显。肯定之后会有比较中间的方案。因为人类开车时也是在不断思考,边开车边思考,有时候思考的东西可能跟开车没关系,你可能会走神,但这时候有时候你也可以安全地开车。

最终需要另一种范式转变,更灵活、更紧密、更解耦的双系统结合方式,需要在网络上面做一些探索。

DeepTech:你提到这个我也有感触。平时开车时如果车比较少,很容易走神,不需要调动特别高的思考能力;但堵车或想超车时,肯定要全神贯注,可能调用了更多的思考能力。

陈龙:对,或者在紧急情况下,你可能来不及思考,可以通过直觉系统来做出决策。

DeepTech:语言响应延时的问题,穆尧怎么解决或有什么看法?

穆尧:对具身来说,更重要的是 action 的延迟。对于语言,你问它一句话,等一会儿也没什么太大问题,而且完全可以变成并行或异步的部分,当对身体没有明显指令时,完全可以云端处理。

对于需要 VLA 都做推理的任务,实时要求还是比较重要的。像陈龙说的十赫兹,机器人也需要十赫兹以上的推理频率。一个比较好的方案是异步推理,像 Dexterous AI 提出的执行和推理是异步的,没推完的接着推,但该执行的去执行,构建一个异步的 system (系统) 来做。

包括推理也可以并行化,特别是如果有云端加持,完全可以做并行化,根据任务是否有依赖性来完成是否并行的处理。

DeepTech:你刚才提到本体的实时,是目前机器人更大的问题吗?

穆尧:不是本体的实时,而是 VLA 从输入图像到输出action 开始执行这段时间,是推理时间。因为模型比较大,会比较慢。3B 的模型差不多将将满足十几赫兹的要求。

DeepTech:执行效率会比传统方式要慢一些吗?

穆尧:也有很丝滑的,不能一概而论。正常一个 3B 模型4090 上部署,响应频率差不多 15 赫兹左右。但有很多方法,比如模型轻量化、工程优化,可以使它变得更丝滑。包括插值,可以使真正的本体执行频率很高,甚至可以达到 200 赫兹。像 Figure AI 就号称执行频率是 200 赫兹,但实际上是插值之后的,插值之前其实和大家差不多。

所以有很多工程手段去解决。但更关键的是影响动作最终做出来丝不丝滑、哆嗦不哆嗦、成功率高不高的本质上的控制频率,还是由VLA 看到图像然后出 action 这段时间来决定的。

十、思考与执行可以并行

DeepTech:我综合两位的观点,能感觉到它的思考链是一条链路,而执行的过程不一定等思考全部完成了之后再执行。思考链可能会非常长或非常连续,而执行过程在某一个阶段就可以开始执行了。这样在我们体感上,延迟就不会像现在用大语言模型看它思考那么长时间才能给出结果。

这就会面临另一个问题:执行过程中,比如自动驾驶一直在开车,思考一直在进行,一直有 token 产出;机器人执行过程中也是这样。 Transformer 都会面临遗忘的问题,过去不管多长的文本模型都会有遗忘。遗忘的问题对自动驾驶和机器人会是问题吗,包括训练时遗忘与执行时遗忘。

陈龙:训练时更多的是通用能力有一些灾难性遗忘的行为。现在 VLA 如果在实验室做小规模 finetune(微调) ,可能并没有很大规模的预训练能力,做完 VLA 训练后通用能力就会有一定缺失,遗忘了很多通用知识,模型就变成一个专有的自驾或具身模型了,通用能力几乎就没有了。

举个简单例子,如果你做很小规模的微调,问它一些通用知识比如“一加一等于几”,它会回答一些无关的东西,比如“前面有一辆车”。所以训练时要解决遗忘问题,更多的是要把很多数据加入预训练阶段。预训练时不仅学习通用知识,也学习到自动驾驶或机器人的知识。

推理时更多的是 context window(上下文窗口) 的问题。当延时要求非常高时, context(上下文) 不能堆得特别长,肯定要做一些选择。但现在有很多大模型技巧,比如 linear attention(线性注意力机制) ,可以把 context window 做得非常长,但延时也不会变得特别高。还有可以做 context 的压缩和总结。

你不需要把之前所有信息都加入 context ,只需要把关键信息加入。比如在路口选择了往哪边走,这些关键信息可以加入历史 context ;而一些无关紧要的信息比如现在执行开了多少米,这些信息其实不是特别关键,可以忽略掉。所以最终 VLA 的形态肯定类似人,更加智能,可以记忆比较关键的信息,无关紧要的信息不需要做历史记忆。

DeepTech:在机器人领域呢?

穆尧:在机器人领域一般有两大类方法。一类是用 neural (神经) 的方式,就是刚才陈龙讲的压缩方式, embed (嵌入) 出来一些关于 memory (记忆) 的 token ,然后当前的观测视觉和语言的 token 去 query (查询) 这个 memory bank (记忆库) 里面的 memory token (记忆令牌) , query 出来一些 historical token (历史令牌) 作为 VLA 的 prompt (提示词) 。

另一类是显性的总结,有一个额外的 agent system。举个例子,机器人里很简单的一个任务但非常需要 memory ,就是“click the bell(按铃)”,在桌子上需要按响一个铃。当我的机械臂悬空到这个铃之间的位置时,我只靠单帧的图像根本不知道我是已经按完这个铃了,还是还没有按它要去按它,还是已经按完要回退。所以这里面就需要 memory 。

一种方式是 embedding(嵌入)的方式;另一种是显式summary(总结) ,用 VL 的 language 去 summary 一下,比如“我当前已经按过它了,现在是回退状态”。相当于做了一个 CoT ,随着CoT 把一些重要的信息以文字形式总结下来,作为后面的输入。一种是隐式的,一种是显式的,都是 prompt 的形式。

DeepTech:如果是更多的记忆,机器人在执行过程中也不需要记忆非常多的信息。

穆尧:其实执行只跟当前有关系,当前任务几个工具。它做过的其他任务,知识是藏在权重里面的,那是学习训练的时候。

DeepTech:也就是说执行当前任务时,并不需要关注之前做了什么任务。

十一、世界模型与空间智能:争论还是融合?

DeepTech:我们聊了很多技术上的问题。我在做前期调研时也看到很多开放性的探讨,比如最近比较火的世界模型、空间智能和大语言模型的争论,好几个大佬都在聊空间智能的问题。两位怎么看?

穆尧:我觉得空间智能和语言好像没有什么太多可争论的,它们两个都非常重要。对机器人来说,因为具身智能本身就是计算机视觉、自然语言处理、 机器人本体、控制理论几大交叉学科于一体的方向。对于具身智能机器人,空间认知感知能力和语言模型的推理能力都是非常重要的两个部分。

对于空间来讲, World Model 就像刚刚提到的,是非常好的方式来做具身智能的预训练。为什么呢?因为视频或图像是最丰富的一种形式,人类世界当中有无数人做各种任务的视频,包括自动驾驶的任务 —— 往前走、往后退,形成对世界的三维空间认知,知道走近之后的视野会变成什么样、走远之后的视野会变成什么样。

而且 World Model 天然可以把机器人和自动驾驶的 world model 放在一块训,完全没有问题。数据格式是统一的,不像 VLA 的话,机器人的 pose(姿态)、action 信息和汽车的方向盘转角、油门开度是完全不一样的。

所以 World Model 是一种更通用的对于空间推理的手段。特别是预测未来帧也好、预测未来的隐藏状态也好,它都是一种通用的、面向全模态所有本体的空间推理预训练的非常有效范式,真正能把所有数据源有效调动起来去训练一个 foundation (基座)的手段。这一块我相信目前学术界和工业界给予了非常大关注,在大家努力下也会有很多 promising (有前景的)的成果出来。

DeepTech:所以空间智能其实也抛弃不了语言的环节。

穆尧:对,语言也很重要。自动驾驶里向左转、向右转是完全不一样的。

陈龙:我觉得 World Model 和 VLA 解决的是不同的问题。像穆尧讲的, World Model 是通过对下一帧图像或下一个状态的预测,学习到这个世界上的一些本质,比如这个车未来应该如何运动,通过学习预测的能力学习到一些世界本质上的物理规律。

VLA 更多的是学习到一些 high level (高层级) 的人类规则,通过互联网上的文字训练学习到人类对这个世界的定义,包括人类的价值观,以及很强的通过文字的推理能力。

World Model 这个 low level(低层级)的预测能力和 VLA 这个 high level 文字推理的能力,本质不冲突,是可以互相结合的。现在也有很多研究在把这两个不同的能力给它结合起来,形成一个更好的模型,既能预测未来的图像,也有视觉语言的能力用语言做推理。我觉得最终肯定要把这两种能力融合。

DeepTech:目前讨论比较热烈,我感觉更多是语言模型因为只聚焦于语言,很难把世界模型加入进来。加入实践模型之后,这两个模型最终会路线收敛,有相互交叉、相互补齐。

十二、如何看待对 VLA 技术的质疑?

DeepTech:另外还有一个相对尖锐的问题。前段时间在世界机器人大会上,王兴兴比较质疑 VLA 技术。你们怎么看这个问题?

穆尧:我觉得观点的不同主要是因为从不同的角度。从我们做研究的角度, VLA看到了很大的机会,所以需要投入。但我相信所有 VLA 的研究者都会坦诚承认,目前达不到工业上四个九的要求。但它是不是promising 的?我觉得是 promising 的。

王总的观点可能是因为他们做本体,要求非常严格的安全性、准确率、效率。宇树的机器人踹多少脚都不倒,可以做非常复杂的运动。我觉得本身技术就是我们在不同路线上去做,会有一个交汇点。 VLA 很多能力也是受限于本体,比如有些机械臂和灵巧手它就很笨拙,效率跟人是没办法比的。

我觉得也很好,大家努力的方向有从不断完善本体的易用度、可靠性、成本的,我们这边做 VLA 对大多数公司来说属于一个预研的项目。当两方技术逐渐交叠,整个具身智能是一个软硬件协同发展的系统。当软硬件真正发生碰撞在一起的时候,大家的看法都会改变,也都会有新的共识。

像现在来看有一些比较好的 demo,像字节发出来的 VLA 能够去穿鞋带。这个在我当时读博士的时候,实验室还讨论过这个任务,当时我们认为谁要是能做一个这个,可以说是一个很惊动的话题。但现在已经被实现了,技术发展确实很快。

2024 年的时候,基本上人形机器人都是跌跌撞撞的,上个楼都费劲。现在其实已经起飞了,你看它做很多复杂的动作都可以做。 VLA 这一块,像叠衣服现在甚至都说是具身公司的一个“MNIST(手写数字数据集)” ,就相当于图像识别里面最简单的数字,哪家都能叠衣服了。但 2024 年是不可想象的,那时候抓苹果都费劲。整整只过了一年,就是天翻地覆的变化。我觉得很快随着软硬件的交汇,我们会有一些更新的共识出来。

陈龙:当一个技术刚兴起的时候,会有一个类似于新兴技术的曲线。刚开始大家把热度炒得特别高,会有很多demo出现。后来发现可能对它期待太高,没有实现人类的期待,这个技术又会跌到谷底。慢慢经过几年发展,才最终达到很好用的状态。

我是一个比较长期主义的人。现在 VLA 可能确实有很多问题,不管是效率还是幻觉问题,虽然它泛化性很好,但最终的成功率可能并没有达到人类的期待。但我觉得不应该因为它现在的问题来全盘否定这个技术,更多的是看到这个技术的潜力,包括它未来的发展方向。

我觉得 VLA 是现阶段最能实现物理世界 AGI 的一个框架。语言也是人类这么多年智慧结晶的体现,互联网上这么多数据融合了人类的很多智慧。最终语言肯定是智能的一个很大的模态,是必不可少的。 VLA 这个架构可能也是最终通往 AGI 必不可少的一个框架。虽然它的网络结构比如 transformer 可能并不是最终理想的架构,但语言这个模态我觉得肯定是一个终局。

不管是物理世界的 AGI 还是 AGI ,我觉得都需要语言这个能力。所以不能因为 VLA 现在有很多问题来否定这项技术。而且 VLA 还有世界模型可能太容易理解了,现在有很多人利用自己对它的理解来做一些推演,来否定这项技术。还是应该真正务实一点,把 VLA 以及世界模型这些技术的底层技术做好,最终才能共同促进这些行业的发展。

DeepTech:因为这个技术原理在大众看来相对简单,但技术实现上是非常难的。或者说 transformer 的架构只要研究一段时间都能理解,但具体实现就很难。VLA 也是一样的,技术原理和逻辑相对简单,但每个人对这个技术的理解不一样,在发展过程中面临的问题的解决方案不一样,跨越某项技术鸿沟的难度和时间也不一样。随着技术发展,这些问题都能一步一步慢慢解决。

排版:olivia

  •  

深度解读超大规模AI数据中心:核电站供电、液冷取代空调,AI正在重塑全球能源版图|2026十大突破性技术

作者KIK

这是《麻省理工科技评论》2026 年“十大突破性技术”深度解读系列的第九篇内容,关注 DeepTech,关注新兴科技趋势。

在广阔的农田和工业园区里,一栋栋塞满计算机机架的超大型建筑正拔地而起,为 AI 竞赛提供动力。这些工程奇迹是一种新型的基础设施:它们是专为训练和运行超大规模大语言模型而设计的超级计算机,并配备了专用的芯片、冷却系统,甚至独立的能源供应。

2025 年,AI 基础设施的投资规模已从“数十亿美元”的量级跃升至“万亿美元”。1 月 21 日,美国总统特朗普在白宫宣布了“星际之门”(Stargate Project)——由 OpenAI、软银、Oracle 和阿布扎比投资基金 MGX 组建的合资企业,计划四年内向美国 AI 基础设施投资 5,000 亿美元,首期即刻部署 1,000 亿美元。软银 CEO 孙正义出任董事长,OpenAI 负责运营。

星际之门正迅速从蓝图变为现实。位于德克萨斯州阿比林的旗舰园区已于 9 月投入运营,Oracle 开始交付首批英伟达 GB200 芯片机架。到年底,星际之门已宣布五个新址,总规划容量接近 7 吉瓦,投资额超过 4,000 亿美元。与此同时,OpenAI 还在阿联酋、挪威和阿根廷启动国际布局,阿根廷巴塔哥尼亚的“星际之门阿根廷”项目投资高达 250 亿美元,将成为拉丁美洲最大的数据中心。

但星际之门只是冰山一角。据 HSBC 估计,全球已规划的 AI 基础设施投资超过 2 万亿美元。亚马逊承诺投入 1,000 亿美元,谷歌 750 亿美元,Meta 650 亿美元,微软仅 2025 年就将支出 800 亿美元。据一项分析估算,OpenAI 已承诺在 2025 年至 2035 年间向硬件和云基础设施支出约 1.15 万亿美元,涉及英伟达、AMD、Oracle、微软、Broadcom 等七家主要供应商。

超大规模 AI 数据中心将数十万个 GPU 芯片,如英伟达的 H200 或 GB200,捆绑成协同工作的集群。这些芯片擅长并行处理海量数据,每秒执行数万亿次数学计算。数十万英里长的光纤电缆像神经系统一样连接着它们,巨大的存储系统昼夜不停地输送数据。

但惊人的算力是有代价的。

首先是电力。国际能源署(IEA)预测,全球数据中心电力消耗将在五年内翻一番以上,到 2030 年将超过 1,000 太瓦,相当于整个日本的用电量。仅在美国,数据中心已占全国电力消耗的 4.4%,而 2018 年仅为 1.9%;到 2028 年可能攀升至 12%。在弗吉尼亚州这个全球数据中心最密集的地区,数据中心消耗了该州约 26% 的总电力。

在建的最大型数据中心可能吞噬超过一吉瓦的电力,足以为约 75 万户家庭供电。某些规划中的园区占地 5 万英亩,耗电量可达 5 吉瓦,超过美国现有最大核电站的容量。Grid Strategies 估计,到 2030 年美国将新增 120 吉瓦电力需求,其中 60 吉瓦来自数据中心,相当于意大利的峰值电力需求。

目前,煤炭以约 30% 的份额成为数据中心最大电力来源,天然气占 26%,可再生能源约 27%,核能占 15%。尽管可再生能源增长最快,但天然气和煤炭仍将在 2030 年前满足超过 40% 的新增需求。

科技巨头们正竞相寻找清洁方案:亚马逊从宾夕法尼亚州核电站直接获取约 960 兆瓦电力;谷歌与 Kairos Power 签署协议部署小型模块化反应堆;OpenAI 在挪威利用水电资源建立数据中心。但核能从开工到发电需要 5 至 11 年,资本支出是天然气的 5 至 10 倍,远水难解近渴。

第二个挑战是冷却。AI 芯片的功率密度从过去的每机架 15 千瓦飙升至 80 至 120 千瓦,传统空调已无法满足需求。直接芯片冷却(D2C)正在成为主流,这种技术将冷板直接安装在 GPU 上,闭环系统在热源处带走 70% 至 80% 的热负荷。

浸没式冷却则更进一步:服务器被浸泡在非导电液体浴槽中,可将冷却能耗降低 50%,水耗降低最高 91%。微软最新设计采用芯片内微流体冷却,微小通道直接蚀刻在硅芯片背面,使 GPU 温度降低 65%。

然而,许多设施仍依赖蒸发冷却,消耗大量淡水。据估计,2023 年美国数据中心直接消耗约 175 亿加仑水,到 2028 年可能翻两番。仅训练 GPT-3 就蒸发了 70 万升清洁淡水。彭博社报道,自 2022 年以来建造的美国数据中心约三分之二位于高水压力地区。

公众正在为这些建设买单。Dominion Energy 的 2025 年报告显示,弗吉尼亚州居民电费预计到 2039 年将翻一番以上,主要因数据中心增长。在佐治亚州牛顿县,某些拟议数据中心每天请求的水量超过整个县的日用水量,迫使当地官员在拒绝项目、要求替代冷却方案或对居民实施限水之间艰难抉择。

地方反对正在加剧。据 Data Center Watch 统计,自 2023 年以来美国已有 180 亿美元项目被取消,460 亿美元被延迟。仅 2025 年第二季度,被阻止或延迟的项目价值达 980 亿美元。居民们因噪音、光污染、水资源枯竭和电费上涨而组织抵制;2025 年 12 月,超过 200 个环保组织联名致信国会,呼吁暂停批准新的数据中心。

科技高管们对此不以为然。AMD 首席执行官苏姿丰在被问及 AI 热潮是否过度时斩钉截铁:“绝对不是。”他们将答案诉诸于 8 亿每周 ChatGPT 用户、40% 大型企业的 AI 采用率,以及 AI 作为经济引擎和国家安全优先事项的战略价值。OpenAI 首席财务官 Sarah Friar 引用历史作为辩护:“当互联网刚起步时,人们总觉得我们建设过度了。看看我们今天在哪里?”

这些交易的循环性质以及预测的需求能否兑现,仍是悬而未决的问题。电网规划者发现科技公司正在向多个公用事业展示同样的项目以寻求最快的电力接入,使需求预测变得困难。联邦能源监管委员会前主席 Willie Phillips 坦承:“有些地区预测了巨大的增长,然后又向下调整了。”

从 1990 年代的本地服务器到 2000 年代的云计算,再到如今的 AI 超级工厂,数据中心的演进从未停止。生成式 AI 已从瓶中释放,没有回头路。但关于经济预测是否准确、资源供应能否持续、建成后谁来使用,这些问题的答案,或许只有时间才能揭晓。

超大规模 AI 数据中心入选 2026 年度十大突破性技术,我们邀请了三位来自产业与科研一线的代表,围绕其关键技术路径与产业影响进行点评。

以下评论内容均为个人见解,不代表《麻省理工科技评论》观点

从算力堆叠到能源博弈:超大规模 AI 数据中心的现状、瓶颈与趋势

首先需要明确一个核心概念:超大规模 AI 数据中心,绝对不是传统数据中心的简单放大版。它诞生的根本驱动力,是为了满足大模型对算力近乎指数级增长的海量需求。因此它的架构是革命性的,本质上是把数十万计的 GPU 通过极高速网络“粘合”在一起,形成前所未有的单体式超级计算机。

谷歌、微软、亚马逊、Meta 等全球科技巨头,都在投入数千亿美元竞相布局。但与此同时,这个庞然大物也带来了一系列前所未有的挑战:惊人的功耗、棘手的散热、巨大的能源压力,以及如何在规模扩展与效率提升之间找到最佳平衡点。

目前业界的技术路径已经比较清晰,核心思路是通过高速互联技术构建高效的“超节点”,最大程度减少芯片间的通信延迟和开销。算力确实已迈入 ZFLOPS 时代,但“内存墙”,即数据搬运的瓶颈,也愈发突出。另一个无法回避的挑战是散热:随着芯片密度飙升,传统风冷已力不从心,液冷技术正从“可选项”变为“必选项”,配套供电架构也必须同步升级。

而这个产业也面临着多维度的瓶颈。首先是能源约束。一个超大规模数据中心的功耗可超过 1 吉瓦,相当于一座中型城市的用电量。这使它从单纯的电力消费者,变成必须像能源公司一样深度规划电力获取的“准公用事业体”。获取稳定充足的清洁能源成为首要任务,而全球许多地区老旧电网的承载能力,已开始反向制约数据中心的选址和规模。

其次是时间约束。AI 芯片迭代速度极快,约一年一代,远超传统数据中心基础设施两年左右的更新周期。这导致一个尴尬局面:本代数据中心刚建成,就要准备迎接两三代新芯片。而市场竞争又要求算力快速上线,建设周期被从近两年压缩至一年以内,对预制化、模块化的快速交付能力构成极致考验。

最后是生态与治理约束。算力高度集中必然引发一系列新问题:市场垄断的担忧、数据主权的争议、对当地水资源和环境的影响等。产业竞争也在从纯粹的技术比拼,转向标准与生态之争——未来是走向开放协作,还是形成若干封闭的私有体系,将深刻重塑整个算力市场的格局。

往前看,几个趋势比较确定:架构将更加立体协同。“云端集中训练、边缘就近推理”的模式会日趋成熟,“全球算力互联网”的构想也可能逐步落地,实现跨地域的算力调度与优化;它的运营将更加智能高效,用 AI 优化数据中心自身能耗会成为标配,行业关注的指标将从单纯的 PUE,转向更本质的“每瓦特电力产出多少有效算力”;这项技术将更加绿色多元,液冷全面普及之外,余热回收、水循环等深度绿色方案会加速落地;芯粒(Chiplet)、光计算等后摩尔时代的新技术,也将从实验室走向产业试点。

综上,超大规模 AI 数据中心无疑是智能时代最关键的基石之一,但它也对能源、基建和治理能力提出了巨大挑战。数据中心正从支撑业务的“成本中心”,演变为驱动创新的“智能生态枢纽”。其成功将取决于能否与电网、社区共建可持续的“数字能源共同体”,并对环境影响实现透明、负责任的管理。

未来能在这一领域脱颖而出的,必定是那些以架构创新破解算力瓶颈、以卓越工程能力赢得时间竞赛、同时以生态责任感构建可持续未来的实践者。

从电力成本到模型安全:AI 数据中心的三重挑战

随着大模型的规模化应用,AI 数据中心正面临一系列深层次的产业挑战。以下从成本、算力调度和数据安全三个维度,分析当前的关键瓶颈与应对方向。

首先,电力成本将成为 AI 服务社会的主要成本。大模型目前在正确性和确定性上仍有待改进:错误会快速累积,导致不可接受的结果;而提高正确性,则意味着增加计算量;不确定性带来的重试机制,又可能引发新的错误,形成恶性循环。在这一背景下,更廉价的电力意味着在同样计算成本下获得更好的模型服务效果。电力成本,正在成为AI能否大规模服务社会的核心变量。

其次,加速卡的多样性将持续提高。随着时间推移,不同品牌、不同代际的加速卡将长期共存于数据中心。CPU 与 GPU 虚拟化技术以及高速网络技术的发展,将使算力调度更加灵活——推理任务可以有效利用不同加速卡从而降低成本,但大型训练任务的复杂性仍需适应多样化的算力环境。短期来看,宏观的任务调度策略与微观的通信计算融合策略会有所帮助;长期来看,构建混合加速卡计算框架将是必然选择。

最后,丢失模型等于丢失数据。大模型有效压缩了海量数据并支持灵活提取,压缩比可达十万倍。丢失一个磁盘容量仅为 700GB 的模型成品,基本等效于丢失 70TB 的原始训练数据。由于数据的差异化带来模型的差异化,企业独有的数据正在转化为企业独有的竞争力。在数据安全合规的诸多限制下,企业需要拥有自有算力,在开源模型基础上精调自有模型。这意味着,基础设施在保护核心模型方面面临的挑战,比传统数据安全场景更为严峻。

超大规模 AI 数据中心的关键转向:液冷与新型能源架构

超大规模 AI 数据中心是人工智能时代的关键基础设施。Scaling Laws 揭示了模型性能与参数规模、数据量、算力投入之间的幂律关系 [1],使大模型发展从经验探索转向可预测的工程实践,并推动 Amazon、Google、Microsoft 等科技巨头斥资数千亿美元构建数十万块 GPU 互连的超级计算集群,以满足大模型训练的爆炸性算力需求。

然而,当 GPU 机柜的功率密度突破 50 千瓦时(例如英伟达 GB200 NVL72 机柜级系统的功率密度高达 132 千瓦/柜 [2]),传统风冷散热技术成为了制约系统的瓶颈。

风冷散热依赖空气对流传热,其有效功率密度上限为 20-50 千瓦,超过此阈值后,维持散热所需的风量呈指数级增长,导致风道截面积、风扇功耗、噪音和系统体积急剧上升而难以工程实现。另一方面,全球数据中心预计 2030 年占全球总用电量 4%-7%、单体数据中心能耗将突破吉瓦级 [3]。因此,传统的风冷与供电模式已难以为继,行业正加速向液冷技术及核能等新型能源架构转型。

液冷技术通过直接接触式散热并将余热用于园区供暖、工业供热,能够有效改善数据中心的电能使用效率,而核能的稳定基荷特性为解决“AI 大模型训练的持续高功耗与传统电网的负荷平衡模式存在本质冲突”这一困境提供了有效途径。Google、Amazon、Microsoft 等公司均在积极推进核电工程,以满足超大规模 AI 数据中心的用电需求 [4]。

此外,瑞士 Deep Atomic 公司和美国爱达荷国家实验室计划建造首个核动力人工智能数据中心 [5],标志着能源-算力一体化数据中心架构正在从概念走向实践。因此,基于液冷与核能的超大规模数据中心能够有效地支撑算力规模的扩展与跃迁,代表了全球 AI 算力基础设施形态的趋势,也为物理极限约束下的 AI 持续发展开辟了新的空间。

参考文献:

1.Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.

2.Super Micro Computer, Inc., Supermicro NVIDIA GB200 NVL72: Liquid-cooled Exascale Compute in a Rack with 72 NVIDIA Blackwell GPUs, Datasheet.https://www.supermicro.com/datasheet/datasheet_SuperCluster_GB200_NVL72.pdf? Feb. 2025.

3.E. Kok, J. Rauer, P. Sachdeva, and P. Pikul,Scaling bigger, faster, cheaper data centers with smarter designs,McKinsey & Company, Article, Aug. 1, 2025.

4.P. Rooney,AI to go nuclear? Data center deals say it s inevitable.https://www.cio.com/article/3487339/ai-to-go-nuclear-data-center-deals-say-its-inevitable.html Aug. 19, 2024.

5.D. Dalton,Swiss Reactor Company Submits Nuclear-Powered Data Centre Proposal To US DOE. https://www.nucnet.org/news/swiss-reactor-company-submits-nuclear-powered-data-centre-proposal-to-us-doe-12-4-2025. Dec. 4, 2025.

运营/排版:何晨龙

  •  

TikTok美国拆分方案落地,六年拉锯,兜兜转转还是甲骨文

作者KIK

美国东部时间 2026 年 1 月 22 日,围绕 TikTok 命运的长期悬念终于落定。字节跳动宣布,已与以 Oracle(甲骨文)为首的非中国投资者达成协议,将成立一家新的美国 TikTok 合资企业。这意味着,自 2019 年以来持续发酵的这场跨国科技政治风波,暂时画上了一个句号。

这笔交易的核心结构如下:新成立的“TikTok USDS 合资有限责任公司”(TikTok USDS Joint Venture LLC)将由多方持股,其中 Oracle、私募基金 Silver Lake(银湖资本)以及阿联酋主权投资基金 MGX 各持有 15%,三者合计 45%;字节跳动现有投资者的关联方持有约 30%;字节跳动本身则保留不到 20% 的股份。

戴尔科技创始人迈克尔·戴尔的家族办公室以及通用大西洋、Susquehanna 等此前已投资字节跳动的机构也在股东名单之列。新合资公司将由 TikTok 前运营负责人 Adam Presser 出任首席执行官,并由一个以美国人为主的七人董事会管理。TikTok 现任首席执行官周受资在董事会保留一席。

美国政府一直声称这笔交易是为了解决所谓的“国家安全威胁”,美国政界长期担忧,由于字节跳动受中国法律管辖,而中国“理论上”可以要求其提供美国用户数据,或利用算法对美国公众实施舆论操控。然而实际上,这场持续六年的拉锯战,实质上只是美国对中国科技企业实施“定点打压”的又一典型案例,与此前针对华为、中兴的遏制措施一脉相承。

回顾 TikTok 在美风波的来龙去脉,不难发现,这根本不是一个简单的“企业合规”问题,而是中美科技博弈、大国竞争格局下的一枚棋子。

2019 年,TikTok 在美国用户数量急剧攀升,很快引起了美国情报和安全部门的警觉。联邦调查局(FBI)多次发出警告,称中国政府可能通过字节跳动“控制”该应用软件。2020 年,时任美国总统特朗普签署行政令,以国安为由威胁禁用 TikTok,并试图强制字节跳动出售美国业务。

当时,Oracle 和沃尔玛组成的财团曾是潜在买家,但交易最终流产。拜登上任后,在 2021 年撤销了特朗普的相关行政令,但继续推进对 TikTok 的审查。2023 年,TikTok 在联邦政府设备上被全面禁止。

2024 年 4 月,美国国会以压倒性票数通过《保护美国人免受外国对手控制应用程序法》(Protecting Americans from Foreign Adversary Controlled Applications Act,PAFACA),拜登签署后生效。该法要求字节跳动必须在 270 天内剥离 TikTok 美国业务,否则将面临全面禁令。

TikTok 随即向联邦法院提起诉讼,主张该法侵犯第一修正案所保障的言论自由。但美国最高法院在 2025 年 1 月 17 日作出一致裁决,维持下级法院的判决,认定 PAFACA 合宪。这一裁决距离法定禁令生效日 1 月 19 日仅两天。

就在禁令即将生效之际,TikTok 美国版在 1 月 18 日深夜陷入约 14 小时的“黑屏”状态,应用无法正常使用。用户打开界面只能看到一则提示:特朗普承诺将“与我们合作寻找解决方案”。果然,1 月 20 日特朗普宣誓就职后,立即签署行政令暂停执行禁令,为谈判争取时间。此后,他又多次延期,直到这笔交易最终敲定。

在这整个过程中,中国的表态一直极为克制。此前中国外交部发言人在被问及相关问题时,多次重复“中方立场一贯明确”。实际上,早在 2020 年美国首次推动 TikTok 出售时,中国便修订了《中国禁止出口限制出口技术目录》,将“基于数据分析的个性化信息推送服务技术”纳入限制出口清单,这意味着 TikTok 的推荐算法若要转让给美国实体,需经中国政府审批,以用实际行动对美国“强买强卖”行为进行反制。

此番交易的一个核心争议点,恰恰在于算法的归属问题。

根据目前披露的方案,字节跳动将把其推荐算法授权(license)给新成立的美国合资公司使用,而非彻底出售或转让。由 Oracle 负责对算法进行审计和安全监控,并基于美国用户数据“重新训练”(retrain)出一套独立的美国版算法。

但部分美国方面的观点仍然认为这种“授权”模式本质上仍是一种“租借”关系,字节跳动依然保有算法的知识产权和底层代码,与法律所要求的“彻底剥离”(clean break)相去甚远。

曾参与拜登政府 TikTok 政策制定的前财政部官员吉姆·塞克雷托(Jim Secreto)称,这更像是一笔“特许经营协议”,而非真正意义上的资产出售,原有的数据安全和算法操控风险并未根本消除。

另一个引发关注的问题是,新投资者的政治背景是否会带来“另一种风险”。

Oracle 创始人拉里·埃里森(Larry Ellison)是特朗普的长期盟友,在商业和政治上与特朗普家族有密切往来。阿联酋主权基金 MGX 则曾与特朗普家族的加密货币公司 World Liberty Financial 有过业务合作。

乔治城大学法律与技术教授阿努帕姆·钱德(Anupam Chander)称,这笔交易在理论上可能为特定政治立场的内容传播打开空间。“我一直担心的是,我们可能只是把对外国宣传的恐惧,换成了国内宣传的现实。”他对媒体表示。

换言之,TikTok 的内容推荐未来可能会更易受到美国政府(特别是共和党)或硅谷权力集团的影响。这一担忧,在 X(原推特)被马斯克收购后政治倾向日趋明显的背景下,显得尤为有现实依据。

那么,对于普通 TikTok 用户而言,这笔交易意味着什么?

根据 TikTok 官方表态,美国用户的使用体验“不会有任何变化”。广告主也被告知业务不受影响。但一些业内分析师指出,一旦算法在美国本土“重新训练”,内容推荐的调性和偏好或多或少会发生偏移,这种变化可能是渐进的、不易察觉的,但长期来看会重塑用户的信息消费习惯。

此外,部分报道称,交易完成后,美国用户可能需要下载一个独立的新版 App,与全球其他地区的 TikTok 形成区隔——尽管这一点尚未得到官方确认。

从更宏观的视角来看,TikTok 美国业务的拆分,只是中美科技脱钩进程中的一个节点。近年来,从芯片出口管制到 AI 大模型管控,从数据跨境传输规则到关键技术转让限制,两国在高科技领域的“筑墙”行动持续升级。

TikTok 的遭遇,某种程度上折射出全球化进入深度调整期后,跨国科技企业所面临的两难困境:既要遵守东道国日益严苛的合规要求,也要满足母国政府的出口要求。而对于算法这种“看不见摸不着”却又极具战略价值的无形资产,如何界定其所有权、如何监管其跨境流动,更是一个尚无成熟答案的新课题。

回望这六年的跌宕起伏,从特朗普第一任期的强硬威胁,到拜登任内的制度化立法,再到特朗普重返白宫后的“缓刑式”博弈,TikTok 的命运一波三折,却始终没有脱离那个核心命题:当一款中国企业开发的应用程序凭借自身产品力赢得超过 1.7 亿美国用户时,华盛顿却以语焉不详的“国家安全”为由横加干预,这究竟是合理的风险防范,还是披着安全外衣的政治打压?而对于在全球化浪潮中成长起来的中国科技企业而言,如何在一个日益碎片化、政治化的国际市场中寻求生存与发展空间,恐怕是一道更长远的命题。

至于这笔交易能否真正消解美国所谓的“国家安全关切”?恐怕连美方自己都心知肚明。哈德逊研究所研究员 Michael Sobolik 称:“他们或许救了 TikTok,但国家安全方面的担忧依然存在。”既然如此,何必当初?折腾六年,动用国会立法、最高法院裁决、总统行政令,最后达成的方案,与 2020 年特朗普第一次推动的 Oracle 方案相比,又有多大本质区别?

《纽约时报》引用曾在拜登政府任职的林赛·戈曼(Lindsay Gorman)的话作结:“我们兜兜转转,最终并没有走出多远。”是的,六年过去,Oracle 依然是核心投资方,字节跳动依然保留股权与算法授权,终局与起点相差无几。但就是这样一场“原地踏步”的博弈,曾让一家企业六年不得安宁,让 1.7 亿用户提心吊胆,让全球化的科技公司如履薄冰。

参考资料:

1.https://www.semafor.com/article/01/22/2026/china-us-sign-off-on-tiktok-us-spinoff

2.https://www.nytimes.com/2026/01/22/technology/tiktok-deal-oracle-bytedance-china-us.html

运营/排版:何晨龙

  •  

10余位华人学者跻身计算机“名人堂”,2025 ACM Fellow名单公布

作者KIK

美国计算机协会(Association for Computing Machinery,ACM) 1 月 21 日公布了 2025 年度 ACM Fellow 名单,共有 71 位计算机领域的杰出学者入选。ACM Fellow 是计算机领域最具声望的荣誉之一,从全球超过 10 万名 ACM 会员中遴选,仅授予在技术创新或行业贡献方面取得卓越成就的顶尖学者,入选者不超过会员总数的 1%。

本年度入选者来自 14 国家和地区,研究领域涵盖人工智能、计算机视觉、数据管理、人机交互、网络系统、机器人、安全等多个方向。ACM 主席 Yannis Ioannidis 表示,今年的 Fellow 名单反映了计算机科学的最新发展,既有计算机体系结构、软件工程等成熟领域的资深专家,也有群体智能、场景识别等新兴方向的开拓者。

值得关注的是,本届 Fellow 中有十余位华人学者入选,他们分别来自北京大学、清华大学、香港科技大学、华中科技大学等国内高校,以及 CMU、UIUC、哥伦比亚大学等海外名校和谷歌、京东等科技企业,研究方向覆盖计算机视觉、机器学习、数据挖掘、分布式系统等核心领域。

以下为入选华人学者的详细介绍:

曹培

YouTube / Google

入选理由:表彰其在网络缓存、搜索引擎效率和信息质量方面的贡献。

曹培现任 YouTube 工程副总裁 (VP of Engineering),她是清华大学 1990 届计算机科学学士毕业生(本科前两年就读于应用数学系,后转入计算机系)。随后她赴美深造,于 1992 年获得普林斯顿大学硕士学位,并于 1996 年获得普林斯顿大学计算机科学博士学位。博士毕业后,曹佩执教于威斯康星大学麦迪逊分校(1996-1999),担任计算机科学助理教授。在此期间,她在网络缓存(Web Caching)领域做出了开创性工作,并因此获得了美国国家科学基金会(NSF)颁发的极具声望的 CAREER Award。她早期的研究解决了互联网流量爆炸初期的关键瓶颈问题,为后来的内容分发网络(CDN)奠定了理论基础。

1999 年,她创办了 Tasmania Network Systems 公司并担任 CTO,该公司后被思科(Cisco)收购。2004 年加入 Google 后,她参与了 Google 搜索基础设施的多次迭代,设计了能够索引和检索数千亿网页的可扩展系统。在 YouTube,她进一步领导了搜索与发现算法的优化,直接影响了全球数十亿用户的视频观看体验。

陈宝权 

北京大学

入选理由:表彰其在大规模场景重建、离散几何处理和制造形状设计方面的贡献。

陈宝权教授现任北京大学博雅特聘教授、智能学院副院长,同时兼任北京电影学院未来影像高精尖创新中心首席科学家。他是计算机图形学与可视化领域的国际领军人物。

陈宝权本科毕业于西安电子科技大学(电子工程),硕士毕业于清华大学(电子工程)。1999 年,他在纽约州立大学石溪分校(SUNY Stony Brook)获得计算机科学博士学位,师从图形学泰斗 Arie Kaufman。

陈宝权的研究聚焦于“数字化现实”,即如何通过计算机技术高效、高保真地重建物理世界。他最为人称道的工作之一是“Smartboxes”项目,利用车载移动激光扫描系统获取了深圳市数百英里的街道数据,并开发算法利用建筑物结构中的重复性(如盒子结构)来高效重建 3D 城市模型。在离散几何处理领域,他提出了一系列基于点云的几何处理算法,解决了非结构化数据难以建模的难题。

在加入北大之前,他曾任山东大学计算机科学与技术学院院长、中国科学院深圳先进技术研究院(SIAT)可视计算研究中心创博主任,以及明尼苏达大学双城分校教职。他是 IEEE Fellow、IEEE 可视化学院成员(IEEE Visualization Academy),并曾担任计算机图形学顶级会议 SIGGRAPH Asia 2014 的大会主席。在 2022 年北京冬奥会上,他的团队开发的“交互式自由视点”技术,为观众提供了身临其境的观赛体验,实现了技术在国家重大活动中的落地。

陈德铭

伊利诺伊大学厄巴纳-香槟分校

入选理由:表彰其在可重构计算方面的贡献,包括综合算法和可定制的 AI 加速器设计方法。

陈德铭博士是 UIUC 电气与计算机工程系(ECE)的 Abel Bliss 讲席教授,同时担任该校 AMD-Xilinx 卓越中心主任及 IBM-Illinois 发现加速器研究所的伊利诺伊主任。

陈德铭于 1995 年获得匹兹堡大学计算机科学学士学位,2001 年和 2005 年分别获得加州大学洛杉矶分校(UCLA)的计算机科学硕士和博士学位。

陈德铭是电子设计自动化(EDA)和可重构计算(FPGA)领域的权威。他的核心贡献在于打通了从高层软件代码到底层硬件电路的自动化设计路径(高层次综合,HLS)。他领导开发的 FCUDA、DNNBuilder 和 ScaleHLS 等开源工具,使得软件工程师能够利用 C/C++ 或 PyTorch 直接设计高效的硬件加速器,极大地降低了定制化芯片的设计门槛。

他早年在 Aplus Design Technologies 开发的 CPLD 技术映射算法被 Altera(现 Intel)收购并独家授权使用;他参与创立的 AutoESL 公司开发的 HLS 工具最终被 Xilinx 收购,成为业界标杆工具 Vivado HLS 的核心引擎。他开发的“Medusa”系统被集成到 Nvidia 的 TensorRT-LLM 中,将大语言模型的推理速度提升了 1.9 至 3.6 倍。

郑光廷 

香港科技大学

入选理由:表彰其在电子电路和计算系统的设计自动化及软硬件协同设计方面的贡献。

郑光廷教授现任香港科技大学(HKUST)副校长,同时是电子及计算机工程学系和计算机科学及工程学系的讲席教授。他是全球微电子测试与验证领域的奠基人之一。

郑光廷于 1988 年获得加州大学伯克利分校(UC Berkeley)电气工程与计算机科学博士学位。在加入学术界之前,他在著名的 AT&T 贝尔实验室工作了五年(1988-1993)。随后,他在加州大学圣塔芭芭拉分校(UCSB)任教超过 20 年,曾任该校 ECE 系主任及副校长。2016 年,他加入香港科技大学任工学院院长,后升任副校长。

他的研究主要解决了芯片制造中的“良率”与“可靠性”问题。他提出的测试向量生成算法及设计验证方法,是现代超大规模集成电路(VLSI)生产线上的必选项。近年来,他牵头成立了香港“AI 芯片与智能系统中心”(ACCESS),旨在研发新一代 AI 专用芯片,推动边缘计算与物联网的落地。他是 IEEE Fellow,并多次获得 DAC、ICCAD 等 EDA 领域顶级会议的最佳论文奖。


傅云(Yun Raymond Fu)

美国东北大学

入选理由:表彰其在表征学习、计算机视觉、人脸和手势识别方面的贡献。

傅云是美国东北大学(Northeastern University)工学院杰出教授,同时隶属于 Khoury 计算机科学学院。

傅云本科毕业于西安交通大学信息工程专业(2001 年),硕士毕业于西安交通大学模式识别与智能系统专业(2004 年)。随后赴美,于 2008 年获得伊利诺伊大学厄巴纳-香槟分校(UIUC)电气与计算机工程博士学位,师从“计算机视觉之父”Thomas S. Huang(黄煦涛)教授。

傅云在流形学习(Manifold Learning)和子空间学习方面做出了基础性贡献。他最为学界所熟知的工作集中在图像超分辨率重建上,其团队提出的残差密集网络(RDN)和残差通道注意力网络(RCAN)模型,极大地提升了低不仅图像的恢复质量,相关论文引用量过万,成为该领域的经典之作。

他还创办了 AI 初创公司 Giaran,专注于利用计算机视觉技术进行虚拟试妆和肤质分析。该公司于 2017 年被日本化妆品巨头资生堂(Shiseido)收购,Fu 随之担任资生堂美洲区技术创新高级副总裁,负责建立了其 AI 研发中心,成功将学术成果转化为消费级产品。他是欧洲科学院院士(MAE)、AAAI Fellow、IEEE Fellow、IAPR Fellow 等多学会会士。


黄兹(Zi Helen Huang)

昆士兰大学

入选理由:表彰其在大规模多媒体内容理解、索引和检索方面的贡献。

黄兹教授是澳大利亚昆士兰大学(The University of Queensland, UQ)电气工程与计算机科学学院的数据科学学科带头人(Discipline Leader for Data Science)。

黄兹于 2001 年在清华大学计算机系获得学士学位,随后前往澳大利亚深造,于 2007 年在昆士兰大学获得计算机科学博士学位。

面对互联网时代爆发式增长的视频与图像数据,黄兹致力于解决“如何快速找到想要的内容”这一核心问题。她的研究深入到了多媒体索引(Indexing)与跨模态检索(Cross-modal Retrieval)的底层算法,开发了能够理解视频语义、并在海量数据库中实现毫秒级检索的技术。她还探索了社交媒体分析与推荐系统,试图挖掘用户行为背后的数据逻辑。

她是澳大利亚研究理事会(ARC)的 Future Fellow,并获得了澳洲计算研究与教育协会颁发的 Chris Wallace 奖。此外,她还担任多个顶级期刊(如 VLDB Journal, TOIS)的编委。

贾佳亚

香港科技大学

入选理由:表彰其在计算机视觉中的分割、场景解析和纹理分析方面的贡献。

贾佳亚教授是香港科技大学(HKUST)计算机科学与工程系讲席教授,并担任思谋科技(SmartMore)的创始人兼董事长。

贾佳亚于 2000 年获得复旦大学计算机科学学士学位,2004 年作为香港科技大学与微软亚洲研究院(MSRA)联合培养的博士生获得博士学位,师从沈向洋等视觉领域知名学者。

在港科大任教之前,他长期执教于香港中文大学。他的研究聚焦于图像处理中最困难的任务——如何让计算机像人眼一样精准地分割物体边缘(Image Segmentation)和理解复杂场景(Scene Parsing)。他在模糊图像复原、纹理合成等领域发表了多篇高被引论文,总引用次数超过 10 万次。他曾担任 TPAMI 的副主编。

贾佳亚曾在腾讯担任杰出科学家及优图实验室(X-Lab)负责人,推动了腾讯在医疗 AI 和自动驾驶领域的布局。2019 年,他创立了思谋科技(SmartMore),专注于智能制造,利用机器视觉技术检测工业流水线上的微小缺陷。

贾小华 

香港城市大学

入选理由:表彰其在数据安全和分布式计算系统发展方面的贡献。

贾小华教授是香港城市大学计算机科学系讲席教授,并担任去中心化信任计算中心(CDTC)主任。

贾小华他分别于 1984 年和 1987 年在中国科学技术大学(USTC)获得学士和硕士学位,后赴日本深造,于 1991 年获得东京大学信息科学博士学位。

贾小华长期深耕于分布式系统与网络安全领域。随着云计算的普及,数据存储在第三方服务器上的隐私问题日益凸显。贾小华团队设计了一系列加密存储与安全检索协议,使得用户可以在不解密数据的前提下进行操作,极大地提升了云存储的安全性。

他是 IEEE Fellow,曾担任 IEEE Transactions on Parallel and Distributed Systems (TPDS) 等多个权威期刊的编委。他还多次担任 ACM MobiHoc、IEEE ICDCS 等国际顶级会议的大会主席。

金海

华中科技大学

入选理由:表彰其在高效以数据为中心的处理、内存管理和分布式系统架构方面的贡献。

金海教授是郑州大学副校长,华中科技大学(HUST)长江学者特聘教授,曾任该校计算机科学与技术学院院长。

金海于 1994 年获得华中科技大学计算机工程博士学位。此后,他曾赴德国开姆尼茨工业大学、香港大学及美国南加州大学(USC)进行访问研究。

金海教授在分布式系统架构方面做出了大量贡献。针对大数据时代“数据移动开销大”的痛点,他提出了“以数据为中心”的处理架构,通过近数据计算(Near-Data Computing)和高效的内存虚拟化技术,显著提升了大规模集群的计算效率。他同时也是 IEEE Fellow。

马坚

卡内基梅隆大学

入选理由:表彰其在计算生物学算法和机器学习方面的贡献。

马坚教授是卡内基梅隆大学计算机学院 Ray and Stephanie Lane 讲席教授。他致力于用计算机科学的视角去解码生命的奥秘,是计算生物学领域的先驱。

马坚于 2000 年和 2003 年在复旦大学获得计算机科学学士和硕士学位,2006 年在美国宾夕法尼亚州立大学(Penn State)获得博士学位。在加州大学圣克鲁兹分校(UCSC)完成博士后研究后,他曾任教于 UIUC,后加入 CMU。

马坚的研究融合了机器学习与生物学,他领导的团队开发了多种新型算法,用于解析人类基因组的复杂结构,特别是细胞核内的三维染色质组织(3D Genome)。作为 NIH“4D 核组计划”中心的主任,他利用图神经网络等 AI 技术,试图从单细胞数据中重构基因组的动态变化。

他是古根海姆奖(Guggenheim Fellow)得主,同时也是 AAAS Fellow 和 ISCB(国际计算生物学学会)Fellow。他的工作不仅推动了基础生物学的发展,也为理解癌症等复杂疾病的致病机理提供了新的计算工具。

梅涛 

智象未来

入选理由:表彰其在多媒体分析、检索和应用方面的贡献。

梅涛博士是生成式 AI 初创公司 HiDream.ai 的创始人兼 CEO,此前他曾是京东集团副总裁和微软亚洲研究院(MSRA)的资深研究员。

梅涛分别于 2001 年和 2006 年获得中国科学技术大学的学士和博士学位。在微软亚洲研究院期间,梅涛主导了多项视频内容分析技术的研发,相关成果被广泛应用于 Bing 搜索等产品。加入京东后,他负责搭建了京东的 AI 平台,将计算机视觉技术大规模应用于电商搜图、物流监控等场景。2023 年,他创办 HiDream.ai,投身于 AIGC(人工智能生成内容)浪潮,致力于开发能够生成高质量图像和视频的视觉大模型。

梅涛同时也是 IEEE Fellow、IAPR Fellow,并担任过 IEEE Transactions on Multimedia 等期刊的编委。


陈建利(Kian-Lee Tan)

新加坡国立大学

入选理由:表彰其在高级数据库应用中的查询优化和处理方面的贡献。

陈建利教授是新加坡国立大学(NUS)计算机学院的陈振传百年纪念教授(Tan Sri Runme Shaw Senior Professor)。

陈建利的本科、硕士及博士学位均在新加坡国立大学完成(分别于 1989、1991、1994 年)。作为数据库领域的权威,谭教授的研究贯穿了数据管理技术的多个阶段。从早期的并行数据库、分布式数据库,到后来的点对点(P2P)数据共享,再到如今的大数据分析,他始终聚焦于核心的“查询优化”问题,即如何在海量数据中以最快速度找到答案。他与合作者开发的多个数据处理框架在学术界产生了深远影响。他曾获新加坡最高科学荣誉——总统科学奖(2011 年),并获得 IEEE 技术成就奖。他曾任顶级期刊 VLDB Journal 的主编,是推动新加坡成为全球数据库研究重镇的关键人物之一。

童行行(Hanghang Tong)

伊利诺伊大学厄巴纳-香槟分校

入选理由:表彰其在大规模图挖掘理论、算法及应用方面的贡献。

童行行目前任教于 UIUC 计算机系。他是数据挖掘领域,特别是图挖掘(Graph Mining)方向的知名学者。

童行行于 2002 年和 2005 年在清华大学自动化系获得学士和硕士学位,2009 年在美国卡内基梅隆大学(CMU)获得机器学习博士学位,师从数据挖掘大师 Christos Faloutsos。

在这个万物互联的时代,数据往往以“图”(Graph)的形式存在(如社交网络、蛋白质结构、交通网络)。童行行的研究致力于为这些庞大且复杂的网络设计高效的算法,用于发现异常节点、预测连接关系或优化网络结构。他的成果被广泛应用于网络安全(检测恶意攻击)和医疗健康(药物发现)。他曾获得 IEEE ICDM 十年最具影响力论文奖、NSF CAREER Award 等多项大奖,目前担任 ACM SIGKDD Explorations 的主编。

熊辉

香港科技大学(广州)

入选理由:表彰其在人工智能和移动计算进步方面的研究贡献。

熊辉教授现任香港科技大学(广州)讲席教授及协理副校长,此前他是美国罗格斯大学的杰出教授及百度研究院副院长。

熊辉本科毕业于中国科学技术大学(自动化),硕士毕业于新加坡国立大学(计算机),2005 年获得明尼苏达大学双城分校计算机科学博士学位。

熊辉教授是“移动数据挖掘”领域的开拓者。他敏锐地捕捉到了移动互联网时代产生的海量轨迹与行为数据,并开创性地将其应用于商业智能。在百度任职期间,他提出了“人才智能”(Talent Intelligence)的概念,利用 AI 技术优化企业的人力资源管理,实现了技术与管理学的跨界融合。

熊莉(Li Xiong)

埃默里大学

入选理由:表彰其在静态类型系统和程序设计语言的机械化数学方面的贡献。

熊莉教授是埃默里大学(Emory University)计算机科学系和生物医学信息学系的 Samuel Candler Dobbs 讲席教授,也是该校 Assured Information Management and Sharing (AIMS) 实验室的主任。

熊莉本科毕业于中国科学技术大学(1997 年),在约翰霍普金斯大学获得硕士学位后,于 2005 年在佐治亚理工学院获得博士学位。

在数据即资产的今天,如何共享数据而不泄露隐私是一个核心难题。熊莉的研究聚焦于“差分隐私”(Differential Privacy)和联邦学习,特别是在医疗健康数据的应用上。她开发了一系列协议,允许医疗机构在不共享患者原始数据的情况下协同训练 AI 模型,打破了医疗数据的“孤岛效应”。她是 IEEE Fellow,曾担任 ACM CIKM 2022 和 ACM SIGSPATIAL 2024 的大会主席。

杨俊峰(Junfeng Yang)

哥伦比亚大学

入选理由:表彰其在可信软件和人工智能系统方面的领导力和贡献。

杨俊峰教授执教于哥伦比亚大学计算机科学系,是软件系统实验室的联合主任,专注于构建“不崩溃、不被黑”的可靠系统。

杨俊峰于 2000 年获得清华大学计算机科学学士学位,2008 年获得斯坦福大学计算机科学博士学位,师从操作系统领域的顶尖学者。杨俊峰发明了一系列用于检测复杂软件系统中并发错误(Concurrency Bugs)和安全漏洞的自动化工具。著名的“DeepXplore”项目是全球首个针对深度学习系统的自动化白盒测试框架,能够自动发现自动驾驶等关键系统中的致命缺陷。他联合创办了 NimbleDroid 公司(后被收购),将他在安卓应用性能分析方面的研究转化为产品,帮助数百万 App 开发者优化代码。他曾获 Sloan 研究奖和 NSF CAREER Award。

易珂

香港科技大学

入选理由:表彰其在查询处理理论与实践方面的贡献。

易珂教授是香港科技大学计算机科学与工程系教授,也是该校大数据科技理学硕士项目的负责人。

易珂于 2001 年毕业于清华大学(计算机系),2006 年获得杜克大学计算机科学博士学位。在本科期间,他曾获清华特等奖学金,并是国际信息学奥林匹克竞赛(IOI)银牌得主。

易珂的研究偏向计算机科学的理论基石——算法。他专注于在大数据环境下(如海量数据无法全部放入内存,或数据以流形式高速到达)如何进行高效的查询与采样。他的工作填补了数据库系统实现与理论算法下界之间的空白。

他曾两次获得数据库顶级会议 SIGMOD 的最佳论文奖(2016, 2022),并获得了 PODS 2022 的“时间检验奖”(Test-of-Time Award)。

郑宇 

京东科技

入选理由:表彰其在时空数据挖掘和城市计算方面的贡献。

郑宇是京东集团副总裁、京东科技首席数据科学家,同时担任上海交通大学讲席教授。他是“城市计算”(Urban Computing)领域的奠基人。

郑宇本科及博士均毕业于西南交通大学(分别于 2001 年和 2006 年),通信与信息系统专业。在微软亚洲研究院工作期间,郑宇率先提出了利用大数据解决城市问题(如交通拥堵、空气污染、能源消耗)的框架,将“城市计算”确立为一个独立的交叉学科方向。

加入京东后,他负责京东智能城市业务,开发了能够管理千万级人口城市的“城市操作系统”。他的算法被用于优化物流配送路径、预测城市人流热点等实际场景。他发表的论文引用数超过 6 万,并担任过人工智能顶刊 ACM TIST 的主编。

朱军

清华大学

入选理由:表彰其在概率机器学习理论与方法方面的贡献 。

朱军教授是清华大学计算机系博世人工智能冠名教授、人智所所长,也是清华大学人工智能研究院的基础理论研究中心主任。

朱军分别于 2005 年和 2009 年在清华大学获得学士和博士学位。之后他在卡内基梅隆大学(CMU)进行了三年的博士后研究,随后回国任教。

朱军深耕于贝叶斯机器学习这一基础理论领域。他提出了一套正则化贝叶斯推理框架,巧妙地将最大边界学习(Max-margin learning)与贝叶斯方法结合,解决了传统贝叶斯方法在判别任务上表现不佳的难题。他是 IEEE 和 AAAI 的双料 Fellow,并曾获得“科学探索奖”及中国计算机学会自然科学一等奖。

参考资料:

1.https://www.acm.org/media-center/2026/january/fellows-2025

运营/排版:何晨龙

  •