阅读视图

火爆硅谷的Clawdbot,48小时插件病毒式裂变,一句话让AI执行任务

作者

这几周,X 的开发者社区掀起了一股 Clawdbot 热潮。从凌晨两点发布的 GitHub 提交记录,到深夜炫耀“终于跑通了”的截图,这个带着龙虾表情符号的开源项目正在被越来越多人所了解。

(来源:Clawbot)

有人专门为它购置了一台甚至多台 Mac Mini 放在家里日夜运转,有人在 Discord 频道里分享自己如何通过 Telegram 遥控电脑完成代码部署,还有律师开始讨论它对法律行业的潜在冲击。科技博主 Federico Viticci 更是在 MacStories 上详细记录了他的使用感受,他在一周内用 Clawbot 消耗掉了 1.8 亿个 Anthropic API Token,最后的结论是:“用过这种超能力之后,我再也回不去了。”

(来源:X)

Clawdbot 究竟是什么?为什么它会让这么多技术圈的人如此兴奋?

准确来说,Clawdbot 不是一个聊天机器人(Chatbot),而是一个智能体网关(AI Agent Gateway)。与 ChatGPT 或 Claude 这类需要你打开网页、输入问题、等待回复的工具不同,Clawdbot 的设计逻辑是:通过日常使用的消息应用(目前支持 Telegram、WhatsApp、iMessage 或 Discord 等)发出一条指令,它会唤起后台运行的大语言模型(比如 Claude、Gemini),将你的需求转化为本地 Shell 脚本并在你的电脑上执行。

图 | 使用 imessage 向 Clawdbot 发送指令(来源:Federico Viticci)

换句话说,它不是告诉你怎么做,而是直接帮你做完一件事。这种从“AI 给建议”到“AI 直接行动”的转变,正是让开发者们如此着迷的一大原因。

它不仅能像真人一样通过浏览器去搜索、对比商品并整理表格,还能直接接管你的本地软件。你可以让它在 Spotify 上切歌,在 Obsidian 或 Notion 里整理笔记,甚至在 Slack 和 Gmail 之间搬运信息。Clawdbot 甚至还能连接到 Home Assistant 系统。这意味着你可以通过手机发条短信,就让家里那台 24 小时待命的 Mac 帮你关掉窗帘、调节空调温度,甚至在你下班回家前提前启动洗碗机。

开发者 Luigi D'Onorio DeMeo 在 X 上分享了他的使用场景:他让 Clawdbot 处理“后台开发和生活管理任务”,Clawdbot 拉取代码仓库、打开 VS Code、运行测试、生成修复方案,如果测试通过就自动提交代码,同时甚至还能通过 API 主动发送日程提醒。

另一位开发者 Alex Finn 将其运用在了自己的生活场景中。他让自己的 Clawdbot 帮忙预订下周六某家餐厅的位置。一开始 Clawdbot 尝试通过平台完成预订,但遇到了障碍。也许是餐厅没有接入该平台,也许是时段已满,总之失败了。

可接下来发生的事情让 Finn 自己都有些意外:Clawdbot 自动调用了它的 ElevenLabs 语音合成技能,直接给餐厅打了电话,用 AI 生成的语音与对方沟通,最终完成了预订。整个过程中,Finn 只发了一条消息,剩下的问题识别、方案切换、语音通话、预订确认,全部由 Clawdbot 自主完成。Finn 在推文末尾感慨道:“AGI 来了,99% 的人却毫无头绪。”

(来源:X)

律师事务所 Integrated Cognition 的一篇分析文章则提到,有用户让 Clawdbot 自动分类数千封邮件、智能过滤和归档,甚至根据自定义规则处理客户邮件。

这些场景的共同点是,看起来 AI 不再是被动等待你提问的助手,而是一个可以主动执行任务、持续监控状态、甚至在你睡觉时完成工作的 24 小时“数字员工”。

不仅如此,Clawdbot 还宣称打破传统 AI 工具的限制——记忆。大多数 AI 助手的交互方式是“打开网页 - 输入问题 - 看完答案 - 关闭标签页”,下次再打开时,它对上次的对话几乎毫无记忆。

Clawdbot 采用的是“本地优先”(Local-first)架构:所有的对话记录、操作日志、学到的生活事实都以 Markdown 文件的形式保存在你自己的硬盘里,就像一个私人的知识库。

它还能更进一步的使用检索增强生成技术(RAG,Retrieval-Augmented Generation)来实现长期上下文记忆。当你两周后问它“上次讨论的那个项目怎么样了”,它能从本地文件中调取相关信息并给出连贯回答。

这种本地化设计带来了两个优势。

第一是隐私主权:你与 Clawdbot 的所有互动、它读取的文件内容、执行的命令历史,全部留在你控制的设备上,而不是上传到某个公司的云端服务器。对于处理敏感信息的律师、医生或企业高管来说,这一点至关重要。

第二是跨平台唤起:Clawdbot 的 Gateway 进程运行在你的电脑或服务器上,只要有网络连接,你的手机就变成了一个超级终端。无论你是在咖啡馆用 iPhone 发 iMessage,还是在地铁上用安卓手机发 Telegram 消息,都能直接控制家里或办公室的那台机器。

那么,如此便利的“数字管家”究竟是被谁创造出来的呢?

Clawdbot 的创造者 Peter Steinberger 来自奥地利,是知名的 iOS 专家,早在 iPhone 刚诞生的 iOS 2.0 时代就开始深耕这个领域,还曾在维也纳科技大学教授 iOS 和 Mac 开发课程。

2011 年,他创办了 PSPDFKit,一家专注于 PDF 处理技术的公司,客户包括苹果、Adobe、Dropbox 等科技巨头。十年时间里,他将这家公司从个人项目发展成拥有 60 多名员工的全球化远程团队,并在 2021 年成功退休。

图 | Peter Steinberger(来源:X)

2025 年末,Steinberger 决定将自己私人使用的 AI 助手“Clawdis”开源,并将项目改名为 Clawdbot。

短短几周内,GitHub 的 Star 数突破 23k,Discord 社区从零增长到超过 5,000 名成员,一个名为 ClawdHub 的技能插件生态初具雏形。社区成员贡献了从 WhatsApp 语音消息转录到自动化网站部署等各类插件(Skills)。

(来源:GitHub)

一切似乎听起来非常完美,但 Clawdbot 还存在着一个绕不过的问题:成本。Clawdbot 本身是开源免费的,但它依赖大语言模型 API 来运作,而这些 API 调用是按 Token 计费的。

前文提到的 Federico Viticci 一周消耗 1.8 亿个 Token,按照 Anthropic 的定价,输入 Token 约 3 美元 / 百万,输出 Token 约 15 美元 / 百万,这意味着他的账单可能高达数百甚至上千美元。

在 Reddit 社区,有用户抱怨“Token 使用量简直疯狂,能在一小时内用完 Claude Pro 200 美元套餐的五小时额度”。官方文档建议轻度使用者预算每月 10-30 美元,中度使用者 30-70 美元,重度使用者则可能达到 70-150 美元或更高。对于希望让 Clawdbot 全天候运行、处理复杂任务的用户来说,这笔开销并不小。

更深层的问题还有记忆的极限。虽然 Clawdbot 将所有对话和学到的信息保存在一个名为 MEMORY.md 的本地文件中,理论上这能让它“永不遗忘”。但随着时间推移,这个文件会变得越来越臃肿。

当它膨胀到数千行甚至数万行时,或许有可能带来一个目前还未充分讨论的后果:上下文腐烂(Context Rot)。当 AI 需要在海量历史信息中检索相关内容时,响应速度可能变慢,准确度也可能下降,甚至出现记混或记错的情况。虽然 RAG 技术能在一定程度上缓解这个问题,但当用户积累了几个月甚至一年的使用数据后,这套系统能否依然高效,仍是一个待验证的问题。

而且,尽管许多文章宣称“20-30 分钟就能完成基础安装”,但对普通用户来说,实际门槛比想象中高。

你需要安装 Node.js 22+,配置 Nix 环境,获取并正确设置 Anthropic 或 OpenAI 的 API Key,在 macOS 钥匙串中管理凭证,理解如何通过安全访问 Gateway,还要给予应用 Shell 脚本执行权限。这对开发者来说或许不是难事,但对普通用户而言,可以说是一道技术鸿沟。

那些优秀的自动化案例,比如实时监控期权市场的异常交易量、自动发布到 5 个社交平台并优化标题、搭建完整的网站并迁移数据,都需要数小时甚至数天的自定义开发。资料中反复强调的一点是:Clawdbot 的基础功能(文件管理、简单研究、日程查询)确实开箱即用,但那些更高级的技能都需要构建自定义技能、接入第三方 API、反复测试和调试。

让人担心的还有“本地化”后的安全风险。给予 AI 执行终端命令的最高权限,意味着它可以读取你的文件、安装软件、修改系统配置、访问浏览器中保存的 Cookie 和密码。这一切都是 Clawdbot 发挥作用所必需的,但同时也是巨大的攻击面。

一篇在 X 上广为流传的安全警告文章指出了“提示词注入”(Prompt Injection)的风险:假设你让 Clawdbot 总结一份 PDF 文件,而这份文件中隐藏了一段恶意文本。由于大语言模型无法可靠地区分“需要分析的内容”和“需要执行的指令”,这些恶意命令有可能被执行。开发者 Steinberger 本人也在安全文档中坦言:“运行智能体是有风险的,请加固你的配置。”

那么,Clawdbot 到底值得尝试吗?答案取决于你的期待。如果你希望找到一个像 Siri 那样开箱即用、不需要任何配置的语音助手,Clawdbot 不适合你。如果你只是想偶尔向 AI 询问一些问题,可能 ChatGPT 或 Claude 的网页版就已足够。

但如果你是一名开发者、研究员、内容创作者或需要处理大量重复性任务的专业人士,愿意花几个小时学习配置、逐步构建自己的自动化工作流,那么它提供的能力确实令人兴奋:或许真能成为一个专属于你、运行在本地设备上、能够记住你的偏好和习惯、 24 小时不间断工作的数字助手。

参考链接:

1.https://www.macstories.net/stories/clawdbot-showed-me-what-the-future-of-personal-ai-assistants-looks-like/

2.https://github.com/clawdbot/clawdbot

3.https://x.com/steipete

运营/排版:何晨龙

  •  

解读胚胎评分技术:革新技术进步和伦理争议|2026 年十大突破性技术

作者

这是《麻省理工科技评论》2026 年“十大突破性技术”深度解读系列的第十篇内容,关注 DeepTech,关注新兴科技趋势。

近年来,随着基因检测技术的成熟与普及,一些准父母开始面临一个前所未有的选择:是否要借助胚胎筛查技术,为未来的孩子“优化”遗传特征?这个曾经只存在于科幻小说中的场景,如今已经悄然成为现实。

而推动这一转变的,是胚胎评分技术的革新——通过整合多基因风险评分、高通量测序与人工智能分析,科学家如今能在植入前更准确地评估胚胎的健康潜力。正是这些进展,使其入选《麻省理工科技评论》2026 年“十大突破性技术”。

(来源:MIT Technology Review)

如果只是对胚胎进行严重遗传疾病的筛查,大多数人早已接受。但当检测范围从疾病延伸到外貌、身高、智力等非疾病性状时,质疑与抗拒的声音开始涌现。尽管如此,多家初创公司还是开始公开宣传,声称其技术能够实现这类筛选,并将这项服务推向市场。

胚胎植入前基因检测(PGT,Preimplantation Genetic Testing)其实并非新事物。自 20 世纪 90 年代起,它便以不同形式应用于临床。最初,这项技术主要用于筛查染色体异常,例如导致唐氏综合征的 21 三体,或是单基因遗传病,如囊性纤维化、亨廷顿病、地中海贫血等。对于有明确遗传病风险的家庭而言,这项技术带来了真正的希望,让他们可以在胚胎植入前就知道哪些胚胎携带致病基因,从而选择健康的胚胎进行移植。

真正带来争议的,是近年来出现的胚胎植入前多基因疾病检测,业内称之为 PGT-P(Preimplantation Genetic Testing for Polygenic Disorders)。这项服务关注的并非由单一基因决定的疾病,而是由成百上千个基因变异共同作用的复杂性状。这些性状既包括 2 型糖尿病、冠心病、精神分裂症等多基因疾病,也涵盖身高、眼睛颜色,甚至认知能力等非疾病特征。

相关公司通过构建多基因风险评分,为每个胚胎计算其未来呈现某一性状的统计概率,从而为准父母在多个胚胎之间做出选择提供参考。这些评分基于大规模的全基因组关联研究,通过分析数千个基因变异的累积效应来预测个体特征。

2019 年,Genomic Prediction 率先将 PGT-P 引入临床实践,推出了名为 LifeView 的胚胎健康评分测试。该公司首次报告了利用多基因风险评分对人类植入前胚胎进行 1 型糖尿病筛查的临床案例。这项技术能够同时筛查多种疾病,包括 2 型糖尿病、精神分裂症、冠心病、乳腺癌、前列腺癌、炎症性肠病、阿尔茨海默病等。

(来源:Genomic Prediction)

随后,Orchid Health 推出了基于全基因组测序、覆盖范围更广的升级版本。Orchid 声称能够对胚胎 99% 以上的基因组进行测序,筛查超过 1,200 种单基因疾病以及多种多基因疾病,单个胚胎的检测费用为 2,500 美元。

在商业化的早期阶段,这两家公司大多强调对严重多基因疾病的风险评估,刻意淡化甚至回避对智力等非医学性状的预测能力。但到了 2025 年,新的竞争者开始采取更激进的营销策略。

2025 年 6 月,Nucleus Genomics 发布了名为"Nucleus Embryo"的基因优化软件,明确宣称能够对胚胎的健康、外貌甚至智力进行全面评估。服务起价为 5,999 美元,而包含一个体外受精周期、最多 20 个胚胎筛查及全程礼宾服务的 IVF+套餐则高达 24,999 美元。

紧随其后,2025 年 7 月,Herasight 走出隐身模式,称其技术在 17 种疾病的预测能力上比 Orchid 高出 122%,比 Genomic Prediction 高出 193%。该公司由科学家 Tobias Wolfram 和 Alex Strudwick Young 创立,他们在发布的白皮书中强调,自己的预测模型经过了家庭内部验证,在准确性上优于竞争对手。单次检测费用可高达 50,000 美元。

批评者对这些发展表达了强烈的担忧。多个专业学术组织,包括美国人类遗传学学会、美国医学遗传学与基因组学学会以及美国生殖医学学会,都对使用多基因风险评分进行胚胎选择持谨慎态度。

科学家指出,多基因风险评分本质上基于群体统计数据,对个体——尤其是胚胎阶段的个体——预测能力极为有限。这些评分是从成年人群体中得出的模式,并不能准确预测某个特定胚胎发育成人后的实际状况。更重要的是,选择某一特征可能会无意中影响其他特征,这些相互作用尚未被充分理解。

一项针对 152 名美国生殖内分泌与不孕症专家的调查显示,只有 12% 的受访者普遍赞成多基因胚胎筛查,46% 表示反对,42% 不确定。大多数医生认为风险大于收益。不过,当筛查用于身体和精神健康状况时,支持率上升至 55-59%,而用于行为或体型等特征时,支持率仅为 6-7%。

尽管科学界普遍持保留态度,PGT-P 在硅谷已经形成了一股潮流。埃隆·马斯克和彼得·蒂尔等科技界人物,或通过投资,或通过公开表态,对相关企业表示支持。据报道,马斯克本人曾使用 Orchid 的服务孕育了与科技高管 Shivon Zilis 的至少一个孩子。Reddit 联合创始人 Alexis Ohanian 也投资了 Nucleus Genomics,该公司近期在纽约地铁站投放广告,标语为"拥有你最好的宝宝"。

图 | Nucleus Genomics广告(来源:Nucleus Genomics)

这项原本属于精英圈层的技术正逐渐向更广泛的人群扩散。截至 2025 年,美国已有超过 100 家生育诊所开始提供 PGT-P 服务,Orchid 已与至少 40 家诊所建立合作关系。

如果市场竞争持续发展,或许有望推动检测价格下降、提升可及性,并促使整个 PGT 领域在技术标准、数据解释和伦理规范方面持续改进。可值得注意的是,在美国,胚胎检测和选择几乎不受监管,完全由临床医生和市场力量主导,这与法国、瑞士、意大利、英国和澳大利亚等国形成鲜明对比——这些国家将胚胎选择限制在避免疾病特征的范围内。

我们正站在一个十字路口。技术的进步为人类提供了前所未有的选择权,但同时也带来了深刻的伦理挑战。当选择健康的胚胎与设计理想的孩子之间的界限变得模糊时,我们需要进行一场全社会范围的对话,认真思考什么样的未来是我们真正想要的。

在本次点评中,我们也特别邀请两位胚胎评分、生殖领域的专家,分别从技术现状、核心瓶颈与未来前景等维度,分享他们对这一议题的观察与见解。

以下评论内容均为个人见解,不代表《麻省理工科技评论》观点

从技术可行到临床与社会可接受性:PGT-P 的现状、瓶颈与边界

胚胎植入前基因检测已广泛用于筛查染色体异常或明确的致病变异,并在辅助生殖领域形成相对成熟的应用规范 [1]。近年来出现的基于多基因评分的胚胎植入前检测(Preimplantation Genetic Testing for Polygenic conditions, PGT-P)则试图利用多基因风险评分(Polygenic Risk Score, PRS)和大规模人群全基因组关联研究(genome-Wide Association Study, GWAS)数据,对胚胎的复杂疾病风险或性状倾向进行统计评估 [2-4]。

尽管商业化进展迅速,但从循证医学角度看,PGT-P 仍处于早期阶段,美国生殖医学学会明确指出目前不推荐其作为临床服务提供 [5]。

在技术层面,现有 PRS 多基于欧洲祖源人群的 GWAS 数据构建,在遗传背景不同的人群中应用时更容易放大系统性偏差,从而限制其泛化能力 [6]。同时,遗传因素本身不足以支撑对复杂性状的明确预测。许多遗传变异具有多效性,且个体发育过程受到环境因素的深刻影响,这使得 PRS 难以被理解为对单个胚胎未来表现具有明确指向性的预测工具 [7]。此外,胚胎 DNA 起始量低,检测过程依赖全基因组扩增与低深度测序,扩增偏倚可能导致对结果的误判 [6]。

除技术瓶颈外,PGT-P 在现实应用中还面临一系列相互交织的伦理与社会约束。作为辅助生殖的附加服务,其成本较高,使用者主要集中于高净值或对基因技术高度敏感的人群,这种准入结构使潜在的健康或教育优势更可能在特定社会阶层中累积,引发代际不平等加剧的担忧 [8,9]。

与此同时,规范与监管滞后放大了误导性使用的风险。相较于传统 PGT 已形成的专业指南,PGT-P 仍缺乏成熟的操作与沟通规范 [5]。更为根本的是,将教育或认知相关指标转化为可排序的基因分数,不可避免地牵涉对“更好人生”的价值预设,使该技术易被置于“新型优生学”的伦理争论之中 [9]。

PGT-P 未来能走多远,很大程度上取决于证据、方法和规范是否能够同步跟上。技术层面,需要在更具人群代表性的 GWAS 数据基础上推动 PRS 构建与解读方式的标准化,以提高结果的稳健性和可外推性;制度层面,则有必要明确多基因风险预测的临床适用边界,并通过规范的知情同意和风险披露,避免对预测能力的过度解读。总体而言,PGT-P 或可在特定情境下提供有限的辅助信息,但要成为临床和社会层面均可接受的成熟技术,仍需长期而审慎的验证与约束。

GT-P 的临床应用评估与未来研判

PGT-P 的核心争议在于其科学有效性与临床预期之间存在差距。不同于针对单基因病的精准阻断,PGT-P 依赖的多基因风险评分(PRS)基于群体大数据,其统计显著性难以直接转化为对单个胚胎的精准预测。

首先,身高、智力等复杂性状受众多环境因素影响显著,基因解释率依然有限;其次,由于当前 PRS 模型主要基于欧洲裔数据,在亚裔群体中存在明显的通用性偏差;最后,PGT-P 技术开始临床应用的时间还较短,经 PGT-P 技术选择出生的个体成年后的性状是否符合预期还有无法验证。因此,目前我国应用 PGT-P 技术还缺乏充分的循证支持。

随着市场驱动下 PGT-P 临床应用的加速,辅助生殖技术正面临从“疾病阻断”转向“性状筛选”的伦理挑战。将筛选范围延伸至智力、外貌等非医学领域,不仅引发了“消费型优生”的社会担忧。同时,医疗公平性问题凸显,高昂的自费门槛可能导致遗传优势向高净值人群集中,加剧社会阶层的不平等。

针对 PGT-P 技术的国内应用,应确立“严格监管、特许准入”的政策导向,以平衡技术创新与伦理安全:

首先,PGT-P 的开展要限定在拥有明确资质的医疗机构。该技术的应用必须纳入国家医疗行政部门的严格监管体系。建议仅限定在个别具备高水平辅助生殖资质、拥有国家级遗传诊断中心背景的特定医疗机构开展试点应用。

其次,亚欧准入制度需要经过严格审核。需要建立由临床医生、遗传学家与伦理专家组成的委员会,对机构的技术平台、算法模型及临床获益评估进行定期审核,严禁非医疗性质的商业机构擅自开展检测。

最后,为防止 PGT-P 沦为性状定制工具,应建立“性状屏蔽”机制,如通过算法隐去身高、智力等非医学性状位点,将监测范围严格限定于 II 型糖尿病、冠心病等具备明确临床分层价值的复杂疾病。从源头保证 PGT-P 技术仅用于疾病阻断目的。

预计未来 3-5 年,PGT-P 行业需在商业扩张与政策监管之间寻求平衡。监管部门将出台规范,强制标注预测的不确定性及种族局限,严限误导性宣传。将应用重心从“性状泛化”回归医疗本质,通过确立标准与建设大规模数据库,聚焦于具备风险分层的严格临床监管,从而指导 PGT-P 技术的规范化发展与应用。

王乐韵老师撰稿《从技术可行到临床与社会可接受性:PGT-P 的现状、瓶颈与边界》的参考文献:

1.Cimadomo, Danilo, et al. "The dawn of the future: 30 years from the first biopsy of a human embryo. The detailed history of an ongoing revolution." Human Reproduction Update 26.4 (2020): 453-473.

2.Treff, Nathan R., et al. "Validation of concurrent preimplantation genetic testing for polygenic and monogenic disorders, structural rearrangements, and whole and segmental chromosome aneuploidy with a single universal platform."European journal of medical genetics 62.8 (2019): 103647.

3.Turley, Patrick, et al. "Problems with using polygenic scores to select embryos."New England Journal of Medicine 385.1 (2021): 78-86..

4.Polyakov, Alex, et al. "Polygenic risk score for embryo selection—not ready for prime time." Human reproduction37.10 (2022): 2229-2236.

5.Klipstein, Sigal, et al. "Use of preimplantation genetic testing for polygenic disorders (PGT-P): an Ethics Committee opinion." Fertility and Sterility (2025).

6.Capalbo, Antonio, et al. "Screening embryos for polygenic disease risk: a review of epidemiological, clinical, and ethical considerations." Human reproduction update 30.5 (2024): 529-557.

7.Siermann, Maria, et al. "Limitations, concerns and potential: attitudes of healthcare professionals toward preimplantation genetic testing using polygenic risk scores." EuropeanJournal of Human Genetics 31.10 (2023): 1133-1138.

8.Furrer, Rémy A., et al. "Survey of US reproductive medicine clinicians attitudes on polygenic embryo screening."npj Genomic Medicine 10.1 (2025): 79.

9. Haining, Casey M., et al. "Polygenic risk scores and embryonic screening: considerations for regulation."Journal of medical ethics 51.10 (2025): 719-728.

运营/排版:何晨龙

  •  

AI健康助手能取代搜索引擎吗?

(来源:麻省理工科技评论)

在过去二十年里,当人们感到身体不适时,往往会下意识地上网搜索相关信息。这种做法过于普遍,以至于人们常常戏称搜索引擎为“Google 医生”。但随着大语言模型的出现,越来越多人习惯于转向 LLMs 搜寻信息。根据 OpenAI 的数据,每周约有 2.3 亿人向 ChatGPT 提出与健康相关的问题。

正是在这样的背景下,OpenAI 于本月早些时候推出了新的 ChatGPT Health 产品。但这一发布时机并不理想。就在两天前,新闻网站 SFGate 披露了一起案件:一名名为 Sam Nelson 的青少年在去年因药物过量去世,而在此之前,他曾与 ChatGPT 进行了大量关于如何组合多种药物的对话。随着这两则消息接连出现,多名记者开始质疑,将医疗建议寄托在一种可能造成严重伤害的工具上是否明智。

尽管 ChatGPT Health 在界面上以独立的侧边栏标签形式存在,但它并不是一个全新的模型。更准确地说,它是一层封装,为 OpenAI 现有模型提供指导和工具,使其能够给出健康相关建议,其中还包括在获得用户许可的情况下,访问其电子病历和健身应用数据的功能。毫无疑问,ChatGPT 和其他大语言模型可能在医疗问题上出错,OpenAI 也反复强调,ChatGPT Health 的定位是辅助工具,而不是医生的替代品。但在医生无法及时提供帮助的情况下,人们仍然会寻求其他选择。

一些医生认为,LLMs 有助于提升公众的医学素养。普通患者往往难以在庞杂的在线医疗信息中进行判断,尤其难以区分高质量内容与看似专业但事实存疑的网站,而从理论上看,LLMs 可以代替他们完成这一筛选工作。哈佛医学院副教授、执业放射科医生 Marc Succi 表示,在过去,接诊那些先在 Google 上搜索过症状的患者时,医生往往需要花费大量精力缓解患者焦虑并纠正错误信息。但他指出,现在可以看到,不论是大学学历还是高中学历的患者,提出的问题已经接近医学院低年级学生的水平。

ChatGPT Health 的推出,以及 Anthropic 随后宣布为 Claude 提供新的健康相关功能,表明大型 AI 公司正越来越愿意正视并鼓励模型在健康领域的应用。然而,这类用途显然伴随着风险,因为 LLMs 已被充分记录存在迎合用户观点、在不确定时编造信息的倾向。

但这些风险也需要与潜在收益一并权衡。这里可以类比自动驾驶汽车。当政策制定者考虑是否允许 Waymo 在城市中运行时,关键指标并不是其车辆是否从不发生事故,而是它们是否比依赖人类驾驶员的现状造成更少的伤害。如果 ChatGPT 医生确实优于 Google 医生,而早期证据表明可能如此,那么它或许能够缓解互联网带来的大量医疗错误信息和不必要的健康焦虑。

不过,要准确评估像 ChatGPT 或 Claude 这样的聊天机器人在面向消费者的健康场景中的效果,并不容易。麻省总医院与布里格姆医疗系统的数据科学与 AI 临床负责人 Danielle Bitterman 表示,评估一个开放式聊天机器人极其困难。大语言模型在医学执照考试中成绩优异,但这些考试采用的是选择题形式,并不能反映人们在实际使用聊天机器人查询医疗信息时的方式。

滑铁卢大学管理科学与工程系助理教授 Sirisha Rambhatla 尝试通过一种方式缩小这一差距:评估 GPT-4o 在没有备选答案列表的情况下,对执照考试问题的回答表现。医学专家对这些回答进行评分后认为,只有大约一半完全正确。不过,选择题本身就被设计得较为刁钻,答案选项并不会直接暴露正确结论,这种形式仍然与用户在 ChatGPT 中输入的真实问题存在较大差距。

另一项研究在更贴近现实的测试使用人类志愿者提交的问题来评估 GPT-4o,结果发现其在约 85% 的情况下能够正确回答医疗问题。我在采访该研究负责人、宾夕法尼亚州立大学副教授、Responsible AI for Social Emancipation Lab 负责人 Amulya Yadav 时,他明确表示,自己并不认同面向患者的医疗 LLMs。但他也坦言,从技术角度来看,这些系统似乎能够胜任这项任务——毕竟,人类医生的误诊率也在 10% 到 15% 之间:“如果冷静地看待这件事,世界似乎正在改变,不管我是否愿意。”

在 Yadav 看来,对于在线寻找医疗信息的人来说,LLMs 的确比 Google 是更好的选择。放射科医生 Succi 也得出了类似结论。他将 GPT-4 对常见慢性疾病问题的回答,与 Google 搜索结果右侧有时出现的知识面板中的信息进行比较后认为,LLMs 在这一场景下可以成为更优的替代方案。

自 Yadav 和 Succi 的研究在 2025 年上半年发布以来,OpenAI 已推出了多个新版 GPT,因此有理由预期 GPT-5.2 的表现会优于前代模型。但这些研究也存在重要局限:它们主要关注简单、事实型问题,并且只考察了用户与聊天机器人或搜索工具之间的短暂互动。LLMs 的一些弱点,尤其是迎合倾向和幻觉问题,在更长时间的对话或更复杂的情境中,可能更容易显现。墨尔本大学研究技术与健康的教授 Reeva Lederman 指出,如果患者不认可医生给出的诊断或治疗建议,可能会转而向 LLM 寻求另一种意见,而具有迎合倾向的 LLM 可能会鼓励他们拒绝医生的建议。

一些研究发现,LLMs 在回应健康相关问题时会出现幻觉和迎合行为。例如,有研究显示,GPT-4 和 GPT-4o 会直接接受并基于用户问题中包含的错误药物信息展开回答。在另一项研究中,GPT-4o 经常为用户提到的虚构综合征和检测项目编造定义。考虑到互联网上充斥着存疑的医疗诊断和治疗方法,如果人们将 LLMs 视为可信来源,这种行为模式可能会加剧医疗错误信息的传播。

OpenAI 表示,GPT-5 系列模型在迎合性和幻觉倾向方面已明显优于前代模型,因此上述研究结果未必适用于 ChatGPT Health。公司还使用其公开的 HealthBench 基准,对支撑 ChatGPT Health 的模型在健康问题上的表现进行了评估。HealthBench 鼓励模型在适当时表达不确定性,在必要时建议用户寻求医疗帮助,并避免通过夸大病情来给用户造成不必要的心理压力。可以合理推测,ChatGPT Health 背后的模型在测试中符合这些要求,不过 Bitterman 指出,HealthBench 中的一些提示是由 LLMs 而非真实用户生成的,这可能会影响该基准在现实世界中的适用性。

一个避免制造恐慌的 LLM,显然优于那些让人浏览几分钟网页后就怀疑自己患癌的系统。随着大语言模型及其衍生产品持续发展,ChatGPT 医生相对于 Google 医生的优势很可能会进一步扩大,ChatGPT Health 的推出正是朝这一方向迈出的一步。通过查看医疗记录,ChatGPT 有可能获得比任何一次 Google 搜索都更丰富的个人健康背景,尽管多位专家也因隐私问题而警告不要轻易赋予其这种权限。

即便 ChatGPT Health 和其他新工具相较 Google 搜索确实带来了实质性改进,它们仍有可能在整体上对健康产生负面影响。正如自动驾驶汽车即便比人类驾驶更安全,如果因此减少了公共交通使用,仍可能带来净负面效应一样,LLMs 也可能因为促使人们依赖互联网而非医生,从而损害用户健康,即使它们提升了在线医疗信息的整体质量。

Lederman 表示,这种结果并非不可想象。她在研究中发现,以健康为主题的在线社区成员往往更信任表达能力强的用户,而不一定关注信息本身是否可靠。由于 ChatGPT 的交流方式类似一位言辞清晰的人,一些人可能会对它过度信任,甚至排斥医生的建议。但至少在目前阶段,LLMs 仍然无法取代人类医生。

原文链接:

https://www.technologyreview.com/2026/01/22/1131692/dr-google-had-its-issues-can-chatgpt-health-do-better/

  •  

十二个问题解剖VLA,深度对话小米陈龙、上交穆尧

作者KIK

2025 年末,首批 L3 级自动驾驶车型获得准入,标志着中国智能驾驶产业迈入新纪元。与此同时,具身智能机器人领域也在过去一年间经历了“天翻地覆”的变化,从 2024 年初“抓苹果都费劲”,到如今叠衣服已成为行业的入门任务,穿鞋带这样曾被认为遥不可及的精细操作也已被攻克。

在这场技术跃迁的背后,一项被称为 VLA(Vision-Language-Action,视觉语言动作大模型)的技术正成为连接自动驾驶与具身智能的关键枢纽。不同于传统端到端模型从视觉直接映射到动作的“条件反射”式决策,VLA 将语言理解与推理能力引入物理世界的决策链路,赋予机器“看了就懂、懂了就做”的认知能力。

然而,VLA 的兴起也伴随着争议。在 2025 年世界机器人大会上,宇树科技创始人王兴兴公开质疑这一技术路线,引发行业热议。这场争论的背后,是软件与硬件、泛化性与可靠性、学术探索与商业落地之间的深层张力。

为深入探讨这一前沿技术的本质、挑战与前景,我们邀请到两位走在 VLA 研究最前沿的嘉宾:小米汽车智能驾驶 VLA 技术负责人陈龙,以及上海交通大学计算机学院助理教授、ScaleLab 负责人穆尧。他们分别从自动驾驶和具身智能机器人的视角,为我们拆解 VLA 的技术内核,剖析数据困境与安全挑战,并回应来自产业界的质疑。

以下是本次对话的完整内容。

一、什么是 VLA ?

DeepTech:先请两位解释一下什么是 VLA 技术。

陈龙:VLA 是最近几年比较火的一个话题。它本质上是利用大语言模型的泛化能力,包括从互联网数据预训练得到的通识知识,再辅以语言模态的推理能力,来解决现实世界中行为决策的问题。

现在不管是自动驾驶还是机器人, VLA 都非常火。因为自动驾驶面临很多长尾问题,当你在路上开车时,大部分时间遇到的是见过的东西,但有时候会遇到没见过的场景,这时候就需要思考能力,在这些场景下做出更好的决策。

机器人也在利用 VLA 的能力,主要是因为机器人的任务比较复杂,有很多长程任务。它需要利用语言能力来理解人类给它的任务,包括对整体任务的拆解,把它分解成 sub task (子任务) 来执行。所以总体来说, VLA 是未来物理世界人工智能发展的趋势,是大模型能力走向物理世界的必要网络架构。

穆尧:VLA 给机器人带来了非常大的机会。具身智能和传统机器人研究的一个很大不同点在于,具身智能更关注泛化性,包括对场景的泛化性、视觉和物理上的泛化性,也包括我们希望交互的物体的不同形状、颜色等更细致的泛化性。

在 VLA 技术下,实际上赋予了机器人几方面的能力:第一,使机器人能够用语言沟通,听懂人类指令;第二,由于 VL (视觉语言模型) 在大规模互联网数据上进行了很好的预训练,可以有非常好的场景和视觉上的泛化性,逐渐迈向开放世界;第三是 A (Action ,动作) 这一块,怎么把 VL 对接到 A 上,在机器人领域目前还处于研究探索阶段。当然已经有一些比较好的模型出来,比如 π0 、 π0.6 ,展现了一些精细操作的能力。

VLA 带给机器人的核心机会在于赋予了机器人一个柔性的能力。之前机器人可能要写死一些机械定位,差一点都不行;现在可以根据情况随机应变。当然这部分泛化性目前还没有达到工业上真正四个九的要求,所以不管是学界还是工业界,都在逐渐发力。

DeepTech:过去训练机器人或者机器人的工作方式是什么?

穆尧:传统机器人大部分面向特定场景、特定任务,在这个任务上达到 SOTA (当前最佳水平) 。传统的方法基于规划加柔顺力控,或者基于强化学习,解决的核心问题都是单一场景、单一任务的。当具身智能要求走向多任务、开放世界、开放场景时,VLA 就成为非常重要的实现路径。

DeepTech:举个例子,现在的机器人更多在工业上应用,未来走入生活场景,是不是就用到了 VLA 的核心技术?因为生活中的场景和指令都是非标准化的。

穆尧:是的,家庭场景最符合具身智能的要求,当然也是最难的。但工业场景的泛化性要求也很高。到现在能通过自动化产线完成的都已经大规模在做了,比如小米汽车的生产线,除了最后的总装车间,其他车间都是 95% 以上自动化。剩下需要人类操作的部分,往往是因为单独搭建产线非常昂贵,而且可能今天来的是这批零件,明天来的是另一批零件,有柔性生产制造的需求。这种需求本质上还是对泛化性的需求,所以工业场景上也有很大的应用空间。

二、 VLA 与端到端自动驾驶的区别

DeepTech:VLA 技术在自动驾驶上,和现在的端到端自动驾驶有什么区别?

陈龙:自动驾驶研究了几十年,是比较有历史的方向。早期类似穆尧讲的机器人方法,是模块化的方式来实现—— 区分感知模块、预测模块和规控模块。感知通过计算机视觉模型检测物体,预测会预测每个车的运动轨迹,规划则利用路径规划算法,在知道周围物体和它们未来运动的条件下,规划出自车的运动轨迹。这是自动驾驶的第一阶段,通过规则算法来实现。

端到端是最近几年才兴起的。我之前在 Wayve,我们从 2018 年就开始做端到端自动驾驶,当时还是比较激进的方式。端到端本质上非常简单,就是使用一个大模型,利用很多收集起来的自动驾驶数据,训练一个端到端的模型,直接把传感器输入映射到驾驶信号上面。

端到端解决了传统算法的很多问题,因为传统算法需要手动设置很多规则,比如红灯情况下怎么样、遇到别的车应该怎么做。端到端不用手动设计这些规则,而是通过数据驱动的方式,利用大量人类驾驶行为,让神经网络学习这些行为并进行拟合。

但它也有很多缺点:首先是黑盒模型,你不知道它的决策是怎么做的,不是特别可控;第二是对长尾问题的泛化性不够好,因为现实生活中有很多场景是收集数据收集不到的,遇到这种场景可能就会做出错误行为。

VLA 本质上就是为了解决这些问题。首先是可解释性, VLA 通过语言可以做出解释,包括决策的原因,你可以通过这些原因了解它是怎么做决策的,透明度会加深。其次, VLA 可以提供比较好的推理能力,特别是 VLM (视觉语言模型)可能经过互联网知识的预训练,对世界的通识知识、人类的价值观都有一定了解,再辅以推理能力,可以在长尾情况下通过推理做出更正确的决策,使自动驾驶更加安全、泛化性更好。这也是为什么 VLA 在最近几年慢慢兴起,成为主流方向。

三、什么是长尾问题和泛化问题?

DeepTech:两位反复提到长尾和泛化。能不能举一些特殊的例子,帮助我们了解机器人或自动驾驶在某些场景下失效的情况?

穆尧:在机器人上,泛化的圈子会画得比较大。可以细分为:首先是背景,就是操作台以外的所有背景,涵盖各种光照信息、复杂的 layout (布局) 分布;再往上是前景,就是当前机器人的操作台和 target (目标) 物体;同时桌子上还有各种杂物——我们每个人家庭的桌子不是一尘不染的,有各种东西,所以操作台上有任务相关和任务无关的物体。

最细的层级是任务相关物体本身。比如任务是收拾桌子上的瓶子,瓶子的种类很多——可乐、雪碧是圆柱形的,东方树叶是四棱柱的,形状都不一样。这就是从最粗到最细粒度的泛化。

什么是长尾呢?长尾是一些在预收集数据中很难出现的状况。比如机器人在夹东西时掉下来了,或者夹东西时碰到了某个东西,或者尝试抓取时东西被碰倒了。人类一次尝试没成功,东西倒了之后我们知道怎么抓,但机器人可能完全没见过这个倒下的状态,很难 recover (恢复) 。还有更具有挑战性的长尾,比如场景中有第三个可移动的物体——人。一个人直接把你本来瞄准好的物体位置变了,或者把立着的瓶子弄倒了,把茶杯弄翻了,这就是长尾。

专家数据集也会包含泛化部分,包括场景泛化、操作台泛化、任务无关物体泛化、任务相关物体泛化,这些都会有。但有些突发情况是专家数据集很难收集到的,一般要通过真机强化学习这样的方式才能收集到。

DeepTech:在自动驾驶方面呢?

陈龙:自动驾驶方面定义也类似。你的专家数据集不可能把所有场景都收集完,因为道路上有很多不可预知的事情。比如我们在新的地方开车时,会碰到不一样的交通标识牌或不一样的场景。人在新环境下也会遇到很多长尾问题,有时候也会开慢点或停下来想一想具体应该怎么开。

DeepTech:就是说有的路口只有本地人才能走对?

陈龙:对,类似这种。 VLA 比较适合解决这些长尾问题。具体例子比如施工场景会有一些标识牌,每个标识牌都不统一,有的画了车辆和箭头示意你应该往哪个方向走,有的是文字形式,有的是其他方式指示你应该怎么走。在这种非结构化信号下,需要 VLA 对整个场景的理解,包括利用互联网预训练知识进行理解和推理,得出在这个长尾问题下应该具体做什么决策。

VLA 还解决了比较长序列的问题。比如开车时拐进了一个死胡同,应该倒车退回去换一个路口。但如果没有 VLA ,你可能开到死胡同里,即使知道退回来,也可能再开到这个死胡同里,因为你不知道刚才已经开到这里了。 VLA 可以在需要长时记忆的情况下,用语言这个比较抽象的模态来做长期路径规划。

四、 VLA 不只是加了一层语言

DeepTech:传统或现在用的是从视觉直接映射到动作,VLA 是从视觉映射到语言再映射到动作。是不是只是在中间加了一层语言?还是 VLA 中间加入语言能解决一些其他核心问题?

陈龙:肯定不是只加了一层语言。这本质上是一个范式转变。 VLA 利用大模型的范式来训练自动驾驶或机器人算法。 VA(视觉动作)是直接把图像映射到最终的 action(动作)上,不管是自动驾驶的端到端算法还是机器人比较经典的 ACT (动作分块) 算法,本质上没有利用模型的思考能力。 VLA 本质上转换到了认知驱动的范式,通过大模型的能力,利用大模型的知识和推理能力来解决路径规划或抓取导航这些问题。

现在自动驾驶领域对 VLA 的理解都不尽一样。我个人理解,本质上 L 这个模态是对图像的补充。 VA 只有图像和传感器信息来做一次决策,而 L 可以通过语言模态不断 sample (采样) 下一个 token。通过这个 sampling 的方式, sample token 的过程其实是信息量增加的过程,熵也是一个减少的过程。

所以通过首先有图像,然后不断 sample 语言 token 带来信息量增加的过程,最终做决策时是通过图像信息辅以语言 sample 之后的信息,共同做出决策。理论上比只用图像做决策会更好。 VLA 是利用了语言的预训练能力和推理能力,进一步增强了决策过程。

DeepTech:我看到过一些自动驾驶 demo ,会把思考逻辑打在车机屏幕上。在我们看来,它相当于是一个相对滞后的决策逻辑。在语言生成推理逻辑时已经拐过去了,推理逻辑才到屏幕上。这个过程能够被打断吗?或者执行过程中能够沟通吗?

陈龙:这是个很好的问题。现在 VLA 的框架还没有发展到特别成熟、特别拟人的阶段。现在市面上有些产品可能会显示思考过程,但显示这个过程可能已经是几秒前的,做决策时确实利用到了,不管是做 CoT (思维链) 还是描述场景来做决策。但这些显示的信息可能更多是为了展示智能化,对整个自驾体验没有特别大影响。

我觉得最终的 VLA ,思考过程可能并不需要用这么口语化的文字来描述场景和做推理,因为这些口语化的词是很冗余的。最终的 VLA 可能更类似人脑的思考方式,我可能不需要说出来也可以去思考,甚至可以利用更简短的token ,甚至是一些隐式的 token 来做思考。这样会更高效,不需要输出很长的思维链,只需要输出一些精简的 token 就可以最终做决策。而且自驾是一个实时要求比较高的系统,不可能接受你sample 这么多 token 最终做出决策。

DeepTech:所以也很难中途打断,比如像现在告诉司机一样说“前面右拐”?

陈龙:对,现在 VLA 范式是没有这个打断功能的,只能是你说出指令之后再重新执行理解指令语义的过程。

五、机器人对语言的要求更高

DeepTech:在机器人上呢?

穆尧:机器人的 VLA 非常难。大部分机器人 VLA 的训练都是以一个 well pre-trained (预训练好的)的 VL model ,然后后面接 expert(专家模型) 。以目前最著名的 Physical Intelligence提出的 π 系列为例,前面是 Google 提出来的 PaLM (一种大语言模型) ,是一个 well pre-trained 的视觉语言模型,后面接了一个以 flow matching(流匹配)为原理的 action expert(动作专家)网络。

本质上机器人对 language 的要求非常高。首先,机器人要做任务拆解。自动驾驶可能就是按照固定的期望路线安全行走、不发生碰撞、到达目的地就可以了。但机器人比如听到人类的指令“请你帮我做一杯咖啡” ,要具体到动作原语 —— 拿出什么东西、放下什么东西、打开什么东西、把什么东西从左边挪到右边。机器人需要把人类非常抽象的指令分解成动作原语级别,然后每个原语作为一个 language condition (语言条件)去输出对应的 action 。从这个角度来说, language 对机器人意义非常大。

VLA 大部分是 3B 左右的,比较大的会有 7B、 8B 的,但目前还没有看到13B 的。所以我觉得它算是一个比较大的“小脑”,可能还没到“大脑”的 level 。但关于机器人大脑的研究也非常多,以视觉语言为主的大脑研究,大家会做更长程任务的推理。大家对机器人的期待是人类都不用说话,机器人通过视觉观察能做逻辑推理——你当前是什么状态,是不是疲惫了、是不是渴了,疲惫困了我给你端来一杯咖啡。所以在机器人这端, language 起到非常重要的作用。

DeepTech:我们聊机器人时往往会聊“大脑”和“本体”。像宇树做本体,很多实验室或公司专注做大脑,只要采购到强的本体就可以了。你刚才提到研究大脑用到的模型参数量都更大, VLA 是不是把大脑和本体都统一到一个模型里面了?

穆尧:VLA 实际上兼顾了一些大脑的能力,比较简单的逻辑推理是可以做的,比如 pick and place(拾取和放置) 这些简单任务。更大更复杂的推理可能还需要更大的大脑。目前一个比较主流的范式是端云协同,大脑跑在云端,一个稍微小一点的模型跑在端侧或边端,最底层比如人形机器人的运动控制属于纯小脑,也跑在端侧。

DeepTech:相当于 VLA 模型部署在本体上,还有一个更大模型的大脑在云端?

穆尧:对,目前这一块业界解决方案没有特别好。能在端侧芯片部署 VLA 模型的板子也不是很多,大家可能更多是以比如 4090 的服务器来做,属于边端。

DeepTech:所以在机器人的控制中,目前还是大脑和本体分离的状态。

穆尧:13B 以上的大脑一般都是跑在云端的。

六、自动驾驶与机器人能共用一套底座模型吗?

DeepTech:我们看到很多报道说机器人和自动驾驶能共用一套底座模型。小米也刚开源了打通自动驾驶和具身的基础模型。这两者之间有哪些挑战?技术上有哪些解决思路?

陈龙:肯定有很多挑战。本质上我们想要解决一个跨本体的问题。人类不管是在家做家务、操作物体,还是在室外开车,是用一个大脑做这些不同行为的。我们认为最终不管是具身、自驾还是其他任务,都要共用一个大脑模型。这样我们的大脑模型才具有很强的对世界的认知能力,而且统一的模型可能使任务的连续性更好。

我们前段时间发布了一些探索性工作,叫 MiMo Embodied ,和小米集团的 MiMo 模型团队一起做了一些具身大脑的探索。本质上是使用自驾数据和机器人数据,进行融合,通过分阶段训练:第一阶段加入很多空间智能数据,让它学习空间感知和空间推理能力;第二阶段放入自驾和具身的专有数据;第三阶段通过 CoT 微调;第四阶段使用强化学习微调。

通过这四阶段训练,我们发现自驾和机器人的数据是可以融合的。它们共有的能力,也就是空间感知和空间推理能力,是可以互相加强的。一个是室内数据(具身操作) ,一个是室外数据(自驾场景) ,如果训练得好是可以互相增强的。这也是我们前期具身基座模型的探索。

这是比较大的模型,大概 7B 。 7B 的模型尺寸在端侧也不能完全部署,而且需要使用很长的思维链方式进行推理,最终可能是一个云端模型。

七、数据问题:自动驾驶 vs 机器人

DeepTech:陈龙聊到数据问题。我感觉自动驾驶数据可能更好获取,机器人数据更难获取,是这样吗?

穆尧:是的,这也是具身智能行业和自动驾驶产业一个根本性的区别。自动驾驶产业所有跑在路上的车都可以回流作为专家数据,当然要经过大量清洗,但每天可以回流上亿条数据。而具身智能把所有开源的闭源的加在一起,可能也没有 1 亿条数据,数据体量差距很大。

所以具身智能学术界和工业界想了各种办法,包括仿真合成数据,包括用人类更便携的方案比如 UMI 这样的手持式设备采集,本质上都是希望以廉价成本 scale up (扩展) 数据。但核心困境还是需要人主动去收集,没有一个自动的飞轮。我们很期待在某一个产线、某一个商业场景下的机器人真正能 24 小时转起来,这样就可以产生源源不断的数据飞轮。自动驾驶天然就有这样的优势。但我觉得大概两年之内,具身也会有一个初步的数据飞轮出来。

DeepTech:数据方面前期调研时,我看到穆尧有“人 - 数字人 - 机器人”一体的架构,也是为了解决数据问题吗?

穆尧:对,核心就是解决数据问题。人类数据是最本质的,所有机器人都应该向人学习,而且人的数据最廉价、最容易收集——戴个 AI 眼镜,或者头顶上绑个相机就可以采集。但人和机器人确实 gap(鸿沟)比较大,所以我们提出 “人 - 数字人 - 机器人” 的三位一体管线,希望搭建好从人的行为到机器人行为的调节,把人的数据利用效率大大提升,并且为仿真合成数据注入人类丰富的行为信息,使行为多样性有显著提高。

DeepTech:机器人和自动驾驶数据的 gap ,陈龙怎么解决?

陈龙:穆尧说得非常好。自驾因为汽车本身是很好的产品,用户会去开车,所以采集数据更方便,每天会有很多数据传上来。而且数据多样性非常好,全国不同省份都有人在开小米汽车。

具身的问题是现在没有成熟的产品在用户侧使用,没有数据飞轮效应。现在大家都是自己建采集场或小规模采集数据,不管数量还是多样性都非常有限。现在有很多人用合成数据来增强真实数据的不足,但本质上量和多样性都跟自驾差得很远。所以为什么 VLA 这么火,其实也是利用了 VLA 的泛化性来解决数据缺少的问题。

当你有了一个很强的 VLA 模型,可能真正需要的数据就不需要那么多了。打个比方,如果你教人一个新任务,不需要很多数据,可能只需要几条 demonstration (演示) ,人就可以学习出这个任务具体应该怎么做。所以当VLA 模型做得非常好,它的泛化能力和三种模态的 grounding (接地) 做得非常好时,可能并不需要特别多的数据,只需要几条演示数据就可以把任务做得非常好。数据少的时候,模型侧可以做更多优化来弥补。

DeepTech:这两部分数据的融合,穆尧怎么看?

穆尧:这两部分数据有 gap 。机器人的数据聚焦点主要在操作台上面, focus 一些非常小的物体。自动驾驶可能关注的更多是路况、行人、红绿灯这样的信息。

但两者的交汇点是 World Model (世界模型) ,这是一个非常好的交汇面。一个通用的对未来数据的推演,自动驾驶的能力能够为机器人赋能。因为机器人也需要导航,也需要 mobile manipulation (移动操作) 或 locomotion (运动) 。自动驾驶的数据能为机器人提供的服务是空间理解和推理——知道这个车往前走一段,视野会变成什么样,近大远小这些 common sense(常识)是可以获取到的,这种基础知识对机器人学习有很大帮助。

当然二者的 attention 和 focus 各有侧重。自动驾驶会跟车道线、红绿灯、行人、车辆的 feature(特征)更相关;具身可能 focus 在一些具体的起草物体的交互。所以在设计网络时,要能让它们共有的知识得到促进作用,并且有效分离开。对应的网络结构设计也是比较需要的。

八、安全性问题:如何保证 VLA 不出错?

DeepTech:不管自动驾驶还是机器人和人的交互,都有一个绕不开的话题 —— 安全性。我们都知道语言模型有幻觉问题。在电脑上和大模型交互时,错了我们人为改正就行了。但在自动驾驶和机器人的交互过程中,穆尧也提到工业上还做不到四个九。在这个安全性极高的场景里, VLA 是如何保证它既有泛化能力,又能解决长尾问题,同时又不会出错的?

穆尧:我能想到的路径主要是强化学习。安全分两块:一块是意识层面的安全,不能做出伤害人类的行为、危险的行为;另一块是行为动作上的安全,也就是 safety (安全性) 。

在意识层面上,大模型包括 LLM (大语言模型) 的安全对齐主要通过强化学习来做。对于操作的精准度、不能发生碰撞等安全性问题,强化学习也是非常好的手段。我们有一篇 paper 叫 Simple VL-RL ,首次在一些标准 benchmark 上达到了两个 99% 的精度。离工业四个九还稍微远一点,但已经看到很大的曙光,强化学习确实在这一块能带来比较好的性能提升。

DeepTech:陈龙有什么看法?

陈龙:自驾还是不太一样的。具身你是可以试错的,不仅能在虚拟环境中做强化,在真实世界中也可以做强化学习。自驾毕竟安全性是第一位的,更多的是从系统层面上做安全性冗余。大模型可能会有幻觉问题,纯模型可能都会有不可预测的问题。在自驾安全性要求这么高的环境下,肯定需要很多不同的网络做兜底。

比如在运行 VLA 的时候,我们可能还有另一套网络,比如传统的感知和规控网络不断做 safety check(安全检查) ,做一些简单的安全性检测,比如未来几秒会不会碰撞、会不会有风险。这类传统算法稳定性都非常好,当我们检测到有风险时,可能会用其他模型来做安全操作。

DeepTech:相当于有一个校验过程或安全兜底的过程?

陈龙:是的,在自驾安全性要求这么高的情况下,肯定需要安全兜底。

九、实时性问题: VLA 的延迟怎么解决?

DeepTech:另一个我比较关心的点是,如果加入语言的决策逻辑,我们都知道像 DeepSeek 在思考过程中是非常慢的。模型在调用过程中还是有时间响应上的问题。这个问题在自动驾驶和机器人上怎么解决?现在能做到多少毫秒的响应?

陈龙:自动驾驶不仅要求安全性高,对实时的要求也非常高。最少要到 10 赫兹的级别,每秒要做十次决策才能做一些比较快的响应,比如紧急情况下的响应。所以我认为 VLA 模型在自驾上可能还需要一些范式上的转变。

现在有所谓的 “双系统” , VLA 作为一个慢通路,还有另一个快系统,可能是端到端模型或其他模型。大语言模型和端到端模型可以运行在不同频率上 —— 大模型可能每秒做一次决策,做比较深度的思考;端到端模型可能运行在十赫兹,做快速响应。但这类方式有个通病:大模型的决策和端到端怎么结合,是比较困难的问题。

另一端是 VLA 本身,往往我可能每一帧都要做一个 CoT 的思考,或者比较高级的是知道什么时候要做 CoT 思考,但这还是有问题。因为当你需要 CoT 思考时,可能是比较紧急的情况,但这时候做很多 CoT 思考,最终做决策的时间就会很长,可能导致安全性问题。

所以不管是双系统还是一端式 VLA 都是两个极端,要不然思考时间过长,要不然双系统区分得太明显。肯定之后会有比较中间的方案。因为人类开车时也是在不断思考,边开车边思考,有时候思考的东西可能跟开车没关系,你可能会走神,但这时候有时候你也可以安全地开车。

最终需要另一种范式转变,更灵活、更紧密、更解耦的双系统结合方式,需要在网络上面做一些探索。

DeepTech:你提到这个我也有感触。平时开车时如果车比较少,很容易走神,不需要调动特别高的思考能力;但堵车或想超车时,肯定要全神贯注,可能调用了更多的思考能力。

陈龙:对,或者在紧急情况下,你可能来不及思考,可以通过直觉系统来做出决策。

DeepTech:语言响应延时的问题,穆尧怎么解决或有什么看法?

穆尧:对具身来说,更重要的是 action 的延迟。对于语言,你问它一句话,等一会儿也没什么太大问题,而且完全可以变成并行或异步的部分,当对身体没有明显指令时,完全可以云端处理。

对于需要 VLA 都做推理的任务,实时要求还是比较重要的。像陈龙说的十赫兹,机器人也需要十赫兹以上的推理频率。一个比较好的方案是异步推理,像 Dexterous AI 提出的执行和推理是异步的,没推完的接着推,但该执行的去执行,构建一个异步的 system (系统) 来做。

包括推理也可以并行化,特别是如果有云端加持,完全可以做并行化,根据任务是否有依赖性来完成是否并行的处理。

DeepTech:你刚才提到本体的实时,是目前机器人更大的问题吗?

穆尧:不是本体的实时,而是 VLA 从输入图像到输出action 开始执行这段时间,是推理时间。因为模型比较大,会比较慢。3B 的模型差不多将将满足十几赫兹的要求。

DeepTech:执行效率会比传统方式要慢一些吗?

穆尧:也有很丝滑的,不能一概而论。正常一个 3B 模型4090 上部署,响应频率差不多 15 赫兹左右。但有很多方法,比如模型轻量化、工程优化,可以使它变得更丝滑。包括插值,可以使真正的本体执行频率很高,甚至可以达到 200 赫兹。像 Figure AI 就号称执行频率是 200 赫兹,但实际上是插值之后的,插值之前其实和大家差不多。

所以有很多工程手段去解决。但更关键的是影响动作最终做出来丝不丝滑、哆嗦不哆嗦、成功率高不高的本质上的控制频率,还是由VLA 看到图像然后出 action 这段时间来决定的。

十、思考与执行可以并行

DeepTech:我综合两位的观点,能感觉到它的思考链是一条链路,而执行的过程不一定等思考全部完成了之后再执行。思考链可能会非常长或非常连续,而执行过程在某一个阶段就可以开始执行了。这样在我们体感上,延迟就不会像现在用大语言模型看它思考那么长时间才能给出结果。

这就会面临另一个问题:执行过程中,比如自动驾驶一直在开车,思考一直在进行,一直有 token 产出;机器人执行过程中也是这样。 Transformer 都会面临遗忘的问题,过去不管多长的文本模型都会有遗忘。遗忘的问题对自动驾驶和机器人会是问题吗,包括训练时遗忘与执行时遗忘。

陈龙:训练时更多的是通用能力有一些灾难性遗忘的行为。现在 VLA 如果在实验室做小规模 finetune(微调) ,可能并没有很大规模的预训练能力,做完 VLA 训练后通用能力就会有一定缺失,遗忘了很多通用知识,模型就变成一个专有的自驾或具身模型了,通用能力几乎就没有了。

举个简单例子,如果你做很小规模的微调,问它一些通用知识比如“一加一等于几”,它会回答一些无关的东西,比如“前面有一辆车”。所以训练时要解决遗忘问题,更多的是要把很多数据加入预训练阶段。预训练时不仅学习通用知识,也学习到自动驾驶或机器人的知识。

推理时更多的是 context window(上下文窗口) 的问题。当延时要求非常高时, context(上下文) 不能堆得特别长,肯定要做一些选择。但现在有很多大模型技巧,比如 linear attention(线性注意力机制) ,可以把 context window 做得非常长,但延时也不会变得特别高。还有可以做 context 的压缩和总结。

你不需要把之前所有信息都加入 context ,只需要把关键信息加入。比如在路口选择了往哪边走,这些关键信息可以加入历史 context ;而一些无关紧要的信息比如现在执行开了多少米,这些信息其实不是特别关键,可以忽略掉。所以最终 VLA 的形态肯定类似人,更加智能,可以记忆比较关键的信息,无关紧要的信息不需要做历史记忆。

DeepTech:在机器人领域呢?

穆尧:在机器人领域一般有两大类方法。一类是用 neural (神经) 的方式,就是刚才陈龙讲的压缩方式, embed (嵌入) 出来一些关于 memory (记忆) 的 token ,然后当前的观测视觉和语言的 token 去 query (查询) 这个 memory bank (记忆库) 里面的 memory token (记忆令牌) , query 出来一些 historical token (历史令牌) 作为 VLA 的 prompt (提示词) 。

另一类是显性的总结,有一个额外的 agent system。举个例子,机器人里很简单的一个任务但非常需要 memory ,就是“click the bell(按铃)”,在桌子上需要按响一个铃。当我的机械臂悬空到这个铃之间的位置时,我只靠单帧的图像根本不知道我是已经按完这个铃了,还是还没有按它要去按它,还是已经按完要回退。所以这里面就需要 memory 。

一种方式是 embedding(嵌入)的方式;另一种是显式summary(总结) ,用 VL 的 language 去 summary 一下,比如“我当前已经按过它了,现在是回退状态”。相当于做了一个 CoT ,随着CoT 把一些重要的信息以文字形式总结下来,作为后面的输入。一种是隐式的,一种是显式的,都是 prompt 的形式。

DeepTech:如果是更多的记忆,机器人在执行过程中也不需要记忆非常多的信息。

穆尧:其实执行只跟当前有关系,当前任务几个工具。它做过的其他任务,知识是藏在权重里面的,那是学习训练的时候。

DeepTech:也就是说执行当前任务时,并不需要关注之前做了什么任务。

十一、世界模型与空间智能:争论还是融合?

DeepTech:我们聊了很多技术上的问题。我在做前期调研时也看到很多开放性的探讨,比如最近比较火的世界模型、空间智能和大语言模型的争论,好几个大佬都在聊空间智能的问题。两位怎么看?

穆尧:我觉得空间智能和语言好像没有什么太多可争论的,它们两个都非常重要。对机器人来说,因为具身智能本身就是计算机视觉、自然语言处理、 机器人本体、控制理论几大交叉学科于一体的方向。对于具身智能机器人,空间认知感知能力和语言模型的推理能力都是非常重要的两个部分。

对于空间来讲, World Model 就像刚刚提到的,是非常好的方式来做具身智能的预训练。为什么呢?因为视频或图像是最丰富的一种形式,人类世界当中有无数人做各种任务的视频,包括自动驾驶的任务 —— 往前走、往后退,形成对世界的三维空间认知,知道走近之后的视野会变成什么样、走远之后的视野会变成什么样。

而且 World Model 天然可以把机器人和自动驾驶的 world model 放在一块训,完全没有问题。数据格式是统一的,不像 VLA 的话,机器人的 pose(姿态)、action 信息和汽车的方向盘转角、油门开度是完全不一样的。

所以 World Model 是一种更通用的对于空间推理的手段。特别是预测未来帧也好、预测未来的隐藏状态也好,它都是一种通用的、面向全模态所有本体的空间推理预训练的非常有效范式,真正能把所有数据源有效调动起来去训练一个 foundation (基座)的手段。这一块我相信目前学术界和工业界给予了非常大关注,在大家努力下也会有很多 promising (有前景的)的成果出来。

DeepTech:所以空间智能其实也抛弃不了语言的环节。

穆尧:对,语言也很重要。自动驾驶里向左转、向右转是完全不一样的。

陈龙:我觉得 World Model 和 VLA 解决的是不同的问题。像穆尧讲的, World Model 是通过对下一帧图像或下一个状态的预测,学习到这个世界上的一些本质,比如这个车未来应该如何运动,通过学习预测的能力学习到一些世界本质上的物理规律。

VLA 更多的是学习到一些 high level (高层级) 的人类规则,通过互联网上的文字训练学习到人类对这个世界的定义,包括人类的价值观,以及很强的通过文字的推理能力。

World Model 这个 low level(低层级)的预测能力和 VLA 这个 high level 文字推理的能力,本质不冲突,是可以互相结合的。现在也有很多研究在把这两个不同的能力给它结合起来,形成一个更好的模型,既能预测未来的图像,也有视觉语言的能力用语言做推理。我觉得最终肯定要把这两种能力融合。

DeepTech:目前讨论比较热烈,我感觉更多是语言模型因为只聚焦于语言,很难把世界模型加入进来。加入实践模型之后,这两个模型最终会路线收敛,有相互交叉、相互补齐。

十二、如何看待对 VLA 技术的质疑?

DeepTech:另外还有一个相对尖锐的问题。前段时间在世界机器人大会上,王兴兴比较质疑 VLA 技术。你们怎么看这个问题?

穆尧:我觉得观点的不同主要是因为从不同的角度。从我们做研究的角度, VLA看到了很大的机会,所以需要投入。但我相信所有 VLA 的研究者都会坦诚承认,目前达不到工业上四个九的要求。但它是不是promising 的?我觉得是 promising 的。

王总的观点可能是因为他们做本体,要求非常严格的安全性、准确率、效率。宇树的机器人踹多少脚都不倒,可以做非常复杂的运动。我觉得本身技术就是我们在不同路线上去做,会有一个交汇点。 VLA 很多能力也是受限于本体,比如有些机械臂和灵巧手它就很笨拙,效率跟人是没办法比的。

我觉得也很好,大家努力的方向有从不断完善本体的易用度、可靠性、成本的,我们这边做 VLA 对大多数公司来说属于一个预研的项目。当两方技术逐渐交叠,整个具身智能是一个软硬件协同发展的系统。当软硬件真正发生碰撞在一起的时候,大家的看法都会改变,也都会有新的共识。

像现在来看有一些比较好的 demo,像字节发出来的 VLA 能够去穿鞋带。这个在我当时读博士的时候,实验室还讨论过这个任务,当时我们认为谁要是能做一个这个,可以说是一个很惊动的话题。但现在已经被实现了,技术发展确实很快。

2024 年的时候,基本上人形机器人都是跌跌撞撞的,上个楼都费劲。现在其实已经起飞了,你看它做很多复杂的动作都可以做。 VLA 这一块,像叠衣服现在甚至都说是具身公司的一个“MNIST(手写数字数据集)” ,就相当于图像识别里面最简单的数字,哪家都能叠衣服了。但 2024 年是不可想象的,那时候抓苹果都费劲。整整只过了一年,就是天翻地覆的变化。我觉得很快随着软硬件的交汇,我们会有一些更新的共识出来。

陈龙:当一个技术刚兴起的时候,会有一个类似于新兴技术的曲线。刚开始大家把热度炒得特别高,会有很多demo出现。后来发现可能对它期待太高,没有实现人类的期待,这个技术又会跌到谷底。慢慢经过几年发展,才最终达到很好用的状态。

我是一个比较长期主义的人。现在 VLA 可能确实有很多问题,不管是效率还是幻觉问题,虽然它泛化性很好,但最终的成功率可能并没有达到人类的期待。但我觉得不应该因为它现在的问题来全盘否定这个技术,更多的是看到这个技术的潜力,包括它未来的发展方向。

我觉得 VLA 是现阶段最能实现物理世界 AGI 的一个框架。语言也是人类这么多年智慧结晶的体现,互联网上这么多数据融合了人类的很多智慧。最终语言肯定是智能的一个很大的模态,是必不可少的。 VLA 这个架构可能也是最终通往 AGI 必不可少的一个框架。虽然它的网络结构比如 transformer 可能并不是最终理想的架构,但语言这个模态我觉得肯定是一个终局。

不管是物理世界的 AGI 还是 AGI ,我觉得都需要语言这个能力。所以不能因为 VLA 现在有很多问题来否定这项技术。而且 VLA 还有世界模型可能太容易理解了,现在有很多人利用自己对它的理解来做一些推演,来否定这项技术。还是应该真正务实一点,把 VLA 以及世界模型这些技术的底层技术做好,最终才能共同促进这些行业的发展。

DeepTech:因为这个技术原理在大众看来相对简单,但技术实现上是非常难的。或者说 transformer 的架构只要研究一段时间都能理解,但具体实现就很难。VLA 也是一样的,技术原理和逻辑相对简单,但每个人对这个技术的理解不一样,在发展过程中面临的问题的解决方案不一样,跨越某项技术鸿沟的难度和时间也不一样。随着技术发展,这些问题都能一步一步慢慢解决。

排版:olivia

  •  

寒武纪时期的鱼竟有四只眼睛,自带全景视觉系统

作者胡巍巍

近日,云南大学研究员丛培允团队在 Nature 发表了开年论文,他们在云南发现了保存完好的寒武纪早期鱼类化石,并发现这些生物竟然长着四只真正的眼睛。

(来源:Nature)

具体来说,他们在云南澄江化石地里发现了两种最古老的脊椎动物化石:海口鱼和某种昆明鱼。这些只有几厘米长的小生物生活在距今 5.18 亿年前的海洋中。通过高倍电子显微镜观察,研究人员在它们的头部发现了四个明显的黑色斑点。

(来源:Nature)

你可能听说过有些蜥蜴有第三只眼睛,但是寒武纪的这些小鱼竟然有两对功能完整的眼睛。一对较大的眼睛长在头部两侧,就像现代鱼类一样。另一对较小的眼睛则位于头部正上方,排列在中间位置。这种独特的布局让这些远古生物几乎拥有 360° 的全景视野。

(来源:Nature)

当这条小鱼在远古海洋中游动时,侧面的眼睛负责观察前方和两侧的景物,而头顶的眼睛则专门负责监视上方的动静。这种视觉系统就像在头部安装了四个高清摄像头,让它们能够及时发现来自各个方向的危险。在充满掠食者的寒武纪海洋里,这种能力无疑是生存的重要保障。

而针对上述黑色斑点进行化学成分分析之后,确认里面含有丰富的黑色素,并观察到了保存完好的黑色素体,对于这些微小的结构来说,它们也存在于现代动物眼睛之中,主要负责吸收多余的光线。而在每个黑色斑点的中央,研究团队都发现了一个椭圆形的水晶体结构,这证明这些古老的鱼不仅可以感光,还可以像现代相机一样形成清晰的图像。

(来源:Nature)

为何现代的大多数脊椎动物只有两只眼睛,而这些鱼却有四只眼睛呢?本次研究指出,这四只眼睛事实上有着共同的起源。在胚胎发育的过程中,它们其实是来自脑部前端的同一组细胞。随着时间的拉长,在同一条进化道路上,不同种类的动物却做出了不一样的选择。

对于七鳃鳗等原始鱼类来说,它们仍然保留着一定的第三只眼睛功能。而大多数哺乳动物头顶的眼睛则有着不同的命运,它们完全退化成为了负责生物钟调节的松果体。这种变化也反映了生物从被动防御到主动捕食的生存方式上的变化。渐渐地,当这些鱼从猎物摇身一变成为猎人的时候,由于深度视觉和立体视觉的需求的增加,使得头顶的眼睛逐渐变得不再重要,这大概也是用进废退法则在古生物上的体现。

(来源:Nature)

五亿年前的寒武纪是生命大爆发的时期,海洋中突然出现了各种各样的生物。与此同时,这个时期也是掠食者与猎物之间疯狂竞赛的开端。彼时,海洋中甚至生存着长达一两米的巨型掠食物比如奇虾和鳃曳动物,它们无一例外都长有复杂的视觉系统。

在面对这些庞然大物的时候,本次研究中的鱼可能只能依靠视觉来躲避危险。本次研究中的化石证据显示,它们经常成群成群地出现,事实上这可能是一种古老的群体防御行为,就像今天的沙丁鱼群一样,数量本身可能就是最好的保护。

就本次研究中的小鱼来说,四只眼睛可以提供 360° 全方位的视野,再加上群体生活智慧的加持,让这些柔弱的小生物在危险的远古海洋中找到了专属的生存之道。

就研究意义来说,本次成果或将改写人类对于视觉进化历史的认识,能够为仿生视觉技术的创新提供新的灵感。如若现代机器人也能像这些远古小鱼一样拥有全景视觉,也许可以带来更多的技术革新。它对于当代科技的启示在于,通过解析四眼视觉系统的工作原理,或可将其借鉴到AI技术和机器人技术之中。

譬如,自动驾驶汽车可以借鉴这种小鱼的全景视觉概念,利用多个摄像头的协同工作来实现 360° 无死角的环境情况感知。再譬如,在医疗领域人们正在开发仿生眼睛,旨在帮助视觉障碍者重见光明,而基于本次成果来理解原始生物的眼睛工作原理,能够为设计更加高效的人工视觉系统带来参考。毕竟,自然界历经五亿年打磨的智慧方案,往往会比人类专家的初版方案要精妙得多。

此外,这一成果也将为古生物学界带来新的思考,例如可以通过重新审视其他化石标本,来寻找更多四眼动物的证据。同时,基因学家也可以探索如何去控制眼睛发育的基因网络,看看为何有些眼睛退化,而有些眼睛保留了遗传密码,最终这些都将帮助人类更多地还原生命演化的完整图景。

参考资料:

1.https://www.nature.com/articles/s41586-025-09966-0

排版:olivia

  •  

只有传统模型的1/20,华人团队打造生物AI架构师,助力生物AI更懂生命语言

作者胡巍巍

近日,美国弗吉尼亚理工大学博士生方燚和所在团队开发出一款名为 BIOARC 的智能系统,能够自动设计出来最适合处理生物数据的神经网络模型。简而言之,它是生物学自己的 AI 建筑师,能够设计出来真正理解生物密码的模型结构。

它的核心思想是:无需依靠人工猜测,而是让 AI 自己探索成千上万的不同的模型结构,从中找出来最适合处理某类生物数据的那一个。

图 | 方燚(来源:方燚)

方燚告诉 DeepTech:“BIOARC 仅需相当于传统 Transformer 模型约二十分之一的参数量,即可实现更好的性能。从创新性角度看,这可能是首次采用数据驱动的方式,系统探索并确定适用于生物序列建模的最优架构。以往的设计多基于直觉和经验,而我们首次实现了通过自动化搜索来发现高效架构。”

那么,BIOARC 是怎么做到的?我们都知道假如一名人类设计师要设计一栋房子,那么至少在设计师的草图上,房间的大小、位置和连接方式都可以变化。BIOARC 也是这样,它可以把 AI 模型拆为几种基础的板块。

第一个板块是卷积神经网络,其非常擅长捕捉局部特征,就像放大镜一样可以看清楚 DNA 上的片段模式;第二个板块是 Transformer,其非常擅长理解长远距离的关联,就像望远镜一样可以看清楚基因中相隔很远的区域是如何互动的;第三个板块是 Hyena 和 Mamba,它们是两种比较新的模型,能够更加高效地处理超长序列。

BIOARC 所使用的模型比当前流行的大型生物 AI 模型要小很多,但是表现却更加优秀。在一些 DNA 任务上,BIOARC 模型的大小只有传统模型的二十分之一,但是效果却能得到显著提升。这说明:不是模型越大越好,而是结构越合适越好。

比如,在处理 DNA 序列的时候,BIOARC 发现高性能模型常常呈现出一种三层结构:先使用 Hyena 块捕捉长距离关系,再使用 Transformer 块理解复杂上下文,最后使用卷积神经网络块来提取关键局部特征。这种组合就像先观看整幅地图,再分析重要区域,最后聚焦的关键地标,一步步地理解整个序列的能力。

BIOARC 不仅能够设计模型,还可以充当顾问的角色。科学家们经常面临新的任务:比如分析某种病毒的 RNA,或者预测某个罕见蛋白质的结构。以前,他们得自己尝试很多模型,不仅费时而且费力。现在,他们只需要把任务描述输入 BIOARC 系统,它就能从知识库中找到类似的任务,并推荐之前表现最好的几种模型结构,从而可以大大节约研究时间和实验时间。

同时,BIOARC 内部还有一个智能助理系统,能够理解那些科学家使用自然语言描述的任务,然后进行语义匹配,而非只进行简单的关键词搜索。这意味着即使你描述得不太专业,它也能明白你的需求,并能找到最相关的历史案例和模型方案。

(来源:https://arxiv.org/abs/2512.00283)

我们当前使用的 AI 大多使用的是 Transforme 模型,它最初是为处理人类语言而设计的。但是,生物数据比如 DNA 序列或蛋白质结构,和人类语言是完全不同的。前者不像句子那样有着明确的单词和语法,而是由一系列化学密码组成,其间隐藏着复杂的空间结构和远程关联、

举个简单的例子,在英文句子中单词“猫”后面常接“抓老鼠”,这种关系是局部的和有顺序的。但是,在 DNA 中一个基因的启动区域可能和几千个碱基意外的另一个区域发生相互影响之后,才可以启动生命活动。如果直接使用处理语言的 AI 模型去读 DNA,就像使用英文语法去理解一段音乐乐谱一样,虽然都是符号,但是规则完全不同,效果自然也就不好。

(来源:https://arxiv.org/abs/2512.00283)

而本次技术则具有广泛的应用前景。任何涉及蛋白质或 DNA 序列分析的场景都可能受益,例如对特定物种的 DNA 进行分类,或预测蛋白质结构。此外,由于此次发现的架构具有一定可解释性,未来亦有望帮助揭示更多潜在的生物学规律。

谈及本次技术和 AlphaFold 等已有工具的关系,方燚表示:“AlphaFold 属于生成式模型,需将序列映射到潜空间进行结构生成。我们的工作则能帮助构建更优的序列编码器,从而更有效地将蛋白质或 DNA 映射到统一的表征空间中,与现有工具形成功能上的互补与增强。”

(来源:https://arxiv.org/abs/2512.00283)

他继续说道:“关于后续研究计划,我们希望将当前方法拓展到更多模态上。目前工作集中于 DNA 和蛋白质序列,下一步计划将其应用于基因表达值序列等数据类型。另一个方向是,当前研究主要针对单模态架构,未来我们也将探索多模态架构,例如在同一模型中处理多种数据类型,并研究不同模态间是否存在最优的架构组合方式。”

参考资料:

相关论文 https://arxiv.org/abs/2512.00283

运营/排版:何晨龙

  •  

木头姐年度重磅报告:五大平台融合,引爆全球经济的“大加速”时代

作者落花

作为全球科技投资的风向标,ARK Invest 连续第十年发布了年度旗舰报告——《Big Ideas 2026》。

与 2025 年的报告相比,今年的报告更突出技术平台的相互催化效应。

报告开篇即以“The Great Acceleration”(大加速)作为核心框架,强调五大创新平台——AI、公有区块链、机器人、能源存储和多组学——的相互依赖性日益增强。不同于以往孤立发展,这些平台正形成网络效应:当一个平台的性能提升时,会解锁另一个平台的新能力。例如,可重复使用火箭将 AI 芯片送入轨道,助力下一代云计算规模化;多组学数据通过数字钱包授权,驱动神经网络研发精准疗法。

(来源:ARK Invest)

这种融合并非简单叠加,而是通过技术融合网络强度量化体现,2025 年该指标同比提升 35%,其中 AI 仍是关键使能者,机器人技术的催化作用在 2025 年首次凸显,成为技术协同的关键纽带。

(来源:ARK Invest)

报告提出,技术融合将推动全球经济进入前所未有的投资周期,核心影响体现在三方面:

第一,仅以上颠覆性创新平台的资本投资,就能为 2026-2035 年全球年化实际 GDP 增长贡献 1.9 个百分点,若叠加技术落地后的生产率提升,如 AI 提高知识工作效率、机器人替代重复劳动,实际增速可能达到 7.3%,较共识预期高出 4 个百分点以上。

第二,以人形机器人为例,若 80% 美国家庭在 5 年内配备,单个家庭每年可推动 GDP 增长 6.2 万美元,9,000 万美国家庭合计可提升 GDP 近 6 万亿美元(约 20%),并使 GDP 增速从 2%-3% 升至 5%-6%。

第三,当前技术投资占 GDP 比重已接近 1998 年科技泡沫时期,但估值更理性,2025 年科技行业资本支出占 GDP 比重达 0.5%(与 1998 年持平),但 “Mag 6”(谷歌、苹果、亚马逊、Meta、微软、英伟达)的平均 PE 倍数仅为互联网泡沫时期的 1/3,凸显投资性价比。

AI 算力经济学:推理成本暴跌、代理经济崛起

作为报告中最核心的 “技术引擎”,AI 不仅作为五大创新平台的核心,还贯穿基础设施建设、消费者场景变革和生产力提升三大关键领域,并呈现 “成本暴跌、需求爆发、生态重构” 的特点。

ARK 数据显示,在过去一年中,部分企业级 AI 模型的推理成本下降了超过 99%,如 GPT-5 mini 从 3.5 美元/百万 tokens 降至 0.1 美元。这种指数级的成本下降,使得 AI 从昂贵的奢侈品变成了像电力一样廉价的基础资源。成本的崩塌直接引爆了需求,以 OpenRouter 为例,其算力需求自 2024 年 12 月以来增长了 25 倍。

为了支撑这一井喷的算力需求,全球数据中心系统的年度投资增速已从 ChatGPT 问世前的 5% 飙升至29%。ARK 预测,这一投资额将从 2025 年的约 5,000 亿美元,激增至 2030 年的 1.4 万亿美元。

(来源:ARK Invest)

但竞争格局依旧激烈,英伟达目前主导 GPU 市场(销售份额 85%,毛利率 75%),AMD 和谷歌在小模型推理领域追赶。随着 AI 负载从通用的模型训练大规模转向专用的模型推理,追求极致能效比将成为核心诉求。

ARK 预测,由 Broadcom 和 Amazon Annapurna Labs 等设计的 ASIC(专用集成电路)将逐渐蚕食通用 GPU 的市场份额,成为下一代数据中心的主力 。

基础设施的廉价化,为消费场景的革命性重构铺平了道路。互联网交互界面正在经历继 PC、智能手机之后的第四次跃迁——“代理时代”(Agentic Era)。未来的消费者将不再需要亲自在数十个 App 之间跳转、比价。AI 代理(AI Agents) 将拥有“手脚”,能够自主完成搜索、决策和交易。ARK 测算,AI 代理将把用户的购物流程耗时从互联网时代的数小时压缩至 90 秒左右。

(来源:ARK Invest)

ARK 预测,到 2030 年,AI 代理将促成约 8 万亿美元的在线消费,占全球在线总支出的 25%。这意味着,品牌商未来的核心客户可能不再是人类,而是代替人类决策的 AI。

传统的搜索引擎将面临降维打击。ARK 预计,到 2030 年,AI 搜索将从目前的 10% 份额激增至 65%。传统的搜索广告模式将被迫重构,无法适应这一变化的企业将被淘汰。

在生产力的一端,AI 正在以惊人的速度降低“智能”的边际成本,首先被颠覆的就是软件产业本身。报告披露了一组极具冲击力的数据,在 2025 年 4 月至 12 月的短短 8 个月内,AI 编写软件的成本下降了 91%,每百万 Token 的成本从 3.50 美元跌至 0.32 美元。

(来源:ARK Invest)

与此同时,AI 代理的能力也在飞速进化,其可靠完成长难任务的持续时间增长了 5 倍,从 6 分钟延长至 31 分钟。这意味着 AI 可以独立承担更复杂的项目级工作。

这种生产力的释放正在创造新的商业奇迹。像 Cursor 这样的 AI 原生编程工具公司,其年度经常性收入(ARR)在一年内实现了超过 1000% 的爆发式增长;通用 AI 平台中,OpenAI 年复合增长率达 250%,Anthropic 更是高达 850%,法律领域的 Harvey、医疗领域的 OpenEvidence,成立 3 年即达 1 亿美元 ARR。

(来源:ARK Invest)

随着 AI 增强知识工作者的能力,ARK 预测全球软件支出的年复合增长率将从过去十年的 14% 加速至未来五年的 19%-56%。这不仅是软件行业的红利,更是全要素生产率的一次历史性飞跃。

区块链三大方向:比特币、资产代币化与 DeFi 应用

在《Big Ideas 2026》的宏大叙事中,ARK Invest 将公共区块链定义为数字经济的“信任协议”与“价值层”。报告指出,区块链技术正在经历从投机实验到制度化应用的关键转折,并将在比特币、资产代币化(RWA)以及去中心化金融(DeFi)这三大方向上,彻底重构全球金融系统的运作逻辑。

报告认为,比特币正在完成其作为独立货币体系的“成人礼”。过去那种关于比特币是否会归零的质疑已基本消散,取而代之的是关于其在主要投资组合中应占多少权重的讨论。

随着现货 ETF 的获批以及像 MicroStrategy、特斯拉等上市公司甚至主权国家将其纳入资产负债表,比特币的持有结构发生了质变——2025 年,美国 ETF 和上市公司持有比特币占总供应量的 12%,其中 ETF 持仓增长 19.7%(至 129 万枚),上市公司持仓增长 73%(至 109 万枚)。

ARK 强调,比特币作为一种抗审查、去中心化且供应量固定的资产,正在成为对抗法币通胀和地缘政治风险的“避风港”。基于此,ARK 维持了极具野心的长期预测:在机构资金持续流入的推动下,比特币的市值在未来五年将以约 63% 的年复合增长率(CAGR)扩张,到 2030 年有望达到 16 万亿美元的规模,甚至悲观情景下也能达到 4-6 万亿美元。比特币不再仅仅是极客的玩具,它正在演变为全球金融体系中不可忽视的“锚”。

(来源:ARK Invest)

如果说比特币是“新钱”,那么资产代币化则是将“老钱”带入新世界。ARK 敏锐地指出,区块链最直接的商业价值在于将传统金融资产(如国债、房地产、私募股权)进行“链上确权”和流转。

这一变革的核心驱动力在于效率。通过代币化,传统资产可以实现 24/7 全天候交易、T+0 即时结算,并大幅降低对托管行和清算所等中介的依赖。报告预测,随着监管框架的清晰和基础设施的成熟,资产代币化的市场规模将从目前的起步阶段,爆发式增长至 2030 年的 11 万亿美元。这意味着,未来全球约 1.38% 的金融资产将直接运行在区块链网络之上,这将彻底释放那些原本流动性匮乏资产的价值,创造出一个无国界的高效资本市场。

(来源:ARK Invest )

在资产上链之后,交易规则的重构由去中心化金融(DeFi)完成。ARK 认为,智能合约平台(Smart Contract Platforms)正在演变为全球通用的“金融操作系统”。

与传统金融机构依靠不透明的信息差和高昂的中介费赚取利润不同,DeFi 通过代码自动执行合约,极大地压缩了交易成本并提高了透明度。这种模式正在从边缘走向主流,开始在借贷、交易、衍生品等领域实质性地抢占传统银行和交易所的份额。

2025 年,DeFi 应用收入达 380 亿美元,首次超过区块链网络收入(320 亿美元),Hyperliquid、Pump.fun 等平台年收入超 8 亿美元,其中 Hyperliquid 仅 15 名员工,2025 年创收 8 亿美元,人均收入 5,300 万美元,远超传统金融机构。

ARK 预测,随着 Layer 2 等扩容技术的成熟,智能合约平台将承载数万亿美元的经济活动,其总市值预计将以 54% 的年均增速增长,到 2030 年达到 6 万亿美元,并产生约 1,920 亿美元的年富余现金流。这标志着金融业将从基于人的信任向基于代码的信任进行不可逆的迁移。

多组学:开启主动治愈与长寿时代

多组学指同时研究塑造健康、疾病和寿命的多个生物层,包括基因组、表观组、RNA、蛋白质组、代谢组和数字健康数据。

在今年的报告中,多组学不再仅仅是生物技术的延续,而是被重新定义为 “AI 原生生物学”(AI-Native Biology)。如果说去年的焦点在于“降本”和“检测”,今年的核心则跃升为“数据爆发”与“主动治愈”。

一切变革的起点,在于生物数据获取成本的指数级崩塌。长期以来,生命就像一个无法被完全解析的“黑盒”。但随着基因测序技术沿着“赖特定律”飞速演进,全基因组测序的成本正在从数百美元向10美元的临界点俯冲。这种成本的断崖式下跌,直接引发了生物数据的“寒武纪大爆发”。

ARK 在报告中揭示了一个极具震撼力的趋势:2025 年分子诊断产生的生物 tokens 已达 150 万亿,是训练前沿大语言模型(15 万亿 tokens)的 10 倍;预计到 2030 年,分子诊断数据量将再增长 10 倍。未来的 AI 模型将不再仅仅依靠互联网上的文本喂养,而是开始吞噬海量的生命数据。生物学,正在变成 AI 最庞大、最复杂的“新语料库”。

(来源:ARK Invest)

当海量数据遇上强大的算力,药物研发的工业革命随之到来。长期以来,制药业受困于“十年十亿美元”的低效魔咒,即一款新药平均需要耗时 10 年以上、花费数十亿美元才能上市,且失败率极高。但 AI 正在改变这一算术题。

通过 AlphaFold 等工具预测蛋白质结构,结合生成式 AI 设计分子,药物开发流程正被彻底重塑。ARK 测算,AI 驱动的药物开发流程可以将新药上市时间缩短约 40%(从 13 年缩短至 8 年),同时将总研发成本降低约 4 倍(从 24 亿美元降至 7 亿美元),临床试验失败率从 7.6 次降至 1.9 次。

更重要的是,AI 能够大幅提升临床试验的成功率。ARK 预测,到 2030 年,约 30% 获批的诊断和医疗设备将由 AI 驱动,而这一比例最终将趋近于 100%。

在更深层的商业逻辑上,多组学正在推动医疗产业从“管理慢性病”向“提供一次性治愈”跨越。传统药企依赖于让患者终身服药来获取现金流,而基因编辑等精准疗法追求的是“一次给药,终身治愈”。ARK 的经济学模型显示,尽管一次性疗法的单价看似高昂,但其全生命周期的经济价值远超传统药物。

以遗传性血管性水肿(HAE)为例,如果所有美国患者采用一次性基因编辑治疗,节省的终身直接医疗成本将高达 520 亿美元;而在心血管疾病领域,针对高血脂的一次性疗法面对的是一个高达 2.8 万亿美元的潜在市场,其价值量级是辉瑞昔日“药王”立普妥(Lipitor)20 年累计销售额的 12 倍以上。

ARK 最后将目光投向了人类的终极追求——不仅是治病,而是延缓衰老。报告指出,通过靶向衰老的生物学机制(如 DNA 损伤、线粒体功能障碍、表观遗传漂移),我们有望大幅延长“健康寿命”(Healthspan)。

(来源:ARK Invest)

按照每“健康生命年” 10 万美元的价值计算,这对应着一个高达 1.2 千万亿美元(Quadrillion)的惊人市场机遇 。这不仅是生物技术的胜利,更是人类历史上最大规模的价值创造。

机器人与自动驾驶:具身智能打破物理世界边界

如果说 AI 是大脑,那么机器人与自动驾驶技术就是 AI 的躯体。在 ARK Invest 看来,2026 年标志着“具身智能”(Embodied AI)的真正爆发。AI 正在走出屏幕,进入工厂、街道甚至太空,彻底重构物理世界的生产力逻辑。

ARK 在报告中提出了一个核心论断:劳动力将不再受限于人口出生率。 随着通用人形机器人的成本曲线沿着“赖特定律”快速下滑,其全生命周期成本正在逼近甚至低于人类劳动力的时薪。

这一转折点的意义在于,制造业和服务业的扩张将不再受制于招工难或老龄化。人形机器人具备极强的通用性,能够适应为人类设计的复杂环境,从精密装配到家庭护理无所不包。

ARK 预测,若人形机器人能渗透进 80% 的美国家庭并承担家务劳动,其释放的人类时间价值及直接创造的经济价值,有望在 2035 年为美国 GDP 贡献超过 6 万亿美元的增量。这不仅是替代效应,更是通过打破物理劳动力的稀缺性,创造了全新的增长维度。

在交通领域,AI 驱动的自动驾驶正在将出行服务推向极致性价比。ARK 指出,随着 Robotaxi 平台的技术成熟和规模化落地,无人驾驶出行的成本将降至 0.25 美元/英里。这一数字不仅远低于人类驾驶网约车(2.8 美元/英里),甚至击穿了私人拥车的成本底线(0.8 美元/英里)。成本优势主要来自三方面:车辆 24 小时高利用率、AI 优化空驶率(从 45% 降至 15%),以及电动化带来的能源成本节省。

当打车比买车更便宜、更便捷时,汽车产业的商业模式将从卖硬件彻底转向卖里程和卖服务。这不仅将释放城市中大量被停车场占据的土地资源,还将通过极高的车辆利用率,大幅降低社会整体的物流与通勤成本。

市场格局方面,美国和中国形成双雄争霸态势:美国有 Waymo和 Tesla,中国则以百度 Apollo Go 为代表。ARK 预测,2030 年自动驾驶生态企业价值将达 34 万亿美元。

(来源:ARK Invest)

《Big Ideas 2026》最令人耳目一新的观点在于,ARK 将可回收火箭视为世界上最大的机器人。这不仅关乎太空探索,更关乎 AI 算力的未来。

报告提出了关于太空数据中心的构想:利用可回收火箭将庞大的 AI 数据中心发射至地球轨道。在那里,太阳能 24 小时不间断供应,接近绝对零度的真空环境解决了散热难题。这种“新基建”的实现,依赖于火箭发射成本的指数级下降。

比如 SpaceX 凭借猎鹰 9 号(Falcon 9)的部分可回收能力,在自 2008 年起的 17 年间将成本降低了约 95%,从约 15,600 美元/公斤降至 1,000 美元/公斤以下。ARK 的研究表明,随着能够快速复用的星舰实现规模化,这一降本趋势有望延续至 100 美元/公斤。

(来源:ARK Invest)

ARK 预测,这将倒逼火箭发射需求增长 60 倍。从地面的人形机器人到穿梭于星际的智能火箭,AI 正在打破地心引力的束缚,将物理世界的边界无限拓宽。

能源存储:支撑技术革命的终极动力源

在 ARK Invest 的宏观视野中,能源存储早已超越了单一电池赛道的范畴,进化为串联 AI、自动驾驶与机器人等颠覆性创新的基础设施纽带。没有能源成本的指数级下降,Robotaxi 的商业模型将无法跑通,人形机器人将寸步难行,而高能耗的 AI 数据中心也将因电力波动而面临停摆风险。

这一变革的源动力来自于“赖特定律”的极致验证:电池成本遵循着累积产能翻倍、成本固定下降的铁律。数据显示,自 2010 年以来,锂电池每千瓦时(kWh)成本已从超过 1,000 美元暴跌至 2025 年的 80 美元以下。ARK 更是激进预测,到 2030 年,这一成本将进一步击穿底价至 30 美元以下,这意味着储能的边际成本将趋近于零,为全场景的电气化铺平了道路。

(来源:ARK Invest)

在 2026 年的叙事框架下,能源存储被赋予了全新的战略使命:为 AI 护航。随着 AI 模型参数的指数级增长,数据中心对电力的需求呈现出“持续稳定”与“高功率密度”的双重特征,任何微小的电力波动都可能导致昂贵的训练中断。

因此,储能系统正在成为 AI 基础设施的标配,报告指出,到 2025 年全球 20% 的 AI 数据中心将依赖配套储能系统来平抑可再生能源的间歇性波动。更关键的是经济账,通过“低谷充电、高峰放电”的策略,储能系统能帮助高能耗的数据中心规避峰时电价,预计可降低 30%-40% 的电力成本,仅此一项就能为大型数据中心每年节省数百万美元的运营支出。

成本的下降也直接解锁了物理世界两大颠覆性应用的经济可行性。

首先是 Robotaxi 的“底价革命”,电池成本降至 8,000 美元以下叠加寿命延长至 1,500 次循环,成为了 Robotaxi 商业模式跑通的最后一块拼图。ARK 预测,到 2035 年,Robotaxi 的每英里运营成本将降至 0.25 美元,这一数字不仅远低于人类驾驶网约车,甚至击穿了私人拥车的成本底线,彻底改变出行的经济逻辑。

(来源:ARK Invest)

而在具身智能领域,专为机器人设计的高能量密度固态电池技术,将使其连续工作时间从 4 小时倍增至 8 小时,这直接推动家庭服务机器人的渗透率突破 12%,使其真正具备了取代人类家务劳动的实用价值。

在更深远的宏观层面,能源存储正在将传统的单向电网重构为双向互动的“虚拟电厂”。户用储能与光伏的结合,正在让家庭和工厂从电力的单纯消费者转变为“产消者”,在美国加州,光储用户已能实现 80% 以上的电力自给自足。

随着全球虚拟电厂规模迈向 100GW 量级,这种分布式的能源网络不仅大幅降低了对传统电网基建的依赖,更成为了平抑全球能源价格波动、保障能源安全的宏观稳定器。在 ARK 的定义中,能源存储不再是配角,而是支撑所有物理创新的终极动力源。

2025 vs. 2026:从“技术涌现”到“全面加速”的范式跃迁

当我们回望《Big Ideas 2025》并审视今年的报告时,会发现 ARK 的投资叙事发生了一个微妙而深刻的质变。如果说 2025 年的关键词是“涌现”,侧重于单点技术的突破与验证,那么 2026 年的关键词无疑是“加速”,核心逻辑转向了技术融合后的系统性爆发。

这种进化首先体现在 AI 的叙事重心上:2025 年的市场焦点还停留在训练侧的军备竞赛,讨论的是算力的短缺与昂贵;而 2026 年的报告则宣告了推理侧的胜利,随着推理成本一年内下降 99%,AI 从昂贵的奢侈品变成了像电力一样廉价的通用资源,叙事逻辑也从造出更聪明的大脑彻底转向了让大脑无处不在的代理经济时代。

在物理世界的维度,机器人的角色定位也被史无前例地拔高。在 2025 年的语境中,机器人更多被视为解决招工难的自动化工具;而在 2026 年,它们被重新定义为宏观经济的无限劳动力供给源头,是能为 GDP 贡献 20% 增量的增长引擎。更具颠覆性的是,ARK 将可回收火箭纳入了泛机器人的范畴,将其视为连接地球与太空算力的终极物流工具,这种视角的拉升标志着机器人技术已从微观的工厂替补跃升为宏观的基建底座。

生物医药领域的逻辑演变同样剧烈。2025 年重点关注的是多组学工具箱的完善与精准检测,而 2026 年则提出了“AI 原生生物学”的全新概念。这意味着生物学正从一门基于观察的实验科学,彻底转化为基于数据的工程科学。商业模式的讨论也随之从单纯的“技术可行性”转向了“治愈经济学”,即利用 AI 主动编写生命代码,以一次性治愈取代长期的慢性病管理,从而在根本上重构医疗产业的估值体系。

透过今年的报告,ARK 实际上在向市场传达一个核心警告:最大的风险不是创新失败,而是依然用线性的思维去衡量指数级的未来。

当推理成本一年下降 99%,当火箭发射成本跌至 100 美元/公斤,当基因测序仅需 10 美元,过去所有的经济模型都将失效。在这个“大加速”时代,投资者面临的选择只有两个:要么死守旧世界的价值陷阱,要么拥抱占据未来 60% 市值的创新资产。

参考链接:

1.https://assets.arkinvest.com/media-8e522a83-1b23-4d58-a202-792712f8d2d3/1d8b476b-12ee-437c-ae9d-52031c4e96e9/ARKInvest%20BigIdeas2026.pdf

运营/排版:何晨龙

  •  

深度解读超大规模AI数据中心:核电站供电、液冷取代空调,AI正在重塑全球能源版图|2026十大突破性技术

作者KIK

这是《麻省理工科技评论》2026 年“十大突破性技术”深度解读系列的第九篇内容,关注 DeepTech,关注新兴科技趋势。

在广阔的农田和工业园区里,一栋栋塞满计算机机架的超大型建筑正拔地而起,为 AI 竞赛提供动力。这些工程奇迹是一种新型的基础设施:它们是专为训练和运行超大规模大语言模型而设计的超级计算机,并配备了专用的芯片、冷却系统,甚至独立的能源供应。

2025 年,AI 基础设施的投资规模已从“数十亿美元”的量级跃升至“万亿美元”。1 月 21 日,美国总统特朗普在白宫宣布了“星际之门”(Stargate Project)——由 OpenAI、软银、Oracle 和阿布扎比投资基金 MGX 组建的合资企业,计划四年内向美国 AI 基础设施投资 5,000 亿美元,首期即刻部署 1,000 亿美元。软银 CEO 孙正义出任董事长,OpenAI 负责运营。

星际之门正迅速从蓝图变为现实。位于德克萨斯州阿比林的旗舰园区已于 9 月投入运营,Oracle 开始交付首批英伟达 GB200 芯片机架。到年底,星际之门已宣布五个新址,总规划容量接近 7 吉瓦,投资额超过 4,000 亿美元。与此同时,OpenAI 还在阿联酋、挪威和阿根廷启动国际布局,阿根廷巴塔哥尼亚的“星际之门阿根廷”项目投资高达 250 亿美元,将成为拉丁美洲最大的数据中心。

但星际之门只是冰山一角。据 HSBC 估计,全球已规划的 AI 基础设施投资超过 2 万亿美元。亚马逊承诺投入 1,000 亿美元,谷歌 750 亿美元,Meta 650 亿美元,微软仅 2025 年就将支出 800 亿美元。据一项分析估算,OpenAI 已承诺在 2025 年至 2035 年间向硬件和云基础设施支出约 1.15 万亿美元,涉及英伟达、AMD、Oracle、微软、Broadcom 等七家主要供应商。

超大规模 AI 数据中心将数十万个 GPU 芯片,如英伟达的 H200 或 GB200,捆绑成协同工作的集群。这些芯片擅长并行处理海量数据,每秒执行数万亿次数学计算。数十万英里长的光纤电缆像神经系统一样连接着它们,巨大的存储系统昼夜不停地输送数据。

但惊人的算力是有代价的。

首先是电力。国际能源署(IEA)预测,全球数据中心电力消耗将在五年内翻一番以上,到 2030 年将超过 1,000 太瓦,相当于整个日本的用电量。仅在美国,数据中心已占全国电力消耗的 4.4%,而 2018 年仅为 1.9%;到 2028 年可能攀升至 12%。在弗吉尼亚州这个全球数据中心最密集的地区,数据中心消耗了该州约 26% 的总电力。

在建的最大型数据中心可能吞噬超过一吉瓦的电力,足以为约 75 万户家庭供电。某些规划中的园区占地 5 万英亩,耗电量可达 5 吉瓦,超过美国现有最大核电站的容量。Grid Strategies 估计,到 2030 年美国将新增 120 吉瓦电力需求,其中 60 吉瓦来自数据中心,相当于意大利的峰值电力需求。

目前,煤炭以约 30% 的份额成为数据中心最大电力来源,天然气占 26%,可再生能源约 27%,核能占 15%。尽管可再生能源增长最快,但天然气和煤炭仍将在 2030 年前满足超过 40% 的新增需求。

科技巨头们正竞相寻找清洁方案:亚马逊从宾夕法尼亚州核电站直接获取约 960 兆瓦电力;谷歌与 Kairos Power 签署协议部署小型模块化反应堆;OpenAI 在挪威利用水电资源建立数据中心。但核能从开工到发电需要 5 至 11 年,资本支出是天然气的 5 至 10 倍,远水难解近渴。

第二个挑战是冷却。AI 芯片的功率密度从过去的每机架 15 千瓦飙升至 80 至 120 千瓦,传统空调已无法满足需求。直接芯片冷却(D2C)正在成为主流,这种技术将冷板直接安装在 GPU 上,闭环系统在热源处带走 70% 至 80% 的热负荷。

浸没式冷却则更进一步:服务器被浸泡在非导电液体浴槽中,可将冷却能耗降低 50%,水耗降低最高 91%。微软最新设计采用芯片内微流体冷却,微小通道直接蚀刻在硅芯片背面,使 GPU 温度降低 65%。

然而,许多设施仍依赖蒸发冷却,消耗大量淡水。据估计,2023 年美国数据中心直接消耗约 175 亿加仑水,到 2028 年可能翻两番。仅训练 GPT-3 就蒸发了 70 万升清洁淡水。彭博社报道,自 2022 年以来建造的美国数据中心约三分之二位于高水压力地区。

公众正在为这些建设买单。Dominion Energy 的 2025 年报告显示,弗吉尼亚州居民电费预计到 2039 年将翻一番以上,主要因数据中心增长。在佐治亚州牛顿县,某些拟议数据中心每天请求的水量超过整个县的日用水量,迫使当地官员在拒绝项目、要求替代冷却方案或对居民实施限水之间艰难抉择。

地方反对正在加剧。据 Data Center Watch 统计,自 2023 年以来美国已有 180 亿美元项目被取消,460 亿美元被延迟。仅 2025 年第二季度,被阻止或延迟的项目价值达 980 亿美元。居民们因噪音、光污染、水资源枯竭和电费上涨而组织抵制;2025 年 12 月,超过 200 个环保组织联名致信国会,呼吁暂停批准新的数据中心。

科技高管们对此不以为然。AMD 首席执行官苏姿丰在被问及 AI 热潮是否过度时斩钉截铁:“绝对不是。”他们将答案诉诸于 8 亿每周 ChatGPT 用户、40% 大型企业的 AI 采用率,以及 AI 作为经济引擎和国家安全优先事项的战略价值。OpenAI 首席财务官 Sarah Friar 引用历史作为辩护:“当互联网刚起步时,人们总觉得我们建设过度了。看看我们今天在哪里?”

这些交易的循环性质以及预测的需求能否兑现,仍是悬而未决的问题。电网规划者发现科技公司正在向多个公用事业展示同样的项目以寻求最快的电力接入,使需求预测变得困难。联邦能源监管委员会前主席 Willie Phillips 坦承:“有些地区预测了巨大的增长,然后又向下调整了。”

从 1990 年代的本地服务器到 2000 年代的云计算,再到如今的 AI 超级工厂,数据中心的演进从未停止。生成式 AI 已从瓶中释放,没有回头路。但关于经济预测是否准确、资源供应能否持续、建成后谁来使用,这些问题的答案,或许只有时间才能揭晓。

超大规模 AI 数据中心入选 2026 年度十大突破性技术,我们邀请了三位来自产业与科研一线的代表,围绕其关键技术路径与产业影响进行点评。

以下评论内容均为个人见解,不代表《麻省理工科技评论》观点

从算力堆叠到能源博弈:超大规模 AI 数据中心的现状、瓶颈与趋势

首先需要明确一个核心概念:超大规模 AI 数据中心,绝对不是传统数据中心的简单放大版。它诞生的根本驱动力,是为了满足大模型对算力近乎指数级增长的海量需求。因此它的架构是革命性的,本质上是把数十万计的 GPU 通过极高速网络“粘合”在一起,形成前所未有的单体式超级计算机。

谷歌、微软、亚马逊、Meta 等全球科技巨头,都在投入数千亿美元竞相布局。但与此同时,这个庞然大物也带来了一系列前所未有的挑战:惊人的功耗、棘手的散热、巨大的能源压力,以及如何在规模扩展与效率提升之间找到最佳平衡点。

目前业界的技术路径已经比较清晰,核心思路是通过高速互联技术构建高效的“超节点”,最大程度减少芯片间的通信延迟和开销。算力确实已迈入 ZFLOPS 时代,但“内存墙”,即数据搬运的瓶颈,也愈发突出。另一个无法回避的挑战是散热:随着芯片密度飙升,传统风冷已力不从心,液冷技术正从“可选项”变为“必选项”,配套供电架构也必须同步升级。

而这个产业也面临着多维度的瓶颈。首先是能源约束。一个超大规模数据中心的功耗可超过 1 吉瓦,相当于一座中型城市的用电量。这使它从单纯的电力消费者,变成必须像能源公司一样深度规划电力获取的“准公用事业体”。获取稳定充足的清洁能源成为首要任务,而全球许多地区老旧电网的承载能力,已开始反向制约数据中心的选址和规模。

其次是时间约束。AI 芯片迭代速度极快,约一年一代,远超传统数据中心基础设施两年左右的更新周期。这导致一个尴尬局面:本代数据中心刚建成,就要准备迎接两三代新芯片。而市场竞争又要求算力快速上线,建设周期被从近两年压缩至一年以内,对预制化、模块化的快速交付能力构成极致考验。

最后是生态与治理约束。算力高度集中必然引发一系列新问题:市场垄断的担忧、数据主权的争议、对当地水资源和环境的影响等。产业竞争也在从纯粹的技术比拼,转向标准与生态之争——未来是走向开放协作,还是形成若干封闭的私有体系,将深刻重塑整个算力市场的格局。

往前看,几个趋势比较确定:架构将更加立体协同。“云端集中训练、边缘就近推理”的模式会日趋成熟,“全球算力互联网”的构想也可能逐步落地,实现跨地域的算力调度与优化;它的运营将更加智能高效,用 AI 优化数据中心自身能耗会成为标配,行业关注的指标将从单纯的 PUE,转向更本质的“每瓦特电力产出多少有效算力”;这项技术将更加绿色多元,液冷全面普及之外,余热回收、水循环等深度绿色方案会加速落地;芯粒(Chiplet)、光计算等后摩尔时代的新技术,也将从实验室走向产业试点。

综上,超大规模 AI 数据中心无疑是智能时代最关键的基石之一,但它也对能源、基建和治理能力提出了巨大挑战。数据中心正从支撑业务的“成本中心”,演变为驱动创新的“智能生态枢纽”。其成功将取决于能否与电网、社区共建可持续的“数字能源共同体”,并对环境影响实现透明、负责任的管理。

未来能在这一领域脱颖而出的,必定是那些以架构创新破解算力瓶颈、以卓越工程能力赢得时间竞赛、同时以生态责任感构建可持续未来的实践者。

从电力成本到模型安全:AI 数据中心的三重挑战

随着大模型的规模化应用,AI 数据中心正面临一系列深层次的产业挑战。以下从成本、算力调度和数据安全三个维度,分析当前的关键瓶颈与应对方向。

首先,电力成本将成为 AI 服务社会的主要成本。大模型目前在正确性和确定性上仍有待改进:错误会快速累积,导致不可接受的结果;而提高正确性,则意味着增加计算量;不确定性带来的重试机制,又可能引发新的错误,形成恶性循环。在这一背景下,更廉价的电力意味着在同样计算成本下获得更好的模型服务效果。电力成本,正在成为AI能否大规模服务社会的核心变量。

其次,加速卡的多样性将持续提高。随着时间推移,不同品牌、不同代际的加速卡将长期共存于数据中心。CPU 与 GPU 虚拟化技术以及高速网络技术的发展,将使算力调度更加灵活——推理任务可以有效利用不同加速卡从而降低成本,但大型训练任务的复杂性仍需适应多样化的算力环境。短期来看,宏观的任务调度策略与微观的通信计算融合策略会有所帮助;长期来看,构建混合加速卡计算框架将是必然选择。

最后,丢失模型等于丢失数据。大模型有效压缩了海量数据并支持灵活提取,压缩比可达十万倍。丢失一个磁盘容量仅为 700GB 的模型成品,基本等效于丢失 70TB 的原始训练数据。由于数据的差异化带来模型的差异化,企业独有的数据正在转化为企业独有的竞争力。在数据安全合规的诸多限制下,企业需要拥有自有算力,在开源模型基础上精调自有模型。这意味着,基础设施在保护核心模型方面面临的挑战,比传统数据安全场景更为严峻。

超大规模 AI 数据中心的关键转向:液冷与新型能源架构

超大规模 AI 数据中心是人工智能时代的关键基础设施。Scaling Laws 揭示了模型性能与参数规模、数据量、算力投入之间的幂律关系 [1],使大模型发展从经验探索转向可预测的工程实践,并推动 Amazon、Google、Microsoft 等科技巨头斥资数千亿美元构建数十万块 GPU 互连的超级计算集群,以满足大模型训练的爆炸性算力需求。

然而,当 GPU 机柜的功率密度突破 50 千瓦时(例如英伟达 GB200 NVL72 机柜级系统的功率密度高达 132 千瓦/柜 [2]),传统风冷散热技术成为了制约系统的瓶颈。

风冷散热依赖空气对流传热,其有效功率密度上限为 20-50 千瓦,超过此阈值后,维持散热所需的风量呈指数级增长,导致风道截面积、风扇功耗、噪音和系统体积急剧上升而难以工程实现。另一方面,全球数据中心预计 2030 年占全球总用电量 4%-7%、单体数据中心能耗将突破吉瓦级 [3]。因此,传统的风冷与供电模式已难以为继,行业正加速向液冷技术及核能等新型能源架构转型。

液冷技术通过直接接触式散热并将余热用于园区供暖、工业供热,能够有效改善数据中心的电能使用效率,而核能的稳定基荷特性为解决“AI 大模型训练的持续高功耗与传统电网的负荷平衡模式存在本质冲突”这一困境提供了有效途径。Google、Amazon、Microsoft 等公司均在积极推进核电工程,以满足超大规模 AI 数据中心的用电需求 [4]。

此外,瑞士 Deep Atomic 公司和美国爱达荷国家实验室计划建造首个核动力人工智能数据中心 [5],标志着能源-算力一体化数据中心架构正在从概念走向实践。因此,基于液冷与核能的超大规模数据中心能够有效地支撑算力规模的扩展与跃迁,代表了全球 AI 算力基础设施形态的趋势,也为物理极限约束下的 AI 持续发展开辟了新的空间。

参考文献:

1.Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.

2.Super Micro Computer, Inc., Supermicro NVIDIA GB200 NVL72: Liquid-cooled Exascale Compute in a Rack with 72 NVIDIA Blackwell GPUs, Datasheet.https://www.supermicro.com/datasheet/datasheet_SuperCluster_GB200_NVL72.pdf? Feb. 2025.

3.E. Kok, J. Rauer, P. Sachdeva, and P. Pikul,Scaling bigger, faster, cheaper data centers with smarter designs,McKinsey & Company, Article, Aug. 1, 2025.

4.P. Rooney,AI to go nuclear? Data center deals say it s inevitable.https://www.cio.com/article/3487339/ai-to-go-nuclear-data-center-deals-say-its-inevitable.html Aug. 19, 2024.

5.D. Dalton,Swiss Reactor Company Submits Nuclear-Powered Data Centre Proposal To US DOE. https://www.nucnet.org/news/swiss-reactor-company-submits-nuclear-powered-data-centre-proposal-to-us-doe-12-4-2025. Dec. 4, 2025.

运营/排版:何晨龙

  •  

TikTok美国拆分方案落地,六年拉锯,兜兜转转还是甲骨文

作者KIK

美国东部时间 2026 年 1 月 22 日,围绕 TikTok 命运的长期悬念终于落定。字节跳动宣布,已与以 Oracle(甲骨文)为首的非中国投资者达成协议,将成立一家新的美国 TikTok 合资企业。这意味着,自 2019 年以来持续发酵的这场跨国科技政治风波,暂时画上了一个句号。

这笔交易的核心结构如下:新成立的“TikTok USDS 合资有限责任公司”(TikTok USDS Joint Venture LLC)将由多方持股,其中 Oracle、私募基金 Silver Lake(银湖资本)以及阿联酋主权投资基金 MGX 各持有 15%,三者合计 45%;字节跳动现有投资者的关联方持有约 30%;字节跳动本身则保留不到 20% 的股份。

戴尔科技创始人迈克尔·戴尔的家族办公室以及通用大西洋、Susquehanna 等此前已投资字节跳动的机构也在股东名单之列。新合资公司将由 TikTok 前运营负责人 Adam Presser 出任首席执行官,并由一个以美国人为主的七人董事会管理。TikTok 现任首席执行官周受资在董事会保留一席。

美国政府一直声称这笔交易是为了解决所谓的“国家安全威胁”,美国政界长期担忧,由于字节跳动受中国法律管辖,而中国“理论上”可以要求其提供美国用户数据,或利用算法对美国公众实施舆论操控。然而实际上,这场持续六年的拉锯战,实质上只是美国对中国科技企业实施“定点打压”的又一典型案例,与此前针对华为、中兴的遏制措施一脉相承。

回顾 TikTok 在美风波的来龙去脉,不难发现,这根本不是一个简单的“企业合规”问题,而是中美科技博弈、大国竞争格局下的一枚棋子。

2019 年,TikTok 在美国用户数量急剧攀升,很快引起了美国情报和安全部门的警觉。联邦调查局(FBI)多次发出警告,称中国政府可能通过字节跳动“控制”该应用软件。2020 年,时任美国总统特朗普签署行政令,以国安为由威胁禁用 TikTok,并试图强制字节跳动出售美国业务。

当时,Oracle 和沃尔玛组成的财团曾是潜在买家,但交易最终流产。拜登上任后,在 2021 年撤销了特朗普的相关行政令,但继续推进对 TikTok 的审查。2023 年,TikTok 在联邦政府设备上被全面禁止。

2024 年 4 月,美国国会以压倒性票数通过《保护美国人免受外国对手控制应用程序法》(Protecting Americans from Foreign Adversary Controlled Applications Act,PAFACA),拜登签署后生效。该法要求字节跳动必须在 270 天内剥离 TikTok 美国业务,否则将面临全面禁令。

TikTok 随即向联邦法院提起诉讼,主张该法侵犯第一修正案所保障的言论自由。但美国最高法院在 2025 年 1 月 17 日作出一致裁决,维持下级法院的判决,认定 PAFACA 合宪。这一裁决距离法定禁令生效日 1 月 19 日仅两天。

就在禁令即将生效之际,TikTok 美国版在 1 月 18 日深夜陷入约 14 小时的“黑屏”状态,应用无法正常使用。用户打开界面只能看到一则提示:特朗普承诺将“与我们合作寻找解决方案”。果然,1 月 20 日特朗普宣誓就职后,立即签署行政令暂停执行禁令,为谈判争取时间。此后,他又多次延期,直到这笔交易最终敲定。

在这整个过程中,中国的表态一直极为克制。此前中国外交部发言人在被问及相关问题时,多次重复“中方立场一贯明确”。实际上,早在 2020 年美国首次推动 TikTok 出售时,中国便修订了《中国禁止出口限制出口技术目录》,将“基于数据分析的个性化信息推送服务技术”纳入限制出口清单,这意味着 TikTok 的推荐算法若要转让给美国实体,需经中国政府审批,以用实际行动对美国“强买强卖”行为进行反制。

此番交易的一个核心争议点,恰恰在于算法的归属问题。

根据目前披露的方案,字节跳动将把其推荐算法授权(license)给新成立的美国合资公司使用,而非彻底出售或转让。由 Oracle 负责对算法进行审计和安全监控,并基于美国用户数据“重新训练”(retrain)出一套独立的美国版算法。

但部分美国方面的观点仍然认为这种“授权”模式本质上仍是一种“租借”关系,字节跳动依然保有算法的知识产权和底层代码,与法律所要求的“彻底剥离”(clean break)相去甚远。

曾参与拜登政府 TikTok 政策制定的前财政部官员吉姆·塞克雷托(Jim Secreto)称,这更像是一笔“特许经营协议”,而非真正意义上的资产出售,原有的数据安全和算法操控风险并未根本消除。

另一个引发关注的问题是,新投资者的政治背景是否会带来“另一种风险”。

Oracle 创始人拉里·埃里森(Larry Ellison)是特朗普的长期盟友,在商业和政治上与特朗普家族有密切往来。阿联酋主权基金 MGX 则曾与特朗普家族的加密货币公司 World Liberty Financial 有过业务合作。

乔治城大学法律与技术教授阿努帕姆·钱德(Anupam Chander)称,这笔交易在理论上可能为特定政治立场的内容传播打开空间。“我一直担心的是,我们可能只是把对外国宣传的恐惧,换成了国内宣传的现实。”他对媒体表示。

换言之,TikTok 的内容推荐未来可能会更易受到美国政府(特别是共和党)或硅谷权力集团的影响。这一担忧,在 X(原推特)被马斯克收购后政治倾向日趋明显的背景下,显得尤为有现实依据。

那么,对于普通 TikTok 用户而言,这笔交易意味着什么?

根据 TikTok 官方表态,美国用户的使用体验“不会有任何变化”。广告主也被告知业务不受影响。但一些业内分析师指出,一旦算法在美国本土“重新训练”,内容推荐的调性和偏好或多或少会发生偏移,这种变化可能是渐进的、不易察觉的,但长期来看会重塑用户的信息消费习惯。

此外,部分报道称,交易完成后,美国用户可能需要下载一个独立的新版 App,与全球其他地区的 TikTok 形成区隔——尽管这一点尚未得到官方确认。

从更宏观的视角来看,TikTok 美国业务的拆分,只是中美科技脱钩进程中的一个节点。近年来,从芯片出口管制到 AI 大模型管控,从数据跨境传输规则到关键技术转让限制,两国在高科技领域的“筑墙”行动持续升级。

TikTok 的遭遇,某种程度上折射出全球化进入深度调整期后,跨国科技企业所面临的两难困境:既要遵守东道国日益严苛的合规要求,也要满足母国政府的出口要求。而对于算法这种“看不见摸不着”却又极具战略价值的无形资产,如何界定其所有权、如何监管其跨境流动,更是一个尚无成熟答案的新课题。

回望这六年的跌宕起伏,从特朗普第一任期的强硬威胁,到拜登任内的制度化立法,再到特朗普重返白宫后的“缓刑式”博弈,TikTok 的命运一波三折,却始终没有脱离那个核心命题:当一款中国企业开发的应用程序凭借自身产品力赢得超过 1.7 亿美国用户时,华盛顿却以语焉不详的“国家安全”为由横加干预,这究竟是合理的风险防范,还是披着安全外衣的政治打压?而对于在全球化浪潮中成长起来的中国科技企业而言,如何在一个日益碎片化、政治化的国际市场中寻求生存与发展空间,恐怕是一道更长远的命题。

至于这笔交易能否真正消解美国所谓的“国家安全关切”?恐怕连美方自己都心知肚明。哈德逊研究所研究员 Michael Sobolik 称:“他们或许救了 TikTok,但国家安全方面的担忧依然存在。”既然如此,何必当初?折腾六年,动用国会立法、最高法院裁决、总统行政令,最后达成的方案,与 2020 年特朗普第一次推动的 Oracle 方案相比,又有多大本质区别?

《纽约时报》引用曾在拜登政府任职的林赛·戈曼(Lindsay Gorman)的话作结:“我们兜兜转转,最终并没有走出多远。”是的,六年过去,Oracle 依然是核心投资方,字节跳动依然保留股权与算法授权,终局与起点相差无几。但就是这样一场“原地踏步”的博弈,曾让一家企业六年不得安宁,让 1.7 亿用户提心吊胆,让全球化的科技公司如履薄冰。

参考资料:

1.https://www.semafor.com/article/01/22/2026/china-us-sign-off-on-tiktok-us-spinoff

2.https://www.nytimes.com/2026/01/22/technology/tiktok-deal-oracle-bytedance-china-us.html

运营/排版:何晨龙

  •  

10余位华人学者跻身计算机“名人堂”,2025 ACM Fellow名单公布

作者KIK

美国计算机协会(Association for Computing Machinery,ACM) 1 月 21 日公布了 2025 年度 ACM Fellow 名单,共有 71 位计算机领域的杰出学者入选。ACM Fellow 是计算机领域最具声望的荣誉之一,从全球超过 10 万名 ACM 会员中遴选,仅授予在技术创新或行业贡献方面取得卓越成就的顶尖学者,入选者不超过会员总数的 1%。

本年度入选者来自 14 国家和地区,研究领域涵盖人工智能、计算机视觉、数据管理、人机交互、网络系统、机器人、安全等多个方向。ACM 主席 Yannis Ioannidis 表示,今年的 Fellow 名单反映了计算机科学的最新发展,既有计算机体系结构、软件工程等成熟领域的资深专家,也有群体智能、场景识别等新兴方向的开拓者。

值得关注的是,本届 Fellow 中有十余位华人学者入选,他们分别来自北京大学、清华大学、香港科技大学、华中科技大学等国内高校,以及 CMU、UIUC、哥伦比亚大学等海外名校和谷歌、京东等科技企业,研究方向覆盖计算机视觉、机器学习、数据挖掘、分布式系统等核心领域。

以下为入选华人学者的详细介绍:

曹培

YouTube / Google

入选理由:表彰其在网络缓存、搜索引擎效率和信息质量方面的贡献。

曹培现任 YouTube 工程副总裁 (VP of Engineering),她是清华大学 1990 届计算机科学学士毕业生(本科前两年就读于应用数学系,后转入计算机系)。随后她赴美深造,于 1992 年获得普林斯顿大学硕士学位,并于 1996 年获得普林斯顿大学计算机科学博士学位。博士毕业后,曹佩执教于威斯康星大学麦迪逊分校(1996-1999),担任计算机科学助理教授。在此期间,她在网络缓存(Web Caching)领域做出了开创性工作,并因此获得了美国国家科学基金会(NSF)颁发的极具声望的 CAREER Award。她早期的研究解决了互联网流量爆炸初期的关键瓶颈问题,为后来的内容分发网络(CDN)奠定了理论基础。

1999 年,她创办了 Tasmania Network Systems 公司并担任 CTO,该公司后被思科(Cisco)收购。2004 年加入 Google 后,她参与了 Google 搜索基础设施的多次迭代,设计了能够索引和检索数千亿网页的可扩展系统。在 YouTube,她进一步领导了搜索与发现算法的优化,直接影响了全球数十亿用户的视频观看体验。

陈宝权 

北京大学

入选理由:表彰其在大规模场景重建、离散几何处理和制造形状设计方面的贡献。

陈宝权教授现任北京大学博雅特聘教授、智能学院副院长,同时兼任北京电影学院未来影像高精尖创新中心首席科学家。他是计算机图形学与可视化领域的国际领军人物。

陈宝权本科毕业于西安电子科技大学(电子工程),硕士毕业于清华大学(电子工程)。1999 年,他在纽约州立大学石溪分校(SUNY Stony Brook)获得计算机科学博士学位,师从图形学泰斗 Arie Kaufman。

陈宝权的研究聚焦于“数字化现实”,即如何通过计算机技术高效、高保真地重建物理世界。他最为人称道的工作之一是“Smartboxes”项目,利用车载移动激光扫描系统获取了深圳市数百英里的街道数据,并开发算法利用建筑物结构中的重复性(如盒子结构)来高效重建 3D 城市模型。在离散几何处理领域,他提出了一系列基于点云的几何处理算法,解决了非结构化数据难以建模的难题。

在加入北大之前,他曾任山东大学计算机科学与技术学院院长、中国科学院深圳先进技术研究院(SIAT)可视计算研究中心创博主任,以及明尼苏达大学双城分校教职。他是 IEEE Fellow、IEEE 可视化学院成员(IEEE Visualization Academy),并曾担任计算机图形学顶级会议 SIGGRAPH Asia 2014 的大会主席。在 2022 年北京冬奥会上,他的团队开发的“交互式自由视点”技术,为观众提供了身临其境的观赛体验,实现了技术在国家重大活动中的落地。

陈德铭

伊利诺伊大学厄巴纳-香槟分校

入选理由:表彰其在可重构计算方面的贡献,包括综合算法和可定制的 AI 加速器设计方法。

陈德铭博士是 UIUC 电气与计算机工程系(ECE)的 Abel Bliss 讲席教授,同时担任该校 AMD-Xilinx 卓越中心主任及 IBM-Illinois 发现加速器研究所的伊利诺伊主任。

陈德铭于 1995 年获得匹兹堡大学计算机科学学士学位,2001 年和 2005 年分别获得加州大学洛杉矶分校(UCLA)的计算机科学硕士和博士学位。

陈德铭是电子设计自动化(EDA)和可重构计算(FPGA)领域的权威。他的核心贡献在于打通了从高层软件代码到底层硬件电路的自动化设计路径(高层次综合,HLS)。他领导开发的 FCUDA、DNNBuilder 和 ScaleHLS 等开源工具,使得软件工程师能够利用 C/C++ 或 PyTorch 直接设计高效的硬件加速器,极大地降低了定制化芯片的设计门槛。

他早年在 Aplus Design Technologies 开发的 CPLD 技术映射算法被 Altera(现 Intel)收购并独家授权使用;他参与创立的 AutoESL 公司开发的 HLS 工具最终被 Xilinx 收购,成为业界标杆工具 Vivado HLS 的核心引擎。他开发的“Medusa”系统被集成到 Nvidia 的 TensorRT-LLM 中,将大语言模型的推理速度提升了 1.9 至 3.6 倍。

郑光廷 

香港科技大学

入选理由:表彰其在电子电路和计算系统的设计自动化及软硬件协同设计方面的贡献。

郑光廷教授现任香港科技大学(HKUST)副校长,同时是电子及计算机工程学系和计算机科学及工程学系的讲席教授。他是全球微电子测试与验证领域的奠基人之一。

郑光廷于 1988 年获得加州大学伯克利分校(UC Berkeley)电气工程与计算机科学博士学位。在加入学术界之前,他在著名的 AT&T 贝尔实验室工作了五年(1988-1993)。随后,他在加州大学圣塔芭芭拉分校(UCSB)任教超过 20 年,曾任该校 ECE 系主任及副校长。2016 年,他加入香港科技大学任工学院院长,后升任副校长。

他的研究主要解决了芯片制造中的“良率”与“可靠性”问题。他提出的测试向量生成算法及设计验证方法,是现代超大规模集成电路(VLSI)生产线上的必选项。近年来,他牵头成立了香港“AI 芯片与智能系统中心”(ACCESS),旨在研发新一代 AI 专用芯片,推动边缘计算与物联网的落地。他是 IEEE Fellow,并多次获得 DAC、ICCAD 等 EDA 领域顶级会议的最佳论文奖。


傅云(Yun Raymond Fu)

美国东北大学

入选理由:表彰其在表征学习、计算机视觉、人脸和手势识别方面的贡献。

傅云是美国东北大学(Northeastern University)工学院杰出教授,同时隶属于 Khoury 计算机科学学院。

傅云本科毕业于西安交通大学信息工程专业(2001 年),硕士毕业于西安交通大学模式识别与智能系统专业(2004 年)。随后赴美,于 2008 年获得伊利诺伊大学厄巴纳-香槟分校(UIUC)电气与计算机工程博士学位,师从“计算机视觉之父”Thomas S. Huang(黄煦涛)教授。

傅云在流形学习(Manifold Learning)和子空间学习方面做出了基础性贡献。他最为学界所熟知的工作集中在图像超分辨率重建上,其团队提出的残差密集网络(RDN)和残差通道注意力网络(RCAN)模型,极大地提升了低不仅图像的恢复质量,相关论文引用量过万,成为该领域的经典之作。

他还创办了 AI 初创公司 Giaran,专注于利用计算机视觉技术进行虚拟试妆和肤质分析。该公司于 2017 年被日本化妆品巨头资生堂(Shiseido)收购,Fu 随之担任资生堂美洲区技术创新高级副总裁,负责建立了其 AI 研发中心,成功将学术成果转化为消费级产品。他是欧洲科学院院士(MAE)、AAAI Fellow、IEEE Fellow、IAPR Fellow 等多学会会士。


黄兹(Zi Helen Huang)

昆士兰大学

入选理由:表彰其在大规模多媒体内容理解、索引和检索方面的贡献。

黄兹教授是澳大利亚昆士兰大学(The University of Queensland, UQ)电气工程与计算机科学学院的数据科学学科带头人(Discipline Leader for Data Science)。

黄兹于 2001 年在清华大学计算机系获得学士学位,随后前往澳大利亚深造,于 2007 年在昆士兰大学获得计算机科学博士学位。

面对互联网时代爆发式增长的视频与图像数据,黄兹致力于解决“如何快速找到想要的内容”这一核心问题。她的研究深入到了多媒体索引(Indexing)与跨模态检索(Cross-modal Retrieval)的底层算法,开发了能够理解视频语义、并在海量数据库中实现毫秒级检索的技术。她还探索了社交媒体分析与推荐系统,试图挖掘用户行为背后的数据逻辑。

她是澳大利亚研究理事会(ARC)的 Future Fellow,并获得了澳洲计算研究与教育协会颁发的 Chris Wallace 奖。此外,她还担任多个顶级期刊(如 VLDB Journal, TOIS)的编委。

贾佳亚

香港科技大学

入选理由:表彰其在计算机视觉中的分割、场景解析和纹理分析方面的贡献。

贾佳亚教授是香港科技大学(HKUST)计算机科学与工程系讲席教授,并担任思谋科技(SmartMore)的创始人兼董事长。

贾佳亚于 2000 年获得复旦大学计算机科学学士学位,2004 年作为香港科技大学与微软亚洲研究院(MSRA)联合培养的博士生获得博士学位,师从沈向洋等视觉领域知名学者。

在港科大任教之前,他长期执教于香港中文大学。他的研究聚焦于图像处理中最困难的任务——如何让计算机像人眼一样精准地分割物体边缘(Image Segmentation)和理解复杂场景(Scene Parsing)。他在模糊图像复原、纹理合成等领域发表了多篇高被引论文,总引用次数超过 10 万次。他曾担任 TPAMI 的副主编。

贾佳亚曾在腾讯担任杰出科学家及优图实验室(X-Lab)负责人,推动了腾讯在医疗 AI 和自动驾驶领域的布局。2019 年,他创立了思谋科技(SmartMore),专注于智能制造,利用机器视觉技术检测工业流水线上的微小缺陷。

贾小华 

香港城市大学

入选理由:表彰其在数据安全和分布式计算系统发展方面的贡献。

贾小华教授是香港城市大学计算机科学系讲席教授,并担任去中心化信任计算中心(CDTC)主任。

贾小华他分别于 1984 年和 1987 年在中国科学技术大学(USTC)获得学士和硕士学位,后赴日本深造,于 1991 年获得东京大学信息科学博士学位。

贾小华长期深耕于分布式系统与网络安全领域。随着云计算的普及,数据存储在第三方服务器上的隐私问题日益凸显。贾小华团队设计了一系列加密存储与安全检索协议,使得用户可以在不解密数据的前提下进行操作,极大地提升了云存储的安全性。

他是 IEEE Fellow,曾担任 IEEE Transactions on Parallel and Distributed Systems (TPDS) 等多个权威期刊的编委。他还多次担任 ACM MobiHoc、IEEE ICDCS 等国际顶级会议的大会主席。

金海

华中科技大学

入选理由:表彰其在高效以数据为中心的处理、内存管理和分布式系统架构方面的贡献。

金海教授是郑州大学副校长,华中科技大学(HUST)长江学者特聘教授,曾任该校计算机科学与技术学院院长。

金海于 1994 年获得华中科技大学计算机工程博士学位。此后,他曾赴德国开姆尼茨工业大学、香港大学及美国南加州大学(USC)进行访问研究。

金海教授在分布式系统架构方面做出了大量贡献。针对大数据时代“数据移动开销大”的痛点,他提出了“以数据为中心”的处理架构,通过近数据计算(Near-Data Computing)和高效的内存虚拟化技术,显著提升了大规模集群的计算效率。他同时也是 IEEE Fellow。

马坚

卡内基梅隆大学

入选理由:表彰其在计算生物学算法和机器学习方面的贡献。

马坚教授是卡内基梅隆大学计算机学院 Ray and Stephanie Lane 讲席教授。他致力于用计算机科学的视角去解码生命的奥秘,是计算生物学领域的先驱。

马坚于 2000 年和 2003 年在复旦大学获得计算机科学学士和硕士学位,2006 年在美国宾夕法尼亚州立大学(Penn State)获得博士学位。在加州大学圣克鲁兹分校(UCSC)完成博士后研究后,他曾任教于 UIUC,后加入 CMU。

马坚的研究融合了机器学习与生物学,他领导的团队开发了多种新型算法,用于解析人类基因组的复杂结构,特别是细胞核内的三维染色质组织(3D Genome)。作为 NIH“4D 核组计划”中心的主任,他利用图神经网络等 AI 技术,试图从单细胞数据中重构基因组的动态变化。

他是古根海姆奖(Guggenheim Fellow)得主,同时也是 AAAS Fellow 和 ISCB(国际计算生物学学会)Fellow。他的工作不仅推动了基础生物学的发展,也为理解癌症等复杂疾病的致病机理提供了新的计算工具。

梅涛 

智象未来

入选理由:表彰其在多媒体分析、检索和应用方面的贡献。

梅涛博士是生成式 AI 初创公司 HiDream.ai 的创始人兼 CEO,此前他曾是京东集团副总裁和微软亚洲研究院(MSRA)的资深研究员。

梅涛分别于 2001 年和 2006 年获得中国科学技术大学的学士和博士学位。在微软亚洲研究院期间,梅涛主导了多项视频内容分析技术的研发,相关成果被广泛应用于 Bing 搜索等产品。加入京东后,他负责搭建了京东的 AI 平台,将计算机视觉技术大规模应用于电商搜图、物流监控等场景。2023 年,他创办 HiDream.ai,投身于 AIGC(人工智能生成内容)浪潮,致力于开发能够生成高质量图像和视频的视觉大模型。

梅涛同时也是 IEEE Fellow、IAPR Fellow,并担任过 IEEE Transactions on Multimedia 等期刊的编委。


陈建利(Kian-Lee Tan)

新加坡国立大学

入选理由:表彰其在高级数据库应用中的查询优化和处理方面的贡献。

陈建利教授是新加坡国立大学(NUS)计算机学院的陈振传百年纪念教授(Tan Sri Runme Shaw Senior Professor)。

陈建利的本科、硕士及博士学位均在新加坡国立大学完成(分别于 1989、1991、1994 年)。作为数据库领域的权威,谭教授的研究贯穿了数据管理技术的多个阶段。从早期的并行数据库、分布式数据库,到后来的点对点(P2P)数据共享,再到如今的大数据分析,他始终聚焦于核心的“查询优化”问题,即如何在海量数据中以最快速度找到答案。他与合作者开发的多个数据处理框架在学术界产生了深远影响。他曾获新加坡最高科学荣誉——总统科学奖(2011 年),并获得 IEEE 技术成就奖。他曾任顶级期刊 VLDB Journal 的主编,是推动新加坡成为全球数据库研究重镇的关键人物之一。

童行行(Hanghang Tong)

伊利诺伊大学厄巴纳-香槟分校

入选理由:表彰其在大规模图挖掘理论、算法及应用方面的贡献。

童行行目前任教于 UIUC 计算机系。他是数据挖掘领域,特别是图挖掘(Graph Mining)方向的知名学者。

童行行于 2002 年和 2005 年在清华大学自动化系获得学士和硕士学位,2009 年在美国卡内基梅隆大学(CMU)获得机器学习博士学位,师从数据挖掘大师 Christos Faloutsos。

在这个万物互联的时代,数据往往以“图”(Graph)的形式存在(如社交网络、蛋白质结构、交通网络)。童行行的研究致力于为这些庞大且复杂的网络设计高效的算法,用于发现异常节点、预测连接关系或优化网络结构。他的成果被广泛应用于网络安全(检测恶意攻击)和医疗健康(药物发现)。他曾获得 IEEE ICDM 十年最具影响力论文奖、NSF CAREER Award 等多项大奖,目前担任 ACM SIGKDD Explorations 的主编。

熊辉

香港科技大学(广州)

入选理由:表彰其在人工智能和移动计算进步方面的研究贡献。

熊辉教授现任香港科技大学(广州)讲席教授及协理副校长,此前他是美国罗格斯大学的杰出教授及百度研究院副院长。

熊辉本科毕业于中国科学技术大学(自动化),硕士毕业于新加坡国立大学(计算机),2005 年获得明尼苏达大学双城分校计算机科学博士学位。

熊辉教授是“移动数据挖掘”领域的开拓者。他敏锐地捕捉到了移动互联网时代产生的海量轨迹与行为数据,并开创性地将其应用于商业智能。在百度任职期间,他提出了“人才智能”(Talent Intelligence)的概念,利用 AI 技术优化企业的人力资源管理,实现了技术与管理学的跨界融合。

熊莉(Li Xiong)

埃默里大学

入选理由:表彰其在静态类型系统和程序设计语言的机械化数学方面的贡献。

熊莉教授是埃默里大学(Emory University)计算机科学系和生物医学信息学系的 Samuel Candler Dobbs 讲席教授,也是该校 Assured Information Management and Sharing (AIMS) 实验室的主任。

熊莉本科毕业于中国科学技术大学(1997 年),在约翰霍普金斯大学获得硕士学位后,于 2005 年在佐治亚理工学院获得博士学位。

在数据即资产的今天,如何共享数据而不泄露隐私是一个核心难题。熊莉的研究聚焦于“差分隐私”(Differential Privacy)和联邦学习,特别是在医疗健康数据的应用上。她开发了一系列协议,允许医疗机构在不共享患者原始数据的情况下协同训练 AI 模型,打破了医疗数据的“孤岛效应”。她是 IEEE Fellow,曾担任 ACM CIKM 2022 和 ACM SIGSPATIAL 2024 的大会主席。

杨俊峰(Junfeng Yang)

哥伦比亚大学

入选理由:表彰其在可信软件和人工智能系统方面的领导力和贡献。

杨俊峰教授执教于哥伦比亚大学计算机科学系,是软件系统实验室的联合主任,专注于构建“不崩溃、不被黑”的可靠系统。

杨俊峰于 2000 年获得清华大学计算机科学学士学位,2008 年获得斯坦福大学计算机科学博士学位,师从操作系统领域的顶尖学者。杨俊峰发明了一系列用于检测复杂软件系统中并发错误(Concurrency Bugs)和安全漏洞的自动化工具。著名的“DeepXplore”项目是全球首个针对深度学习系统的自动化白盒测试框架,能够自动发现自动驾驶等关键系统中的致命缺陷。他联合创办了 NimbleDroid 公司(后被收购),将他在安卓应用性能分析方面的研究转化为产品,帮助数百万 App 开发者优化代码。他曾获 Sloan 研究奖和 NSF CAREER Award。

易珂

香港科技大学

入选理由:表彰其在查询处理理论与实践方面的贡献。

易珂教授是香港科技大学计算机科学与工程系教授,也是该校大数据科技理学硕士项目的负责人。

易珂于 2001 年毕业于清华大学(计算机系),2006 年获得杜克大学计算机科学博士学位。在本科期间,他曾获清华特等奖学金,并是国际信息学奥林匹克竞赛(IOI)银牌得主。

易珂的研究偏向计算机科学的理论基石——算法。他专注于在大数据环境下(如海量数据无法全部放入内存,或数据以流形式高速到达)如何进行高效的查询与采样。他的工作填补了数据库系统实现与理论算法下界之间的空白。

他曾两次获得数据库顶级会议 SIGMOD 的最佳论文奖(2016, 2022),并获得了 PODS 2022 的“时间检验奖”(Test-of-Time Award)。

郑宇 

京东科技

入选理由:表彰其在时空数据挖掘和城市计算方面的贡献。

郑宇是京东集团副总裁、京东科技首席数据科学家,同时担任上海交通大学讲席教授。他是“城市计算”(Urban Computing)领域的奠基人。

郑宇本科及博士均毕业于西南交通大学(分别于 2001 年和 2006 年),通信与信息系统专业。在微软亚洲研究院工作期间,郑宇率先提出了利用大数据解决城市问题(如交通拥堵、空气污染、能源消耗)的框架,将“城市计算”确立为一个独立的交叉学科方向。

加入京东后,他负责京东智能城市业务,开发了能够管理千万级人口城市的“城市操作系统”。他的算法被用于优化物流配送路径、预测城市人流热点等实际场景。他发表的论文引用数超过 6 万,并担任过人工智能顶刊 ACM TIST 的主编。

朱军

清华大学

入选理由:表彰其在概率机器学习理论与方法方面的贡献 。

朱军教授是清华大学计算机系博世人工智能冠名教授、人智所所长,也是清华大学人工智能研究院的基础理论研究中心主任。

朱军分别于 2005 年和 2009 年在清华大学获得学士和博士学位。之后他在卡内基梅隆大学(CMU)进行了三年的博士后研究,随后回国任教。

朱军深耕于贝叶斯机器学习这一基础理论领域。他提出了一套正则化贝叶斯推理框架,巧妙地将最大边界学习(Max-margin learning)与贝叶斯方法结合,解决了传统贝叶斯方法在判别任务上表现不佳的难题。他是 IEEE 和 AAAI 的双料 Fellow,并曾获得“科学探索奖”及中国计算机学会自然科学一等奖。

参考资料:

1.https://www.acm.org/media-center/2026/january/fellows-2025

运营/排版:何晨龙

  •  

比海平面上升更紧迫的危机正在发生:全球40个三角洲加速下沉中

作者

全球只有 1% 的陆地面积是三角洲,但它们却供养着全球近 5 亿的人口。这些低洼而肥沃的土地不仅是人类文明的摇篮,也是上海、曼谷、鹿特丹等众多世界级城市和经济中心的所在地。

过去几十年中,在气候变暖的背景下,人们普遍将海平面上升视为三角洲面临的最大威胁。然而,最近刊登在 Nature 的一项研究指出:现状并非如此,地表沉降(即陆地下沉)正在成为比海平面上升更紧迫的危机。在许多三角洲,地面下沉的速度已经显著超过海平面上升。

图 | 团队论文:全球河流三角洲沉降(来源:Nature)

这项研究覆盖五大洲 29 个国家,是迄今为止范围最广、分辨率最高的全球三角洲沉降评估。来自美国加州大学尔湾分校、弗吉尼亚理工大学等多所机构的国际研究团队,历时近十年,对全球 40 个主要河流三角洲开展了系统性监测。他们利用欧洲航天局哨兵一号(Sentinel-1)卫星搭载的合成孔径雷达(SAR)——一种主动式微波遥感技术,获取了 2014 年至 2023 年的完整观测数据。

通过干涉合成孔径雷达(InSAR)技术(该技术通过分析不同时间拍摄的雷达图像之间的相位差,可精确测量地表微小形变),研究团队绘制出了这些三角洲的地表高程变化图。

图 | 全球三角洲地表沉降分布图(来源:论文)

研究结果令人惊讶。在被调查的 40 个对象中, 每一个三角洲都有超过 1/3 的面积正在下沉, 其中 38 个三角洲下沉面积超过了一半。更严峻的是,有 18 个三角洲的陆地沉降速度甚至超过了海平面上升速度,直接影响到约 2.36 亿人口的生活。

其中,泰国湄南河三角洲以每年约 13.2 毫米的速度下沉,而全球海平面上升速度仅为每年 3 到 4 毫米。中国的黄河三角洲同样不容乐观,部分区域的沉降速度达到每年 10 毫米以上。

助推这场沉降危机的一大因素,是人类活动对自然系统的改变。研究团队运用随机森林 (Random Forest,RF,一种机器学习算法) 模型对三个主要人为驱动因素进行了量化分析。它们分别是:地下水储量变化、沉积物通量改变和城市扩张。

结果显示, 地下水储量变化是最主要的沉降驱动因素,在湄公河、恒河-布拉马普特拉河、莱茵河-默兹河、弗雷泽河等 35% 的三角洲中,地下水开采是导致沉降的首要原因。

当地下水被过度抽取用于农业灌溉、工业生产和城市供水时,含水层中的孔隙压力下降,上覆土层在自重作用下发生压实和固结,导致地表下沉。在一些三角洲地区,地下水年开采量高达数十亿立方米,远超补给能力。与此同时,上游水坝的修建拦截了大量泥沙,使得原本能够通过沉积作用补偿自然沉降的机制失效。

图 | 人为驱动因素分析(来源:论文)

这项研究还带来了令人担忧的新结论:地面沉降已成为推动“相对海平面上升”的主要因素,而且这种趋势将持续到本世纪末。(注:相对海平面上升,是指从陆地角度观察到的海平面变化,它包含了海洋水位的绝对上升和陆地自身的垂直运动。)

研究团队发现,在全球 40 个三角洲中,陆地沉降对相对海平面上升的平均贡献率达到 58%,远超过海洋水位上升本身的影响。更为严峻的是,一些极端案例中这一比例甚至超过 90%。

这意味着当地居民面临的洪水风险几乎完全源于脚下土地的下陷,而非远方冰川的融化。

在中等排放情景下(即未来温室气体排放不极端也不大幅减少的情况),目前全球 40 个主要三角洲的地面下沉速度,已经全部超过了科学家预测的 21 世纪海平面上升速度。

到 2050 年,在 29 个三角洲中,那些下沉最严重的区域(代表广泛存在的高幅度沉降),其下沉速度将是海平面上升速度的 1.1 倍(如尼日尔三角洲)到 10.3 倍(如黄河三角洲)。即使到了 2100 年,当海平面上升加快到每年约 9 毫米时,仍有 22 个三角洲的严重下沉区域,其下沉速度仍远超海平面上升,最高可达 7 倍。

图 | 全球三角洲中地面沉降与海平面上升的相对贡献(来源:论文)

为了评估各地应对风险的能力,研究团队将全球 40 个主要三角洲划分为四类:一类是“未准备潜水者”,即面临严重相对海平面上升但缺乏应对能力的地区;另一类是“上升准备者”,虽然同样承受高风险,但拥有较强的治理能力和资源支撑;第三类是“潜在威胁”,当前风险尚低,但适应能力薄弱;最后一类是“安全港”,既风险较低,又具备良好的应对条件。

研究发现,40 个三角洲中有 26 个(占 65%)属于“未准备潜水者”,其中绝大多数位于中低收入国家。这些地区不仅遭遇比全球平均水平更快的相对海平面上升,还因制度薄弱、社会资源有限和财政紧张,难以有效应对日益加剧的威胁。

而来自中国的黄河、波兰的维斯瓦河、意大利的波河、荷兰的莱茵河–默兹河以及美国的密西西比河等三角洲,尽管也面临挑战,却因国家治理能力强、经济基础雄厚,被归入“上升准备者”行列。只是,即便是这些看似准备充分的地区,也并非毫无忧患。如果政策过度偏向短期利益,长期的适应能力仍可能被削弱。

过去一百年里,许多地区的风险就是从尚不紧迫走向了急剧恶化。

在 20 世纪,有 10 个三角洲本还属于“潜在威胁”或“安全港”类别,如今已滑入高风险区。例如,密西西比河、恒河–布拉马普特拉河和湄公河三角洲,自 20 世纪以来相对海平面上升速率一直维持在每年 4 毫米以上,使这些人口密集区域日益脆弱。尼罗河三角洲的变化尤为剧烈——20 世纪平均每年仅上升约 1 毫米,而进入 21 世纪后,这一数字已飙升至每年超过 10 毫米。

在这项分析中,还有一个现象引人深思:所有目前处于“未准备潜水者”类别的中低收入国家三角洲,原来都是处于低风险水平。这说明,它们所面临的环境压力正在快速加剧,但应对能力却几乎没有提升,陷入“风险上升、能力停滞”的困境。

可以说,陆地下沉正在成为比海平面上升更紧迫的威胁,而最脆弱的地区恰恰是最缺乏资源去应对的。

这项研究的意义远不止于提供一组新数据。长期以来,全球气候讨论习惯用平均值来描述威胁:比如“升温 1.5℃”或“海平面每年上升 4 毫米”。但对三角洲而言,这些数字只讲了一半的故事,因为参考系本身正在下沉。

美国弗吉尼亚理工大学地球观测与创新实验室主任、论文共同作者马努切尔·希尔扎伊(Manoochehr Shirzaei)指出:“我们的结果表明,地表沉降不是遥远的未来问题——它正在发生,而且在许多三角洲,其规模已经超过了气候驱动的海平面上升。”

图 | 马努切尔·希尔扎伊(Manoochehr Shirzaei)(来源:Linkedin)

与由气候变化引发的海平面上升不同,地面沉降在人类政策的时间尺度上是可以干预、甚至逆转的。例如,通过更科学的地下水管理、含水层人工回灌、河流沉积物调控等措施,往往能在区域层面迅速见效。然而,恰恰因为沉降是局部可控的问题,它反而在全球气候议程中被边缘化。国际关注更多集中在更具全球性的温室气体排放和气温上升上。

研究团队强调这种忽视其实是更深层的错位:气候影响的实际空间尺度,与当前适应政策的优先级之间存在严重脱节。沉降不只是叠加在海平面上升之上的附加问题,它实际上动摇了以“海平面上升”为中心的渐进式适应逻辑。要真正保护三角洲,必须将应对策略从单纯的全球气候议题,转向区域性、社会技术层面的紧迫行动。

对生活在这些下沉土地上的数亿人而言,可行动的时间窗口正在迅速关闭。守护三角洲的未来,不仅需要全球气候合作,更需要立足本地、直面沉降这一紧迫而可解的挑战。通过治理创新与切实行动,为最脆弱的社区争取生存空间。

参考链接:

论文地址:https://www.nature.com/articles/s41586-025-09928-6

运营/排版:何晨龙

  •