阅读视图

解读胚胎评分技术:革新技术进步和伦理争议|2026 年十大突破性技术

作者

这是《麻省理工科技评论》2026 年“十大突破性技术”深度解读系列的第十篇内容,关注 DeepTech,关注新兴科技趋势。

近年来,随着基因检测技术的成熟与普及,一些准父母开始面临一个前所未有的选择:是否要借助胚胎筛查技术,为未来的孩子“优化”遗传特征?这个曾经只存在于科幻小说中的场景,如今已经悄然成为现实。

而推动这一转变的,是胚胎评分技术的革新——通过整合多基因风险评分、高通量测序与人工智能分析,科学家如今能在植入前更准确地评估胚胎的健康潜力。正是这些进展,使其入选《麻省理工科技评论》2026 年“十大突破性技术”。

(来源:MIT Technology Review)

如果只是对胚胎进行严重遗传疾病的筛查,大多数人早已接受。但当检测范围从疾病延伸到外貌、身高、智力等非疾病性状时,质疑与抗拒的声音开始涌现。尽管如此,多家初创公司还是开始公开宣传,声称其技术能够实现这类筛选,并将这项服务推向市场。

胚胎植入前基因检测(PGT,Preimplantation Genetic Testing)其实并非新事物。自 20 世纪 90 年代起,它便以不同形式应用于临床。最初,这项技术主要用于筛查染色体异常,例如导致唐氏综合征的 21 三体,或是单基因遗传病,如囊性纤维化、亨廷顿病、地中海贫血等。对于有明确遗传病风险的家庭而言,这项技术带来了真正的希望,让他们可以在胚胎植入前就知道哪些胚胎携带致病基因,从而选择健康的胚胎进行移植。

真正带来争议的,是近年来出现的胚胎植入前多基因疾病检测,业内称之为 PGT-P(Preimplantation Genetic Testing for Polygenic Disorders)。这项服务关注的并非由单一基因决定的疾病,而是由成百上千个基因变异共同作用的复杂性状。这些性状既包括 2 型糖尿病、冠心病、精神分裂症等多基因疾病,也涵盖身高、眼睛颜色,甚至认知能力等非疾病特征。

相关公司通过构建多基因风险评分,为每个胚胎计算其未来呈现某一性状的统计概率,从而为准父母在多个胚胎之间做出选择提供参考。这些评分基于大规模的全基因组关联研究,通过分析数千个基因变异的累积效应来预测个体特征。

2019 年,Genomic Prediction 率先将 PGT-P 引入临床实践,推出了名为 LifeView 的胚胎健康评分测试。该公司首次报告了利用多基因风险评分对人类植入前胚胎进行 1 型糖尿病筛查的临床案例。这项技术能够同时筛查多种疾病,包括 2 型糖尿病、精神分裂症、冠心病、乳腺癌、前列腺癌、炎症性肠病、阿尔茨海默病等。

(来源:Genomic Prediction)

随后,Orchid Health 推出了基于全基因组测序、覆盖范围更广的升级版本。Orchid 声称能够对胚胎 99% 以上的基因组进行测序,筛查超过 1,200 种单基因疾病以及多种多基因疾病,单个胚胎的检测费用为 2,500 美元。

在商业化的早期阶段,这两家公司大多强调对严重多基因疾病的风险评估,刻意淡化甚至回避对智力等非医学性状的预测能力。但到了 2025 年,新的竞争者开始采取更激进的营销策略。

2025 年 6 月,Nucleus Genomics 发布了名为"Nucleus Embryo"的基因优化软件,明确宣称能够对胚胎的健康、外貌甚至智力进行全面评估。服务起价为 5,999 美元,而包含一个体外受精周期、最多 20 个胚胎筛查及全程礼宾服务的 IVF+套餐则高达 24,999 美元。

紧随其后,2025 年 7 月,Herasight 走出隐身模式,称其技术在 17 种疾病的预测能力上比 Orchid 高出 122%,比 Genomic Prediction 高出 193%。该公司由科学家 Tobias Wolfram 和 Alex Strudwick Young 创立,他们在发布的白皮书中强调,自己的预测模型经过了家庭内部验证,在准确性上优于竞争对手。单次检测费用可高达 50,000 美元。

批评者对这些发展表达了强烈的担忧。多个专业学术组织,包括美国人类遗传学学会、美国医学遗传学与基因组学学会以及美国生殖医学学会,都对使用多基因风险评分进行胚胎选择持谨慎态度。

科学家指出,多基因风险评分本质上基于群体统计数据,对个体——尤其是胚胎阶段的个体——预测能力极为有限。这些评分是从成年人群体中得出的模式,并不能准确预测某个特定胚胎发育成人后的实际状况。更重要的是,选择某一特征可能会无意中影响其他特征,这些相互作用尚未被充分理解。

一项针对 152 名美国生殖内分泌与不孕症专家的调查显示,只有 12% 的受访者普遍赞成多基因胚胎筛查,46% 表示反对,42% 不确定。大多数医生认为风险大于收益。不过,当筛查用于身体和精神健康状况时,支持率上升至 55-59%,而用于行为或体型等特征时,支持率仅为 6-7%。

尽管科学界普遍持保留态度,PGT-P 在硅谷已经形成了一股潮流。埃隆·马斯克和彼得·蒂尔等科技界人物,或通过投资,或通过公开表态,对相关企业表示支持。据报道,马斯克本人曾使用 Orchid 的服务孕育了与科技高管 Shivon Zilis 的至少一个孩子。Reddit 联合创始人 Alexis Ohanian 也投资了 Nucleus Genomics,该公司近期在纽约地铁站投放广告,标语为"拥有你最好的宝宝"。

图 | Nucleus Genomics广告(来源:Nucleus Genomics)

这项原本属于精英圈层的技术正逐渐向更广泛的人群扩散。截至 2025 年,美国已有超过 100 家生育诊所开始提供 PGT-P 服务,Orchid 已与至少 40 家诊所建立合作关系。

如果市场竞争持续发展,或许有望推动检测价格下降、提升可及性,并促使整个 PGT 领域在技术标准、数据解释和伦理规范方面持续改进。可值得注意的是,在美国,胚胎检测和选择几乎不受监管,完全由临床医生和市场力量主导,这与法国、瑞士、意大利、英国和澳大利亚等国形成鲜明对比——这些国家将胚胎选择限制在避免疾病特征的范围内。

我们正站在一个十字路口。技术的进步为人类提供了前所未有的选择权,但同时也带来了深刻的伦理挑战。当选择健康的胚胎与设计理想的孩子之间的界限变得模糊时,我们需要进行一场全社会范围的对话,认真思考什么样的未来是我们真正想要的。

在本次点评中,我们也特别邀请两位胚胎评分、生殖领域的专家,分别从技术现状、核心瓶颈与未来前景等维度,分享他们对这一议题的观察与见解。

以下评论内容均为个人见解,不代表《麻省理工科技评论》观点

从技术可行到临床与社会可接受性:PGT-P 的现状、瓶颈与边界

胚胎植入前基因检测已广泛用于筛查染色体异常或明确的致病变异,并在辅助生殖领域形成相对成熟的应用规范 [1]。近年来出现的基于多基因评分的胚胎植入前检测(Preimplantation Genetic Testing for Polygenic conditions, PGT-P)则试图利用多基因风险评分(Polygenic Risk Score, PRS)和大规模人群全基因组关联研究(genome-Wide Association Study, GWAS)数据,对胚胎的复杂疾病风险或性状倾向进行统计评估 [2-4]。

尽管商业化进展迅速,但从循证医学角度看,PGT-P 仍处于早期阶段,美国生殖医学学会明确指出目前不推荐其作为临床服务提供 [5]。

在技术层面,现有 PRS 多基于欧洲祖源人群的 GWAS 数据构建,在遗传背景不同的人群中应用时更容易放大系统性偏差,从而限制其泛化能力 [6]。同时,遗传因素本身不足以支撑对复杂性状的明确预测。许多遗传变异具有多效性,且个体发育过程受到环境因素的深刻影响,这使得 PRS 难以被理解为对单个胚胎未来表现具有明确指向性的预测工具 [7]。此外,胚胎 DNA 起始量低,检测过程依赖全基因组扩增与低深度测序,扩增偏倚可能导致对结果的误判 [6]。

除技术瓶颈外,PGT-P 在现实应用中还面临一系列相互交织的伦理与社会约束。作为辅助生殖的附加服务,其成本较高,使用者主要集中于高净值或对基因技术高度敏感的人群,这种准入结构使潜在的健康或教育优势更可能在特定社会阶层中累积,引发代际不平等加剧的担忧 [8,9]。

与此同时,规范与监管滞后放大了误导性使用的风险。相较于传统 PGT 已形成的专业指南,PGT-P 仍缺乏成熟的操作与沟通规范 [5]。更为根本的是,将教育或认知相关指标转化为可排序的基因分数,不可避免地牵涉对“更好人生”的价值预设,使该技术易被置于“新型优生学”的伦理争论之中 [9]。

PGT-P 未来能走多远,很大程度上取决于证据、方法和规范是否能够同步跟上。技术层面,需要在更具人群代表性的 GWAS 数据基础上推动 PRS 构建与解读方式的标准化,以提高结果的稳健性和可外推性;制度层面,则有必要明确多基因风险预测的临床适用边界,并通过规范的知情同意和风险披露,避免对预测能力的过度解读。总体而言,PGT-P 或可在特定情境下提供有限的辅助信息,但要成为临床和社会层面均可接受的成熟技术,仍需长期而审慎的验证与约束。

GT-P 的临床应用评估与未来研判

PGT-P 的核心争议在于其科学有效性与临床预期之间存在差距。不同于针对单基因病的精准阻断,PGT-P 依赖的多基因风险评分(PRS)基于群体大数据,其统计显著性难以直接转化为对单个胚胎的精准预测。

首先,身高、智力等复杂性状受众多环境因素影响显著,基因解释率依然有限;其次,由于当前 PRS 模型主要基于欧洲裔数据,在亚裔群体中存在明显的通用性偏差;最后,PGT-P 技术开始临床应用的时间还较短,经 PGT-P 技术选择出生的个体成年后的性状是否符合预期还有无法验证。因此,目前我国应用 PGT-P 技术还缺乏充分的循证支持。

随着市场驱动下 PGT-P 临床应用的加速,辅助生殖技术正面临从“疾病阻断”转向“性状筛选”的伦理挑战。将筛选范围延伸至智力、外貌等非医学领域,不仅引发了“消费型优生”的社会担忧。同时,医疗公平性问题凸显,高昂的自费门槛可能导致遗传优势向高净值人群集中,加剧社会阶层的不平等。

针对 PGT-P 技术的国内应用,应确立“严格监管、特许准入”的政策导向,以平衡技术创新与伦理安全:

首先,PGT-P 的开展要限定在拥有明确资质的医疗机构。该技术的应用必须纳入国家医疗行政部门的严格监管体系。建议仅限定在个别具备高水平辅助生殖资质、拥有国家级遗传诊断中心背景的特定医疗机构开展试点应用。

其次,亚欧准入制度需要经过严格审核。需要建立由临床医生、遗传学家与伦理专家组成的委员会,对机构的技术平台、算法模型及临床获益评估进行定期审核,严禁非医疗性质的商业机构擅自开展检测。

最后,为防止 PGT-P 沦为性状定制工具,应建立“性状屏蔽”机制,如通过算法隐去身高、智力等非医学性状位点,将监测范围严格限定于 II 型糖尿病、冠心病等具备明确临床分层价值的复杂疾病。从源头保证 PGT-P 技术仅用于疾病阻断目的。

预计未来 3-5 年,PGT-P 行业需在商业扩张与政策监管之间寻求平衡。监管部门将出台规范,强制标注预测的不确定性及种族局限,严限误导性宣传。将应用重心从“性状泛化”回归医疗本质,通过确立标准与建设大规模数据库,聚焦于具备风险分层的严格临床监管,从而指导 PGT-P 技术的规范化发展与应用。

王乐韵老师撰稿《从技术可行到临床与社会可接受性:PGT-P 的现状、瓶颈与边界》的参考文献:

1.Cimadomo, Danilo, et al. "The dawn of the future: 30 years from the first biopsy of a human embryo. The detailed history of an ongoing revolution." Human Reproduction Update 26.4 (2020): 453-473.

2.Treff, Nathan R., et al. "Validation of concurrent preimplantation genetic testing for polygenic and monogenic disorders, structural rearrangements, and whole and segmental chromosome aneuploidy with a single universal platform."European journal of medical genetics 62.8 (2019): 103647.

3.Turley, Patrick, et al. "Problems with using polygenic scores to select embryos."New England Journal of Medicine 385.1 (2021): 78-86..

4.Polyakov, Alex, et al. "Polygenic risk score for embryo selection—not ready for prime time." Human reproduction37.10 (2022): 2229-2236.

5.Klipstein, Sigal, et al. "Use of preimplantation genetic testing for polygenic disorders (PGT-P): an Ethics Committee opinion." Fertility and Sterility (2025).

6.Capalbo, Antonio, et al. "Screening embryos for polygenic disease risk: a review of epidemiological, clinical, and ethical considerations." Human reproduction update 30.5 (2024): 529-557.

7.Siermann, Maria, et al. "Limitations, concerns and potential: attitudes of healthcare professionals toward preimplantation genetic testing using polygenic risk scores." EuropeanJournal of Human Genetics 31.10 (2023): 1133-1138.

8.Furrer, Rémy A., et al. "Survey of US reproductive medicine clinicians attitudes on polygenic embryo screening."npj Genomic Medicine 10.1 (2025): 79.

9. Haining, Casey M., et al. "Polygenic risk scores and embryonic screening: considerations for regulation."Journal of medical ethics 51.10 (2025): 719-728.

运营/排版:何晨龙

  •  

深度解读超大规模AI数据中心:核电站供电、液冷取代空调,AI正在重塑全球能源版图|2026十大突破性技术

作者KIK

这是《麻省理工科技评论》2026 年“十大突破性技术”深度解读系列的第九篇内容,关注 DeepTech,关注新兴科技趋势。

在广阔的农田和工业园区里,一栋栋塞满计算机机架的超大型建筑正拔地而起,为 AI 竞赛提供动力。这些工程奇迹是一种新型的基础设施:它们是专为训练和运行超大规模大语言模型而设计的超级计算机,并配备了专用的芯片、冷却系统,甚至独立的能源供应。

2025 年,AI 基础设施的投资规模已从“数十亿美元”的量级跃升至“万亿美元”。1 月 21 日,美国总统特朗普在白宫宣布了“星际之门”(Stargate Project)——由 OpenAI、软银、Oracle 和阿布扎比投资基金 MGX 组建的合资企业,计划四年内向美国 AI 基础设施投资 5,000 亿美元,首期即刻部署 1,000 亿美元。软银 CEO 孙正义出任董事长,OpenAI 负责运营。

星际之门正迅速从蓝图变为现实。位于德克萨斯州阿比林的旗舰园区已于 9 月投入运营,Oracle 开始交付首批英伟达 GB200 芯片机架。到年底,星际之门已宣布五个新址,总规划容量接近 7 吉瓦,投资额超过 4,000 亿美元。与此同时,OpenAI 还在阿联酋、挪威和阿根廷启动国际布局,阿根廷巴塔哥尼亚的“星际之门阿根廷”项目投资高达 250 亿美元,将成为拉丁美洲最大的数据中心。

但星际之门只是冰山一角。据 HSBC 估计,全球已规划的 AI 基础设施投资超过 2 万亿美元。亚马逊承诺投入 1,000 亿美元,谷歌 750 亿美元,Meta 650 亿美元,微软仅 2025 年就将支出 800 亿美元。据一项分析估算,OpenAI 已承诺在 2025 年至 2035 年间向硬件和云基础设施支出约 1.15 万亿美元,涉及英伟达、AMD、Oracle、微软、Broadcom 等七家主要供应商。

超大规模 AI 数据中心将数十万个 GPU 芯片,如英伟达的 H200 或 GB200,捆绑成协同工作的集群。这些芯片擅长并行处理海量数据,每秒执行数万亿次数学计算。数十万英里长的光纤电缆像神经系统一样连接着它们,巨大的存储系统昼夜不停地输送数据。

但惊人的算力是有代价的。

首先是电力。国际能源署(IEA)预测,全球数据中心电力消耗将在五年内翻一番以上,到 2030 年将超过 1,000 太瓦,相当于整个日本的用电量。仅在美国,数据中心已占全国电力消耗的 4.4%,而 2018 年仅为 1.9%;到 2028 年可能攀升至 12%。在弗吉尼亚州这个全球数据中心最密集的地区,数据中心消耗了该州约 26% 的总电力。

在建的最大型数据中心可能吞噬超过一吉瓦的电力,足以为约 75 万户家庭供电。某些规划中的园区占地 5 万英亩,耗电量可达 5 吉瓦,超过美国现有最大核电站的容量。Grid Strategies 估计,到 2030 年美国将新增 120 吉瓦电力需求,其中 60 吉瓦来自数据中心,相当于意大利的峰值电力需求。

目前,煤炭以约 30% 的份额成为数据中心最大电力来源,天然气占 26%,可再生能源约 27%,核能占 15%。尽管可再生能源增长最快,但天然气和煤炭仍将在 2030 年前满足超过 40% 的新增需求。

科技巨头们正竞相寻找清洁方案:亚马逊从宾夕法尼亚州核电站直接获取约 960 兆瓦电力;谷歌与 Kairos Power 签署协议部署小型模块化反应堆;OpenAI 在挪威利用水电资源建立数据中心。但核能从开工到发电需要 5 至 11 年,资本支出是天然气的 5 至 10 倍,远水难解近渴。

第二个挑战是冷却。AI 芯片的功率密度从过去的每机架 15 千瓦飙升至 80 至 120 千瓦,传统空调已无法满足需求。直接芯片冷却(D2C)正在成为主流,这种技术将冷板直接安装在 GPU 上,闭环系统在热源处带走 70% 至 80% 的热负荷。

浸没式冷却则更进一步:服务器被浸泡在非导电液体浴槽中,可将冷却能耗降低 50%,水耗降低最高 91%。微软最新设计采用芯片内微流体冷却,微小通道直接蚀刻在硅芯片背面,使 GPU 温度降低 65%。

然而,许多设施仍依赖蒸发冷却,消耗大量淡水。据估计,2023 年美国数据中心直接消耗约 175 亿加仑水,到 2028 年可能翻两番。仅训练 GPT-3 就蒸发了 70 万升清洁淡水。彭博社报道,自 2022 年以来建造的美国数据中心约三分之二位于高水压力地区。

公众正在为这些建设买单。Dominion Energy 的 2025 年报告显示,弗吉尼亚州居民电费预计到 2039 年将翻一番以上,主要因数据中心增长。在佐治亚州牛顿县,某些拟议数据中心每天请求的水量超过整个县的日用水量,迫使当地官员在拒绝项目、要求替代冷却方案或对居民实施限水之间艰难抉择。

地方反对正在加剧。据 Data Center Watch 统计,自 2023 年以来美国已有 180 亿美元项目被取消,460 亿美元被延迟。仅 2025 年第二季度,被阻止或延迟的项目价值达 980 亿美元。居民们因噪音、光污染、水资源枯竭和电费上涨而组织抵制;2025 年 12 月,超过 200 个环保组织联名致信国会,呼吁暂停批准新的数据中心。

科技高管们对此不以为然。AMD 首席执行官苏姿丰在被问及 AI 热潮是否过度时斩钉截铁:“绝对不是。”他们将答案诉诸于 8 亿每周 ChatGPT 用户、40% 大型企业的 AI 采用率,以及 AI 作为经济引擎和国家安全优先事项的战略价值。OpenAI 首席财务官 Sarah Friar 引用历史作为辩护:“当互联网刚起步时,人们总觉得我们建设过度了。看看我们今天在哪里?”

这些交易的循环性质以及预测的需求能否兑现,仍是悬而未决的问题。电网规划者发现科技公司正在向多个公用事业展示同样的项目以寻求最快的电力接入,使需求预测变得困难。联邦能源监管委员会前主席 Willie Phillips 坦承:“有些地区预测了巨大的增长,然后又向下调整了。”

从 1990 年代的本地服务器到 2000 年代的云计算,再到如今的 AI 超级工厂,数据中心的演进从未停止。生成式 AI 已从瓶中释放,没有回头路。但关于经济预测是否准确、资源供应能否持续、建成后谁来使用,这些问题的答案,或许只有时间才能揭晓。

超大规模 AI 数据中心入选 2026 年度十大突破性技术,我们邀请了三位来自产业与科研一线的代表,围绕其关键技术路径与产业影响进行点评。

以下评论内容均为个人见解,不代表《麻省理工科技评论》观点

从算力堆叠到能源博弈:超大规模 AI 数据中心的现状、瓶颈与趋势

首先需要明确一个核心概念:超大规模 AI 数据中心,绝对不是传统数据中心的简单放大版。它诞生的根本驱动力,是为了满足大模型对算力近乎指数级增长的海量需求。因此它的架构是革命性的,本质上是把数十万计的 GPU 通过极高速网络“粘合”在一起,形成前所未有的单体式超级计算机。

谷歌、微软、亚马逊、Meta 等全球科技巨头,都在投入数千亿美元竞相布局。但与此同时,这个庞然大物也带来了一系列前所未有的挑战:惊人的功耗、棘手的散热、巨大的能源压力,以及如何在规模扩展与效率提升之间找到最佳平衡点。

目前业界的技术路径已经比较清晰,核心思路是通过高速互联技术构建高效的“超节点”,最大程度减少芯片间的通信延迟和开销。算力确实已迈入 ZFLOPS 时代,但“内存墙”,即数据搬运的瓶颈,也愈发突出。另一个无法回避的挑战是散热:随着芯片密度飙升,传统风冷已力不从心,液冷技术正从“可选项”变为“必选项”,配套供电架构也必须同步升级。

而这个产业也面临着多维度的瓶颈。首先是能源约束。一个超大规模数据中心的功耗可超过 1 吉瓦,相当于一座中型城市的用电量。这使它从单纯的电力消费者,变成必须像能源公司一样深度规划电力获取的“准公用事业体”。获取稳定充足的清洁能源成为首要任务,而全球许多地区老旧电网的承载能力,已开始反向制约数据中心的选址和规模。

其次是时间约束。AI 芯片迭代速度极快,约一年一代,远超传统数据中心基础设施两年左右的更新周期。这导致一个尴尬局面:本代数据中心刚建成,就要准备迎接两三代新芯片。而市场竞争又要求算力快速上线,建设周期被从近两年压缩至一年以内,对预制化、模块化的快速交付能力构成极致考验。

最后是生态与治理约束。算力高度集中必然引发一系列新问题:市场垄断的担忧、数据主权的争议、对当地水资源和环境的影响等。产业竞争也在从纯粹的技术比拼,转向标准与生态之争——未来是走向开放协作,还是形成若干封闭的私有体系,将深刻重塑整个算力市场的格局。

往前看,几个趋势比较确定:架构将更加立体协同。“云端集中训练、边缘就近推理”的模式会日趋成熟,“全球算力互联网”的构想也可能逐步落地,实现跨地域的算力调度与优化;它的运营将更加智能高效,用 AI 优化数据中心自身能耗会成为标配,行业关注的指标将从单纯的 PUE,转向更本质的“每瓦特电力产出多少有效算力”;这项技术将更加绿色多元,液冷全面普及之外,余热回收、水循环等深度绿色方案会加速落地;芯粒(Chiplet)、光计算等后摩尔时代的新技术,也将从实验室走向产业试点。

综上,超大规模 AI 数据中心无疑是智能时代最关键的基石之一,但它也对能源、基建和治理能力提出了巨大挑战。数据中心正从支撑业务的“成本中心”,演变为驱动创新的“智能生态枢纽”。其成功将取决于能否与电网、社区共建可持续的“数字能源共同体”,并对环境影响实现透明、负责任的管理。

未来能在这一领域脱颖而出的,必定是那些以架构创新破解算力瓶颈、以卓越工程能力赢得时间竞赛、同时以生态责任感构建可持续未来的实践者。

从电力成本到模型安全:AI 数据中心的三重挑战

随着大模型的规模化应用,AI 数据中心正面临一系列深层次的产业挑战。以下从成本、算力调度和数据安全三个维度,分析当前的关键瓶颈与应对方向。

首先,电力成本将成为 AI 服务社会的主要成本。大模型目前在正确性和确定性上仍有待改进:错误会快速累积,导致不可接受的结果;而提高正确性,则意味着增加计算量;不确定性带来的重试机制,又可能引发新的错误,形成恶性循环。在这一背景下,更廉价的电力意味着在同样计算成本下获得更好的模型服务效果。电力成本,正在成为AI能否大规模服务社会的核心变量。

其次,加速卡的多样性将持续提高。随着时间推移,不同品牌、不同代际的加速卡将长期共存于数据中心。CPU 与 GPU 虚拟化技术以及高速网络技术的发展,将使算力调度更加灵活——推理任务可以有效利用不同加速卡从而降低成本,但大型训练任务的复杂性仍需适应多样化的算力环境。短期来看,宏观的任务调度策略与微观的通信计算融合策略会有所帮助;长期来看,构建混合加速卡计算框架将是必然选择。

最后,丢失模型等于丢失数据。大模型有效压缩了海量数据并支持灵活提取,压缩比可达十万倍。丢失一个磁盘容量仅为 700GB 的模型成品,基本等效于丢失 70TB 的原始训练数据。由于数据的差异化带来模型的差异化,企业独有的数据正在转化为企业独有的竞争力。在数据安全合规的诸多限制下,企业需要拥有自有算力,在开源模型基础上精调自有模型。这意味着,基础设施在保护核心模型方面面临的挑战,比传统数据安全场景更为严峻。

超大规模 AI 数据中心的关键转向:液冷与新型能源架构

超大规模 AI 数据中心是人工智能时代的关键基础设施。Scaling Laws 揭示了模型性能与参数规模、数据量、算力投入之间的幂律关系 [1],使大模型发展从经验探索转向可预测的工程实践,并推动 Amazon、Google、Microsoft 等科技巨头斥资数千亿美元构建数十万块 GPU 互连的超级计算集群,以满足大模型训练的爆炸性算力需求。

然而,当 GPU 机柜的功率密度突破 50 千瓦时(例如英伟达 GB200 NVL72 机柜级系统的功率密度高达 132 千瓦/柜 [2]),传统风冷散热技术成为了制约系统的瓶颈。

风冷散热依赖空气对流传热,其有效功率密度上限为 20-50 千瓦,超过此阈值后,维持散热所需的风量呈指数级增长,导致风道截面积、风扇功耗、噪音和系统体积急剧上升而难以工程实现。另一方面,全球数据中心预计 2030 年占全球总用电量 4%-7%、单体数据中心能耗将突破吉瓦级 [3]。因此,传统的风冷与供电模式已难以为继,行业正加速向液冷技术及核能等新型能源架构转型。

液冷技术通过直接接触式散热并将余热用于园区供暖、工业供热,能够有效改善数据中心的电能使用效率,而核能的稳定基荷特性为解决“AI 大模型训练的持续高功耗与传统电网的负荷平衡模式存在本质冲突”这一困境提供了有效途径。Google、Amazon、Microsoft 等公司均在积极推进核电工程,以满足超大规模 AI 数据中心的用电需求 [4]。

此外,瑞士 Deep Atomic 公司和美国爱达荷国家实验室计划建造首个核动力人工智能数据中心 [5],标志着能源-算力一体化数据中心架构正在从概念走向实践。因此,基于液冷与核能的超大规模数据中心能够有效地支撑算力规模的扩展与跃迁,代表了全球 AI 算力基础设施形态的趋势,也为物理极限约束下的 AI 持续发展开辟了新的空间。

参考文献:

1.Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.

2.Super Micro Computer, Inc., Supermicro NVIDIA GB200 NVL72: Liquid-cooled Exascale Compute in a Rack with 72 NVIDIA Blackwell GPUs, Datasheet.https://www.supermicro.com/datasheet/datasheet_SuperCluster_GB200_NVL72.pdf? Feb. 2025.

3.E. Kok, J. Rauer, P. Sachdeva, and P. Pikul,Scaling bigger, faster, cheaper data centers with smarter designs,McKinsey & Company, Article, Aug. 1, 2025.

4.P. Rooney,AI to go nuclear? Data center deals say it s inevitable.https://www.cio.com/article/3487339/ai-to-go-nuclear-data-center-deals-say-its-inevitable.html Aug. 19, 2024.

5.D. Dalton,Swiss Reactor Company Submits Nuclear-Powered Data Centre Proposal To US DOE. https://www.nucnet.org/news/swiss-reactor-company-submits-nuclear-powered-data-centre-proposal-to-us-doe-12-4-2025. Dec. 4, 2025.

运营/排版:何晨龙

  •