普通视图

Received today — 2026年4月26日

谷歌第八代TPU双舰齐发,终结AI推理延迟,让智能体真正实现随叫随到

作者胡巍巍
2026年4月23日 10:18

今天,谷歌在 Cloud Next '26 峰会上发布了其第八代 TPU 架构(TPU 8t 与 TPU 8i),TPU 8t 主攻训练,TPU 8i 主攻推理,将在 2026 年晚些时候上市。第八代 TPU 采用申请制,Google Cloud 用户如需使用,需要在官网提交登记需求。原生 PyTorch 对于 TPU 的支持等软件栈功能,目前也处于 Preview 阶段。眼下,谷歌是在小范围内开放给特定合作伙伴和早期客户进行测试,旨在管理早期算力资源的分配。

TPU 8t 凭借 SparseCore 核心与 Virgo 网络拓扑,将大规模预训练效能推向极致,以 2.7 倍的单位成本算力改写了模型训练版图。

TPU 8i 专为实时推理与复杂决策而生,其通过 CAE 加速引擎与新型 Boardfly 拓扑结构,在一定程度上击碎了长上下文推理的延迟瓶颈,让 AI 从单一的下一个词预测进化到场景模拟和深度逻辑推理,AI 回应将变得更及时、更连贯。在谷歌自研 Arm Axion 架构 CPU 的算力支持下,这套架构还实现了两倍的能效飞跃。

第八代 TPU 将开放给所有谷歌云客户使用。TPU 8t 和 TPU 8i 支持主流的 AI 框架比如 PyTorch 和 JAX。开发者不需要学习新的编程语言,使用自己熟悉的工具就能直接调用 TPU 算力。谷歌还提供了开源的参考模型代码,让用户可以快速上手。

(来源:谷歌)

我们可能都遇到过 AI 反应很慢的情况,要转好几圈才给出答案,很多时候问题不在于网速,其实是处理请求的芯片距离太远。我们的声音数据要跑到远处的数据中心,在那里排队、计算、再传回来,一来一回时间就过去了,此次第八代 TPU 正是为解决这个问题而来。

当前,AI 训练和 AI 推理对于芯片的要求越来越不一样。训练需要极致的算力,这要求芯片之间能够高效地协同工作。推理则需要极低的延迟,这要求芯片能够快速处理多个请求,并且还得尽可能地省电。于是,第八代 TPU 分成了 TPU 8t 和 TPU 8i。

TPU 8t:专为大规模 AI 训练设计

TPU 8t 主要负责训练,它被设计得可以成千上万个连在一起工作。谷歌用一个名为 3D Torus 的网络把其连接起来,组成了一个超级计算集群。一个单独的超级计算单元里就装了 9600 颗 TPU 8t 芯片,一起共享高达 2PB 的内存,总共能够提供高达 121 ExaFlops 的算力。

图 | TPU 8t ASIC 框图(来源:谷歌)

TPU 8t 还用到了 SparseCore 这一技术。现在的很多大模型用的是混合专家技术,每次计算只激活一小部分参数,混合专家技术虽然能效高,但是会产生大量不规则的内存访问,这让普通芯片招架不来。

而谷歌此次使用的 SparseCore 技术专门负责处理这种任务,比如它可以让负责核心数学运算的矩阵乘法单元专心做自己擅长的事情,通过这样互相配合的方式,芯片就不会闲置,始终保持满负荷运转的状态。

TPU 8t 还改进了数据传输方式,用上了谷歌自研的 Virgo 网络,把芯片之间的通信带宽翻了一倍,把连接到外部数据中心的带宽提升了四倍。TPU 的 Direct Storage 技术允许芯片直接从高速存储里读取数据,从而能够绕开 CPU 这个“中间人”。

这样一来,喂给芯片的数据流就不会断,训练速度能提升十倍。在能耗上,TPU 8t 相比上一代的每瓦性能提升了两倍。训练超大模型时,它的性价比提升了 2.7 倍。对于需要训练几百甚至上千亿参数模型的团队来说,这意味着能够节约大量的时间和电费。

图 | TPU 8t 机架级与 Virgo 光纤通道的连接(来源:谷歌)

TPU 8i:能快速响应需求和处理长上下文推理

相比之下,TPU 8i 主打一个反应极快,它专门为那些复杂的、需要多步推理的问题而生。当你和 AI 聊一个很长的上下文,比如讨论一个复杂的心理问题,那么 AI 需要记住之前所有的对话内容。

上述对话记忆被存放在一个叫 KV Cache 的地方,而 TPU 8i 配备了 288GB 的高带宽内存和 384MB 的超大片上 SRAM,后者比上一代多了三倍,因此它可以把整个对话的上下文都装进芯片内部,不用频繁地去外面拿数据,处理速度自然也就变快了。

图 | TPU 8i ASIC 框图(来源:谷歌)

TPU 8i 的另一项关键创新是集体通信加速引擎。当大模型进行推理的时候,尤其是在处理混合专家模型时,芯片之间需要频繁地同步数据和汇总结果,这个过程叫做集体通信。要是做得不好,芯片的大部分时间都在干等。

TPU 8i 的 CAE 专门负责加速这个环节,把延迟降低了五倍。它还把芯片之间的互联带宽翻了一番,达到了 19.2 Tb/s。

与此同时,谷歌还为 TPU 8i 设计了一种名为 Boardfly 的全新网络连接方式。传统的 3D Torus 网络在连接大量芯片时,数据包在芯片之间传输时需要经过很多跳。Boardfly 通过借鉴 Dragonfly 拓扑的思想,利用增加长距离直连链路的方式,把由 1024 颗芯片组成的系统里的最远的两个芯片之间的通信距离从 16 跳减少至 7 跳,降低了 56%,让任何两颗芯片之间都能更快地交换信息,助力更好地处理复杂的推理任务。

这些改进让 TPU 8i 在推理任务上的性价比比上一代提升了 80%。对于一家企业用户来说,将能用同样的成本服务将近两倍的客户。谷歌还为 TPU 8i 搭配了自研的 Axion ARM 架构 CPU,并做了针对性优化,让系统运行得更顺畅。

图 | TPU 8i 分层式 Boardfly 拓扑结构(来源:谷歌)

众所周知,谷歌这套 TPU 体系已经运行了很多年,谷歌的 Gemini 正是跑在 TPU 之上。如前所述,他们这次将第八代 TPU 开放给了所有云客户,旨在为全球开发者构建一座通往更高 AI 想象力的算力基石。总的来说,在智能体时代这种芯片设计上的精细化分工,将有利于打造一个随叫随到、反应灵敏的 AI 应用。

参考资料:

https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/

https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive/

https://www.bloomberg.com/news/articles/2026-04-22/google-cloud-releases-new-tpu-chip-lineup-in-bid-to-speed-up-ai

https://x.com/patrickmoorhead/status/2046928498292412771

排版:胡巍巍

专为青光眼设计!科学家开发智能隐形眼镜,24小时监控眼压,超标自动滴药

作者胡巍巍
2026年4月22日 17:00

青光眼是全球导致不可逆失明的主要原因之一,其核心致病因素是眼内压的异常升高。

在传统治疗中存在两大痛点:首先,眼压会在一天中不断波动,在医院的单次测量很难捕捉到危险的眼压峰值;其次,患者通常需要每天自行滴眼药水来控制眼压,但很多人由于遗忘或觉得麻烦,导致用药依从性很差,致使病情恶化。

2016 年,美国 FDA 曾批准了一种名为 Triggerfish 的设备,该设备将电子元件嵌入镜片中,可实现持续的眼压监测;2022 年,韩国浦项科技大学研究团队也曾开发新型智能隐形眼镜技术,为青光眼患者提供监测、治疗的一体化解决方案。

但这些方案都面临难题,坚硬的微电子元件和外部电源系统与娇嫩的角膜组织之间存在严重的机械力学不匹配。长期佩戴这类电子镜片,已被报告会导致明显的异物感、眼痛、浅层点状角膜炎甚至角膜上皮缺损。

为了在监测的精准度与患者的佩戴舒适度之间,寻找一个更优的平衡点。近日,来自寺崎生物医学创新研究所的 Yangzhi Zhu 及合作团队开发了全球首款无电池、全聚合物微流控诊疗一体化智能隐形眼镜(AP-TSCL)。它像一枚普通软性隐形眼镜,能够 24 小时实时进行眼压监测、自动给药。研究成果发表在 Science Translational Medicine 期刊。

图 | Yangzhi Zhu(来源:寺崎生物医学创新研究所)

这款名为 AP‑TSCL 的智能隐形眼镜采用三层设计:下层是直接接触角膜的微流控镜片层,内部精密切割了用于储存药物和感知眼压变化的微通道及微室;中间层是一块基于仿生理念设计的力学活性抗溶胀丝蛋白海绵(BASS),它既是感知眼压应变的核心组件,也是一个巨大的药物储库;最上层则是软性隐形眼镜层,它不仅完美封装了内部结构,还能抵消日常眨眼带来的外部机械干扰,并能像普通隐形眼镜一样提供屈光矫正。

其中,最具突破性的是中间层的 BASS 材料。这块微型海绵不仅拥有高达自身干重 2,700 倍的液体吸附能力 ,更具备惊人的弹性韧性:在经受高达 25% 应变的 100 次连续压缩循环后,它依然能保持 100% 的形态恢复与液体保留能力。BASS 结构的引入,彻底解决了过去纯聚合物镜片在受到挤压时微通道容易塌陷或信号漂移的顽疾,大幅提升了传感灵敏度。

图 | AP‑TSCL 智能隐形眼镜(来源:上述论文)

整副镜片由生物相容性优异的聚甲基丙烯酸羟乙酯-有机硅水凝胶复合材料制成。在封装完成后,其在 400 至 800 纳米的可见光范围内透光率高达 95% ,这意味着患者佩戴它时,不仅没有任何异物摩擦感,视线也如平时一般清晰通透。

为了确保长期储存和佩戴过程中的药物稳定性,研究人员还在微流控储药室和通道内壁均匀沉积了一层无针孔的聚对二甲苯保形涂层。这种极其疏水的致密屏障,像给水管加装了纳米级密封圈一样,彻底锁死了水溶性药物,使得加载了药物的 AP-TSCL 在长达 21 天的 35°C 模拟泪液环境中,药物保留率依然超过 95%。

AP-TSCL的工作原理可以用两句话概括:眼压变化让镜片变形,变形驱动液体位移实现监测;眼压超标触发储药腔挤压,压力门控精准释放药物。

在眼压监测方面,镜片边缘有一根极细的微流控通道。当眼压升高时,眼球会发生微小的形变,这种挤压会把镜片内部的指示液体推进微通道里。患者只要拿智能手机对着眼睛拍个视频,手机里的 AI 算法就能自动追踪液体的位移,并实时换算成精准的眼压数值。

最巧妙的设计是自动给药。它不需要任何电子开关,镜片内部自带储药室。研究人员可通过调整通道宽度预设触发阈值,例如 22 mmHg(青光眼临床警戒值)。当眼压低于阈值时,储药腔完全封闭,药物零泄漏;一旦眼压突破阈值,腔室形变超过临界值,微流控通道自动打开,药物被精准释放至眼表;眼压恢复正常后,通道关闭,停止给药,真正实现高眼压才给药、眼压正常就停药的按需治疗。

有些重度患者需要联合用药。这款眼镜可以设计成带有两个不同宽度的通道,比如眼压达到 22 mmHg 时释放第一种药,如果眼压没控制住,继续飙升到 26 mmHg ,它就会触发第二个通道,释放第二种药,完全实现了自动化、个性化治疗。

为了验证 AP‑TSCL 的性能,研究团队在体外人工眼球模型、离体牛眼模型与新西兰兔高眼压模型上,全面评估了监测精度、给药效果与生物安全性。

在临床前验证环节,AP-TSCL 展现出了极高的成药潜力。在兔细胞毒性实验中,将镜片与人角膜上皮细胞共培养 72 小时后,细胞存活率依然高达 98% 以上,与对照组无异。在活体兔眼中连续佩戴两周,角膜依然透亮,未见任何上皮损伤、水肿或炎症反应的组织学病变。

治疗功效的验证更为有力。在基线眼压超过 25 mmHg 的轻中度高眼压兔模型中,搭载噻吗洛尔的 AP-TSCL-Timo 在佩戴 30 分钟内,就成功将兔子的眼压压制到了 20 mmHg 以下的安全红线内,其降压速率和幅度,与医生直接滴注标准剂量的噻吗洛尔滴眼液没有任何统计学差异。

在基线眼压极其恶劣的重度高眼压模型(>40 mmHg)中,搭载双药联合(噻吗洛尔+溴莫尼定)的进阶版 AP-TSCL-Pro 展现了统治力。它的降压效果不仅呈压倒性优势领先于单药滴眼液和单药镜片,更是在连续多天的隔日佩戴治疗中,将眼压牢牢锁定在了安全范围内。

从深层的分子标志物来看,未经治疗的高眼压兔眼视网膜神经受到严重压迫,代表神经胶质增生与损伤的 GFAP 蛋白高表达。而在 AP-TSCL 的精准护航下,GFAP 的表达被有效抑制,同时代表视网膜神经节细胞存活的 BDNF 和 Brn3a 蛋白也得到了完美的保护和维持。

图 | AP-TSCL-Timo 和 AP-TSCL-Pro 佩戴两周后的生物安全性评估(来源:上述论文)

得益于全聚合物注塑与防渗漏涂层工艺,AP-TSCL 中的活性药物能在环境温度下储存长达 5 周而不发生任何化学降解。据悉,Yangzhi Zhu 及其合作者已着手将这项技术商业化,并已申请临时专利。他们认为该平台最终可以扩展到多种眼部疾病,包括干眼症、糖尿病视网膜病变和年龄相关性黄斑变性。

参考链接:

1.https://terasaki.org/institute/yangzhi

2.https://www.science.org/doi/10.1126/scitranslmed.ads9541

运营/排版:何晨龙

Received before yesterday

10美元破解机器人触觉难题!斯坦福开源方案让机械手拥有人类手感

作者胡巍巍
2026年4月19日 19:42

数据是具身智能的燃料。然而生活中随处会用到的力信息的采集,却是现有诸多大规模数采系统普遍面临的一大难点。传统的力传感器(Force-torque sensor)昂贵,沉重且脆弱,动辄上万元成本的设备在遇到冲击时极易永久损坏;更灵活的触觉传感器(Tactile Sensor)仍不成熟,短暂的使用寿命和校准的困难都极大限制了其应用规模。

为了解决力反馈的难题,斯坦福大学团队开发了名为 UMI-FT 的系统,他们在手持式数采设备 UMI 的每个手指上安装了一个硬币大小的六维力觉传感器 -- CoinFT。它能感知到每个手指受到的全部六个方向的力和力矩。这个传感器只有 2 克重,当机器人拿着灯泡去找插座的时候,它能实时感受到自己手指所受到的所有力,轻了它就加把劲,重了它就松一点,几乎能够像人手一样细腻。CoinFT 能够像传统工业力传感器一样进行标准化校准,并且能够安全承受很大的冲击力而不损坏。

(来源:https://arxiv.org/abs/2601.09988)

论文作者侯一凡告诉 DeepTech,这套方案的意义在于让带力反馈的大规模数据采集变得容易实现。以前的大规模数据采集基本只记录位置信息和视觉信息,力觉因为成本和技术难度很难规模化。UMI-FT 提供了一个低成本、高一致性、可规模化的力觉数据采集方案,为训练具备柔顺操作能力的机器人策略铺平了道路。

这个系统的核心是一个叫做 CoinFT 的微型传感器,直径 20 毫米,厚度只有 3 毫米。其内部结构由几层带椭圆支柱的介电材料组成,受到压力时电容会发生变化。还有一个五层的神经网络把这些电容值换算成为力和力矩,校准后的精度非常高,力的误差在 0.15 到 0.58 牛之间,力矩误差在 17 到 231 毫牛米之间。相比之下,传统工业使用的六轴力觉传感器又大又贵,一个就要几万块钱,而且特别娇气一不小心就会被摔坏。而 CoinFT 成本只有 10 美元,既耐摔又耐撞。

(来源:https://arxiv.org/abs/2601.09988)

而前面提到的 UMI-FT 系统不仅是增加了传感器,还把苹果手机绑在了机器人的手上。手机负责提供 RGB 摄像头、超广角摄像头、深度摄像头和姿态数据,刷新率从 10 到 60 赫兹不等。指尖的力觉传感器以 360 赫兹的速度进行超快采样,所有数据都会被记录下来。训练时,研究团队采集了 200 到 630 组不等的人类演示数据,每组数据都包含了图像、深度、姿态和每个手指的六维力觉信息。然后,他们使用这些数据训练了一个自适应柔顺策略模型(ACP)。这个模型会输出机器人的目标位置、虚拟目标位置、刚度矩阵、抓握力和夹爪宽度。底层有两个控制器在同时工作,腕部柔顺控制器根据两个手指传来的力和力矩,调整机器人手臂的位置和姿态,抓握力控制器则负责调节手指夹紧的力度。

(来源:https://arxiv.org/abs/2601.09988)

在潜在应用场景上:在工厂里,机器人可以插拔精密的电子连接器,或者装配带有卡扣的塑料件;在医疗领域,手术机器人可以感知缝合伤口时手术针刺穿组织的阻力变化,操作更加安全;在家庭服务中,机器人可以帮你拧开瓶盖、打鸡蛋和擦桌子。

(来源:https://arxiv.org/abs/2601.09988)

总的来说,本次成果等于给机器人装上了一层皮肤,让机器人拥有了触觉,让它能够感知自己用了多大力气,以及外界给了它多少的反作用力。目前,研究团队已经把这套系统的硬件设计和软件代码全部开源。任何实验室或者机器人爱好者,都可以用几千块的成本复制一套用来训练自己的机器人。

参考资料:

相关论文https://arxiv.org/abs/2601.09988

仓库https://umi-ft.github.io/

排版:胡莉花

❌