阅读视图

华为 Pura X Max 深度体验:比起「阔折」,「主动式 AI」更吸引我

图片
一台手机和一台口袋里的小平板,共用一副机身。

作者|张勇毅

编辑|靖宇
 

用 Pura X Max 的第三天,我同时做了两件以前不会在同一台设备上做的事。

早上通勤的时候,我合着盖、单手握,读完了一篇 8000 字的长文。中午回到工位前,把它展开当成一个平板来使用。

中间没有切换任何设备。

这是 Pura X Max 跟它前一代 Pura X 最大的不同。Pura X 仍然是一台『屏幕比例改了一下』的手机,Pura X Max 已经不是了——它合上是手机,展开是一台能装进口袋的小平板。

 

01

上一代 Pura X 的「奇观」

去年 Pura X 上市之后,小红书上慢慢沉淀出一种很有意思的玩家文化——主要是女性用户,她们买了 Pura X 之后会再配一个固定的硬壳,把它常态锁在展开状态下使用,几乎不合上。简单来说,就是把这台一万元的折叠屏,当成一台屏幕比例特殊的直屏机来用——只不过这台『直屏机』的屏,是一块 √2:1 的大屏。

她们在小红书上互相分享这种用法的体验:屏幕比例完美适配 4:3 拍出来的照片、看小红书笔记一屏能多两条、读电子书时跟一本平装书的版心宽度几乎一致——所有这些场景,都因为这块屏的比例对了,自然落了进来。

这个用法听起来挺反常,但它从一个非常诚实的角度,说明了一件事:Pura X 的内屏体验太耀眼了——耀眼到一部分用户愿意放弃『折叠』这个功能本身,只为了让这块屏一直处于最完整的形态。

这件事的反讽意味在于——折叠屏过去七年的核心叙事,是『同一台设备的两种形态』,是『手机和平板二合一』。所有厂商的发布会上,最高光的镜头永远是机身合起或打开的那个瞬间。但 Pura X 的部分用户用脚投票投出来的结论是:他们要的不是『二合一』,是那块比例对了的大屏。 至于折叠这件事,反而被她们当成了一个累赘——既然展开的形态这么完美,为什么还要给它留一个变小的可能性?

Pura X 本身是成功的。年销量做到 150 万台,对至今仍然售价相对较高的折叠屏来说不是小数字。这个成功本身就证明了 √2:1 的内屏方向走对了——对到用户甚至愿意为它牺牲掉折叠功能。

但这个成功也留下了一个新问题:当内屏好到让用户不想合盖,外屏的存在意义是什么?

图片

而 Pura X Max 这一代,华为想接着回答的就是这个被留下的问题。

 

02

Pura X Max 的内屏,长成了一台小平板

 

Pura X Max 的内屏是 7.7 英寸,比例 √2:1(也就是 A4 纸的长宽比)。这块屏铺开来,对角线已经非常接近 iPad mini 的 8.3 英寸——两者落到桌面上,是同一个量级的视觉体量。

关键的不是尺寸,是它做的事变了。

Pura X 的内屏虽然耀眼,但它做的事仍然属于『手机』这个品类——只是用一块更舒展、比例更合理的屏在做手机日常的事而已。这是为什么小红书上那批用户愿意把它锁在展开状态使用——它是『手机这个品类里最舒服的那一种』,但它没有跨过手机的边界。

在 Pura X Max 上展开内屏,事情跨过去了。

图片

Pura X Max 的内屏分成两半之后,每一半还有接近常规手机外屏的可用宽度;这意味着如果你愿意的话,你仍然可以把它当做一个平板来分屏,同时使用两个 App——这对于很多折叠屏用户来讲,可能是一个更熟悉的操作逻辑。

图片

剪映的体验也有结构性的不同。剪一段竖向的 Vlog,左边是预览区,右边是时间轴和素材库,工具栏不用滑动就能全局展示。手写笔轻按可以唤出波轮菜单,切片、调速、加字幕一气呵成。过去我在手机上剪视频是一种「赶时间的妥协」——内容能发出去就行,质量要求降低一档;现在它接近一种正经的工作流。

差别是结构性的。Pura X 的内屏让你「把手机的事做得更舒服」,Pura X Max 的内屏让你「做手机过去做不了的事」。

前者是手机的极致,后者是平板的开端。这就是为什么华为一直在强调,Pura X Max 并非 Pura X 的替代品,而是两个完全不同的品类。

过去手机谈生产力一直有点尴尬——你可以在手机上写字、画图、剪辑,但每一件事都伴随着一种「将就」的体感:屏幕不够、空间不够、视野不够。Pura X 缓解了这种将就感,Pura X Max 把它彻底拿掉。一件事开始之后你不会想着「等我回家用 iPad 再认真做一遍」,而是这一遍就把它做完。

把内屏做成小平板,本身不是最难的——把它做大就行了。

真正难的是:在内屏跨过手机边界变成小平板之后,让合盖的形态依然有自己不可替代的价值,不再像 Pura X 时代那样被『耀眼的内屏』盖过去。

图片

Pura X Max 这一代要解决的,正是这个被 Pura X 留下的悬而未决的问题——让合盖形态有自己的独立价值,让展开和合盖不是同一件事的两种尺寸,而是两种不同的使用类别。

它的解法不是去『修复』合盖(合盖的外屏其实从 Pura X 那一代起就已经合格了),而是从两个方向同时拉开两个形态的距离:

展开侧,给它增加合盖时做不了的事。 7.7 英寸的内屏长成小平板之后,画图、双栏写作、剪辑视频这些事变成了『展开才能做』的事——它们是合盖外屏因为物理尺寸而做不了的事。展开有了独立价值。

合盖侧,让 5.4 英寸的外屏继续延续 Pura X 那块大家认可的好用性——单手握持的边界、口袋里的便携性、走路通勤时随手就能用。 这些是展开形态因为尺寸过大而做不到的事。合盖也有了独立价值。

我用 Pura X Max 的这一周,外屏使用时间占了日常使用的 80% 以上。这跟我用 Pura X 的体感很不一样——Pura X 时代我会主动选择展开,因为展开形态本身就更舒服;Pura X Max 时代我大部分时候不展开,因为合盖已经够用,展开是有了具体目的之后的选择。

读微信公众号的一篇长文,文字落在外屏上,行宽接近一本平装书的版心——我读完一屏的速度比在 iPhone 上要快一些,不是因为屏幕大,是因为眼睛不用频繁返回到左侧。

图片

刷小红书的摄影类笔记,外屏一屏能横向铺开两到三张缩略图。要决定一张图值不值得点开看大图,扫一眼就够。

刷 B 站的横向视频,画面横向铺满,几乎没有上下黑边。

这些是手机的事,外屏完成;画图、双栏、剪辑这些是平板的事,内屏完成。 两块屏不再互相覆盖,也不再互相代偿——它们分别承担了不同类别的使用。

这也是过去七年折叠屏一直没做到的事。

实现这件事的底层支撑,除了硬件设计上的取舍,还有 HarmonyOS 几年下来积累的多设备适配能力。一块外屏比例的应用,展开后能丝滑切换成接近平板的版式;分屏的两个区块,应用能各自独立地按比例渲染——这些事情看起来像是顺理成章,但放在 Android 阵营里看,没有几家能做到这种程度的应用一致性。这是华为愿意把外屏和内屏都做认真的底气来源——他们知道软件能跟上。

 

03

第一台 AI 不需要「召唤」的手机

 

回到产品形态本身,我们都知道,「阔折叠」只是一个起点,它并不是对于「折叠屏是用来干什么的」真正的回答。 而华为在这个起点之上,想给出的新回答就是「小艺伴随式 AI」。

图片

Pura X Max 把小艺伴随式 AI 放成了屏幕右侧的一条常驻窄栏。主内容收窄到大概常规手机的宽度,小艺占据剩下的空隙,两者并行存在,互不打扰。要它的时候它就在,不用召唤、不用切应用、不用喊唤醒词。

这个位置,在过去任何一台手机上都没有过。

AI 真正进入消费产品就是这两三年的事,但手机的交互范式在二十年前就已经定型——主屏、应用图标、点进 App、一个 App 占一整块屏幕。这套范式里从来没给 AI 留位置。所以过去这一两年厂商把 AI 装进手机的时候,能做的选择不多:做成一个独立的 App、塞进下拉菜单、做成长按电源键唤起的浮窗。AI 在手机里始终是被「召唤」的——你先想到它,然后去找它,然后它出现,然后它消失。

图片

Pura X Max 是我用过的第一台不需要「召唤」AI 的手机。

写稿这件事的体感变了:左边一个文档窗口,右边一条小艺侧边栏。读到一个我不确定的参数,直接选中,小艺立刻在侧边给出解释——不用切到浏览器,不用打断写作的状态。读到一段需要补查资料的内容,小艺会主动建议可以延展的方向。整个过程像是右手边坐了一个安静的助手——他知道我在做什么,但只在我看向他的时候开口。

图片

华为 Pura X Max

读小红书的时候是另一种感受。刷到一个不错的摄影点位,过去的操作是截图、保存、下次想用的时候自己翻相册。小艺伴随式 AI 把这一步省了——它能直接识别屏幕上的内容,把地点、时间、构图建议帮你整理好,加进待办。截图是把信息从屏幕里搬出来,小艺是在屏幕里把信息消化掉。

这件事的本质,不是因为模型变得多强,是因为 AI 第一次在手机里有了一个属于它的物理位置。

在直板手机上,AI 一直是被「借用」的——它借用浮窗、借用通知栏、借用某个角落里临时塞进去的按钮,每一次出现都是过路。Pura X Max 给了它一块属于自己的常驻领地。AI 从工具箱里的一把工具,变成了使用环境的一部分。

影像部分,Pura X Max 的第二代红枫影像系统,是我用过的折叠屏里第一台没让我感觉到这个让步的设备。

主摄是 5000 万像素 1/1.56 英寸的传感器,配了一颗 F1.4-F4.0 的十档物理可变光圈——这个配置过去只在直板旗舰上见过。十档可变光圈意味着你能像用真正的相机那样手动调浅景深或大景深,不是计算摄影模拟出来的虚化,是镜头物理收放的虚化。

图片

图片

图片

图片

真正让我意外的是长焦。5000 万像素的 3.5 倍潜望,最大支持 100 倍变焦——这是一颗几乎不该出现在折叠屏上的长焦。过去我用折叠屏拍演唱会、拍发布会现场,都得提前接受「拍不清楚」的预期;这一周拿 Pura X Max 试拍,10 倍以内的画面是干干净净的,没有过去 AI 长焦那种典型的「涂抹纹路」,建筑物的边缘锐利、树叶不糊。

图片

图片

图片

图片

图片

图片

Pura X Max 实机样张:摄影师:FlyingFist

 

说完了优点,目前关于 Pura X Max 的一些槽点,我觉得也有必要和大家分享一下:第一个是单手操作的边界。85mm 的外屏宽度,比常规直板手机的 75mm 多了一截。我手不算小,单手回消息、刷信息流、看视频都没问题,但要点屏幕另一侧的按钮,得换个握法或者用左手辅助。如果你手偏小,这台手机更接近一台「需要双手」的设备。

第二个是相机模组。三摄横向排开的 Deco 块体积不小,机身展开后竖着拿,重心明显偏上。陶瓷边框的质感很好,但凸起也确实夸张。这是为了塞进 50MP 潜望长焦付出的代价。

第三个是续航。外屏好用是把双刃剑——我在外屏上消耗的时间比预期更多,5300mAh 的电池一天一充压力不大,但也没什么富余。如果你对它的期待是重度使用,一定记得带块充电宝。

 

 

04

折叠屏下一程

 

回过头看,Pura X 和 Pura X Max 走的是同一条产品线,但解决的是两个不同的问题。

Pura X 解决了「折叠屏的内屏可以是一块用户愿意一直用的大屏」。Pura X Max 解决了「折叠屏的内屏可以是一台真正的小平板,与此同时,让合盖形态从『内屏的影子』里走出来,变成一种独立的使用类别」。

这两件事加起来,指向的不是一个「更大的折叠屏手机」,而是一个过去并不存在的设备类别:能装进口袋的小平板

这个判断会被后续市场进一步验证。传闻中的折叠屏 iPhone 据说也会用接近 √2:1 的比例,三星、小米也都在跟进。一旦比例成为共识,比的就不再是「谁的内屏更大」,而是:谁能在做出小平板的同时,让合盖形态依然是一台你愿意单手拿出来用的手机。

这件事比想象中难。它要求厂商同时在两个完全不同的产品逻辑下做对——平板的逻辑和手机的逻辑——并且让它们共用一套硬件、一套系统、一套生态。Pura X Max 之所以能做到,背后是 HarmonyOS 几年积累下来的多设备适配能力。换一家厂商不一定能短期内追上。

图片

苹果是这个赛道最值得关注的变量。一旦折叠屏 iPhone 真的落地,它会带着 iPad 多年沉淀下来的 iPadOS、Pencil、Magic Keyboard 整套生产力生态进场。这是华为目前还没完全展开的牌——HarmonyOS 在多设备协同上做得很扎实,但生产力生态的丰富度还有空间。Pura X Max 拿出的这一手「口袋小平板」,本质上是在替整个 Android 阵营抢一个时间窗口:在苹果带着完整生态进场之前,把这个新品类的标准先立下来。

如果一年后再回头看,能在折叠屏市场拉开身位的产品,比拼的不是参数表,是这套「双身份」的完成度。

合着,是一台我愿意带出门的手机。打开,是一台我愿意工作的小平板。

折叠屏走过七年,这是第一次。

*头图来源:PuraXMax
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你买折叠屏,到底是为了那块更大的屏,
还是为了「折叠」这件事本身?
图片
图片
图片
图片

 

  •  

豆包上线「帮你选」功能; 5999 元,泡泡玛特首推冰箱;高铁试点「坐火车带自行车」 | 极客早知道|极客早知道

英特尔股价周五暴涨 24% 创 1987 年以来最大单日涨幅

4 月 25 日消息,英特尔股价周五飙升 24%,创下自 1987 年 10 月以来的最佳单日表现,投资者对因人工智能需求增长而带来的复苏迹象感到振奋。

该股收于 82.57 美元,继 2025 年全年上涨 84% 之后,今年迄今已累计上涨 124%。上周五的涨势超过了该股在 9 月 18 日 23% 的涨幅——当时英伟达同意向英特尔投资 50 亿美元。

去年年初接任首席执行官的陈立武,通过争取特朗普政府和英伟达的投资,并帮助这家此前基本被排除在 AI 热潮之外的芯片制造商挤入该领域,重新激发了华尔街对这家陷入困境的芯片公司的兴趣。

Evercore ISI 分析师在财报发布后的一份报告中写道:「英特尔的新任首席执行官修复了资产负债表,并正在执行一项似乎使英特尔重回竞争轨道的战略。」该机构将英特尔股票评级上调至相当于「买入」的级别。

公司营收超出预期,同比增长 7.2%,从上年同期的 126.7 亿美元增至 135.8 亿美元。在此前七个季度中,该公司有五个季度营收同比下滑。英特尔还发布了乐观的第二季度业绩指引。

华尔街的反弹标志着这家美国芯片制造商的重大转折。该公司在 2024 年市值蒸发了 60%,导致时任首席执行官帕特·基辛格于当年 12 月被免职。多年来,由于受困于制造延误并等待其芯片代工业务的大客户出现,该公司基本上缺席了 AI 竞赛。(消息来源:环球市场播报)

时隔 6 个月,英伟达市值再次突破 5 万亿美元

4 月 24 日消息,英伟达股价上涨 3.08%,股价 209.500 美元,总市值再次突破 5 万亿美元(现汇率约合 34.22 万亿元人民币)。

值得注意的是,英伟达股价已连续四周上涨,本月累计涨 18%。(消息来源:IT 之家)

 

DeepSeek-V4 虽迟但到!百万上下文成标配 华为昇腾和英伟达均被写进其技术报告

4 月 24 日,深度求索(DeepSeek)宣布,全新系列模型 DeepSeek-V4 预览版正式上线并同步开源,API 服务亦同步更新。

该系列分为 Pro 和 Flash 两个版本,全系标配 1M(一百万)超长上下文。在技术架构上,DeepSeek-V4 引入了新型注意力机制与 DSA 稀疏注意力,并结合 mHC(流形约束超连接)和 Engram(条件记忆)模块,旨在大幅降低计算与显存需求,打破「芯片墙」与「内存墙」桎梏。

性能方面,Pro 版在 Agent 能力、世界知识及推理性能上表现优异,尤其在代码任务中处于开源领先地位。

DeepSeek-V4 已在英伟达 GPU 及华为昇腾 NPU 平台验证细粒度 EP 方案。

受算力限制,Pro 版目前服务吞吐有限,预计在下半年昇腾 950 上市后价格将大幅下调。目前,该模型仍专注于纯文本与语音,尚未上线原生多模态能力。此前在 2 月 11 日的灰度测试中,该模型知识库已更新至 2025 年 5 月。(消息来源:财联社)

谷歌计划向 Anthropic 投资至多 400 亿美元 支持后者大幅扩展算力

Anthropic 周五表示,谷歌承诺现在将以现金形式投资 100 亿美元,对公司的估值为 3500 亿美元,与其 2 月融资时的估值相同(不包括近期新增融资)。此外,谷歌将在 Anthropic 达到业绩目标时再投资 300 亿美元,并支持其大幅扩展算力。

随着 Claude Code 这一可加速软件开发流程的 AI 智能体取得突破性成功,Anthropic 正加快融资步伐。该公司本周早些时候表示,从亚马逊获得了另一笔 50 亿美元投资,对其估值同样为 3500 亿美元,并附带未来追加 200 亿美元投资的选择权。今年 2 月,Anthropic 已融资 300 亿美元,此后投资者寻求按 8000 亿美元或更高公司估值入股。

谷歌的张量处理单元(TPU)是英伟达芯片的重要替代方案之一,在需要巨量算力的 AI 行业,这些芯片对 Anthropic 等开发者来说既稀缺又关键。

Anthropic 最早可能于 10 月进行首次公开募股,目前正积极寻求更多基础设施以满足产品需求的增长。Claude Code 已迅速成为硅谷工程师的首选工具,包括部分谷歌员工也在使用。

Anthropic 首席执行官 Dario Amodei 早年曾在谷歌从事 AI 研究。自他于 2021 年与一批前 OpenAI 员工创立 Anthropic 以来,两家公司一直保持密切联系。去年,谷歌表示将向 Anthropic 提供多达 100 万枚 TPU 芯片,该交易价值达数百亿美元。(消息来源:环球市场播报)

豆包上线「帮你选」功能,与抖音电商实现交易闭环

4 月 24 日消息,一个名为「豆包帮你选」的功能已内嵌在豆包 App 导航栏中。

据悉,「豆包帮你选」并非简单的商品陈列入口,而是以「对话式交互」为核心,匹配用户潜在购物需求。用户无需手动搜索商品,只需通过语音或文字向豆包提出购物诉求,豆包都会快速梳理需求,列出不同选项的优缺点、价格对比,甚至结合用户过往偏好给出个性化建议。

更关键的是,该功能已实现与抖音电商的深度打通,完成了交易闭环的构建。

今年 3 月,字节跳动旗下的豆包已开始内测「购物下单」功能,支持在豆包 App 内直接下单商品并完成支付,无需跳转抖音。

字节跳动 CEO 梁汝波曾提到,对字节跳动而言,短期内的「高峰」就是豆包 / Dola 助手。他指出,豆包用户规模增长较快,产品体验持续提升,但与全球头部竞品仍存在差距。(消息来源:IT 之家)

消息称微软计划 51 年来首度在美实施员工自愿买断退休

4 月 24 日消息,据美媒 CNBC 得到的一份 Microsoft(微软)内部备忘录,这家拥有 51 年历史的科技巨头当地时间本周四表示计划首次在美国实施员工自愿买断退休计划。

消息人士透露,这份计划面向高级总监及以下级别、不参与销售激励计划、年龄与工龄之和超过 70 年的员工,满足要求者占到微软美国员工总数的 7% 左右。

微软执行副总裁兼首席人力资源官 Amy Coleman 在文件中表示:「我们希望该计划能让符合条件的人在公司慷慨的支持下,自主选择下一步发展方向。」

与此同时,微软也在调整其绩效制度方式:公司将不再要求管理人员将股票激励与现金奖金直接挂钩,这为管理者提供了更大的操作灵活性;此外对于经理层级的员工,微软将 9 种薪酬方案简化到了 5 种。(消息来源:IT 之家)

5999 元,泡泡玛特首款家电产品「THE MONSTERS 生活家系列冷藏箱」开启预约

4 月 24 日消息,泡泡玛特首款家电产品「THE MONSTERS 生活家系列冷藏箱」现已在京东开启新品预约,产品主打 LABUBU(拉布布)元素,体积 121L,标价 5999 元

据介绍,这款冷藏箱表面采用 4 层套印工艺,正面印有 LABUBU 和 TYCOCO 形象,还原艺术家龙家昇原作的神韵和质感。带有平嵌一体式柜门,方便清洁。

功能方面,这款冷藏箱带有冷冻区、保鲜抽屉、私享空间三个储物空间,运行噪音 33dB(A),支持全域控温,冷藏箱可调 3 档温度。

此外,这款产品还带有 LABUBU 把手,内部也有 LABUBU 装饰板,表面刻有限定编号专属 ID。(消息来源:IT 之家)

950km 续航全球第一!比亚迪大唐 EV 开启预售:25 万元起

4 月 24 日,比亚迪大唐在 2026 北京车展正式开启预售。

新车共推出 800KM 后驱、950KM 后驱及 850KM 四驱三款车型,预售价区间为 25-32 万元。预售期间下订用户可享受 18 个月免费闪充、车漆限时优惠选装以及 3 年 3 次免费基础保养等多项权益。

动力方面,大唐 EV 提供三种续航版本,四驱版零百加速为 3.9 秒,并配备闪充技术、云辇-A 及双腔空气悬架。DM-i 车型电机最大功率 300kW,DM-p 车型电机总功率达 400kW,零百加速 4.3 秒。

外观上,新车采用纯电 SUV 造型与双色车身,配备隐藏式门把手及激光雷达。配置上,该车搭载天神之眼 5.0 驾驶辅助系统与多模型 AI 座舱,支持自主泊车。车身长度 5263mm,轴距 3130mm,采用「2+2+3」七座布局,并配备 252L 电动前备箱。(消息来源:快科技)

高铁将试点坐火车可以带自行车 骑行爱好者通过 12306 客户端办理

针对旅客日益多样化的出行需求,铁路部门正在不断优化个性化服务。自 5 月 19 日起,京张高铁将在北京北至崇礼站区间试点自行车随身行服务。这意味着骑行爱好者可以带着心爱的单车,直接搭乘高铁前往目的地。

旅客只需通过 12306 客户端即可在线完成预约和付费。为了确保行车安全与车厢秩序,携带的自行车需要经过车站安检,并在规范包装后存放在指定区域。这一举措极大方便了那些骑行爱好者。

根据国铁集团的规划,2026 年铁路与旅游的融合将进一步深化。相关部门计划在全年开行旅游列车超过 2500 列,并精心打造 50 条以上的精品旅游路线,让铁路网成为连接各大风景名胜的便捷纽带。

为了激活旅游市场,铁路部门还推出了一系列惠民举措。从 4 月底至 6 月底,将陆续开行 179 趟专项旅游列车,并在 4 月到 5 月期间发放铁路旅游消费券,通过实实在在的补贴降低旅客的出行成本。

针对银发群体,铁路部门同样准备了专属福利。在 5 月 30 日至 6 月 30 日期间,年满 60 周岁及以上的中国公民在周中时段乘坐部分动车组列车时,可以享受票价折上折的优惠,以此鼓励更多老年人错峰出游。(消息来源:快科技)

 

 

  •  

DeepSeek 正式发布 V4 API:Flash/Pro 双版本齐发,百万上下文成标配

 

极客一问:你怎么看这次 DeepSeek V4 的更新?

 

头图来源:GPT生成

 

万众期待中,DeepSeek V4,终于发布了!

 

就在刚刚,被期待已久的DeepSeek V4 预览版正式登场。两个版本——V4-Pro 和 V4-Flash,全系标配 1M(百万字)超长上下文,同步开源模型权重和技术报告

 

五一前的这两天,大模型又进入新一轮发布潮。

 

4月23日中午,「天才少年」姚顺雨交出加入腾讯后的第一份模型答卷,腾讯混元 Hy3 预览版亮相,2950 亿参数的 MoE 架构,激活参数 21B,推理效率提升 40%,输入价格压到 1.2 元/百万 tokens。

今天凌晨,OpenAI 面向付费用户上线 GPT-5.5 并官宣 API 计划,主打 Agent 工作流和多步骤任务完成,上下文窗口拉到 100 万 tokens,API 定价也水涨船高——输入 5 美元、输出 30 美元/百万 tokens。

 

表面上,三家路径各不相同:OpenAI 走高端闭源路线,继续抬高价格天花板;腾讯把模型塞进自家生态,用性价比撬动规模化商用;DeepSeek 则延续开源传统,同时把上下文长度推到一个新的普惠临界点。

 

同时,Agent 能力、超长上下文、代码与工具调用,这三个关键词在三家发布的新模型里反复出现。他们都在同一个方向上加注:让模型能处理更长的信息,能在更复杂的任务链条里自主运作,能真正嵌入到工作流程中去干活

 

DeepSeek V4 的「实用主义」

 

DeepSeek 这次发布,把百万字上下文从「高端选配」变成了「基础标配」。

 

在此之前,1M 级别的上下文长度,更多出现在旗舰闭源模型的高端版本里,高昂的调用成本足,以让大多数开发者和中小企业望而却步。

 

而 DeepSeek 的做法十分明确:V4-Pro 和 V4-Flash 两个版本全系标配 1M 上下文长度,前者锚定极致性能,后者提供普惠经济之选,完整覆盖不同需求层级的用户。这种 「无差别下放核心能力」 的策略,本质上是在彻底降低长文本处理能力的行业获取门槛。

 

图片来源:DeepSeek官网

 

Flash 版本主打极致低延迟与高性价比,是 DeepSeek 面向轻量化高频场景给出的核心方案。凭借 13B 的激活参数、全新的 token 压缩注意力机制与 DSA 稀疏注意力架构优化,它在保障接近 Pro 版核心推理能力的同时,实现了极快的响应速度,对于实时对话交互、函数调用流水线,乃至所有对响应速度敏感的轻量化场景而言,这一特性能带来体验上的本质提升。

 

更关键的是具有竞争力的成本结构

 

根据 DeepSeek 官方 API 定价文档,Flash 版本采用阶梯式计费规则:缓存命中的输入 token 低至 0.2 元 / 百万 tokens,缓存未命中的输入 token 为 1 元 / 百万 tokens,输出 token 定价为 2 元 / 百万 tokens。

DeepSeek V4 各个版本成为|图片来源:DeepSeek API 文档

 

如此亲民的定价,叠加全系标配的 1M 上下文能力,使得 「单次调用成本」 不再是工程设计中的核心约束 —— 开发者可以优先考虑产品体验与架构设计,而无需反复在调用次数与费用之间做权衡。

 

Flash 解决的是 「用得起、用得快」 的普惠需求,V4-Pro 则在回答另一个核心问题:开源大模型的能力边界,究竟还能被推到哪里。

 

最直观的能力跃升,依然围绕长上下文展开。DeepSeek 将模型上下文长度从上一代 V3.2 的 128K,直接拉升至 1M(一百万 token),配合底层架构的创新,在大幅降低长上下文计算与显存需求的同时,保障了全上下文窗口的性能无损。

 

在这一规模下,开发者可以直接导入完整代码库、超长行业文档、多轮项目档案甚至百万字级别的完整书籍进行端到端处理,无需额外搭建复杂的检索增强生成(RAG)系统,大幅简化了长文本处理的技术链路。

 

在底层架构上,Pro 版本采用了总参数 1.6T、激活参数 49B 的 MoE 架构,预训练数据量达 33T,是对 DeepSeek 混合专家路线的全面深化。官方评测数据显示,其在数学、STEM、竞赛级代码等核心推理测评中,超越了当前所有已公开评测的开源模型,达到了比肩世界顶级闭源模型的水平。

 

在 Agent 能力上,其交付质量已接近 Claude Opus 4.6 非思考模式,内部使用反馈优于 Anthropic Sonnet 4.5,成为了 DeepSeek 内部员工的主力 Agentic Coding 工具。

 

功能层面,V4 全系列两个版本均同时支持非思考模式与思考模式,开发者可通过reasoning_effort 参数自定义思考强度,同时全量支持 Json Output、Tool Calls、对话前缀续写能力。

 

定价方面,Pro 版本同样延续了高性价比路线,官方定价为:缓存命中的输入 token1 元 / 百万 tokens,缓存未命中的输入 token12 元 / 百万 tokens,输出 token 定价 24 元 / 百万 tokens,显著低于海外同级别旗舰闭源模型。

 

API 接入也做到了极致低门槛,开发者无需修改原有 base_url,仅需将 model 参数替换为对应版本名称,即可完成接入,同时兼容 OpenAI ChatCompletions 与 Anthropic 两种接口格式。

 

这种 「能力上探 + 成本下探」 的组合拳,让顶级的大模型能力不再是少数厂商的专属资源。当行业内卷逐渐陷入参数军备竞赛的怪圈,DeepSeek 用全系标配百万上下文、全链路开源开放的选择,给大模型的普惠化,给出了一个全新的范本。

 

同时,DeepSeek V4 针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品做了专项适配和优化,在代码任务、文档生成等实际场景中表现均有提升。模型的价值最终要在真实的开发和工作流程里被检验。

 

继续开源,API 全量开放

 

DeepSeek 延续了开源路线,并直接全量开放 API 调用。

 

目前,DeepSeek-V4 的模型权重已同步在 Hugging Face、ModelScope 平台开放下载,配套的技术报告也一并公开,支持开发者进行本地部署与二次开发。

 

与部分厂商「开源阉割版、闭源完整版」的行业惯例不同,本次开源的两个版本,完整保留了与官方云端 API 一致的全量能力 —— 包括非思考 / 思考双模式、1M 超长上下文无损处理、Agent 专项优化与全量工具调用能力,无任何功能阉割。

 

这意味着,无论是中小创业公司、个人开发者,还是科研机构,都能零门槛获取到百万上下文、顶级推理与 Agent 能力的大模型底座,无需再为高端模型能力支付高额的闭源接口费用。

 

为了进一步降低落地门槛,DeepSeek 同步开源了模型微调、量化、推理加速的全流程工具链,完成了 vLLM、TGI 等主流推理框架,以及 LangChain、LlamaIndex 等主流 Agent 框架的 Day 0 原生适配,同时开放了国产算力平台的全栈部署方案,让开发者在不同硬件环境下都能快速落地应用。

 

与此同时,DeepSeek 也给出了清晰的模型迭代过渡方案:旧有的 API 接口模型名 deepseek-chat 与 deepseek-reasoner,将于三个月后(2026 年 7 月 24 日)停止使用,当前阶段,这两个模型名分别指向 deepseek-v4-flash 的非思考模式与思考模式,给开发者留出了充足的平滑迁移时间。

 

3 坚定做 AI「基建模型」

 

把这两天的发布连起来看,一个趋势很明确:各家都在加速 Agent 能力。

 

过去两年,公众和资本市场对大模型的关注,很大程度上集中在「聪明程度」,但现在已经转向了「谁更能稳定地把事情做完」。GPT-5.5 的发布重点不在于多模态理解又提升了多少,而是它在 Agent 编程、计算机使用、知识工作等场景中的持续执行能力。腾讯混元 Hy3 的核心卖点也在于它在现实世界中的「行动能力」。DeepSeek V4 则直接把 Agent 能力和长上下文处理作为主打,目标明确地指向实际工作负载。

 

这种转变的背后,是整个行业正在走向「模型效用」的竞争。现在,用户和企业客户越来越不关心你的模型在某项评测里排第几,他们关心的是模型及产品到底能帮自己干好多少活儿:这个模型能不能帮我写代码、能不能处理复杂文档、能不能在多步骤任务里不出错、能不能以合理的成本跑起来。

 

图片来源:DeepSeek官网

 

在今天发布的文末,DeepSeek 引用了《荀子》里的一句话:「不诱于誉,不恐于诽,率道而行,端然正己」,继续锚定了自己的技术路线。放在当下的大模型竞争语境下,这句话的意味很明确——不被外界的评价和噪音干扰,专注于把事情做对。

 

DeepSeek 过去一年多的行动,确实在践行这个逻辑:用开源开放建立全球开发者生态影响力,用极致的性价比打破高端 AI 能力的使用壁垒,用扎实的底层架构创新解决开发者与企业用户最真实的痛点。

 

从 R1 推理模型的横空出世,到 V4 把长上下文能力第一次推向普惠区间,DeepSeek 一直在用一种相对“慢”的方式,做一件更难的事——把顶级模型能力,从少数人的工具,变成更多人可以直接调用的基础设施

 

  •  

重构腾讯 AI 之后,姚顺雨交出入场后的第一份答卷

 

极客一问:你看好接下来的混元大模型吗?

 

头图来源:GPT生成

 

 

姚顺雨交出了加入腾讯后的第一份模型答卷。

4 月 23 日,腾讯混元 Hy3 preview 语言模型发布并开源。这是一款主打快慢思考融合的 MoE 语言模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度,官方称其整体性能达到同尺寸模型最佳水平。

从研发节奏来看,Hy3 preview 于 2026 年 1 月底正式启动训练,从训练到上线用了不到三个月,被腾讯内部定义为混元大模型从 「读万卷书」 走向 「行万里路」、尝试解决真实世界复杂问题的开端。

而这款模型最受行业关注的核心标签,是它作为备受瞩目的 「天才少年」 姚顺雨,在 2025 年底加盟腾讯后,全程主导推出的第一代大模型。

作为腾讯重金邀请的首席 AI 科学家,Hy3 preview 既是他对重构后的混元研发体系的首次完整实践,也承载着腾讯补齐 AI 短板、在大模型下半场实现追赶的核心期待。

姚顺雨表示,「Hy3 preview是混元大模型重建的第一步。我们希望通过这次开源和发布,获得来自开源社区和用户的真实反馈,帮助我们提升 Hy3 正式版的实用性。与此同时,我们也在继续扩大预训练和强化学习的规模,提升模型的智能上限,并通过与腾讯众多产品的深度Co-Design,持续提升模型在真实场景中的综合表现,并开始探索特色模型能力。」

一、一手实测Hy3 preview

从官方披露的核心信息来看,Hy3 preview 从研发之初就围绕智能体(Agent)场景做了针对性设计,这也是它与此前混元系列模型最核心的差异。

在启动模型训练前,姚顺雨主导完成了混元预训练和强化学习基础设施的全面重建,同时定下了模型追求实用性的三大核心原则,构成了 Hy3 preview 的研发底层逻辑:

能力体系化:不推崇 「偏科」,因为即便是代码智能体的单一应用,也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同;

评测真实性:主动跳出易被 「刷榜」 的公开榜单,通过自建题目、最新考试、人工评测、产品众测等多种方式评估和改进模型的 「真实战斗力」;

性价比追求:实用性离不开商业合理性,深度协同模型架构和推理框架的设计,大幅降低任务成本,让智能用得起、用得好。

官方资料显示,Hy3 preview 采用了总参数量 295B、激活参数仅 21B 的 MoE 架构,同时融合了 「快慢思考」 机制。

21B 的激活参数,为模型高频次、长链路的 Agent 调用提供了低成本的运行底座;而 「快慢思考」 的融合设计,天然适配复杂逻辑推理与多步工具调用场景,也就是姚顺雨提出的 ReAct(推理 - 行动)循环。

极客公园第一时间实测了Hy3 preview,先以一个覆盖数据抓取、数值计算、可视化生成、文本分析全链路的综合任务来试水,「使用 Python 抓取过去 90 天纳斯达克 100、伦敦金与沪深 300 的日线收盘数据。计算它们之间的皮尔逊相关系数,并用 D3.js 或 ECharts 生成一个单文件 HTML 动态热力图。最后,基于数据结果输出一段 500 字的跨市场资产配置 Memo。」

视频来源:极客公园

可以看到,Hy3 preview 在数据获取阶段反复受阻,接口认证失败后接连切换 akshare、yfinance 等多个数据源,纳斯达克 100 数据因速率限制缺失而被迫用模拟数据替代,修错重试的循环消耗了大量时间。

可视化交付上,Hy3 preview 最终生成了三资产相关性热力图,但由于部分数据并非真实采样,热力图的准确性与可信度打了折扣。

最核心的文本交付物缺失明显——提示词明确要求输出 500 字跨市场资产配置 Memo,Hy3 preview 却只给出了几行 Bullet point 式的简略配置比例,没有成文的分析段落,任务交付在关键环节出现了缺位。

我又尝试了另一个长链路 Agent 测试 —— 启用浏览器模式,在 SkillHub 平台进行全链路深度抓取,完整理清腾讯文档 Skill 的 Auth 认证全流程与数据同步底层机制,最终输出一份标准化的技术原理分析文档。

视频来源:极客公园

在这次测试中,Hy3 preview 展现了清晰的 Agent 自治与多步推理(ReAct)过程:先搜索 SkillHub 整体介绍;发现需要深入,又去精准抓取了 Auth 认证的开发者文档;接着去查了 MCP Server 的底层原理;最后才开始动笔写文档,这证明了 Hy3 preview 作为 Agent 的路由调度中心,其长链路规划和工具调用很稳定,没有在中途崩溃或陷入死循环,完整走完了 「推理 - 行动 - 验证 - 输出」 的闭环。

这一表现也与官方披露的产品落地数据形成了呼应:在 CodeBuddy、WorkBuddy 产品上,Hy3 preview 首 token 延迟降低 54%、端到端时长降低 47%、任务成功率提升至 99.99%+,在实际用户环境中,已稳定驱动最长 495 步的复杂 Agent 工作流,覆盖文档处理、数据分析、知识检索、工具链编排等多样化办公场景。

从这两组实测可以看出,Hy3 preview 呈现出一种典型的「过渡态特征」。

一方面,在复杂任务中,它已经具备了较为清晰的 Agent 执行路径:能够自主拆解问题、规划步骤,并在不同工具之间进行切换,整体链路没有明显中断。这种「从问题到流程」的能力,确实在向真实工作流靠近。

但另一方面,真正决定可用性的「最后一公里」仍然不够稳定——数据获取阶段的反复试错、关键结果的缺失、以及最终交付物的不完整,都说明模型在长链路执行中,仍然存在「做了一半」的问题。

目前,Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、腾讯文档等产品首发上线,同时支持接入 OpenClaw、OpenCode 等主流开源智能体产品,并已上架腾讯云大模型服务平台 TokenHub。价格方面,Hy3 preview 输入价格最低1.2元/百万tokens,输入命中缓存价格0.4元/百万tokens,输出价格最低4元/百万tokens。

二、天才少年,和动起来的腾讯

这是备受关注的「天才少年」姚顺雨入职腾讯后主导的第一代大模型。

作为2025年底腾讯重磅挖来的首席AI科学家,Hy3 preview是他入职后交出的第一份核心模型答卷,也承载着腾讯补齐AI短板、发力大模型基础研究的期待。

去年9-12月,姚顺雨入职腾讯,出任"CEO/总裁办公室"首席AI科学家,兼任AI Infra部与大语言模型部负责人,直接向总裁刘炽平汇报,全面统筹混元大模型研发工作。

12月,腾讯完成组织架构重构,新设AI Infra部、AI Data部、数据计算平台部,姚顺雨全面掌控混元研发体系,上任后立即重构了AI Infra团队,搭建起预训练、精调、后训练、推理等完整研发链条,为后续模型研发奠定基础。

今年1月底,马化腾在年会上承认腾讯AI「动作慢了」,刘炽平同步披露混元3.0正在内部测试,计划4月对外推出,也是在1月底,Hy3 preview正式启动训练,从训练到上线用了不到三个月。

姚顺雨(1998年生)的履历自带「天才少年」标签,但客观来看,他的技术背景与腾讯当时的AI需求高度契合,这也是腾讯重金挖角的核心原因——腾讯此前混元负责人张正友(深耕计算机视觉领域)、蒋杰(侧重大数据方向)均非NLP/LLM原生背景,而姚顺雨是腾讯首位真正意义上的LLM原生技术领导者,其核心履历与研究方向,恰好匹配腾讯混元突破的核心需求。

在学术界,姚顺雨是顶级的语言智能体(Language Agents)研究者,著名的 ReAct(推理-行动框架)和 Tree of Thoughts(思维树)均出自其手,;在 OpenAI 短暂的一年多里,他也深度参与了 Operator、Deep Research等智能体产品研发,深入接触模型预训练与后训练环节,积累了一线工程化经验。

2025 年 4 月,他曾发表文章《The Second Half》,明确提出,AI 的竞争正在从「训练更强的模型」转向「定义并评估真实世界任务」,强调评估体系重构,反对盲目堆料模型规模。

这一理念也贯穿了Hy3 preview的研发,Hy3 preview 定位为一个总参数量 295B、激活参数仅 21B 的 MoE 模型。21B 的激活参数意味着模型具备了高频次、长链路 Agent 调用的低成本底座,同时其内部融合的「快慢思考」机制,天然适合处理复杂的逻辑推理与工具调用(如 ReAct 循环)。

从前面的实测来看,Hy3 preview 更像是一款验证技术方向的原型模型。把视角拉回腾讯自身,这种 「未完全成熟」 的状态,可能也有其内在合理性。一方面,Hy3 preview 从训练到上线不到三个月,本身就是一次快速迭代的技术试水;另一方面,在经历了 AI 组织架构的全面重构之后,腾讯也需要这样一款模型,去验证新的研发链条是否通顺、锚定的 Agent 技术路线是否成立。

不过,在国内大模型已经进入贴身肉搏的当下,Hy3 preview 的到来,只是腾讯 AI 补位的开始。无论是 MoE 架构的工程化优化,还是 Agent 场景的产业落地深度,国内头部厂商已经跑通了多轮迭代,腾讯想要追上甚至超车,仅凭一次模型更新远远不够。

 

  •  

大模型上车两年,为什么「真·AI 汽车」现在才出现?

今天在北京车展上爆火的极氪 8X,有网友放出了一段新车演示视频,用户坐在车里说了一句「带我去接孩子放学,顺便找一家麦当劳,5 点前我要到学校」。

接下来发生的事情,和你过去对「智能汽车」的认知完全不同。车辆自主规划路线,启动智能驾驶,中途停靠麦当劳,到达学校门口自动泊车。整个过程,用户不需要碰导航、手动切换智驾模式、或者在停车场里找车位。

这不是一个语音助手在帮你搜索,而是一个 Agent 在替你执行。

在这个炫酷演示的背后,需要的不是「在车里接入一个聪明的大模型」,而是一套从「大脑」到「四肢」都打通的整车智能体系统

AI 上车喊了三年。为什么到今天,我们才开始看到这样的产品?

 

从 ChatBot 到「AI 上车」

回头看这两年的「大模型上车」热潮,一个尴尬的事实是——大模型进了车,但并没有真正变成车的一部分。

2024 年到 2025 年,几乎所有车企都宣布接入了大模型。DeepSeek、千问、豆包,各家轮番登场,座舱语音助手确实变聪明了不少。它能陪你聊天,能查百科,做得好的把车辆手册灌进去了,可以告诉你「轮胎压报警怎么办」。

但最终,这还是一个跑在座舱里的对话机器人。

语音助手管不了方向盘,智驾系统也不知道你刚才跟车机聊了什么。就像给一个人装了一颗聪明的大脑,但大脑和手脚之间没有神经连接。智驾技术有自己的演进路线——从规则驾驶到 BEV+Transformer,到端到端,再到 VLA+世界模型——但这条路和座舱智能完全是两条平行线

这种割裂不是因为没人想解决,而是确实难。

第一个挑战是模型本身。行业主流做法,是拿一个通用大语言模型,再用智驾数据做后训练。这种「拼接式」路径能让模型聊天,但不能让它真正理解物理世界——它不懂交警手势意味着什么,不懂复杂路口里行人和车辆的博弈逻辑。想走向 L4,模型需要从预训练阶段就具备对物理世界的理解,而不是事后「补课」。

第二个挑战是架构。智驾和智舱是两套系统、两颗芯片、两个团队。要实现「一句话调动全车」,整车架构需要从底层重构——感知、决策、交互,得统一在同一个模型体系下。

第三个挑战是量产。从 PPT 到量产车之间,隔着芯片适配、车规安全、成本控制和 OTA 迭代,拼凑式的合作模式很难高效跑通这个闭环。

也就是说,真正的 AI 汽车,需要的不是在车里放一个聪明的大模型,而是用 AI 重写汽车的底层逻辑。

 

谁有更好的答案?

2026 年北京车展前夕,几乎所有厂商都在喊「AI 汽车」。但仔细看各家的方案,你会发现它们解决的是不同层面的问题。

智己和阿里合作的 IM AIOS 生态座舱,强项在于把阿里的生态服务——饿了么、高德、支付宝——以 Agent 的形式搬进了车里。用户用自然语言就能点外卖、订餐厅,体验确实新鲜。但它的核心聚焦在座舱服务层,不涉及智驾融合。

字节的豆包大模型接入了别克至境、荣威等多个品牌的座舱,主要提升语音交互的智能度。这属于「模型即服务」的轻量合作——模型公司提供 API,车企在座舱里调用,各自边界清晰。

这些方案各有价值,但有一个共同点——模型和车之间,是 API 接入的关系,不是从底层融合的关系。

4 月 22 日,阶跃星辰与千里科技宣布达成全面战略合作,双方将联合共建「原生智驾基座模型」。这个合作的打法,和上面几种方案走的是一条完全不同的路。

核心差异在于「原生强耦合」。

传统路径是「先做一个通用大模型,再拿到车上做适配」。阶跃和千里的做法是反过来——从基础模型的预训练阶段,就同时注入通识数据和智驾数据,让模型原生具备对物理世界的理解能力。不是把一个通用大脑塞进车里,而是从头培养一个「懂开车」的大脑。

阶跃星辰的技术底座撑得住这件事。作为国内知名的基模公司,阶跃围绕「AI+终端」战略,构建了一套完整的技术体系。面向 Agent 场景的旗舰基座模型 Step 3.5 Flash,发布以来在 OpenRouter 调用量登顶全球第一,成为全球开发者构建智能体的首选模型之一。

在多模态领域,阶跃拥有国内最全的自研模型矩阵——语音交互、音频推理、图像理解、图像生成、视觉语言模型,覆盖了汽车场景从「听」到「看」到「说」的全链路感知需求。在部署层面,阶跃构建了从 1B 到 200B 参数的端云协同模型体系——端侧轻量模型负责实时感知和快速执行,云侧大模型负责复杂场景的推理和决策,形成类似人类大脑「快思考+慢思考」的分层架构。

千里科技则补上了另一半——全栈工程能力

 

双方的合作不是简单的商务结盟,而是对「AI 原生汽车」同一终局的共同押注。技术架构对齐,产品愿景对齐,从模型设计,到终端部署形成完整闭环。

有人把这称为最符合「Grok + FSD」叙事的中国组合——特斯拉用 Grok 大模型,和 FSD 智驾的原生融合定义了 AI 汽车的标杆,而阶跃 × 千里,是目前中国最接近这一模式的搭配。

值得注意的是,阶跃的生态拼图还在持续补全。

4 月 23 日,阶跃星辰与腾讯云达成战略合作,双方将围绕智能座舱展开深度协作。腾讯在音乐、视频、地图、支付等领域的生态矩阵,将通过智能座舱 Agent 与用户连接——基于个性化偏好做内容推荐,打通从需求识别到交易完成的车内服务闭环。

如果说阶跃+千里解决的是「大脑+四肢」的问题,腾讯云的加入则补上了「生态服务层」,让这个智能体不仅会开车,还能帮你点歌、导航、付费。

 

真正的「AI 汽车」,要来了

而极氪 8X,是阶跃和千里「Grok + FSD」模式下最新的量产标杆。

Step 3.5 Flash 从全面开源到正式上车,只用了 40 多天——这个速度本身就说明了原生强耦合模式在工程效率上的优势。

极氪 8X 首发搭载的超级 Eva 整车智能体,实现了大模型与智驾、底盘、动力的原生融合。基于阶跃最强语音模型,Eva 具备情绪理解和思辨能力,语音自然且富有感情;基于视觉理解模型,Eva 能看到车周围的环境并做出判断——路况、车位、周边商铺,都在它的感知范围内。

4 月 17 日极氪 8X 正式上市,29 分钟大定突破 10,000 台——市场在用脚投票。

 

两年前,大模型刚上车的时候,它能做的最多是帮你查一下附近的麦当劳在哪里。今天,它能替你规划路线、开车、停车、点餐,全程只需要一句话。

这个变化的背后,不是某个模型变强了,而是模型和汽车的关系从根本上变了——从「外挂 App」变成了「原生大脑」。

当 AI 真正成为汽车的底座而不是配件,驾驶体验的变革,才刚刚开始。

  •  

GPT-5.5 来了,但这次 OpenAI 想证明的不只是「更聪明」

作者|桦林舞王

编辑| 靖宇

 

如果几年前有人跟说,「你以后评测一个新 AI 模型,可能还没写完稿子,下一代就出来了」,你大概率会觉得是扯淡。

但现在,这件事真的发生了。

GPT-5.4 发布于六周前。今天,GPT-5.5 已经在 ChatGPT 上向付费用户推送。

这不是一次普通的版本迭代。OpenAI 给它的定位是「全新的智能等级」—— 在实际服务中保持与 GPT-5.4 相当的推理延迟,同时实现智能水平的「大幅跃升」

一句话翻译过来就是:更聪明,但更快。

根据目前大家体验反馈,OpenAI,这次可能真的要「翻盘」了!

 

01

「更快」和「更强」,

这次 OpenAI 想两个都要

 

理解 GPT-5.5 的核心逻辑,得先理解 AI 行业长期以来的一个悖论。

模型越聪明,往往越慢、越贵。这几乎是一条默认的行业规律 。你想要更深的推理、更复杂的任务处理,就得付出更高的延迟和更多的计算成本。用户和企业客户在这两者之间,往往只能选一个。

GPT-5.5 想打破这个取舍。

 

 

GPT5.5 的表现在同类中显得比较突出|图片来源:OpenAI

 

OpenAI 声称,新模型在「真实世界服务」中,每 token 延迟与 GPT-5.4 持平,但智能水平已经远超后者。VentureBeat 的测试数据显示, GPT-5.5 在 14 个基准测试中达到了最先进水平 ——相比之下,Anthropic 的 Claude Opus 4.7 达到 4 个,Google Gemini 3.1 Pro 达到 2 个。

在能力维度上, GPT-5.5 的强项集中在编写和调试代码、在线研究、数据分析、文档处理,以及操作软件等「代理式」任务上

OpenAI 联合创始人 Greg Brockman,把它称为向「更具代理性和直观的计算」迈进的「重大进步」。

最让人有感知的案例来自 Jackson Laboratory。基因组医学教授 Derya Unutmaz 用 GPT-5.5 Pro 分析了 2.8 万个基因的数据集,几分钟内生成了一份完整报告——这项工作他的团队通常要耗费数月。

这不是压缩时间,是改变工作方式本身的量级。

 

02

六周一代,这是产品节奏还是市场焦虑?

 

但更值得注意的,是这 OpenAI 发布节奏背后的信号。

六周。GPT-5.4 到 GPT-5.5,只有六周。

回看过去两个月,OpenAI 的动作密集得有些不寻常。4 月 21 日,ChatGPT Images 2.0 发布,Sam Altman 在直播中说从 gpt-image-1 到 gpt-image-2 的飞跃「相当于从 GPT-3 到 GPT-5 的跳跃」。同一天,OpenAI 宣布与咨询公司合作向企业推广 Codex,首席收入官 Denise Dresser 表示这将帮助触达「自己单独无法接触到的」企业客户。

Codex 目前已有超过 400 万周活跃用户 ——两周前是 300 万,上个月是 200 万。这个增速本身就说明了问题。

 

 

Cursor CEO 发来贺电|图片来源:OpenAI

 

与此同时,OpenAI 还在过去几周,完成了对个人金融初创公司 Hiro 和新媒体公司 TBPN 的收购。前者被解读为「不只是聊天机器人,而是更值得付费的东西」,后者则明显是为了「更好地塑造公众形象——而最近的形象并不理想」。

把这些动作放在一起看,你会感受到一种隐约的紧迫感。

这家公司刚刚完成了 1220 亿美元的新一轮融资,每月营收达到 20 亿美元。从任何角度看,这都是一家全球最有钱的 AI 公司之一。但社交媒体上关于「OpenAI 失去消费者吸引力」「在企业客户争夺中落后于 Anthropic」的声音,并没有因为这些数字而消失。

GPT-5.5 的发布,某种意义上是 OpenAI 对这些质疑的一次公开回应

 

03

基准测试赢了,但企业要的是「不出错」

 

不过,用基准测试来定义胜负,在企业市场往往是个误导。

纽约银行 CIO Leigh-Ann Russell 说得很直接——她最在意的不是某个能力有多强,而是「响应质量和令人印象深刻的幻觉抵抗」。「银行需要非常高的准确度,这对一个受高度监管的机构来说很关键。」

这句话代表了相当大一批企业客户的真实诉求。 他们不是在选「最聪明的 AI」,他们在选「最不会出错的 AI」

这也是 Anthropic 在企业市场能持续拿下份额的原因——Claude 系列在「安全性」和「可预测性」上长期保持着很高的品牌认知。GPT-5.5 在基准测试上的全面领先,要真正转化为企业合同,还需要在「可信赖度」这个维度上积累更多证据。

一个细节值得注意:NVIDIA 内部有工程师表示,「 失去 GPT-5.5 的访问权限,感觉像是被截断了一条四肢 」。这种说法在行业内部流传,某种程度上说明 GPT-5.5 的能力,已经在部分高端用户中建立了真实的依赖感。

但从「有人非常喜欢」到「企业愿意在核心系统上部署」,中间还有很长的距离。

 

04

当速度本身成为竞争力

 

从更高的视角看,GPT-5.5 这次发布揭示了一个更深层的行业趋势。

前沿 AI 实验室的竞争,正在从「谁的模型更强」演变为「谁的迭代更快」。

六周一个大版本,这在两年前是不可想象的。而且不只是版本号的更新,每次迭代背后都有真实的能力跃升——Axiom Bio 的 CEO Brandon White 甚至预测,如果 OpenAI 保持这个速度,「药物发现的基础,将在今年年底前改变」。

这句话可能有些乐观,但它捕捉到了一种真实的感受: AI 能力的提升速度,正在开始超越大多数人对它应用潜力的想象

OpenAI 首席研究官 Mark Chen,把 GPT-5.5 在科学和技术研究领域的能力,总结为「有意义的进展」,并指出它可以「帮助专家科学家取得进步」。这个措辞值得玩味——不是「替代」科学家,而是「帮助专家取得进步」。这是一种在展示能力的同时,主动管理叙事的方式。

GPT-5.5 面向 Plus、Pro、Business 和 Enterprise 订阅用户,同时在 ChatGPT 和 Codex 中推出。这个分发策略本身就是商业信号——既要守住消费者端的用户粘性,又要在企业端通过 Codex 和咨询合作伙伴加速渗透。

两条腿走路,节奏还在加快。

六周后,我们大概会看到 GPT-5.6。

*头图来源: OpenAI

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

  •  

OpenAI 最强模型 GPT-5.5 上线;传特斯拉与 SpaceX 终将合并;票价 20 万!12306 惊现豪华专列

OpenAI 最智能 AI 模型:GPT-5.5 登场,Token 成本降至 1/35、输出提速 50 倍

4 月 24 日,OpenAI 正式发布旗下迄今最智能的 AI 模型 GPT-5.5。该模型核心突破在于大幅升级的 Agent 智能体能力,能精准理解用户模糊指令,自主规划、调用工具并执行多步骤复杂任务,无需用户精细管控每一步流程,在 Agentic Coding、计算机使用、科研等领域表现卓越,相较前代模型,可在完成相同任务时显著降低 Token 消耗,以更少的指导完成更多任务。

性能层面,GPT-5.5 实现了智能水平与运行速度的平衡,尽管模型规模更大、能力更强,但其单 Token 延迟与 GPT-5.4 持平,同任务所需 Token 量大幅减少。

在多项权威测试中,该模型表现亮眼:在 Artificial Analysis 的 Coding Index 中以竞品一半的成本实现 SOTA 水准,Terminal-Bench 2.0 测试准确率达 82.7%,SWE-Bench Pro 测试中拿下 58.6% 的成绩,Expert-SWE 等长周期任务表现均超越前代,同时在系统架构理解、故障定位等方面的能力也获得早期测试者的高度认可。

开放与定价方面,GPT-5.5 目前已向 OpenAI Plus、Pro 等用户开放使用,API 版本也即将上线。定价上,该模型基础版输入定价为每百万 Token 5 美元(约合人民币 34.2 元),Pro 版本输入定价为每百万 Token 30 美元。

GPT-5.5 的落地离不开 OpenAI 与英伟达的深度合作,该模型运行于 NVIDIA GB200 NVL72 机架级系统,为智能体编程应用 Codex 提供核心算力支撑。目前英伟达内部已有超 1 万名员工在工程、法务、市场等多部门率先使用该技术。(来源:IT 之家)

马斯克传记作者艾萨克森:特斯拉与 SpaceX 终将合并

马斯克传记作者沃尔特·艾萨克森(Walter Isaacson)近日明确表示,他坚信特斯拉(Tesla)与 SpaceX 最终会走向合并。这一判断与近期市场分析不谋而合,凸显了马斯克旗下两大核心资产日益紧密的联系。

目前,两家公司已在资本与技术层面展开深度绑定。特斯拉本季度斥资 20 亿美元购入 SpaceX 股份,这是罕见的跨公司资本流动。同时,双方正计划在得克萨斯州联合建设名为「TERAFAB」的芯片制造设施,以支持各自的 AI 算力需求,这被视为业务整合的关键一步。

Wedbush 分析师丹·艾夫斯(Dan Ives)此前预测,两家公司可能在 2027 年完成合并。他认为,此举旨在构建一个垂直整合的 AI 生态系统,将特斯拉的自动驾驶、机器人技术与 SpaceX 的卫星网络及太空数据中心相结合,形成强大的协同效应。

然而,合并之路并非坦途。巨大的估值差异可能让特斯拉股东面临权益稀释的风险,此外,如此大规模的合并势必会引发全球反垄断监管机构的严格审查。尽管如此,随着两家公司边界加速消融,投资者押注的核心似乎正从单一公司转向马斯克本人及其宏大的未来愿景。(来源:环球市场播报)

继 Anthropic 之后,消息称微软 GitHub Copilot 将转向按 Token 计费

AI 编程工具的订阅制模式似乎已走到尽头。即便对微软、Anthropic 这类大型 AI 公司而言,每月 20–30 美元的定价模式也难以为继。Anthropic 已面向企业客户推出按 token 计费模式,而 GitHub Copilot 也正朝着同一方向调整。

4 月 23 日消息,埃德・齐特伦的专栏《Where's Your Ed At》证实,GitHub Copilot 将于 6 月 1 日起转为按 Token 计费,官方公告预计将于本周发布。目前,GitHub Copilot 用户根据订阅套餐享有固定的「请求次数」额度,例如 Pro 套餐每月 300 次,Pro+ 套餐每月 1500 次。

后续 GitHub Copilot 将不再以「请求次数」计费,改为按输入与输出 Token 的实际成本收费。举例来说,若选用 GPT-5.4 模型,开发者需为每百万输入 Token 支付 2.50 美元,每百万输出 Token 支付 15 美元。

用户仍需按月支付订阅费才能使用 GitHub Copilot 平台,但不再享有固定次数的高级请求额度,而是根据订阅等级获得对应数量的 AI Token。企业版 GitHub Copilot 用户将获得共享 AI 额度,可在组织内部统一调配使用。

据埃德・齐特伦消息,每月付费 19 美元的 GitHub Copilot Business 客户将获得价值 30 美元的共享 AI 额度,每月付费 39 美元的 Copilot Enterprise 客户则将获得价值 70 美元的共享 AI 额度。(来源:IT 之家)

姚顺雨带队重构混元,Hy3 preview 上线

姚顺雨交出了加入腾讯后的第一份模型答卷。

4 月 23 日,腾讯混元 Hy3 preview 语言模型发布并开源。这是一款主打快慢思考融合的 MoE 语言模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度,官方称其整体性能达到同尺寸模型最佳水平。

官方资料显示,Hy3 preview 采用了总参数量 295B、激活参数仅 21B 的 MoE 架构,同时融合了「快慢思考」机制。

21B 的激活参数,为模型高频次、长链路的 Agent 调用提供了低成本的运行底座;而「快慢思考」的融合设计,天然适配复杂逻辑推理与多步工具调用场景,也就是姚顺雨提出的 ReAct(推理 - 行动)循环。

目前,Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ 浏览器、腾讯文档、腾讯乐享等首发上线,微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续上线。另外,Hy3 preview 支持接入流行的开源智能体产品,如 OpenClaw、OpenCode、KiloCode 等,并已上架腾讯云大模型服务平台 TokenHub。(来源:极客公园)

特斯拉:第三代人形机器人预计年中亮相

4 月 23 日消息,特斯拉官方发布微博称,特斯拉第三代人形机器人 Optimus V3(擎天柱第三代)预计年中亮相,2026 年 7-8 月启动正式投产,产品测试稳步推进,预计 2027 年投入外部场景应用。

据了解,特斯拉第三代人形机器人才是面向用户销售的量产版本,特斯拉曾发布消息称,第三代特斯拉人形机器人通过观察人类行为即可学习新技能。

截至目前,特斯拉在人形机器人领域已经推出了 Optimus 第一代和第二代。其中,第一代人形机器人能够实现基础行走和搬运。第二代人形机器人配备 22 自由度灵巧手,2024 年进入工厂测试。

马斯克曾表示,人形机器人将成为特斯拉有史以来最重要的产品,甚至可能是人类历史上最重要的产品之一。(来源: TechWeb)

宇树科技展示轮足人形机器人,可完成滑冰、前空翻等高难度动作

4 月 23 日消息,宇树科技在今日发布的最新视频中展示了轮足人形机器人。画面显示,人形机器人可以完成流畅的滑冰、轮滑等动作,实现 360 度转身、单足转圈、前空翻等。

宇树科技称,「人形机器人是最理想的通用机器人(适配通用 AI 和人类数据),可以没有轮子,也可以有轮子,随意。」

去年 11 月,宇树科技在官网上线了一套人形机器人数采训练全栈解决方案。该方案基于一款轮式机器人 G1-D,由人形机器人本体、系统化的数据采集工具和全面的模型训练及推理工具组成。(来源:IT 之家)

iPhone Fold 折叠屏金属模型现身

苹果首款折叠屏 iPhone Fold 预计将在今年秋季正式亮相。已有博主提前拿到了这款备受瞩目的折叠屏金属模型,并揭秘了其真实的机身比例与设计细节。

根据模型对比显示,iPhone Fold 展开后的宽度与 iPhone 17 Pro Max 的机身高度基本相当。已知 iPhone 17 Pro Max 的高度约为 150 毫米,这意味着这款折叠屏在展开状态下将拥有一个近乎正方形的巨大视野。

在与 iPad mini 的横向对比中,iPhone Fold 显得更加精致且利于便携,大小与 iPad mini 显示面积非常接近。其屏幕尺寸在 7.7 英寸左右,而 iPad mini 屏幕尺寸是 8.3 英寸。

核心配置方面,这款顶级旗舰将搭载基于台积电 2 纳米先进工艺打造的 A20 Pro 芯片。配合 12GB 运行内存,影像系统则由两颗 4800 万像素的镜头组成,分别负责主摄与超广角拍摄。

行业分析师预测,iPhone Fold 的起售价将轻松突破 2000 美元,折合人民币后的售价在 1.4 万元左右。顶配版本的售价甚至可能逼近 3000 美元,它将毫无疑问地成为 2026 年苹果 手机产品线中定位最高、工艺最复杂且价格最昂贵的顶级旗舰。(来源:快科技)

兰博基尼推出「史上最个性化」Urus:限量 630 台,主打色彩自由

4 月 24 日消息,据外媒 Carscoops 报道,兰博基尼在米兰设计周推出限量版 Urus SE Tettonero Capsule 车型。该车型由兰博基尼个性化定制部门 Ad Personam Studio 与设计中心联合打造,核心亮点是前所未有的定制自由度,堪称迄今最能「随心搭配」的 Urus 车型。

这款车型的核心卖点是丰富的个性化配色及外观选择,共提供 6 种车身主色,其中黄色和绿色为 Urus 车系首次引入;车身上半部、车顶等部位可做亮黑色处理,还可搭配 6 种强调色点缀车身细节,同时提供 6 种制动卡钳颜色、多款 21 至 23 英寸轮圈,以及多种碳纤维外观套件,前门还可加装「63」标识提升辨识度。

内饰以黑色为主题,采用高档皮革和超细纤维材质,可加入 6 种撞色元素,座椅、头枕及内饰绣线提供 12 种配色方案;车内配备碳纤维饰板、副驾前方 Urus 图案装饰,还有纪念 Ad Personam Studio 成立 10 周年的碳纤维铭牌,车门饰板等部位可额外选装碳纤维装饰。

动力方面,该车搭载插电混动系统,由双涡轮增压 4.0 升 V8 发动机、电动机、25.9 千瓦时电池组和 8 速自动变速箱组成,综合最大输出功率 588 千瓦、峰值扭矩 950 牛·米,0-100 公里/小时加速仅需 3.4 秒,最高时速 312 公里,纯电续航超 60 公里;该车全球限量 630 辆,售价暂未公布,官方配置器已上线供买家尝试搭配。(来源:来源:IT 之家)

12306 惊现豪华旅游专列:票价超 20 万元 运营方回应

近日,有网友在社交平台分享,铁路 12306 平台上一款名为「丝路梦享号」的豪华旅游专列,17 天南北疆行程票价高达 204000 元/人,远超普通列车票价,迅速成为网络焦点。不少网友对此表示惊讶,认为价格超乎想象,也有网友认为该产品面向高端人群,符合市场细分需求。

这款高价专列并非普通客运列车,而是由入驻 12306 平台的旅游公司运营的高端定制旅游产品。

行程从西宁出发并返回,全程覆盖新疆多个核心景区,采用一价全包模式,包含交通、住宿、餐饮、景点游览等全部服务,还配备专属管家、全程摄影师跟拍以及特色主题餐饮,主打私密、高端、沉浸式旅行体验。

运营方工作人员表示,该专列定位高端市场,软硬件对标高端酒店标准,全程不安排购物与自费项目,地接服务由自有团队执行,采用一房一车小型接待模式,保障私密性与舒适度。

列车仅设 38 间独立客房,满载约 76 人,无多人间布局,公共空间充裕,部分套房面积达 22 平方米,配备智能卫浴等高端设施,整体配置在国内同类产品中处于较高水平。

针对高价疑问,运营方解释,20 万元为成人标准价,费用覆盖 17 天全程服务,并非单纯车票。目前销售情况良好,其中价格超百万元的顶级套房已售出两间。(来源:快科技)


  •  

这张 4 万块的床垫,凭什么让马斯克、扎克伯格「疯狂上头」?

4 月 18 日,深圳。 当 Eight Sleep 的智能床垫 Pod 5 系列首次在中国亮相时,现场最多听到的问题不是「它有什么功能」,而是「它凭什么卖这么贵」。

一张 2M×2M 的 Pod 5 Ultra,售价 37999 元。这个价格足够买一台高配 MacBook Pro,或者三台 iPhone 16 Pro Max。更关键的是,它看起来并不奢侈,没有镶金边,没用什么稀有材质,甚至连完整的床垫都不是,只是铺在你原有床垫上的一层「薄床垫」。

 

但就是这样一款产品,在北美市场创造了现象级的成功。它让 Eight Sleep 拿到 15 亿美元估值,获得马斯克、扎克伯格的主动推荐,销量持续增长。更重要的是,它用一套新的产品逻辑,给智能睡眠行业指出了一个新方向,让健康科技从「监测数据」走向「主动干预」。

更有意思的是,Eight Sleep 的创始人 Matteo Franceschetti,不是技术出身。 他的简历看起来和「做床垫」完全不搭界,律师、金融从业者、业余运动员。

正是这样的背景,让他发现了一个被忽视的睡眠痛点,温度。

「有运动之后肌肉发热,也有大脑里有太多思绪无法入睡。他发现低温能让自己睡得更好,但进一步研究后发现低温也不行,尽管可以帮助快速入睡,但到后半夜又会冷醒,白天还会赖床。他意识到原来温度需求是动态的。」 相关负责人说道。

很显然,Eight Sleep的诞生,是由「需求驱动」,而非「技术驱动」创新。

Matteo 最开始做Eight Sleep的原因很简单,如何让人睡得更好?之后,他来深圳手搓了第一代原型机,然后一代代迭代,用了 10 年才打磨出 Pod 4引起行业关注。

Eight Sleep 联合创始人 Max 在发布会上回忆道:「当我现在想到 Pod 一代产品,都有点想笑,因为跟现在的成熟度差太多了。我很感激当时的用户这么容忍我们的产品。打造Eight Sleep有三个难点需要平衡,分别是舒适、制冷效率和噪音。这在最开始是一个不可能三角。」

Eight Sleep 这次让新品进入中国市场,不仅是一个海外品牌开拓市场的节奏,从某种程度上,也是对当下智能硬件「内卷」路线的一次另类回应。

 

一、用温度干预,重新定义睡眠解决方案

如果把 Pod 5 拆解开来看,它的产品组成并不复杂:一个智能床套、一个主机、一个 APP。

主机内置水箱和散热系统,通过水循环调节温度。智能床套铺在原有床垫之上,内部布满硅胶软水管和薄膜传感器。手机的APP主要做数据的信息处理,以及与用户的互动反馈。整套系统的核心能力其实只有一个,让床垫的温度随着你的睡眠阶段动态变化。

这听起来像是不是像一个高级版的电热毯?

但完全不是。Eight Sleep 中国区市场负责人凌璐强调了两个关键差异,「第一,分区控温。同一张床上,左边区域和右边区域可以设定完全不同的温度,既能升温也能降温,解决『同床异温』的需求。第二,主动干预。床垫能根据你的睡眠阶段实时调节温度,而不是被动地保持恒温。」 而过去的空调和普通水暖毯的问题在于,都是只能提供恒定温度,无法匹配这种动态需求。

这套逻辑背后的科学依据是 Eight Sleep 认为温度是影响睡眠质量的最重要环境因素,没有之一。

据介绍,人体在一个晚上会经历四个不同的睡眠阶段,对温度的需求完全不同。入睡前,核心体温需要降低 1-1.5 度来分泌褪黑素;进入深度睡眠后,需要更凉爽的温度维持身体修复;到了后半夜的 REM 梦境睡眠阶段,体温自主调节能力降低,需要更温暖的环境防止冷醒;接近醒来时,又需要升温促进皮质醇分泌,帮助清醒。

Pod 5 系列产品通过床面的传感器实时监测你的体温、心率、呼吸和睡眠阶段,用 AI 算法计算出当下的最优温度,然后通过水循环系统主动调节。

这意味着什么? 比如说,晚上 10 点,你打算睡觉,床面已经提前预冷到最适合入睡的温度。当你进入深度睡眠,床面进一步变冷,延长身体修复的黄金时间。到后半夜做梦时,温度回升一点,防止你从梦境中被冷醒。如果半夜你打鼾了,床垫会识别并轻轻抬起后背,让气道通畅,同时不会吵醒另一半。第二天早上,不是闹钟把你叫醒,而是 Pod 5 检测到你进入浅层睡眠后,通过温度变化帮助你自主苏醒,在你的后背慢慢加温,促进皮质醇分泌,让身体在听到闹钟前就已经准备好起床。

「整个晚上你觉得睡得特别香,你没有感觉到床面在变冷或变热。你只知道你一觉睡到大天亮,中间没有任何踢被子或裹被子的情况,」凌璐说,「这就是主动温度干预和被动恒温的本质区别。」

如果说智能温控床垫是为了让用户睡得更好,那智能底座支架是为了让用户睡得舒服。我曾经有很长一段时间质疑平躺真的是最科学的睡姿吗?因为腰部的悬空让我睡一晚上都腰酸背痛。

但Ultra通过抬高床头,抬高床尾,很好地减轻了用户睡觉时的脊椎压力。目前,Ultra一共提供平躺、阅读等四种预设模式,供用户在不同场景下选择。

而Pod产品系列的APP,除了常规的睡眠状态分析、数据检测以外,还会给出一定的睡眠建议。比如说,记录你在醉酒情况下的体温变化,并根据你的主动反馈,记录记忆。并根据你的需要与反馈,去做更多的调节。同时,Ultra还在床架上安装了一个音响,通过成沉浸式的白噪音帮助用户调整睡前状态,舒缓压力。

我们也在现场体验了相关产品,确实在能够感受到到左右两边床上的温差可以比较明显,并且配合着白噪音和低温设定,加上阅读模式同时抬高头部和脚部的温度,整体的体验确实不错。

在APP应用上,Eight Sleep 用了 10 年时间,积累了 10 亿小时真实用户睡眠数据,数据库里包含了不同人种、年龄、性别,甚至女性不同生理周期的温度需求模型。他们也从需求中挖掘出用户的不同特征,比如说热潮模式、醉酒模式等。

在发布会现场,一位用户分享了自己的体验,「我最喜欢的功能是分时段控温。在我生理期,入睡阶段我需要整个人暖烘烘的,但睡着后降回到更低的温度,深度睡眠就不容易中断。」

Eight Sleep的成功,可以从某种程度说明智能健康产品的价值,不在于展示问题,而在于解决问题。

 

 

二、低调入局,用30天无理由退换敲开中国市场

但此刻进入中国市场,Eight Sleep 显然有些保守。

Eight Sleep 选择了 DTC(Direct to Consumer)直营模式,不设经销商、不开线下门店,以官方直销直面用户。同时推出 30 天无忧试用政策,允许用户无理由退换。

「我相信用户体验完产品就会喜欢的,」凌璐说得很自信,「这个产品的价值不是摸一下就能感受到的,而是从第三天晚上你发现深度睡眠比例开始提升的那一刻开始。只要睡 30 天,就离不开这个产品。」

据介绍,在全球市场,Eight Sleep 有 30% 的生意来自口碑,零获客成本,老用户会主动推荐给身边有需求的人。

这也解释了为什么马斯克、扎克伯格、OpenAI 创始人 Sam Altman、硅谷抗衰极客 Brian Johnson 都成了 Eight Sleep 的用户,并在社交媒体上主动背书。他们不是代言人,而是真实用户。

定价策略也完全是全球统一:Pod 5 Core 基础款 19999 元起,Ultra 高配版 37999 元。

这个价格在中国市场意味着什么?它直接将用户圈定在那些对睡眠质量有极致要求,且有足够消费能力的人群。中国区市场负责人凌璐提到,更核心的目标用户画像是「40 岁左右的男性,事业有成,开始特别关注健康,有消费力,也对科技产品有兴趣」。

这和北美市场的两类核心用户一致,运动员和创业者。Eight Sleep 在全球服务了 200 多个专业运动员,其中 F1 赛车手超过一半在使用他们的产品。「这群车手可能是全球体力、专注力、体能、精力最棒的 22 个人,有超过一半都在用 Pod,教练会要求他们这么做,以便优化恢复状态,」凌璐说。

但高端定位也意味着市场教育成本高。智能温控床套是一个全新品类,用户需要时间理解「为什么要为温度付费」。

但我们看到,对这类产品其实更大的挑战在于有效性无法确认。比如说,睡眠质量受情绪、压力、作息等多重因素影响,温度干预虽然有效,却无法解决所有睡眠问题。凌璐也坦承:「我们不能保证睡 Eight Sleep 就睡得特别好,因为睡眠的影响因子太多元了,有外因、内因,还有病理性因素。但我们能够做到的是控制外因里排 top 1 的元素。」

此外,Eight Sleep 也在做了一些本土化适应。比如,在中国市场独家赠送终身免费的 Autopilot 订阅服务,这项服务放在全球其他国家每年需要支付 200 美元。「我们希望第一批用户一开始就体验到最完整的功能,」凌璐解释。

Eight Sleep 的供应链的工厂遍布在珠三角和长三角,目前相关数据基础设施也已迁移到 AWS 中国区,符合本地合规要求。

但 30 天无理由退换政策在国内会带来多大的运营成本压力?DTC 模式能否在习惯「体验式消费」的中国市场跑通?这些都是 Eight Sleep 接下来要回答的问题。

凌璐对第一年的目标比较谨慎:「我们内部有具体数字,但整体规划还是比较保守的,也正在摸索中国市场本土化的路径。」

 

三 、给中国硬件创新的启示录

过去十年,中国健康硬件市场诞生了无数「智能」产品。智能手表告诉你睡眠质量差,智能手环提醒你深度睡眠不足,智能床垫生成一份详细的睡眠报告。然后呢?用户拿着这份报告,除了更焦虑,什么都做不了。

Eight Sleep 的故事,对中国智能硬件行业带来哪些值得思考的地方?

我们可以看到从监测到干预,是智能健康赛道的必然方向。

过去很长一段时间,从智能手表、手环到台灯、床垫,多数智能设备停留在「记录睡眠数据、分析睡眠质量」阶段,只完成了「发现问题」,却无法给出有效解决方案。 没有落地干预的数据分析,只会制造无效焦虑,用户也不会为此买单。

Eight Sleep 以温度干预为核心,真正切入睡眠改善的本质需求,打开了差异化市场。它用实际行动提醒行业,智能健康不能长期停留在监测探索阶段。

凌璐提到一个细节:「很多用户用了 Pod 5 之后,APP 成了他们的『喝酒日记』——哪天数据标红,基本上前一天就喝了酒。这种反馈让用户真正理解了自己的行为对睡眠的影响,也更愿意去改变。」 这才是数据的价值,不是吓唬用户,而是帮助用户理解因果,主动改变。

其次,当下创新阶段,产品定义能力或许会比技术堆料更重要。

Eight Sleep 的创始人不是技术出身,硬件产品总监 Harry 在发布会上也反复强调:「我们不是温度控制公司,我们的目标是帮助人们睡得更好。无论用什么方式找到好的想法来改善睡眠,我们都会去探索。」

这种「以终为始」的产品思维,在中国智能硬件行业并不常见。 中国拥有全球最强的供应链优势,却鲜有从 0 到 1 的原创品类创新。不少产品停留在模仿与微创新层面,或者陷入参数与功能的内卷。 我们擅长做「更好的同类产品」,但不擅长定义「全新的品类」。

Eight Sleep 的成功提醒行业,未来真正的爆品,一定出自能解决真实问题的创新,而不是技术的自嗨。

Eight Sleep 用了 10 年时间,才从 Pod 1 迭代到 Pod 5。这期间经历了无数次失败,像是漏水、噪音、不够舒适。但他们始终坚持一个方向:让人睡得更好。 在中国市场,太多公司急于追求快速增长,却忽视了产品打磨的时间成本。

智能健康的下一个十年,或许属于那些真正解决问题的产品。

 

  •  

没有「身份证」的 Agent,接管不了世界

焦虑与兴奋,是当下科技圈最真实的画像。大年初一蹲在家里装「小龙虾」的老板们,和深夜里顶着 Bug 调教 Agent 的独立开发者,被同一股力量推着往前走。他们既害怕错过,也害怕被反噬。

但热潮之下,暗流也在涌动。前段时间工信部发出提醒 OpenClaw 这类新形态 Agent 中,恶意代码植入的风险正在浮现。

当 Agent 从极客玩具变成人人标配的入口,它的安全和可信,谁来保证?

这正是我们今天要讨论的问题。

在这场对话中,我们刻意将两条截然不同的叙事线缠绕在一起。一边是李超,一个典型的「超级个体」,他用 Agent 接管了自己 70% 的工作量,正在寻找人类的新边界;另一边是金宏洲,e签宝的创始人兼CEO,一个 To B 老兵的转身,他不再纠结回答「AI 会不会吃掉软件」,而是主动将 20 年的积累重构成 AI 原生的模样,甚至开始琢磨着给数字世界里的 Agent 们签发第一张「身份证」。

两人的交锋像一面镜子,照出了当下整个行业最真实的张力。潮水的方向已经变了,Agent 正在成为新的入口,A2A(Agent to Agent)的基建正从零起步,而「信任服务」这个古老的命题,正在重新变得滚烫。

e签宝提供了一个值得关注的 To B 转型思路,企业家们与其焦虑被吞噬,不如回到自己最擅长的「脏活累活」里,把那件不变的事情在 AI 时代重新做一遍。

理解这种必然性,抓住那些最该做的事,在今天反而比盲目奔跑更重要。

以下为张鹏与金宏洲、李超的对话内容实录,经编辑删减。

一、 AI 正在吞噬软件,还是重新定义软件?

张鹏: 李超,你现在已经是个超级个体了。给大家讲讲你是怎么「超级」起来的?平常用得比较多的 Agent 是什么样的?

李超: 我现在是一个人工作状态,主要服务于几个业务像是自媒体、企业服务、写代码、写工具等等。我目前用三类工具用得比较多。

第一类是 OpenClaw 小龙虾。我把生活中又臭又长的东西都丢给它管理。

第二类是 Claude Code 这些写代码的工具。如果需要具体某个项目、某个开发工作,就会去用。

第三个要特别介绍,就是 PI Agent 这个开源项目。它的设计非常极端、非常简洁。你看 Claude Code 就算问它一个「你好」两个字,可能也会帮你加载 2 万 3 万字的 Token。但当你「造」的工具用多了以后,就会想去用一些更加简单的、更加听话的、可以做很多定制化改造的 Agent。

Pi 可以在其他 Agent 都往里面加功能的时候,它往里面减功能。它甚至减到了只需要一个核心大模型,加上读文件、写文件、编辑文件和执行命令 4 个工具,就能帮你完成几乎电脑上所有的工作。

张鹏: Agent 已经在你日常工作里接管了多少?

李超: 写代码这种工作,基本上 90% 以上都是 Agent 接管。跟外部客户的沟通咨询合作,你人还是需要出席的,但大部分前期、后期的准备工作,也是由各种 Agent 帮你处理。总的加起来,平均可能 60% 或 70% 的比例,是 AI 来帮我工作的,否则我根本忙不过来。

张鹏: 在你打造这些 Agent 和 AI 工作流的过程中,有没有一些比较让你崩溃的时刻?

李超: 崩溃是天天在的。刚开始玩小龙虾的时候,过年那两周基本上天天在修 Bug,天天在给 Agent 打工。你要帮它把旁边的「灰尘」扫干净,保证房间里电不要断掉。

现在花我特别多时间的是,我用 Pi Agent 搭一个适合我的、定制化的、完全符合我工作要求的 Agent。但你甚至不知道它的边界在哪里,应该怎么更好地调它来适应我的工作?如果把它做得太复杂,会不会反而有一些安全或其他各种风险?

张鹏: 金总,e 签宝已经有 20 年了。你的那些客户,企业的老板们,今天怎么看这一波 Agent 的浪潮?

金宏洲: 今年过完年之后,我感觉这波热潮就是扑面而来,而且吹到了一些企业家。我身边有一些「太上登」级别的企业家,都来问我龙虾该怎么装。

后来我在企业组织了三波,每次几十个人来学习安装小龙虾。有些企业家自己买了 Mac mini 带过来现场装,都特别有学习精神,也特别上进。我觉得很诧异,这波龙虾热潮会有这么火。

张鹏: 这些老板们最后龙虾用到企业用到什么程度了?

金宏洲: 虽然大家很热情,但像我们身边的大多数传统企业的企业家,其实没有像李超这样的极客能力。我发现他们用的都很浅,也就是帮我收集一下每天什么新闻汇总一下,替代了半个秘书。但你要问他为什么不能继续深入用,就像我们其实也没有把小龙虾弄到内部应用。

大家主要担心的还是安全的问题,怕数据、客户信息出去了。我们的拿手本领都被泄漏出去了,怎么办?也有又怕因为权限的问题导致误删很多数据,或者乱操作。还有可不可审计?监管行业有没有符合监管要求?反正这些东西都导致企业内真正用企业小龙虾是非常非常少的。而且对企业来讲不仅是要好用,还要好管。

张鹏: 那你们最近有啥反应吗?

金宏洲: 我大年初一装小龙虾,我发现我被小龙虾指导该如何消费了。当时我的小龙虾要做一个全球的信息收集,它告诉我要用一个新闻引擎,需要付 5 美金,我就付了。我第一次深刻感受到所谓的软件行业要改变了,原来的入口完全不一样了。不再是别人告诉我要怎么购买决策,而是我的龙虾告诉我要买什么东西。

去年,我们做 2026 年战略的时候,我们就提出来整个全年要 AI Native,主要事做 AI Native 的产品和适配 AI Native 的组织两个方面。

我们已经做了一个升级,原来的 eSign.cn 和 eSignGlobal 两个域名,现在是都是 eSign.AIhttps://www.esign.ai。我们整个产品像是合同 AI、合同 Agent 的 2.0 也同步发布,变成完全 Agent 形态。

我们今年除了产品上,时间花得最多的是 AI Native 组织。我们公司有 800 多人,怎么样在新的时代能够让他们的价值发挥出来?第一件事情我就组织了公司内的培训,所有人都得学会怎么搭建 Agent,然后 Agent 做好之后用在业务上面。现在我们有五大公司级的数字人项目,每个项目每周都会去看它的进度。

张鹏: 所以其实 AI 本身的意义是指这家公司在未来的战略方向上要做调整,从过去软件的形态变成 Agent 架构提供服务?

金宏洲: 对,我们完全都是 Agent 架构,基本上重做了。域名看起来是一个姿态,但实际上它有很多实际的东西,但姿态也很重要。

张鹏: 李超,你怎么看所谓 AI 吞噬软件这个说法?在你身上有没有这样的体感?

李超: 你自己亲身每一天的经验都是告诉你,Agent 正在吞噬以前的一些软件。Agent 作为个人唯一的入口,可能已经是一个不太容易去改变的趋势了。那它作为一个入口,就会把原来那些只有入口能力的软件给吞噬掉。

比如说只是把数据搬运来搬运去,然后在 APP 上、网页上大概展示一下,最后给你一个报表。但我现在健身、跑步、做饮食规划,我完全都是通过 Vibe Coding 形式在为自己写一个定制化的、完全符合我要求的 AI Agent。

过去,你需要两个功能。但 APP 会给你 100 个功能然后你只用两个。现在我只需要两个功能,那我就自己做一个,二十分钟就能做一个很完整的功能了。

原来那些纯粹是摆弄数据流的应用,可能就被吞噬了。但那些原来真正有底层能力的应用,它还是在那里。比如说有传感器能力的,我自己做不了,最多是在外面给它再包一层。有供给能力的,比如社交的供给能力的。微信上就是有这么多人,你自己做一个也没人理你。有知识产权、可以发资质的能力,那也会很稳地在那边。所以有自己核心能力的软件,还是很有存在感,但其他的都会被统一成个人的 Agent 入口。

张鹏: 金总,你怎么看这个所谓 AI 吞噬软件?如果今天我们是基于软件的服务,我们要如何反吞噬?

金宏洲: 软件的价值,如果说分层的话,从低到高是:界面、流程、数据、网络效应。如果说只是流程价值和界面价值比较多的软件肯定是被吞噬掉。

相对来说不能被吞噬的,就是有数据价值和网络效应的,包括生态价值、监管合规的这类软件更偏向被 AI 赋能。

我们最初其实也有这样的焦虑,AI 层成为入口,我们这样的中等规模软件厂商是比较危险的,有可能就被吞掉了。但我们发现在这个事情的进程中,有些事情是不可抗的,比如说 Agent 或者 AI 变成了入口,我们就需要在被调用的时候也要保持我们的价值。

最后我们觉得还得有牌照什么之类的,可能是一个更好的方式,所以我们也去拿了数字认证的牌照。因为只有稀缺才有定价权。

我们电子签名类的产品在未来身份认证、电签产品在 AI 时代还继续有价值,它本身提供的是一个信任服务,需要有一定的中立的第三方身份在那。我们还有大量的数据、网络效应,所以我觉得我们还是可以活下来的。

张鹏: 所以你核心在于不管过去软件时代还是用不用软件的方式在提供服务,但这个服务的本质是一个信任的基础。这个事没变。

金宏洲: 对,但后来又进一步琢磨,觉得有了 AI Agent 这个事情,市场空间反而更大了。

为什么呢?我们过去做的都是给人、给企业做认证、做电子签名,信任服务就是让整个社会更丝滑地运转。大家相信印章代表我,那个印章代表你,见章就见人,交易成本就下降了。在 AI 时代,我们把这个一个个 Agent、一个个智能体想象成人的话,它也需要有身份。有身份才能在这个商业社会继续高效地去完成交易行为。

我们可以给所有的 Agent 发一个数字的身份证。那这个空间是巨大的。所以我们想想就特别兴奋,在 AI 时代,我们的空间反而更大。

 

二、为 Agent 签发身份证,是枷锁还是通行证?

张鹏: 李超你今天大量的 Agent 应该就是自己在用。你有考虑过未来要对外去创造一些对外服务的工作流或者 Agent 吗?对于刚才金总说的认证问题,你怎么看?

李超: 我非常有感触。我大部分搭建的 Agent 或者工作流是给自己用,提高自己的工作效率。但我也做很多企业的服务,帮企业去推进工作流。

自己在做 Agent 的时候,你完全不觉得这是个事情。一个 Agent 有三四个 Bug,我都懒得去修,因为我就知道有个按钮你不去按就行了。

但一旦你给企业服务,或者帮企业去推进服务的时候,所有的小问题都会变成大问题。他会来问你,你这个工作流或者 Agent的权限会不会涉及到公司的保密业务?你能不能把这个权限给框住?

如果他一步一步做完了整个工作流,不管最后有没有成功,我能不能倒推看是哪一步没成功,在哪一步上可能对企业以后还会造成风险?

而且他来找我来做,可能是因为我在网络上有点声量,觉得我的技术比较可信。但对于普通的开发者来说,如果要去接这样项目,企业信任你也挺困难的。摩擦力蛮大的。你可能要花很多的时间,跟企业配合沟通、不断交流,一两个月你可能才能拿到一些单子。

所以一旦进入了真正的商业世界以后,所有的小问题都会变成真正的大问题。

张鹏: 所以如果有这样的认证,反而是降低你的交易摩擦。金总,那未来是不是这种认证也要解决一层,我们要有新的服务真正能跑出去,它得需要先有信任能建立?

金宏洲: 对,信任服务本身就是降低交易的成本。这里面就是一个是可信的身份,一个是他的行为是可追溯的,最后责任是能有归属的。我觉得这是一个最核心的事情。我们作为第三方的信任服务,解决的是不认识的人之间,或者两个 Agent 之间怎么是互信的。

张鹏: 李超你自己今天有什么审查程序吗?调用一个 Skill,或者用一个别人的 Agent,你怎么去确保它相对可信?

李超: 我其实很担心。现在 ClawHub 上面有 5 万多个 Skill 了,提示词恶意注入的很多,你不太敢去用网上能下载的 Skill。如果去下载,第一个就是看他是谁写的。如果是小龙虾的创始人 Peter Steinberger 写的,那我基本上就相当于 100% 信任了。虽然肯定也会有 Bug,但不存在说这个人是恶意想来从你电脑上窃取一些什么东西。

如果是一些大厂写的,我也会比较信任一点。如果是个完全不知名的,就算旁边收藏跟星星很高,都会有些担心。

张鹏: 金总这个问题咋解决?建立信任真的是挺难的。人类世界、商业世界这么多年演进过来,但如果今天人们就只追几个大佬,那这个世界也挺无聊的。年轻人不断地创造新的东西,你让年轻人怎么让公众能信任?我们怎么能确保至少没有主观恶意?像是一个人有一个身份证,Agent 和 Skill 能解决这个问题吗?

金宏洲: 我们解决的是一个是这个可信的身份,也就是证明谁是谁。第二个是他做的事情是不可篡改。第三个是可追溯、可溯源。

但我觉得我们不是说有了这三个前提、有了身份就不犯罪了。就像咱们有身份证,但也有人犯罪。并不是说就一定是绝对安全的,但这个身份是安全的起点。

至少说出了问题,他是可以找到责任人的,这就会大大降低了恶意犯罪的可能性。身份认证肯定后面还要配合安全审计、权限管控,以及更多的安全产品去配合来确保整个的安全。

张鹏: 如果我们的目标是能够降低交易摩擦,能够更可信的让 Agent 在不管是广众的领域还是企业的业务领域跑起来,它复不复杂?这里边涉及到哪些技术?

金宏洲: 其实我们给 Agent 做身份认证,从技术角度一开始我们在琢磨,碰到第一个问题就是怎么定义这个 Agent?

Agent 不像人,我们有生物特征、有物理的实体。Agent 它并没有这些东西,而且还在不断的变化。

后来我们觉得陷入了误区,不能这样去想问题。首先Agent是一个系统,我们用系统论的思维去思考它。系统论就是说有要素之间关系,还有一些规则,构成了一个以某特定目的的系统。

Agent 就是一个有特别的任务、特定的目的,它是一个能够自我维护的、有一定边界的闭环的系统,我们不能说它当下给它认证之后它就不能动了。

这个问题实际上就像我们给企业做认证,现在给某家企业做了认证,它现在是 100 个人,一年之后它发展了 500 人了,甚至原来的 100 个人都换掉了,但还是那个企业。只要它本身没有实质性的变化,它还是那个企业。

那我们把这事想明白,就去收集 Agent 的 ID、工作区域的地址等等个性的信息,把它作为一个认证的基础。但最核心的还不是这个,而是说这个东西和他那个开发者之间的关系的唯一性,开发者和这个 Agent 是唯一的关系,或者它的创造者之间唯一的关系,这个才是我们认证的根本。

所以我们这个认证分两个的:一个是对这个开发者或主人的认证,另外就是对 Agent 的认证,合起来才是对这个 Agent 的认证。技术上的难点来讲,很难也谈不上。更难的是它是一个系统性的工程、一个社会的工程。

张鹏: 要形成一个共识。

金宏洲: 对,它是一个生态。就像我们 20 年前推电子签名,经历过那个大家也不认可,后来有法律、有各种规范、有市场化公司的努力,才形成了今天有这么多人用电子签名。Agent 认证大概也要经历这个过程,可能会快一些,但它是一个生态共建的过程。

 

三、A2A 时代基建狂潮前,如何为 AI 世界的「互信」铺路?

张鹏: 最近大家谈论小龙虾的 Skill 里边有一些恶意代码。现在那么多的 Skill,我怎么筛、怎么去定?未来新的可能也更好的,我到底试不试?我怎么敢相信它?在 Skill 这一层本身,要不要有一些对应的认证?

金宏洲: Skill 的认证也是很重要的,所以我们这个 AI Agent,我们取这个名字是可信 Agent,它也包含了 Skill 部分的服务。

我们做给 Skill 能解决什么问题?首先有大量的不安全的问题。另外作为创作者来讲,他好不容易做了一个,然后别人很随意让其他 Agent 学习。李超老师也讲到,他作为开发者也希望他的 Skill 被用户更多接受,但别人不信任他,不放心。这就是一个分发成本的问题。

我们这次和国内知名的安全公司安恒信息,以及国家工业信息安全发展研究中心知识产权所,我们三家合作推出了VeriAgent.AI(https://www.veriagent.ai)来这个问题解决。

我们是怎么分工的?

首先解决安全问题,让用户放心使用。安恒信息在这边会对上架的 Skill 做安全扫描,会给出一个评估分数,达到这个分数意味着 Skill 可以安全了。

我们在这里面起的作用,就是给这个 Skill 做数字签名。这个数字签名包括对开发者的一个身份认证,然后再对这个 Skill 本身做一个签名,确保它是不可篡改,确保它整个的运行环境是可靠的。

Skill 的签名,其实基本上是沿用了在软件时代的代码签名证书。软件时代就有这个,它解决一个什么问题?也是软件的身份认证、开发者是谁,然后它不可篡改,系统可信,整个软件生态相信它是一个可靠的软件,大家就放心下载。

第三个就是国家工业信息安全发展研究中心知识产权所发的 Skill 技术秘密登记凭证。这个凭证类似于计算机时代的软件著作权证书,对你 Skill 里面的技术秘密进行验证之后,给你发这个技术秘密的登记备案凭证,来保护你开发者的权益。万一未来有可能发生纠纷,他们也会提供相应的法律支持。

所以我们通过这样三家一起完成了从安全、到可信、到权益保障整个的一个闭环。

张鹏: 看起来越是底层的东西可能越需要把这个复杂的东西能够真正系统性地去解决,都不是一个点的问题,都是一串问题。你这一解决问题就是一套体系,所以你这事得干 20 年。

金宏洲: 对,我发现我们肯定现在都要交付结果了。

张鹏: 李超,既然我们说未来要安全的认证,知道背后是谁在开发这个事,它有点类似于实名制了。你作为一个超级个体、一个开发者,你怎么看这个实名制个人承担责任这件事?这个责任的边界到什么程度是你愿意接受的?

李超: 好难啊这个题目。我心里是很接受实名制的。因为有实名制之后,市场才能越来越完善,在里面的人才能赚到更多的钱。

但我觉得这里面的边界就比较难去界定。比如说我作为我搭一个应用、AI 应用 Agent,涉及到模型方、平台方、部署的那一方,包括我自己开发者这一方,中间涉及的环节很多。你最后搭建的产品也不是特别像以前传统软件一样有固定的三个功能、五个功能,所以它的边界就比较难去界定。你如果把所有的产品问题遇到什么问题都归结到开发者本身,那我觉得对这个产业,那就叫无限责任了。

我觉得在两个方面去强调这个责任,一方面就是功能行不行,功能有完全达标,有可能差一点,但这个是一个小问题。

还有个大问题就是说有没有恶意地去破坏、恶意地去植入一些东西。那这个可能是一个更大的、更基础的问题。

如果在这两点上面去追溯与开发者责任,我觉得都是比较合理的。比如说你有没有去恶意植入一些东西?如果没有,那你这块应该是没有任何责任的。

第二点在安全的情况下,你功能是不是能够达标?那功能达标我觉得可能是个比较软性的责任,也有可能是他自己挑选的模型的问题。

所以最基础我觉得可能还是要守住那个恶意的、不要去主观恶意的底线。我觉得可能对开发者会比较友好。因为对开发者的友好,其实对这个整个的 AI 生态现在所有的 AI 的项目或者发展趋势,都是从极客、从开发者圈子里面,从 GitHub 上面从底下推出去的。所以开发者要承担一些责任,但是也要为开发者做好免责。

张鹏: 我觉得一方面要有责任,另一方面又必须是“有限责任,更多的应该是更广范围内的免责。金总,你认不认同,至少在今天先能够大家能承担的责任,就是我没有主观恶意?

金宏洲: 我觉得这个问题分两层。

第一层就是我们最基本的智能体和它的主人的界定问题。我觉得首先第一个就是主人和 Agent 之间的内层的界定。我们现在比较主张的还是 Agent 做的事情是获得主人的授权的,那么出了问题,主人得担责,这是第一层,人机协同。

第二层就是 Agent 有可能主人同时也是开发者,像李超这样的,但大多数时候他不是开发者。主人只是买了一个封装好的 Agent 来使用。这种情况就像现在当下自动驾驶领域所讨论的话题,车厂的责任还是司机的责任,出了车祸的话。

我看到现在一些国家的法律出台,基本逻辑是如果它已经达到 L3、L4 的自动驾驶能力,车厂已经公布了,同时法律要求装黑匣子,在这两个前提下,出了事是算车厂的。

我觉得可能未来到 Agent 再成熟的时候,排除开发者那层、极客那层,很多普通人就喜欢给我一个完整的东西。那时候可能会出现这种状态,它很智能,可以帮我去购物、去支付各种各样的,权限管理什么都 OK,但它同时也是有认证的,也是有行为可追溯的,黑匣子装好了。那么我觉得如果还出问题、不受控了,那么这种情况下是不是可能是开发商会有一定的责任?

张鹏: 所以你再类比,今天是从辅助驾驶的角度,如果出车祸肯定是车主的问题。如果是辅助系统出了问题,可能是算车厂的。但未来如果到了真正的自动驾驶,到 L4、L5,那毫无疑问肯定是车的问题,因为连方向盘都不给我了。

金宏洲: 这也是特别有意思的话题,最终这个智能体它能不能有这样的主体责任,能不能承担主体责任?

我们至少当前之前聊的都是认证主人和 Agent,同时还有他们关系的唯一性,确定最终承担责任是主人。

但我自己觉得当 Agent 发展到更成熟的一天,它更聪明了,真正能帮主人做很多事情,甚至时间长了,作为我的 Agent 我都跟它产生感情了,会不会有这种情况?

或者某一天,甚至我去世之后,我就说我把我某些资产让我的 Agent 管理了,我觉得完全有可能。那么到那个时候可能就是在法律上,也会给这个 Agent 一定的主体的身份。

这让我联想到公司。公司它有一个抽象的概念,叫法人。法人最早大概 1600 年左右在欧洲出现,但一直到大概 100 多年前,最后才法律上定型。

一开始大家讨论就是说这个公司、这个组织能不能承担责任?一样的,最终也是说只能是人承担责任。到后面我们现在都知道今天的法人,公司是可以去签合同、可以去诉讼、可以被诉讼,资产继承都是可以的。

所以它就是有了这样的主体的资格。我觉得 Agent 也会走过类似这样的过程。

张鹏: 你看你一开始说我们最早探讨的是 AI 吞噬软件,你逐渐认为不是吞噬。那我就顺应潮流,用新的机制来解决过去依旧被需要的问题。但你服务的客户可能会变化。以前你毕竟服务的是人和组织,未来都是一帮 Agent 和 Agent 之间互相要去印证。你怎么看这个趋势?因为今天有一个新潮流的说法,以后不给人开发工具,只给 Agent 开发工具。

金宏洲: 对,这个就是从焦虑到兴奋那个转折点,就是发觉我们可以 A2A 了。原来 to P、to C、to B,现在可以 to A 了,所以这个就是感觉空间是巨大的。

我们也非常相信未来 Agent 数智能体是人类的可能 1000 倍甚至 1 万倍更多。当然我们不会说对所有的智能体去需要强的身份证,但我相信还是有很大市场的。

我也觉得未来 A2A 的交易可能是整个全球交易的 80% 以上,而且 A2A 交易会呈现出一个特点,它是小额、超高频。所以它对认证、对确权、包括签名这些需求反而是更高频的,反而空间是巨大的。

当然我们觉得现在整个的基建这个事情还是刚开始,都还没有做好,所以也是我们的机会。我们觉得现在要做的事情就是把这个基建搭好。

我们把人类世界原来的那套信任规则,它不能因为是 Agent 它就打破,它可以是有变化、有升级的,技术上也可以迭代的,但是它底层逻辑是没变的——还是谁是谁,做的事儿是不可篡改的,责任是可溯源的,这个最核心的事情本质还是不会变的。

所以我们还是抓住这个点。我觉得这个信任服务,不管是未来这个数字社会怎么样,是不是还是以人为中心都没关系,但是它这个信任服务的服务肯定一定会存在。

张鹏: 你说这点我倒是挺认同的。不管我们技术怎么变,最终在这个商业世界里边这么多年运行的规则,包括所谓的信任的基础,它是不可能完全被颠覆掉的,要不然这个系统就崩塌了。所以这件事反而是得有一套新的关于信任的基础设施和体系得能建立。

金宏洲: 我们从焦虑到最后笃定的一个转变的最主要点,我们还是得抓住不变的东西。

张鹏: 你也是创业公司,有没有投资人天天鼓动你们赶紧借着什么龙虾或者这波 AI,你们发个什么产品,搭上这波浪潮?我看你现在做的这个事又是一个要爬好多年去构建复杂体系的事。

金宏洲: 我觉得我们还好。这个世界有好多机会,有好多新的事情,当然有好多聪明人在做,比如像李超老师这样都在做。那么最终这个事情为什么是你?

可能那点子很好,可能最后发觉跟自己的长板完全不是太搭的,我觉得大概率是失败,也没必要去做。所以最终我们还是回归到这个事情是好的,市场空间巨大的地方,你还是要回答为什么是你?所以我们觉得还是抓住我们自己最擅长的那部分。

张鹏: 哪怕是脏活累活,要花时间的,反正该干的还得干。

金宏洲: 对,「脏活累活」才是护城河。

 

 

 

  •  

一年烧掉 1850 亿美元、Google 要做智能体时代的「企业 Windows」

4 月 22 号,拉斯维加斯,Google Cloud Next 2026 正在如火如荼地举行。

了解 Google 每年产品发布节奏的人都知道,I/O 是讲手机、讲安卓、讲各种新产品如何改变人类世界。而 Next 的画风完全不同,它一上来就直奔企业客户,聚焦在云基础设施怎么搭,AI 怎么落到生产环境里去。

而如果把过去四年的 Next 大会串在一起,你会看到 AI 时代 Google Cloud 有着一条愈发清晰的进化曲线:

2023 年,Google Cloud 端上来的是 PaLM 2 和 Duet AI,主题是「把大模型能力嵌入云服务」;2024 年,Gemini 1.5 Pro 登场,Vertex AI 开始向 Agent Builder 方向进化,主题变成了「给开发者搭建 AI 应用的平台」;2025 年,ADK 和 A2A 协议发布,Agentspace 上线,Google Cloud 开始铺智能体之间互相协作的基础设施。

而到了今年,所有这些散落在不同年份、不同产品线上的碎片,被收拢进了同一个产品——Gemini Enterprise。

四年下来,Next 的主题从「大模型进入企业」到「Agent 开发工具」再到「Agent 生态构建」,而进入 2026 年这些过去的积累正在通向一个更大的野心:定义什么是智能体时代的操作系统。

Google Cloud CEO Thomas Kurian 在台上把这个野心拆成了一句判断:「你无法通过拼凑碎片化的芯片和脱节的模型来创造真正的价值。你需要一种架构,其中芯片是为模型设计的,模型基于你的数据,智能体和应用用模型构建,并由基础设施提供安全保障。」

这就是我们在这次 Next 大会上看到的,Google Cloud 不止是在发布一组新产品,而是在重新定义企业 AI 技术架构:在一个人类员工和数十倍数字员工共同协作的 Agentic 时代,谁掌握了企业管理智能体的控制面板,谁就拿到了这个时代的操作系统。

 

一、Gemini Enterprise:从智能助手到智能体操作系统

要理解这次 Next 大会的核心发布,首先要把一个容易混淆的问题理清楚——今天的 Gemini Enterprise 和去年秋天发布的那个 Gemini Enterprise,已经不是同一个东西了。

去年 10 月,Google Cloud 推出 Gemini Enterprise 时,定位是「把 Google AI 最好的能力带给企业的每一个员工」。说白了,当时它是一个企业版的 AI 应用入口,员工可以在里面聊天、问问题、生成内容,本质上还是一个 chatbot。

而这次 Next 大会上发布的 Gemini Enterprise Agent Platform,性质发生了根本变化。它不再只是一个给人用的工具,而是一个用来构建、部署、编排、治理和监控智能体的完整管理平台。

这其实也是过去几个月里,在 OpenClaw、Hermes 等产品爆火以后,我们反复讨论的行业议题:当企业从「试点一两个 AI 项目」走到「在生产环境中运行无数个智能体和 AI 项目」,需要的不再是一个聊天窗口,而是一套企业级的控制系统。在这其中,谁有权创建智能体、智能体能访问哪些数据、它做了什么决策、出了问题怎么追溯、多个智能体之间怎么协作分工都是新的机会。

Gemini Enterprise Agent Platform 正是为了回答这些问题而搭建的。它的核心组件包括:

  • Agent Studio,让业务人员用自然语言定义智能体的行为逻辑,不需要写代码;
  • Agent Registry,为全公司的智能体提供统一的索引和发现入口,相当于智能体的「组织目录」;
  • Agent Gateway,扮演类似空中交管员的角色,统一执行安全策略,监控每一次智能体与数据的交互;
  • Agent Identity,给每个智能体分配唯一加密身份和可审计的授权策略;

Agent Observability,提供完整的执行路径可视化和细粒度遥测,让管理者能看到智能体到底做了什么、花了多长时间、调用了哪些工具。

从产品逻辑上看,这套平台的设计思路和企业 IT 管理团队过去管理人类员工的方式高度对齐,像是入职(创建)、分配权限(身份与策略)、日常管理、绩效评估……区别只在于,被管理的对象从人变成了智能体。

这件事为什么重要?因为它重新定义了企业服务的「卖点」。在过去很长一段时间里,云厂商的叙事框架几乎没变过:底层拼算力,中层卖开发环境,上层打包 SaaS 工具。即使 AI 浪潮来了,大多数厂商还是在这套三层框架里做增量。

但 Google Cloud 这次跳出了这个框架,它用一个新的问题来锚定产品价值:你能不能让企业放心地把核心业务流程交给成千上万个智能体?

这个问题背后,是企业采购逻辑的根本变化。过去企业 IT 采购的核心问题是「这个软件能不能解决我的问题」,现在变成了「这个智能体能不能自主完成我的任务,而且我能不能信任它、管理它、审计它」。信任、管理、审计,这些要素正在成为智能体时代企业服务新的核心竞争力。模型会商品化,算力会平价化,但谁能帮企业管住数字员工,谁就握住了客户。

这一点已经在Google Cloud 的客户端得到了验证。沃尔玛在 Next 大会上分享了他们的案例,他们把 Gemini Enterprise 推广到门店负责人,配合 Pixel Fold 设备,让领导们能在几秒钟内获得原本需要几小时才能整理的运营数据。沃尔玛的逻辑很朴素,门店经理的价值不在于整理库存报表,而在于和顾客交流、激励团队。AI 接管了前者,人才能专注后者。

德国保险公司 Signal Iduna 则在数周内实现了 80% 的 AI 采用率,11000 名员工正在构建各自领域的专业智能体,其中健康保险智能体能根据一个世纪以来的复杂保单数据自动验证保险范围,答案提供速度加快了 37%。KPMG 在首月就实现了 90% 的员工采纳率,构建了超过一百个智能体。

这些数字背后的共同模式是:Gemini Enterprise 不是替代人,而是让人回到更有价值的工作上。但让这件事能规模化发生的前提,是企业拥有一套可信赖的智能体管理系统。这正是 Gemini Enterprise Agent Platform 要解决的核心问题。

 

二、五层架构:Google 为智能体时代搭建的操作系统「底层」

如果说 Gemini Enterprise Agent Platform 是这次大会的核心产品,那么支撑这个平台运转的,是 Google Cloud 在台上展示的一套五层技术架构。从底层的芯片到顶层的预置智能体,Google Cloud 试图用一套垂直整合的方案,把企业运行智能体所需的一切能力打包交付。

Kurian 在台上把它拆成了五层架构:AI 超级计算机(AI Hypercomputer)、智能体数据云(Agentic Data Cloud)、智能体安全(Agentic Defense)、智能体平台与模型(Agent ic Platform and Models )、智能体编排小组(Agentic Taskforce)。

第一层:AI 超级计算机(AI Hypercomputer)

AI 时代的基建,算力永远是最重要的,也因此 TPU 的进展无疑是此次大会看点之一。Google Cloud 发布了第八代 TPU,首次分化为训练和推理两个专门平台。训练版 TPU 通过 3D 拓扑结构可扩展到连接 9600 个 TPU,计算性能提升 2.8 倍,单个超级计算单元提供 2PB 内存。据介绍,这个容量足以装下美国国会图书馆数字馆藏 100 次。

推理平台上,Google Cloud 在芯片层面集成专用「加速引擎」,将延迟进一步降低 5 倍。通过新的 4.5 拓扑结构,1152 个 TPU 可组成低延迟集群,以近乎零等待的方式并发响应数百万个智能体的调用请求。

同时,Google Cloud 配套发布 Virgo 网络架构,将连接带宽翻倍,单集群可支持超过 100 万个 TPU 芯片的协同工作。

此外,Google Cloud 宣布成为首批提供 NVIDIA Vera Rubin NBL72 实例的云服务商,针对高交互性与长上下文推理优化,性能效率提升 10 倍。

在模型层面,平台持续支持第三方模型接入,包括 Anthropic Claude Opus 4.7,并将所有 GCP 服务通过模型上下文协议(MCP)开放,让智能体可直接调用云资源。

第二层:智能体数据云(Agentic Data Cloud)

这是 Google Cloud 构建这个整套系统的「大脑」,是智能体的「记忆与常识」搭建的基石所在。它负责将散落在 PDF、视频、第三方云存储中的暗数据,转化为智能体可理解的业务语义。当智能体听到「净收入」或「风险」时,它能理解其在你公司的确切含义。

Google Cloud 主要核心发布两款产品,知识目录(Knowledge Catalog)与 Cross-Cloud Lakehouse

其中,知识目录是作为通用企业上下文引擎,它在文件写入 Google Cloud Storage 的瞬间即由 Gemini 自动介入,提取实体、映射关系并理解业务语义。智能体听到「净收入」或「风险」时,能准确定位其在企业数据模型中的具体定义。

而 Cross-Cloud Lakehouse 则是基于开放 Iceberg 标准,允许 BigQuery 等分析引擎直接对 AWS S3、Azure 中的数据进行查询,无需迁移数据、无出口费用,让智能体能够跨云获取完整的业务上下文。

 

第三层:智能体安全(Agentic Defense)

比较意外的是 Google Cloud 将安全部分空间开放出来与 Wiz 合作,共同搭建。这一层主要是将安全系统本身转化为自主运行的智能体,核心发布是与 Wiz 整合后形成的 AI 应用保护平台及 Agentic SOC。

其主要的方式,是打造一支红蓝绿安全智能体战队。其中,红队智能体持续扫描暴露面,主动探测认证绕过漏洞;蓝队智能体基于 Mandiant、VirusTotal、Chrome 的全球遥测情报狩猎威胁,外部威胁识别准确率达 98%;绿队智能体在漏洞确认后自动定位具体代码行、生成修复建议,并可将 Pull Request 直接推送给开发团队或交由编码智能体自动修复。

据相关负责人介绍,Google Cloud 内部安全团队过去审查海量非结构化威胁报告需数千小时,智能体自动分类后,威胁缓解时间缩短了 90% 以上。

 

第四层:企业智能体平台与模型(Agentic Platform and Models )

这是 Google Cloud 为智能体搭建的一个完整的管理中枢,整合了模型、构建、编排、治理与可观测性,也推出了一系列产品包括:

  • Agent Studio:低代码构建器,业务人员用自然语言即可定义智能体行为,将 ML 模型与特定业务规则结合。
  • Agent Registry 与 Skills 注册表:前者为全公司智能体提供统一索引与发现入口;后者将 GCP 与 Workspace 的每项服务封装为模块化技能,并通过 MCP 协议连接第三方系统(如 Atlassian、Salesforce),智能体可动态调用。
  • 编排框架:支持确定性流程,像是合规审批,确保结果可预测等等。还有生成委托,也就是主智能体自主将子任务分派给其他专业智能体两种模式。
  • 智能体身份与可观测性:每个智能体拥有唯一加密 ID 与可审计的授权策略,所有行动通过 Agent Gateway 统一执行策略管控。细粒度遥测可可视化智能体的完整执行路径、耗时与工具调用记录。

在模型层面,Google Cloud 同步发布了针对复杂工作流编排优化的 Gemini 3.1 Pro、高保真视觉资产生成的 Gemini 3.1 Flash Image、高容量视频应用的 Veo 3.1 Light 及专业级音频模型 Lyria 3 Pro。

 

第五层:智能体专项小组(Agentic Taskforce)

这是五层架构的最顶层,也是智能体直接交付业务价值的「数字员工」层。Google Cloud 预构建了一批面向特定场景的专业智能体,覆盖客户服务、营销、代码开发与安全运维等核心业务领域。

在客户体验方向,购物导购智能体已在百思买落地,用于向消费者解释复杂的产品规格;家得宝则将其包装为「魔法围裙」助手,在店内与线上同时提供寻路与选品支持。食品订购智能体帮助棒约翰记住每位顾客的偏好,实现超个性化点餐体验。YouTube TV 上线的全渠道语音客服智能体上线即覆盖全部用户,支持实时中英文切换,将复杂的产品逻辑转化为自然对话。

在行业定制方向,财富管理机构 Citywealth 推出了 CitiSky,定位为团队中「始终在线的 AI 成员」,以多语言实时响应全球客户的查询请求。NASA 则将 Gemini Enterprise 智能体用于飞行准备流程,保障 RMS2 任务中宇航员的安全,该任务至今保持着人类太空飞行离地球最远的记录。

Google Cloud 内部同样是这套系统的深度用户。智能体编排小组参与完成了一次复杂代码迁移,整体速度较一年前提升了 6 倍;营销团队则借助模型生成了数千种创意资产变体,使活动周转速度加快 70%,转化率提升 20%。

其实从这五层框架可以清晰地看出两条并行的主线。一方面,Google 正在围绕这套新的产业框架全面重组自己的产品线与业务边界,比如说 TPU 不再只是算力商品,而是按训练与推理分化;数据云不再只是关注存储与查询,而是为智能体注入上下文;安全也开始是一套自主运行的智能体系统。很显然,每一层都在为「智能体规模化落地」这个终极目标重新对齐。

另一方面,这也说明未来企业不再需要自己从芯片、存储、网络、模型、安全、应用这一长串链条中逐一组装零件,因为过去衡量云厂商能力的是机柜数量与产品目录厚度,今后衡量的将是它能帮助企业调度多少智能体、完成多少任务、产出多少业务结果。

AI 时代,企业服务的玩法要彻底改变。

 

三、Next,AI 企业市场将会如何改变?

会议结束的时候,我听到有人讨论道:「Google Cloud 向整个企业服务行业开枪了。」

这个判断不算夸张,从这次的发布来看,Google Cloud 不再满足于在 IaaS、PaaS、SaaS 的既有框架里做增量,而是直接用「智能体能否自主完成任务」这条新标尺,重新丈量整个企业技术栈的价值。

为了支持这种方式转变,Google 在过去几年不断加大技术和基础设施投入。Pichai 在台上披露了过去几年 Google 的投资规模增长:2022 年Google 的资本支出是 320 亿美元,今年计划投入 1750 亿至 1850 亿美元,四年内增长近六倍,其中预计超过一半的机器学习计算资源将用于云业务。

对于那些专注于某个细分环节的创业公司来说,这场发布是一个不容忽视的信号。过去两年,围绕通用模型做工程化封装的公司,模型路由工具、AI 协作看板、垂直行业的智能体构建器,它们各自在局部建立了不错的产品。

但当 Gemini Enterprise 同时兼容 Gemini、Claude 等多种先进模型,原生集成数据治理与零信任安全,支持低延迟直连 AWS 与 Azure 数据且无需迁移,还提供低代码构建器、身份管理、编排框架与可观测性工具等等。当这些能力被整合进同一个控制面板时,仅提供单一或少数几项功能的创业公司,将很难在这个新体系下维持独立价值。这不是功能优劣的竞争,而是「一套生产线」对「单个零件」的替代。

Kurian 在结尾部分着力强调了 Google Cloud 的「开放性」,比如说,支持第三方模型、支持跨云数据访问、MCP 协议开放所有 GCP 服务、合作伙伴生态涵盖 BCG、德勤、麦肯锡等。这种开放姿态与微软 Copilot 生态的相对封闭形成了对比。

但仔细看会发现,所谓的「开放」是有策略的:模型选择是开放的,数据连接是开放的,但管理平面,那个决定智能体如何被构建、如何被编排、如何被监控的控制层,已经牢牢握在 Google Cloud 手里。

这是一个经典的「用开放换锁定」策略:入口宽阔、出口狭窄,一旦企业在 Gemini Enterprise 上构建了数百个智能体、配置了完整的权限策略和审计流,迁移成本就会变得极高。

同时值得关注的信号来自生态联盟。Google Cloud 与苹果的合作被摆在了聚光灯下。Google Cloud 作为苹果首选的云服务提供商,正在基于 Gemini 技术合作开发下一代苹果基础模型,这些模型将直接注入未来的 Apple Intelligence 功能。

当全球最大的消费级 AI 入口之一与 Google Cloud 的基础设施深度绑定,Google Cloud 获得的不仅是算力订单,更是对终端用户 AI 体验底层标准的定义权。这起合作也在向行业传递一个信息。在 Agentic 时代,云厂商的角色正在从「资源供应商」升级为「生产力操作系统的设计者」。

回过头来看,这次 Next 大会最重要的信号也许不在于任何一个具体产品,而在于它所代表的竞争维度的转换。

过去两年,行业的竞争焦点是模型——谁的参数大、谁的 benchmark 高、谁的上下文窗口长。但 Google 在 Next 上释放的信息是:模型战争的窗口期正在关闭。

接下来的竞争焦点是「控制面板」,谁定义了企业管理智能体的那个面板,谁就拿到了下一个时代的操作系统地位。

Kurian 在台上说:「试点时代结束了,智能体时代已经到来。真正的力量源自它如何改变你的工作流程。」

这句话翻译过来,其实是一封战书:Google Cloud 不是在发布一堆新产品,而是在宣告在未来企业的「生产力底座」争夺战中,Google Cloud 要当规则制定者。而规则一旦被市场接受,计费方式、生态边界、技术选型的话语权,都将围绕新的中心重新排列。

这场重构,才刚刚拉开帷幕。

 

  •  

一个新视频模型背后,藏着蔡浩宇给游戏行业造的「新引擎」

作者|桦林舞王

编辑| 靖宇

 

4 月 9 日,一篇来自 Anuttacon 团队的论文悄悄出现在 arXiv 上。论文展示了一个叫 LPM 1.0 的视频模型——全称 Large Performance Model,注意,是 Performance(表演),不是 Language(语言)。

这个 170 亿参数的扩散 Transformer 模型,能让一个 AI 角色在视频里说话、倾听、做出微表情,保持身份一致地「演」下去,理论上可以无限时长。说白了,它是一个专门让虚拟角色「活起来」的视觉引擎。

大多数人的第一反应,是把它和 Seedance、Sora 这些视频生成模型做对比。但如果只看到一个视频模型,就看窄了。

而如果稍微对 Anuttacon 团队有些了解的人会知道,这并不是一个纯素人团队,这个团队的领军者,其实是米哈游的创始人蔡浩宇。

而 LPM 1.0 这个模型真正值得关注的,不是它本身做了什么,而是它暴露了蔡浩宇,正在搭建的那个更大的技术栈——一个可能替代传统游戏引擎的全新架构。

但在聊那个更大的东西之前,有必要先理解一下: 为什么这个模型叫「表演模型」,而不是「视频模型」?这个命名本身,就藏着一个关键的技术判断。

 

01

为什么叫「表演」,不叫「生成」

 

现有的视频生成模型,本质上是一个「给定输入,输出完整视频」的过程。你给它一段文字描述,它生成一段 5 秒或 10 秒的视频。这个过程更像拍电影——先有完整的剧本,再一次性渲染出画面。

但 LPM 1.0 做的事情不一样。它的核心场景是对话——一个角色坐在你对面,你说一句话,它在你说话的过程中就开始有反应了。不是等你说完,不是等系统处理完语义再输出一段动画,而是 在你的 input 还在进行的时候,角色就已经在倾听、点头、皱眉、微笑。

这就是「表演」这个词的真正含义。 表演的本质是反应,而反应的核心是实时性。

Anuttacon 首页展示的 lpm1.0 模型产出的场景|图片来源:Anuttacon

一个好演员在对手戏里,不会等对方把整段台词念完再开始「演」。他在听的过程中,眼神、呼吸、嘴角的细微变化就已经在传递信息了。LPM 1.0 要做的正是这件事——它不是一个「看完剧本再演」的系统,而是一个「在对话中即时反应」的系统。

论文里把这个能力叫做「full-duplex conversation」,全双工对话。模型同时支持「说」和「听」两种模式——当角色在说话的时候,会根据合成语音生成口型、表情和动作;当角色在听的时候,会根据用户的语音实时生成倾听反应,包括点头、眨眼、表情变化。两种模式可以自然地来回切换,就像真人对话一样。

这个选择背后代表的技术思路和通用视频生成模型完全不同。Sora、Seedance 这些模型追求的是画面质量和多样性——能生成多逼真的画面、多丰富的场景。 而 LPM 追求的是交互中的真实感——角色在持续的信息流中,能否给出即时的、连贯的、符合当下情境的反应。

说白了,前者是在做「电影」,后者是在做「活人」。

这也解释了为什么 LPM 1.0 要把实时推理能力看得那么重。论文里的「表演三难困境」之所以把实时性放在和表现力同等重要的位置,正是因为哪怕表情再精致,如果延迟了两秒才做出反应,那种「活着」的感觉就瞬间崩塌了。

 

02

被忽略的新信号

 

外界对 LPM 1.0 的讨论,基本集中在视频生成的技术细节上。但从公开信息推导,会发现一个被大多数人忽略的事实: 蔡浩宇在 Anuttacon 主抓的核心方向,其实是大语言模型,而不是视频生成。

线索并不少。Anuttacon 的招聘页面长期挂着预训练、后训练、Agent 等 LLM 相关岗位。团队核心成员吴箫剑曾参与 Meta 的 Llama 3.1 研究,在 Anuttacon 担任大模型研究团队负责人。今年 4 月,蔡浩宇还和刘伟、罗宇皓一起向上海交大捐赠,设立了一个名叫「AI 未来基石」的基金。

更直接的信号来自刘伟。

他在上海交大的一次公开活动中,罕见地解释了蔡浩宇创立 Anuttacon 的逻辑——米哈游作为六七千人的大公司存在组织惰性, 不利于从零开始做 AI 创新,所以几年前决定让蔡浩宇亲自下场,以小团队形态推进 AI 研发 。刘伟还透露了一个关键信息: 他们的目标是从基础预训练开始,开发一种「有情感的大语言模型」,不仅具备智能水平,还能理解人类的情感诉求。

Anuttacon 首页展示的 lpm1.0 模型产出的场景|图片来源:Anuttacon

把这个信息和 LPM 1.0 放在一起看,逻辑就清晰了。

LPM 1.0 论文里写得很明确:这个视频模型可以和 ChatGPT、豆包等音频对话模型即插即用地组合使用,它自己不做决策,只负责视觉呈现。

换句话说, LPM 是一个「表演层」,但它需要一个「大脑」来告诉角色该说什么、该怎么反应。这个大脑,就是大语言模型。

没有强大的基座语言模型,LPM 就是一个精致的空壳。

 

03

「语言模型 + 表演模型」= 下一代游戏引擎?

 

理解了这个架构,就能看到蔡浩宇真正在做的事情。

传统游戏引擎 Unity 和 Unreal 解决的核心问题是:如何高效地渲染 3D 世界、管理物理系统、处理玩家输入。游戏角色的行为完全由开发者预设——对话是写好的分支树,动作是做好的动画片段,表情是绑定的骨骼权重。

蔡浩宇想做的,是用 AI 替换掉这整套流程。

在他构想的架构里, 语言模型负责角色的「思考」——理解玩家说了什么、决定如何回应、维持人格一致性;表演模型负责角色的「表达」——把语言模型的决策转化为可见的视频画面,包括口型、表情、肢体动作和情绪变化。

这不是在现有引擎上加一个 AI 插件,而是用 AI,从底层重建角色的整个生成链路。

LPM 1.0 的论文里有一个概念叫「表演三难困境」(Performance Trilemma)—— 高表现力、实时推理和长时身份稳定,三者很难兼顾

团队的解法是先训练一个 17B 参数的 Base LPM 把表演空间学深,再蒸馏成低延迟的 Online LPM 用于实时交互。在推理阶段,还设计了 Generator + Refiner 的双层渲染管线,第一层快速输出轮廓,第二层精修细节,两层交替流水线式工作。

这些技术细节很重要,但更重要的是它们指向的方向: 让一个 AI 角色能像真人一样,在任意长的时间里持续、稳定、有表现力地「活着」。

 

 

《星之低语》游戏画面|图片来源:Anuttacon

 

Anuttacon 去年发布的 AI 游戏《星之低语》,已经是这个思路的早期验证——玩家通过语音和文字与 AI 角色 Stella 实时对话,没有预设的分支选项,角色的反应完全由 AI 生成。

而 LPM 1.0 要解决的, 是让这种交互不仅仅停留在文字和语音层面,而是让玩家真正「看到」一个在对面和你说话、倾听、做出反应的角色

论文的未来规划同样意味深长。

作者提出了三个演进方向:

时间维度上,做更长对话的记忆和人格持续性;

社会维度上,处理多人互动和轮流发言;

物理维度上,把角色行为锚定到场景和物体上。

论文最后还有一句很有野心的表述:未来这种分阶段的流水线,可能会走向统一的 actor model——一个统一决定角色怎么说、怎么演、怎么持续存在的系统

这不就是一个跨世代「引擎」该做的事吗?

 

04

蔡浩宇在为什么样的世界造引擎?

 

把时间线拉长来看,蔡浩宇的路径其实一直很清晰。

2021 年,米哈游投资脑机接口公司,与瑞金医院共建脑病实验室。同一年,米哈游投资了 MiniMax——如今的大模型六小龙之一。2023 年,蔡浩宇卸任米哈游董事长,奔赴海外。2024 年创立 Anuttacon,团队至今不到 40 人,但汇聚了前微软亚研院首席研究员童欣、参与过 Llama 3 研究的吴箫剑、前 B 站副总裁王宇阳、来自小鹏智算中心的基础设施负责人 Erik Li。

蔡浩宇大学专业就是人工智能方向。某种意义上, 他绕了一大圈——从 AI 到二次元游戏,再从游戏回到 AI——最终走回了自己的起点 。只不过这一次,他要用 AI 去重新定义那个让他成名的行业。

刘伟在今年的公开活动中说得很坦诚,蔡浩宇创办 Anuttacon 并非「分家」,而是米哈游面对组织惰性做出的主动选择。刘伟留守管理六七千人的米哈游本体,蔡浩宇带着小团队去做最前沿的技术攻坚。

米哈游等于拆出一个 founder,专门面向新世界造引擎。

这件事当然只是个开始。

LPM 1.0 目前还只是一篇论文,团队明确表示不会开源模型权重,也不提供 API 和在线 demo。从研究到产品还有很长的路。语言模型那边,Anuttacon 的基座模型也没有任何公开的 benchmark 可供参考。

但方向已经相当明确了。蔡浩宇赌的是: 未来的游戏角色不再是开发者用脚本和动画预设出来的提线木偶,而是由语言模型驱动思考、由表演模型实时渲染的「数字生命」。 而支撑这一切运转的底层系统,就是他要造的那个「新引擎」。

2010 年,还在上海交大读研的蔡浩宇和刘伟、罗宇皓一起,用 Adobe Flash 开发了一个 2.5D 游戏引擎叫 Misato。16 年后,蔡浩宇又在造引擎了。

只不过这次的引擎,跑的不是像素和多边形,而是语言、表演和情感——未来 AI 形象最需要的底层基础。

*头图来源: Anuttacon

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

  •  

居然有手机厂商坚持今年旗舰提质不提价

2026 年智能手机行业开场即迎来涨价潮。在 AI 算力需求拉动下,存储芯片价格大涨并传导至消费电子终端。Counterpoint 预测,3 月后中国市场新机均价将较去年同档机型上涨约 15%—25%。

现实正在快速应验这一预测,三星、荣耀、vivo、小米等品牌新一代旗舰涨价幅度在 1000 至 1600 元不等,成为行业应对成本的普遍策略。

在此背景下,4 月 21 日发布的 OPPO Find X9s Pro 坚持不涨价。其 12+512 版本起售价为 5299,16+512GB 主力版本售价为 5999 元 ,与上代 Find X9 Pro 同版本持平 。OPPO 首席产品官刘作虎坦言行业压力巨大,他在发布会上中表示:「这应该是今年行业里最后一款不涨价的旗舰新机」,同时也坦诚, 「以 Find X9s Pro 的升级幅度和行业压力,没办法做全年不涨价的承诺」 。那么现在或许是入手的最佳时机。

不涨价并不意味产品没有升级。Find X9s Pro 在影像、设计、屏幕、性能到体验实现巨大升级,例如搭载 Ultra 同款双两亿像素等重磅配置。在行业因成本而收缩创新时,OPPO 依然选择拒绝为稳定价格而降低核心体验。

实际上,在 2026 内存涨价压力极大的情况下, OPPO 依然在全产品线取得不错的结果。其 Find N6 折叠屏在涨价 1000 元的情况下,销量依然坚挺,成为第一季度最热销的折叠旗舰;此外,OPPO 的 IoT 生态业务也在快速扩张——据悉,OPPO 2025 年 IoT 业务实现营收的翻倍,此次随着 Find X9s Pro 的发布,OPPO 也进一步拓展 IoT 品类,包括 Enco Clip2 耳夹耳机、OPPO Pad Mini 等全新细分品类,完善个人智能场景矩阵。

软件层面,ColorOS 也被行业与 iOS、鸿蒙并列为全球三大操作系统。独立分析机构数据显示,其已连续三年成为用户选择 OPPO 的首要因素,中国品牌中连续三年位列第一。

刘作虎表示:「我们也希望 Find X9s Pro,能够继续成为更多用户的选择。」在行业普涨环境中,成为更多用户的选择,不仅因价格稳定,更因用同等价格提供了超越期待的升级体验。这意味着在压力下,OPPO 仍将创新与体验置于前列。

优秀的产品,本身就是穿越周期最好的船票。

*头图来源:OPPO

  •  

清华姚班到全球 3D AI 第一:胡渊鸣的 Meshy ARR 已超 4000 万美元

图片
当文字、图像、视频已经先后被生成式 AI 重写,3D 很可能就是下一站。

作者|Li Yuan

编辑|郑玄
 

2022 年,胡渊鸣已经站在一条足够耀眼、也足够挫败的创业曲线上。

往前看,他几乎是一条标准的技术天才路径:清华姚班、MIT 博士,研究计算机图形学与 AI,做出的 Taichi 编程语言后来在 GitHub 上收获了超过 2.7 万星标,在高性能计算和图形学开发者中积累了很高声量。对很多人来说,这样的履历已经足够证明能力;但创业很快把问题切换到了另一种更残酷的尺度:你当然可以把东西做出来,但市场未必会为它付钱。

博士毕业创办太极图形后,胡渊鸣和团队很快撞上了这道墙。最早,他们试着推动 Taichi 这类底层技术的商业化,后来又沿着自己更熟悉的图形学能力继续往前推,去做渲染器、做 3D 工具,不断寻找产品出口的过程。只是,18 个月里连续两次转型,方向换了,产品也做了,市场反馈却始终不够乐观。

图片

太极图形的早期商业化探索

2022 年,胡渊鸣团队的最新尝试是做了一款 3D 工具推给用户试,得到的反馈却相当直接:我不会为你们这个软件付费,但你把里面的 3D 模型拿出来卖,一个 5 块钱,我倒可能会买。这句话再次打翻了团队之前的所有努力:花了大量时间打磨的软件本身,并不是用户眼里的付费对象。

然而,从一个角度的否定,却成了另一个角度的转机。

那时,ChatGPT 已经让语言生成走到大众面前,Stable Diffusion 把图像生成快速拉开,Runway 也在推动视频生成变得可见。既然语言、图片、视频都在被重新生产,3D 资产会不会也开始进入同一个阶段?如果用户真正愿意掏钱买的是模型本身,而不是背后的软件,那么公司应该去做的,也许不是继续证明底层技术有多好,而是直接把「生成 3D 资产」这件事做成产品。

胡渊鸣后来回忆,那次决定快得几乎没有给人犹豫的时间:早上 10 点开会,下午 6 点,第一个版本就已经上线。

后来的故事证明,这次判断不只是对的,而且几乎决定了这家公司的命运。

胡渊鸣和团队后来做成的 Meshy,踩中的正是当时开始明显升温的 AI 生成 3D 模型赛道。Meshy 成为了这条赛道里最早下场、也最早把产品真正推向市场的公司之一。

更新到 2026 年,公司ARR 已经到达3亿元人民币,月度收入增速约为 30%。全球注册用户达到1000万。美国和欧洲国家的市场占有率大于 60%。

胡渊鸣赌对了。

而更重要的或许是,Meshy 跑出来的意义,正在证明 AI 生成 3D 这件事已经开始商业成立,并且正在加速。当文字、图像、视频已经先后被生成式 AI 重写,3D 很可能就是下一站。

01

从恐怖游戏开始的 PMF

 

Meshy 后来的增长曲线很容易让人误以为,这是一个一转向就迅速跑通的故事。但事实上,在 2022 年那个时间点上,事情曾经远没有那么清晰。

那次转向之后,Meshy 的第一个版本几乎是被「扔」上线的。这个速度当然意味着另一件事:它不可能成熟,甚至谈不上好用。

最早的时候,团队用的还是一套非常原始的技术路径,先生成前后左右四张图,再把这些图投射回 3D 结构里。结果就是,很多模型生成出来以后,前面一张脸,左右各一张,后面再来一张,成了货真价实的「四脸怪物」。

即便放在当时,用户的反馈也并不客气。有人直接说:你们这玩意儿生成出来以后,我还不如重做。

此前几次转型里,胡渊鸣和团队一直想卖的是自己最擅长的东西:底层技术、图形学能力和工具能力。这几乎是技术创业者最典型的早期毛病——太在意技术是否足够领先,太想把产品先做得漂亮、做得极致。

直到这一轮,他们才真正转向用户侧,也第一次把事情的顺序倒了过来:先快速做出一个能用的产品,再慢慢补齐技术成熟度。最初那个版本远远谈不上精致,甚至让胡渊鸣有点不好意思承认那是自己团队的作品。

但这个决策是对的。

新版本的 Meshy 很快找到了第一个 PMF,或许出乎很多人的意料,是恐怖游戏

图片

这听起来有些偶然,但背后的逻辑其实非常典型。恐怖游戏并不总是要求模型极度精细、结构极度规范,它首先需要的是一种能传递不适感、怪异感、惊悚感的视觉效果。从这个角度看,那些今天看来颇为粗糙、甚至带点失真的「四脸怪物」,在那个阶段反而意外贴近了一部分需求:它们不标准,但它们足够怪;它们不精致,但它们先能用。

这一步对 Meshy 非常重要,因为它说明了一个后来不断被验证的事实:AI 生成 3D 最早成立的方式,并不是一上来就取代专业建模师,也不是一开始就打进最高标准的生产流程,而是先在那些质量容错更高、效率价值更大的场景里找到第一批用户。

恐怖游戏只是第一步。再往后,团队很快发现,游戏行业里其实还有更大一层需求,同样不要求 AI 一上来就生成 AAA 级别、可以直接进最终成品的核心角色资产。

对很多开发者来说,AI 生成 3D 先有价值的地方,恰恰是那些数量大、重复多、制作重,但单个资产未必值得投入顶级人工成本的部分。比如游戏开发里的原型阶段,比游戏中如环境素材,比如路边的一块石头、一棵树、一个 NPC、一个小怪,或者先生成一个原型,再交给建模师继续往下做。

自此,Meshy 开始持续外扩。

02

有质感的增长

 

过去两年,生成式 AI 里不缺增长很快的产品,不过很多公司先靠热度和投放把规模做起来,再慢慢补商业化、补留存、补单位经济模型。

但有趣的是,Meshy 走出来的路径不太一样。

按照公司披露的数据,2025 年它的收入增长了 14 倍,2026 年,ARR 达到 4000 万美元,月复合增速长期保持在 20% 到 30% 之间,超过一半增长来自自然渠道,LTV/CAC 大于 4。

这种增长方式在当下的 AI 创业公司中很少见,不买量,不高举高打,比起靠热度和投放获得打不平的 ROI,这种增长更有质感。

某种意义上,这和胡渊鸣的创业路径高度相关。

前面几轮转型做下来,他已经很清楚:创业公司未必是靠最「满配」的技术方案赢,而更可能是靠一个更能进入现实、也更能侵蚀市场的产品切口赢。

它并不是一上来就追求「最强的 3D 生成」,而是先追求「最能进入工作流的 3D 生成」。最早那个版本当然粗糙,甚至有点荒诞,但它先被恐怖游戏接住,后来又一步步渗进独立游戏、环境素材、3D 打印、教育等更广的场景。它不是靠一次性把产品做到完美来打开市场,而是靠先在某些环节里把成本和效率打穿,再一点点往外侵蚀。

另一层差异,则来自胡渊鸣对增长本身的理解。

作为技术出身的创始人,他并不属于那种天然擅长传统营销的人。相比大开大合地买量、投放,他更相信另一种更「技术公司」的做法:通过研发本身去做市场,通过产品去建立信任,通过技术品牌去吸引用户和人才。

Meshy 增长的重要节点,来自 Meshy 第六代模型的发布。

Meshy 6 在几何结构和细节精度上进一步提升,生物角色生成更自然,肢体和表情表现也更逼真;与此同时,3D 模型生成时间与贴图过程也被大幅压缩至 1 分钟内。

这张网站流量图也能看出端倪。

图片

在 Meshy 6 发布之后,Meshy 的增长曲线会变得更陡峭。

某种程度上,赛道本身当然在变好——用户对 AI 生成 3D 的认知在提升,游戏、打印、XR、教育这些需求也在往外释放;但 Meshy 后来的增长并不只是吃到了一波行业顺风,而是通过技术能力的抬升,将更多原来那些「可以试试看」的场景,才会更快变成「可以反复用」「可以批量用」的场景。

03

文字、图像、视频、3D... 

AI 的下一站十分清晰

 

如果把过去两年生成式 AI 的演进放在一起看,一个方向其实已经越来越清晰:文字、图像、视频之后,3D 很可能就是下一站。

过去几年,AI 生成 3D 模型大致经历了三步:最早是多视角重建,先生成几个角度的图,再尽量拼回一个 3D 形体;再往后,进入了3D 原生生成阶段,模型开始直接在三维空间里生成桌子、椅子这类更完整的结构;而最近一轮更重要的进展,则是大家开始集中解决一个更现实的问题:怎么把 3D 生成做得更快、更省算力,真正推向可用。

胡渊鸣曾经提到,一个很关键的里程碑,是微软亚洲研究院团队做出的相关工作。它的核心思路并不复杂:一方面,借鉴 2D 图像生成里已经很成熟的 latent diffusion 路线,先把数据压缩到更小的空间里再做生成,大幅降低计算量;另一方面,不再对整个 3D 空间做「全量计算」,而是先找到真正有内容的那一小部分稀疏区域,只在那里面做生成。这样一来,3D 生成第一次在效率上被真正往前推了一大步。

这两年,AI 生成 3D 模型正在明显进阶:它不再只停留在生成一些要求较低的粗糙模型,而是开始进入更多需要更高质量模型的工作流的阶段。

这也是为什么,Meshy 所在的这条路,值得被放到更大的技术演进里看。

图片

前面几轮 AI 浪潮里,大家已经习惯了文字生成、图片生成、视频生成不断降低创作门槛;而 3D 的意义在于,它开始进一步降低「空间内容生产」的门槛。过去,3D 建模几乎天然属于专业技能,要依赖建模、美术、贴图、修改、导出等一整套流程;现在,这个过程第一次有机会被压缩成一种普通人也能调用的能力。

游戏会是最先被改写的场景之一。

因为游戏本来就是 3D 内容需求最稳定、也最庞大的行业之一。

过去很多独立游戏之所以停留在 2D,正是因为 3D 模型太贵;那么 AI 生成 3D 的出现,让更多原本进不去 3D 的开发者,第一次有机会进入 3D。

图片

不仅如此。

AI 生成 3D 模型,还可能解锁一些完全不同的原生 AI 游戏。

过去两年,这个方向已经出现了不少尝试。有人走「世界模型」路线,用实时视频生成去模拟一个可交互的空间;有人把 AI 对话单独抽出来,做成和 NPC 聊天的产品;有人把 AI 图片或 3D 模型生成接进游戏,做快速换装、UGC 或装备外观。

从高维的层面上,快速生成的 3D 资产,意味着所有游戏未来都能更快做出一整套可测试、可迭代、可组合的游戏对象和空间原型。

这是对游戏行业最根本——「让游戏更好玩」的赋能。AI 3D 生成之于游戏行业的真正想象力,可能并不在「让一个游戏看上去更像 AI 做的」,而在于让游戏团队就有机会更频繁地试错,更快地验证「这个机制到底成不成立」。

图片

Meshy 首款 AI 原生游戏《代号:黑箱》

除了游戏之外,3D 打印则代表另一种完全不同的增量。

消费级 3D 打印机这两年爆火。人们买 3D 打印机,就是为了获得属于自己的不同体验,而不是获得同质化的产品。但同时 3D 建模仍然是一个大部分人望之生畏的技能。

AI 生成 3D 恰好补上了这一层断裂:它让用户可以直接从一句描述、一张图片,走到一个可编辑、可打印的三维对象。

最近,3D 打印机厂商们,也都关注到了这个领域。

消费级 3D 打印龙头 Bambu Lab 已把 Meshy 6 集成进 MakerWorld / MakerLab 的图像转 3D 工作流里;更早些时候,Meshy 和 Formlabs 打通了 Form Now 打印服务,把 AI 生成模型直接接到专业级按需制造流程上。

图片

Meshy 在 MakerWorld 首页露出

这意味着 3D 打印第一次不只是少数极客和专业用户的玩法,而开始更接近普通家庭的个性化生产工具。礼物、头像、玩具、摆件,甚至未来可动的模型和结构件,这些需求以前不是不存在,而是长期没有足够低成本的生产方式。现在,供给方式开始变了。

图片

Meshy 创意工坊:一张宠物照片直接 3D 打印成实体挂件

这也是 AI 生成 3D 真正值得重视的地方:它不只是让一部分专业内容生产更高效,而是在把大量原本不会发生的 3D 生产,第一次变成值得发生的事。

如果沿着这条线继续往下看,Meshy 这样的公司在做的,其实已经不只是「一个更好用的 AI 工具」,而是在参与改写 3D 内容生产的门槛和分工。

它很可能会改写一件更大的事:谁可以开始做 3D,什么样的需求值得被做出来,3D 内容生产会从多专业、多高成本,变成多普及、多长尾。

从这个角度看,胡渊鸣押中的,也许不只是 Meshy 的一个产品方向,而是生成式 AI 继续往前走的一条很自然的路径:当文字、图像、视频都已经被重写,空间内容的生成,迟早会成为下一站。而 3D,正是那个最先浮出水面的答案。

*头图来源:Meshy
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
直播预告
 
图片
 

硅谷最新一代大模型,正在引爆一场关于技术奇点的全球讨论。AI 已不再只是工具——它开始「左脚踩右脚」的自进化循环。这场底层突破,将拉开头部与追赶者的指数级代差,也将彻底重构 AI 创业的底层逻辑。

今晚 20:00,极客公园视频号直播间,我们请来了创新工场联合首席执行官 / 管理合伙人汪华、Meshy 创始人兼 CEO 胡渊鸣,和极客公园创始人 & 总裁张鹏一起聊聊:大模型的技术奇点,真的来了吗?

 

 

图片
图片
图片
图片

 

  •  

华为余承东:新 M9 友商永远追不上;谷歌曝光智能体专项 AI 芯片;兵乓机器人击败人类顶级选手|极客早知道

图片

 

图片

传腾讯与阿里巴巴洽谈投资 DeepSeek 估值或超 200 亿美元

据报道,中国科技巨头腾讯控股与阿里巴巴集团正在洽谈投资人工智能初创公司 DeepSeek。此次融资是 DeepSeek 成立以来的首次外部融资,目前洽谈仍在进行中,估值目标已从最初的 100 亿美元上调至超过 200 亿美元(约合人民币 1365 亿元)。

图片

DeepSeek 由量化对冲基金幻方量化于 2023 年创立,以其低成本、开源的 AI 模型路线在行业内迅速崛起。与 MiniMax、智谱等已上市的同赛道公司不同,DeepSeek 至今未产生可观收入,其模型全部开源,聊天机器人也免费向用户开放。分析认为,腾讯与阿里的投资既能对冲自身 AI 研发的风险,也能为未来的深度技术合作打开直接通道。

受此消息影响,阿里巴巴美股盘前股价一度直线拉升,涨幅超过 2%。不过,截至目前,腾讯、阿里巴巴及 DeepSeek 三方均未对此事作出正式回应。(来源:CnBeta)

谷歌推出 TPU 8t / 8i,两款 AI 芯片分别面向训练和智能体推理

谷歌在北京时间昨日凌晨举行的 Google Cloud Next 大会上,正式发布第八代 TPU 芯片家族,首次将训练与推理能力拆分为 TPU 8t 与 TPU 8i 两款独立产品,直指英伟达在 AI 算力市场的霸主地位。

图片

在训练侧,TPU 8t 面向大规模、高强度计算任务,官方宣称在大规模训练场景下相对上一代 Ironwood 实现了高达 2.7 倍的单位美元性能提升。其 Pod 规模由 9216 颗芯片扩展至 9600 颗,FP4 总算力接近翻倍,单芯片横向扩展带宽则从 100Gbps 提升至 400Gbps。

TPU 8i 则面向推理与智能体(Agent)工作负载,每颗芯片配备 384MB SRAM,是 Ironwood 的三倍;在服务超大规模 MoE 前沿模型、低延迟目标下,单位美元推理性能较上一代提升约 80%,Pod 规模由 256 颗提升至 1152 颗。谷歌表示,两款芯片预计将在 2026 年晚些时候面向云客户全面开放。(来源:IT 之家)

图片

华为余承东再放豪言:两年前发布的问界 M9 让中国汽车产业家家都学习,新 M9 要让他们永远追不上

4 月 22 日消息,在今天的鸿蒙智行春季新品发布会,华为常务董事、产品投资评审委员会主任、终端 BG 董事长余承东带来了全新一代的问界 M9 的前瞻信息。

据介绍,全新一代问界 M9 提供标准尺寸及 Ultimate 领世加长版两款车型,预售价分别为 49.98 万元起、66.98 万元起。

图片

余承东还在发布会现场放出豪言:2 年前,第一次发布问界 M9 之后,整个中国汽车产业家家都在学习,他们在追赶 M9 的道路上。今天我们又发布全新一代的 M9,让他们永远追不上。

黄仁勋:英伟达生产昂贵 AI 硬件,但也生产全球成本最低 Token

英伟达 CEO 黄仁勋在 Cadence Live 2026 活动上再度抛出 Token 经济论,称尽管英伟达出货的 AI 硬件单价居高不下,但依靠全栈软硬件协同,公司正在输出「全球单位成本最低的 Token」。

图片

他强调,单纯靠硬件暴力计算并非高效路径,真正的护城河来自 CUDA 生态对软件栈、系统架构与应用场景的深度耦合。巨额硬件成本通过海量 Token 输出被摊薄,同时系统在 Token/瓦特能效比层面也被做到了行业最低水平。

黄仁勋还提出一套全新的 AI 总运营成本(TCO)衡量标准:核心指标不再是系统峰值吞吐量,而是生成单个 Token 所需的成本与功耗。他判断,下一个前沿赛道将是智能体 AI(Agentic AI),公司必须同时掌握顶层软件栈、中间系统与上层应用,才能在新一轮竞争中立住。(来源:IT 之家)

图片

苹果发布 iOS 26.4.2 / iPadOS 26.4.2:修补 FBI 用以提取 Signal 消息的通知残留漏洞

苹果在北京时间今日凌晨推送 iOS 26.4.2 与 iPadOS 26.4.2 更新,距离 iOS 26.4.1 的发布仅过去约两周,此次更新以安全修复为主。

据 MacRumors 报道,该版本修补了一处通知服务漏洞——本应被删除的通知实际仍以可读形式残留在设备本地数据库中,FBI 近期据称借助此漏洞从一部 iPhone 上提取了已卸载 Signal 应用的历史消息预览。苹果称已通过「改进的数据脱敏方式「解决该日志问题。

本次更新在 iPhone 11 及之后机型、第三代及之后 iPad Air、第五代及之后 iPad mini、2019 年之后 iPad 与 iPad Pro 上推送,用户可通过「设置 - 通用 - 软件更新」进行 OTA 升级。(来源:IT 之家)

谷歌发布 Gemini 3.1 Pro 深度研究智能体,可连接专有数据源生成专业图表

谷歌日前发布博文,宣布基于 Gemini 3.1 Pro 打造的新一代自主研究智能体 Deep Research 与 Deep Research Max 正式上线。前者面向交互式场景,平衡速度与效率;后者则面向尽职调查等异步后台工作流,主打全面性与高质量综合输出。

图片

核心能力上,两款智能体支持搜索网络、任意远程 MCP 服务器、文件上传与企业连接存储,可将智能体从「网络搜索器」升级为能导航金融、市场数据等专业数据库的自主代理。输出层面首次支持原生生成高质量图表与信息图。

新增功能还包括协作规划、扩展工具集与多模态研究基础的实时流式输出:用户可在执行前审查并优化智能体生成的研究计划,组合调用 Google 搜索、MCP、代码执行等工具。(来源:IT 之家)

DeepSeek V4 又在测试:被指接近 Opus 4.5 但不会太便宜

这个月还剩下一周左右时间,最大的期待就是 DeepSeek V4 了,从种种迹象来看是越来越近了,而且官方近期也是动作不断,现在被发现 API 也开始升级模型了,性能还不错。从 2 月 8 日宣布上线了一个测试版之后,DeepSeek V4 实际上一直都在低调变化,只是每次官方都没有详细介绍升级内容罢了。

前不久 DeepSeek V4 页面升级,有了快速、专家及视觉等三个模式可选,不过之前的升级主要是网页版,现在被发现 API 端的模型也在切换了。

只不过不确定这个模型具体的名字,分析下来是小参数量的那个 DeepSeek V4 Lite 可能性最大。

图片

当然,惊喜还是有的,Linux.do 社区有大佬提到了内测的信息,指出 DeepSeek 会有 2 个模型,可以调节思考挡位,支持 FP8,指令遵循较强。

更重要的是,这里提到其表现接近 Opus 4.5,只不过复杂任务比不上 GPT。

虽然 Anthrpoic 已经发了 Opus 4.6 及 4.7,但这两个大模型近期争议不断,降智、用量大增等问题直接引发了社区反弹,如果 DeepSeek V4 中较大的模型能达到 Opus 4.5 的水平,也绝对是开源大模型中的翘楚了,这个能力已经足够绝大多数开发者使用了,更何况还是国产开源的,限制比 A 家会少很多很多。

但是大家也要有个准备,DeepSeek V4 的性能上来了,成本也不可能跟之前那样了,参数量大的那个模型价格也不会便宜。

虽然这里没说具体价格,但是比 DeepSeek V3.X 的肯定涨不少,但应该也不会达到 Opus 的水平,整体的性价比还是会有的。(来源:快科技)

图片

联想发布 2026 款 ThinkPad X1 Carbon / X14 / X9 15p:X9 15p 18999 元起

联想于 4 月 22 日正式发布最新一代 ThinkPad X1 Carbon、X14 与 X9 15p 三款新品,统一搭载英特尔 Panther Lake 处理器,主打 AI 能力与轻薄设计。

其中 ThinkPad X1 Carbon 2026 采用航空级碳纤维材质,整机重量仅 969 克;ThinkPad X14 2026 定价 9499 元起、国补价 8074 元起,配备 2.8K 分辨率 30-120Hz VRR 可变刷新率屏、峰值亮度 1000 尼特,支持 Magic Bay 模块,机身厚度 15mm。

定位更高的 ThinkPad X9 15p 2026 定价 18999 元起、国补价 17499 元起,配备 15.3 英寸 2.8K 120Hz OLED 触控屏、88Wh 电池、6 扬声器、压感触控板与 1000 万像素 Big Eye 2.0 摄像头,整机重约 1.52kg。(来源:IT 之家)

北京移动面向个人用户推出「算力 Token 套餐」:按词元计费,最低 5.99 元起

中国移动北京公司推出面向个人用户的「算力 Token 套餐」,以词元(Token)计费、按需付费,推动 AI 算力从专业实验室走向大众用户。

图片

套餐层面,已拥有云电脑的用户可选购最低 5.99 元的算力次包,或 24.99 元、1000 万词元的算力月包;未购买云电脑的用户可直接选购内置智能体工具 OpenClaw(俗称「龙虾」)的云电脑融合套餐,开机即用,支持接入主流通用大语言模型。

截至目前,中国移动已在北京、湖北、河南等地陆续上线同类 Token 套餐,主打解决本地部署复杂、算力成本偏高以及数据安全担忧三大痛点。(来源:IT 之家)

三星第三款智能眼镜「Haean」现身 One UI 9 代码,有望未来数月发布

海外开发者在三星 One UI 9 系统代码中发现第三款智能眼镜产品的蛛丝马迹,该机代号「Haean」、型号「SM-O500」,属于轻量化 AI 眼镜而非沉浸式头显。

据披露,Haean 强调佩戴舒适度与多脸型适配,配备多枚摄像头与传感器支持动作追踪,预计搭载 1200 万像素摄像头与 155mAh 电池,将基于 Android XR 系统运行。

Haean 原计划随 Galaxy XR 头显于 2025 年一同亮相,但最终未能如期登场;此次在 One UI 9 代码中重新出现,被视为三星近期推出的明显信号。该机将与 Galaxy XR 共同构成三星 XR 产品线的「头显 + 眼镜」双线布局。(来源:IT 之家)

图片

乒乓球机器人 Ace 在东京击败顶级选手,创下体育机器人历史第一

一台名为「Ace」的全自动乒乓球机器人近日在东京与顶级人类选手对阵时,多次在正式比赛中取胜,被视为人工智能与机器人技术在体育领域达到新里程碑的标志性事件。

「Ace」由日本索尼公司旗下的人工智能研究部门开发,是首个在竞技性强、对速度和精度要求极高的实体体育项目中,达到专家级水准的机器人系统。项目负责人表示,Ace 依托高速视觉感知、人工智能控制算法以及先进的机器人硬件平台,在乒乓球比赛中能够做出极其快速且精准的技术选择和击球执行。

过去自 1983 年以来,出现过各种乒乓球机器人,但一直难以与高水平人类选手抗衡。Ace 的出现改变了这一局面:它已经在符合国际乒乓球联合会正式规则、由持证裁判执法的比赛中,对阵精英级和职业级选手,并在部分对决中获胜。项目负责人、索尼 AI 苏黎世负责人彼得·德尔表示,与早已在棋类和电子游戏中全面超越人类专家的「纯数字」AI 不同,桌面网球这类需要近距离高速对抗的实体运动,依然被视为 AI 和机器人领域的一大难题。

图片

与棋类或电子游戏中在虚拟环境里运算不同,乒乓球比赛要求系统一边做出瞬时决策,一边完成对高速飞行球体的精准击打,并持续适应对手难以预判的变化。乒乓球在强烈旋转和复杂弧线下高速飞行,将人类和机器人都推向感知、预测和运动控制能力的极限。为此,Ace 的架构集成了 9 个同步摄像头和 3 套视觉系统,以极高精度实时追踪高速旋转的乒乓球。德尔表示,这一系统的响应速度足以捕捉到在人眼看来几乎成「模糊」的细微运动变化。(来源:CnBeta)


 

*图片来源:视觉中国

图片
图片
图片

播客上新

4 月 17 日,群核科技正式敲钟上市,本期节目,我们邀请到了群核科技联合创始人兼董事长黄晓煌,作为一名从英伟达 CUDA 实验室走出来的顶级极客,在那个技术创业尚不被理解的年代,他带着一把「算力锤子」,在最传统的装修行业里硬生生砸出了今天的根据地。

在黄晓煌的创业逻辑里,有一个受英伟达深度影响的底层共识:先想这件事有没有社会价值,再去琢磨怎么赚钱。本期播客,极客公园创始人 & 总裁张鹏将与黄晓煌共同拆解群核的成长史,聊聊为什么对创业者来说,所有的胜利,最终都是世界观的胜利。欢迎收听~

🌟长按下方「卡片二维码」即可收听~欢迎关注我们的播客「开始连接LinkStart」(小宇宙 App),一起用科技、商业和人文的视角描摹这个时代。

图片
图片
图片

 

  •  

大模型已成「黑洞」,而逃逸速度是「光速」

昨晚和创新工场的汪华、Meshy 的胡渊鸣直播聊完「大模型奇点已至」,脑子里一直盘旋着一个宏大的景象:

AI 大模型是一个正在形成的黑洞。

而我们今天所有的创业者、所有的 Builder,都在这股引力的作用下,置身于黑洞周边的「吸积盘」上,以前所未有的速度高速旋转。在这个过程中,我们确实获得了巨大的能量,发出了极其绚烂的光芒——创造出更好的产品、交付前所未有的价值,这是我们今天兴奋感的来源。

如果从一个更长远的、更客观的视角来看,或许一个不可避免的宿命是:吸积盘上的绝大部分物质,最终都可能坠入这个黑洞。

这个「黑洞」的引力吞噬,来自于大模型已进入「左脚踩右脚」式的自我进化。这个阶段已然开始。汪华分享说硅谷一线 Researcher 比较共识的是,Scaling Law 远未结束,更多的数据,更大的算力和更庞大的基模,能力还在快速增长,甚至终将没有边界,比如有些 researcher 都已经在考虑再「赚两年钱」就该退休了,因为接下来探索边界和创造性地解决问题的事情,也已经不再需要他们这些人了,大模型可以做得更好。

模型这种无限自进化的能力形成的「黑洞」,显然会不断吞噬外围的物质。例如 Figma 的股价因 Claude Design 的出现而暴跌,纯应用层创业,生命周期可能只有 6 个月。汪华将 Claude Co-worker 形容为一个巨大的「特洛伊木马」,它绕过了企业防火墙,直接从 C 端个体吸取法律、医疗、HR 等各行各业的白领工作轨迹,把「整个人类的行为轨迹库和知识库」都变成了自己的燃料。我们一边付费使用,一边为它标注数据,加速它的成长。客观地推演,似乎没有什么会是 AI 不能干的。

坠入黑洞的最终时刻,取决于两个变量:你距离黑洞的「距离」,和你自身的「速度」。

距离上,越是靠近物理世界、越是缺乏清晰数据和明确可验证结果的领域,就越处于吸积盘的外圈。

速度上,这个时代的创业者也都不约而同地感受到了一种前所未有的迫切,要快,一定要快!这个速度一方面是 AI 带来的。AI 极大化了执行力,能让 idea 迅速成形,极大提速了产品开发和迭代的速度。另一方面,对抗黑洞的引力,唯一的生存法则是竭尽全力去接近「光速」,要快,足够地快。

虽然坠入这个「黑洞」可能是很多企业甚至行业最终的宿命,但比起人最终都会死的这种真相,似乎也没那么不能理解和不能接受。

核心在于时代给了我们这样一个可以在吸积盘上超高速运行的机会,无论终点是不是坠入事件视界,既然跑不掉,那就不浪费它。

毕竟这恰恰是行动派最好的时代。

技术发展再快,社会变革总有惯性,这中间的巨大鸿沟,就是「创造点什么」的机会所在。而且今天创业的启动成本史无前例地低,200 美金一个月的 Plan,可能就是你验证想法的全部启动资金。你不需要说服客户之外的任何人。

唯一的核心问题是速度,就像汪华说的,如今的创业节奏是原先的三到四倍,「attention is all you need」,几个月没跑出声量,没拿到收入,可能就会被下一波技术浪潮和更快的对手覆盖。你必须努力以接近」光速」的速度去迭代、去赢得声量、去增长、去获得用户,或者靠足够快地创造价值去赢得声量,再去 engage 更多的资源向前。如此才能在吸积盘上维持一个相对稳定的轨道,不至于迅速跌落。

就算人类最终会成为硅基生命的「引导盘」,个体依旧可以划出自己更完美的角色弧光。了解了终局,其实也可以让过程变得更有意义。

所以:

Do not go gentle into that good night!

感兴趣了解更多讨论的话,这场直播可以在极客公园视频号的直播回看中找到。

  •  

OPPO Find X9 Ultra 影像体验:方寸之间的哈苏与 10 倍「望远镜」

图片
「无论远近」里那个「远」字,今年被 OPPO 押到了极致。

作者|张勇毅

编辑|靖宇
 

去年体验 OPPO Find X8 Ultra 时,我在文章开头引过 OPPO 在 Find X6 Pro 时期提出的一句口号——「不分昼夜,无论远近」。当时的判断是:到 X8 Ultra,这八个字算是真的兑现了。

一年后,Find X9 Ultra 到手,我的第一反应是:这不就是去年的 X8 Ultra 吗?影像 Deco 的形状、那颗显眼的哈苏「H」、机身尺寸,几乎全都眼熟。

图片

OPPO Find X9 Ultra | 图片来源:极客公园

 

但按下第一张 10 倍长焦,我就明白了这块和去年几乎同样大小的机身里,OPPO 塞进了过去两年行业一度放弃过的东西。

如果你还有印象的话,去年 OPPO 给 Ultra 系列旗舰订的 slogan 是「不分昼夜,无论远近」。

「无论远近」里那个「远」字,今年被 OPPO 押到了极致。

先说外观这件事——除了机身的配色之外,Find X9 Ultra 整体的 ID 设计都非常像去年的 X8 Ultra,但除了家族化设计之外,这两台手机影像系统上的调性完全不同。

六边形的影像 Deco 稍微加了一点弧度,边缘被 CNC 雕刻出齿轮纹,底部有一圈细窄的橙色抛光金属环,算是不动声色的精致。我手里的这台是大地苔原配色,背板被素皮一分为二,哈苏的「H」标志从 Deco 里挪了出来,与 OPPO 的 Logo 一起纵置在侧边皮革上。如果你熟悉哈苏 X2D 100C 的大地探索家配色,大概会立刻心领神会——它几乎就是 X2D 那套皮肤的手机版。

图片

OPPO Find X9 Ultra | 图片来源:极客公园

 

其余配色也各有定位。极地冰川和绒砂峡谷走的是一体化路线,OPPO Logo 横置底部,整体更简洁现代。但真要说辨识度,还是大地苔原更有味道。

其他常规升级我不打算展开讲——骁龙 8 至尊版、7050 mAh 大电池、100W 闪充、2K 144Hz 屏幕、最低 1 nit 亮度。这些参数在今年的旗舰机上都属于「该有的都有」,没有太大惊喜。

真正的故事在影像 Deco 里面那四颗镜头身上。

OPPO 这次在影像方案上做了一个几乎算是赌博的决定:放弃了行业目前主流的「单颗大底长焦」方案,硬生生在寸土寸金的机身里塞进了两颗长焦——一颗 3× 原生大底,一颗 10× 内置潜望。

这个选择在纸面上并不讨巧。现在市面上的影像旗舰几乎清一色选择了 3× 或 5× 的单长焦,集中力气把一颗传感器做大。OPPO 偏偏反其道而行。

等我用完一周,才理解这套方案背后的逻辑。

01

长焦影像的三段式解法

 

原生 10× 光学长焦这个配置,说新也新,说旧也旧。

2020 年华为 P40 Pro+ 就做过 240mm 的内置潜望,之后三星也在 Galaxy S21 Ultra 到 S23 Ultra 连做了三代 10× 镜头。但这股风没刮多久就退潮了——原因很简单,当时的 10× 镜头传感器普遍卡在 1/3 英寸以下,一遇到暗光就露怯,画质涂抹、防抖拉胯都是常态。行业集体撤回到 3× 或 5× 中长焦换传感器面积,成了过去两年的共识。

图片

图片

图片

图片

图片

OPPO Find X9 Ultra 样张 | 图片来源:极客公园

 

直到 OPPO 这代。

它给出的解法是在物理空间里做文章:通过五反射潜望棱镜,让光线在机身内部折返五次,棱镜长度从传统设计的 41mm 压缩到 29mm,多出来的空间让给了传感器本身。再在棱镜里加入一层「空气光阑」,利用玻璃和空气的折射率差异去过滤杂光。

图片

OPPO Find X9 Ultra  | 图片来源:极客公园

 

拿在手里用过一周之后,我对这颗 10× 长焦的判断,其实比想象中复杂。

先说容易说的那一半——手持稳定性的要求比我用过的任何手机长焦都要高。230mm 的物理焦距会把任何一点细微的手抖同等级放大,所以日常用它拍照时,我养成了双脚站定、双手稳握的习惯,基本不会边走边拍。

图片

图片

OPPO Find X9 Ultra 样张 | 图片来源:极客公园

 

在我自己的实际体验中,我觉得有一点不容忽视:现阶段 10x,这颗镜头的 AI 算法处理的效果,明显比主摄和 3× 长焦都要明显。

这背后其实有一条被忽略的物理链路:光线在潜望棱镜里折返五次,每一次反射都意味着进光量的损失。到达传感器的光信号比理论值弱了一截,这一截的缺口最终由算法在后期补回来。

于是你能观察到一个有意思的现象——在文字、招牌、建筑纹理这类「细节高频」的场景里,这颗镜头的表现相当出色,放大到 100% 看,甚至让人怀疑物理焦距到底够不够用。但在光线柔和的场景下,比如暗光里的环境氛围,画面就容易出现一种「过于清楚」的算法感。喜不喜欢这种风格,更多是审美问题,而不是画质问题。

图片

OPPO Find X9 Ultra 10x 人像样张 | 图片来源:极客公园

 

但公平地讲,手机内置 10× 长焦本身就是一个从来没有人做出过满意答卷的领域。 OPPO 先把物理硬件推到了能进机身的极限,剩下的,留给了 AI 算法和时间。

如果 10× 是这代的「门面」,那 3× 这颗仍然是属于 Ultra 系列旗舰真正的「里子」。

它搭载了一颗 1/1.28 英寸的 2 亿像素传感器——放眼整个行业,这是目前 70mm~85mm 中长焦段里最大的一颗 CMOS。

大底的好处其实老生常谈:更充足的进光量、更快的快门速度、更浅的景深、更扎实的细节。但把这些写进规格表是一回事,按下快门后能不能感受到,又是另一回事。

我印象最深的一张样张,是用 3× 拍的风光照,开启哈苏超清模式后的 2 亿像素直出,放大到 100% 去看,建筑边缘的细纹都清晰可见。但整张照片没有那种常见的数码锐化感,柔和、自然,经得起裁切,裁完之后仍然是一张能用的好照片。

这颗镜头真正的隐藏价值在于裁切空间。 从 3× 一路裁到 6×,画质衰减几乎可以忽略。按 70mm 裁到 6× 大约是 140mm 焦段,这个区间在日常拍人像、拍建筑细节时极为常用。我发现自己用 6× 的频率比想象中高很多——不是因为它能替代 10×,而是因为它在更多常规场景里足够好用。

图片

图片

图片

OPPO Find X9 Ultra 样张 | 图片来源:极客公园

 

另外 OPPO 这次终于解决了 X9 Pro 上那个让我抱怨过的问题:按下 2 亿像素快门后必须等一段时间才能继续拍。新的处理管线把这件事挪到了后台——前端可以继续取景按快门,后台慢慢消化。这才是 2 亿像素该有的交互方式。

增距镜这件事,OPPO 这次也没缺席。

随 Find X9 Ultra 一起发布的是一支 300mm 增距镜,配了专用手柄和保护壳。它的挂载逻辑有点讨巧:避开了底子较小的 10× 长焦,直接挂在那颗 1/1.28 英寸大底的 3× 上,把 70mm 原生焦段一举推到 300mm。

图片

OPPO Find X9 Ultra 长焦增距模组 | 图片来源:极客公园

 

我用它拍了几组样张,画质扎实得没话说,焦外虚化也非常自然——大底 + 光学增距,物理规律就摆在那里。

但说句心里话,这颗 300mm 增距镜,是我在家里桌上放得最多、出门带得最少的一件配件。

傻大黑粗是它的真实体感。挂上去之后整个机器重心前倾,单手已经基本握不住。城市街头走着走着突然想拍一张,拿出手机按一下就行;但如果每次都要先从包里掏出增距镜、对准卡口拧上去、再构图、再按快门,很多拍摄瞬间早就溜走了。

这也是我反复琢磨后得出的判断——OPPO 这代的 10× 内置长焦,真正在补齐的不是「增距镜不够好」的画质,而是「我不愿意拿出增距镜」时那个被牺牲掉的拍摄瞬间。

图片

OPPO Find X9 Ultra 长焦增距镜 | 图片来源:极客公园

 

进,可以挂 300mm 增距镜冲击画质上限;退,机身里还有一颗原生 10× 兜底。你不需要每次都做「要不要带增距镜」的决策,因为不带它,机身也已经覆盖到 230mm。

这才是这套「双长焦 + 增距镜」三段式方案真正有意思的地方。它不是硬件堆料的展示,而是一套围绕用户「实际愿不愿意带、愿不愿意用」设计的组合拳。

图片

OPPO Find X9 Ultra 长焦增距模组 | 图片来源:极客公园

02

影像之外:视频、色彩与软件生态

 

除了静态拍摄,这代在视频规格上的升级也值得一提。

Find X9 Ultra 支持全新的 O-Log2 曲线,最高能录制 8K 30 帧 10-bit 的 Log 视频,还打通了 ACES 影视色彩系统。对我这种平时会拍一些 Log 素材再进达芬奇调色的用户来说,这套流程的意义在于「衔接顺畅」——不需要再为手机素材单独折腾色彩管理。

更有意思的是系统开放了自定义 3D LUT 导入,最多 20 个。你可以把自己调好的色彩预设提前装进相机,拍摄时实时预览成片风格,甚至直接把色彩烧录进素材里——这基本把 Log 调色的门槛拉到了日常用户也能玩的水平。

色彩方面,丹霞色彩还原镜头也升级到了第二代,内置 24 个光谱采样通道,并且这次把色彩还原能力从静态照片延伸到了视频场景。

ColorOS 16 的变化我不打算展开讲——整体感受是两件事:对通知做了降噪(锁屏岛的胶囊态 / 沉浸态分流),对生态做了打通(与 iPhone 的互传、跨设备素材流转到 OPPO Pad Mini)。这些更新都很实用,但不是这代 Find X9 Ultra 真正想讲的故事。

这台手机真正想讲的故事,其实还是长焦。

图片

OPPO Find X9 Ultra 样张 | 图片来源:极客公园

03

影像旗舰的分化,正在加速

 

写完样张分析,我翻出了去年体验 X8 Ultra 时写的那句话:

「作为一家手机厂商的尖刀产品,极度的均衡,有时候恰恰意味着平庸。」

X9 Ultra 显然是 OPPO 给这句话的回应。它不再追求均衡——甚至可以说,它主动放弃了「通用性最优」这条赛道。

从创作者的角度讲,这套方案在城市日常里确实多少有点「水土不服」。街拍、人像、建筑特写这些高频场景里,原生 8× 才是公认的甜点焦段——它既能压缩空间,又不至于离被摄物太远。OPPO 偏偏跳过了这个舒适区,直接把物理焦距推到了 10×。

这是 OPPO 用日常通用性的一部分,换来了对一个特殊场景的统治力——舞台。

更大的行业背景是:小米、vivo、OPPO 三家的影像旗舰,今年第一次走出了明显分化的路线。小米走大底通用,vivo 走参数化生产力,OPPO 走长焦特化。去年你还能说「这几家的超大杯差不多」,今年已经不行了。

换句话说,影像旗舰的同质化时代正在结束,每家开始被迫回答一个更根本的问题——我究竟想成为一台什么样的相机?

写完这篇稿子的时候,我又把 Find X9 Ultra 揣回了口袋。

去年体验 X8 Ultra 那篇我在结尾写过,它在「越来越多地替代掉我手上的相机」。一年之后,这句话要改一改——

它同时也在替代掉我肩上的「望远镜」。

*头图来源:极客公园
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
如果只能带一台手机去拍演唱会,
你会更信任内置的 10× 长焦,
还是外挂的增距镜?
图片
图片
图片
图片

 

  •  

600 亿美元!马斯克「锁定」Cursor

 

作者| 桦林舞王

编辑| 靖宇

 

Cursor 要卖了?!

美国时间 4 月 21 日,《纽约时报》发出了一条让科技圈炸锅的消息。

SpaceX 获得了在今年晚些时候, 以 600 亿美元收购 Cursor 的选择权。根据 SpaceX 在 X 上公布的消息,双方将在 GPU 算力上达成合作。

这不是传统意义上的收购公告,而是一种罕见的商业结构。

马斯克用算力换来了一张对 Cursor 的「优先认购权」,而且把退出成本定得极高——如果 SpaceX 最终选择不行权,则需向 Cursor 支付 100 亿美元,作为双方合作的补偿。

 

01

600 亿美元「认购权」

 

事情的起点,是一笔 GPU 交易。

xAI 旗下的 Colossus 超算系统拥有约 20 万张英伟达 GPU,正计划 将其中数万张提供给 Cursor,用于训练下一代自研模型 Composer 2.5

这是 AI 编程领域迄今规模最大的一次第三方算力合作 ,也是 xAI 并入 SpaceX 之后,首次尝试把算力变成对外出租的云服务。

 

 

SpaceX 发布的公告|图片来源:X

 

但这笔 GPU 交易背后,捆绑了那个更关键的条款:

收购选择权

这个结构的精明之处在于, 它在法律层面不是收购,不触发反垄断审查 ;在商业层面,却几乎让 Cursor 的独立路径变得极其昂贵。600 亿美元行权,或者放弃并付出 100 亿美元的代价——无论哪种结局,Cursor 都已经深度绑定在马斯克的棋盘上。

与此同时,Cursor 正在推进一轮至少 20 亿美元的新融资,估值超过 500 亿美元,a16z 和 Thrive Capital 预计联合领投,Nvidia 也将参与,这轮几乎已经超额认购。

一边是对外宣扬独立融资、估值飙升;另一边是悄悄把收购选择权交给了马斯克

两件事同时发生,很难说是巧合。

 

02

Cursor 遭遇「夹击」

 

要理解 Cursor 为什么愿意签下这份协议,需要回头看它正在经历什么。

过去一年,关于「Cursor 已死」的讨论从未停止。Cursor 的一位投资人向 Fortune 透露,他投资组合中已有多家初创公司正在从 Cursor 迁移出去;Fortune 在 2026 年 4-5 月刊的封面故事中直接写道, Cursor 面临「创新者困境」——它创造了 AI 编程这个赛道,却可能正被自己启蒙的市场所淘汰

竞争对手 Warp 的 CEO Zach Lloyd 一针见血:「我不相信『Cursor 已死』的梗,但『IDE 已死』是真的。软件就不是那样被构建的了。」

曾经的旧格局是「Cursor = IDE,Claude Code = 终端」,但这个说法在 2026 年 1 月就已经失效。

Claude Code 现在能在 VS Code、JetBrains、桌面应用和浏览器里跑,Cursor 也推出了 CLI 和 Agent 模式——两家已经全面入侵对方的领地。

 

 

Claude Code 和 Codex 的崛起,让 Cursor 的地位变得非常尴尬|图片来源:Medium

 

Claude Code 的崛起速度让整个行业都没预料到。到 2026 年初,Claude Code 年化营收已达 25 亿美元,企业客户超过 30 万,成为 Anthropic 估值体系中最闪耀的资产之一。

更让 Cursor 难堪的,是一次性质严重的「丑闻」。今年 1 月,Anthropic 发现 xAI 的工程师们正在通过 Cursor 调用 Claude 模型来加速内部开发。 Anthropic 随即封锁了 Cursor 对 Claude 模型的部分访问权限,理由是违反了商业条款中「不得用于训练竞争产品」的条款

xAI 联合创始人 Tony Wu 不得不在内部备忘录中写道:「我相信你们很多人已经发现,Anthropic 模型在 Cursor 上已经无法使用了。」

这件事的讽刺之处在于,被封的是 Cursor,但犯规的是 xAI——而受损最深的,是 Cursor 在开发者社区中精心维护的「中立平台」形象。科技评论人 Ed Zitron 当时直接写道:「这件事直接伤害了 Cursor——Anthropic 最大的 API 客户之一——同时也向所有人传递了一个信号: 任何与 Anthropic 存在竞争关系的客户,都面临同样的风险 。」

与此同时,Cursor 的定价问题也在持续发酵——改为按算力计费后,有开发者反映单月超出费用达到 1400 美元;3 月还爆出一个严重 Bug,会静默还原开发者已提交的代码修改,造成实际工程损失。

 

03

马斯克的「蚕食策略」

 

从 SpaceX/xAI 的角度看,这笔期权协议只是一个更完整布局的最新一步。

过去几个月,马斯克对 Cursor 的渗透是系统性的 :3 月挖走了 Cursor 两位核心产品工程负责人 Andrew Milich 和 Jason Ginsberg,两人直接向马斯克汇报;4 月签下 GPU 算力合作协议,顺带锁定收购选择权。他没有正面强攻,而是从人才、算力、资本三个维度同步推进。

xAI 内部数据显示, 其 GPU 系统的模型算力利用率(MFU)仅约 11%,而行业标准区间在 35% 到 45% 之间 。大量闲置算力亟需变现,而 Cursor 这样的明星客户,既能消化算力,又能带来战略价值。

有分析认为,这次合作标志着 xAI 从「单纯做模型」向「对外提供云算力服务」的战略转型,使其进入与亚马逊、微软、谷歌同台竞争云服务的轨道。

 

04

600 亿,终点还是起点?

 

支撑这个数字的,是 Cursor 真实的商业表现。公司预测到 2026 年底年化营收将超过 60 亿美元,意味着接下来十个月内还要再翻三倍。其自研模型 Composer 2 在编程基准测试上比上一代提升约 37%,且推理成本远低于同级别模型。

但 Cursor 自己也清楚,这条独立路走得越来越艰难。当 Anthropic 可以随时切断模型访问权、当 Claude Code 在 IDE 的腹地直接攻城略地、当 OpenAI 的 Codex 也在步步紧逼, 一个「中立的 AI 编程 IDE」的生存空间正在被系统性地压缩

600 亿美元的收购期权,从某种角度看更像是一份「体面的保险」。马斯克给了 Cursor 一个确定性的退出天花板,也让 Cursor 在不确定的独立赛道上多了一张底牌。

只是这张底牌,代价是把命运押在了另一个人手里。

AI 编程工具的 IDE 时代正在落幕。下一个时代属于谁,现在还没有答案——但马斯克已经提前买了一张入场券。

*头图来源: Cursor

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

 

  •  

Kimi K2.6 这次把 Agent 玩明白了吗?

 

头图来源:Kimi官网

 

 

当一个AI系统可以在无人工干预的情况下,独立完成一个复杂项目的完整交付,以及,当这些能力开始可以被复用、被沉淀为「技能」,AI在职场中的角色,是否已经发生了本质变化?

OpenClaw这波热潮带动了大模型竞争进入深水区,赛道的分水岭,从「谁更强」,转向了「谁能真正交付生产力」。自主Agent的落地能力、工程化适配水平以及长时稳定运行的可靠性,也正在成为新的核心评判标准。

但现实问题依然存在:即便头部模型持续迭代,大多数产品仍停留在「分步骤生成单一内容」的阶段。面对复杂的企业与职场任务,要么无法完成全流程闭环,需要人工反复拼接与修正;要么难以沉淀可复用经验,在规模化场景中始终无法落地,每一次执行都要从零开始。这种「碎片化、一次性」的能力形态,仍然难以支撑真实生产需求。

在这一背景下,月之暗面发布的开源基座模型Kimi K2.6,给出了一种更具针对性的解法。

Kimi K2.6 是当前全球开源权重(Open Weights)大模型综合能力 SOTA|图片来源:X

 

作为Kimi迄今最强开源底座,K2.6在代码能力与Agent运行可靠性上实现跃迁,更关键的是,在产品层将两项核心能力推向实用阶段:一是Agent集群单次运行即可完成多类型产物的端到端交付,二是将Office文档转化为可复用技能(document to skill),让经验得以沉淀与调用。

同时,在K2.5已引入的Agent集群基础上,K2.6进一步强化了规模化执行能力。新引入的Claw Group这一新形态,推动OpenClaw、Hermes Agent框架的自主Agent从单体执行走向「团队协作」。

这意味着,AI开始具备组织级的任务拆解与协同能力。某种程度上,这已经不再是一次常规的模型升级——当AI能够交付完整成果,并沉淀可复用能力,Agent赛道的竞争逻辑,也随之被重新改写。

一、场景实测:Kimi K2.6的核心能力,到底强在哪?

抛开概念,回到企业办公与开发的真实场景,Kimi K2.6的核心能力表现如何?

我们尝试聚焦两个关键问题展开验证:其一,AI能否在无人工干预的情况下,完成复杂任务的全流程交付;其二,AI能否将既有办公经验与模板规则转化为可复用能力,从而减少重复劳动。围绕这两个维度,我们设计了两组高频职场场景进行实测,以检验其实际落地价值。

场景一——Agent集群驱动的规模化多产物交付的测试指令为:围绕「2026 AI Agent行业发展」,一次性生成深度分析报告、数据统计Excel、商务汇报PPT以及可视化展示网站四类产物,要求全程无人工干预,且内容同源、结构规范。

视频来源:极客公园

这次实测运行了将近一小时,K2.6 在这次「无人工干预」测试中,表现出一种接近工程系统的成熟度,其中有三个环节尤为关键。

首先是Agent 集群的「组织化」协同,这是最核心的亮点。在回溯录屏中,可以清晰看到系统如何将一个宏大的宏观课题(2026 AI Agent 行业发展),自主拆解为 12 个维度的子任务,并同时拉起 12 个子 Agent(从市场规模、竞争格局到安全隐私等)进行并行的深度研究。随后,又在撰写阶段拉起 6 个 Agent 认领不同章节。这种类似「主架构师分配任务 + 基层研究员并行干活」的 Map-Reduce 逻辑,真正打破了单体模型长度和注意力的物理限制。

其次是内置的「交叉验证与冲突解决」机制,在 Phase 4 和 Phase 5 阶段,系统并没有直接将 12 个子 Agent 的检索结果暴力拼接,而是执行了明确的 12 维度文件交叉验证(如校验市场规模预估、CAGR 数据是否冲突)。这种引入「校验层」的设计,是提升长文本和深度报告事实准确性(Factuality)的决定性一步,大幅降低了 AI 产出「幻觉」的概率。

最后是端到端的同源多产物交付,从一份底层 Markdown 研究资料,原生分发为 3.7MB 的深度 Word 报告、包含多种图表类型的 Excel、16 页以上的 PPT,甚至是带有 React 动效的可视化 Web 站点。确保了「四类产物,同源同质」,彻底免去了人类员工在不同软件之间复制粘贴、重新排版的割裂感。

当工具开始展现出独立承接完整工程项目的能力时,数字世界的生产关系确实在被重塑。

尽管系统演示了完美的闭环,但这次测试同样暴露出一个关键问题。

长时任务依然存在黑盒风险与「节点把控」缺失,运转一小时意味着极高的「试错成本」。如果 Agent 在前 15 分钟的「方向理解」或「大纲设定」上出现了偏差,用户只能在等待一小时后面对一堆南辕北辙的精美废料。无需人工干预固然轻松,但真的不预留人工干预的环节,可能也会有其他问题。

在这个网站生成案例中,可以看到,从找客户、做调研,到内容生成、设计开发,再到网站上线与结果汇总,全部由 AI 一次性完成。除了通过 Agent 集群实现类似「包工头+分工团队」的并行协作,大规模任务也能有序推进;同时还具备「千店千面」的定制能力,不同行业对应不同视觉风格,而非模板化复制;并且对复杂指令的执行精度也很高,能够严格遵守约束条件并完成一站式交付(包括网站与配套 Excel 方案)。

而且这套系统的审美,已经可以达到一个比较成熟的「中级网页设计师」水平。如果放在实际商业场景里——尤其是电商落地页或品牌展示页——整体表现是合格甚至偏上的,风格统一、表达清晰,也基本符合当前主流审美规范。

具体来看,它最突出的能力在于对「风格与场景匹配」的把握。不同类型的页面,会自动切换对应的视觉语言,而不是简单套用统一模板。

比如在偏街头、复古的场景中,它会使用深色背景、高对比配色,以及更具冲击力的字体和动态元素,整体呈现出较强的个性与氛围感;而在花店这类偏柔和的场景中,画面则明显转向留白、更克制的配色,以及更具装饰性的字体,整体气质变得轻盈、安静;再到婚纱或礼服类页面,则进一步收敛为更低饱和度的色调和更纤细的排版风格,强化「精致感」和「品质感」。这种针对行业语境的风格切换,说明它已经具备一定的「审美判断」。

为了进一步测试k2.6的审美,我用k2.6制作了一个平潭旅行网站。当Kimi agent任务执行完毕时,我看到它给我的这个「岚岛纪」网站,有点被惊艳到。

可以看到, 在这个版本里,K2.6 已经从“全栈工程师”,进化为一个具备判断力的“美术指导(Art Director)”。

无论是大地色系的质感控制、非对称网格下的留白处理,还是对动效“克制感”的把握,都体现出“设计直觉”。

在设计层,K2.6 对色彩的切换不仅是审美选择,也是一种情绪表达策略:米色为基底,配合深色对比,既降低了视觉侵略性,又维持了足够的信息张力,这种处理方式更接近成熟品牌设计中的“松弛感”构建。

排版上,对非对称布局的运用同样关键。通过打破标准网格关系,让图文产生局部重叠与错位,本质上是在用代码复现“人工排版”的空间控制能力。模型不仅理解了 CSS 的布局逻辑,也在一定程度上理解了“为什么要这样排”。

在内容层面,难点不在于生成图片,而在于让图片“属于这个页面”。K2.6 对美食图像的处理,已经体现出明显的上下文意识:低饱和、自然光、留白构图,这些特征服务于整体版面的统一表达,而不是随机生成。也就是说,它开始把素材生成纳入设计系统的一部分。

工程层面的进化同样值得关注。面对修改需求,它能够定位到具体组件并进行针对性调整,这背后其实是对项目结构和依赖关系的理解。更重要的是它做出的选择——主动简化动效,从复杂的 WebGL 表现转向更轻量的过渡方式。这种“做减法”的能力,往往比“能实现复杂效果”更接近真实的设计与开发决策。

能够把抽象的审美描述,直接转译为可运行的前端结构与交互体验,K2.6 在网站设计上又前进了一大步。

之前我也用过其他 Agent 产品来生成网站,但出来的效果并不如人意,整体比较呆板、模板化,缺少真正「被设计过」的感觉。但这次 K2.6 生成的这个网站,不管是整体视觉风格还是交互节奏,都明显更顺滑、更有完成度,甚至在细节表达上也更接近一个「真实产品团队打磨过的成品」。

 

此外,Kimi 还开始内测 Claw 群聊,它本质上是把每个人养好的、有专业技能的龙虾 Agent 组成一个有分工、有管理、有协作流程的小团队,由 Coordinator 负责拆任务、派活、验收,让复杂任务可以像真实团队一样推进。

视频来源:极客公园

 

二、K2.6 击穿了 Agent的哪些原生痛点?

此前,行业内并非没有尝试多产物交付或文档技能化,但大多停留在能演示、落地难的阶段。问题不在于方向,而在于底层能力与架构无法支撑规模化应用。

K2.6之所以能够实现突破,本质上是针对Agent领域的几个原生缺陷,给出了更系统性的解法。

首先是多产物交付。

多产物交付|图片来源:Kimi官网

 

过去多产物交付难以成立,核心在于传统架构的「碎片化」。一方面,单Agent的承载能力有限,任务一旦变长或变复杂,就容易出现中断或执行失控,难以支撑多任务并行;另一方面,不同工具与不同内容形态之间缺乏统一调度机制,跨格式生成往往彼此割裂,既影响效率,也难以保证内容的一致性。

K2.6的关键变化,在于基于K2.5引入的Agent集群能力,进一步实现了规模化与精细化调度。通过多Agent并行分工,模型可以同时推进信息检索、深度分析、文档处理与多格式内容生成等环节,再通过任务拆解与重组,将各类产物统一到同一逻辑框架下完成输出。这种从「逐步生成」到「同步执行」的转变,本质上解决了长时运行与跨任务协同的结构性问题。

相比之下,document to skill的难点更为隐蔽。

办公文档本质上是非结构化数据,内容与格式高度耦合,模型既难以准确提取其中的有效规则,也难以还原模板中隐含的版式与逻辑,这使得企业经验长期停留在「存储」状态,而无法转化为「可调用能力」。

K2.6的突破,来自两类能力的叠加:一方面,借助更强的代码能力,对文档结构进行抽象与拆解,提取其内在逻辑;另一方面,通过视觉理解能力识别版式与格式细节,从而实现对模板的完整还原。在此基础上,文档不再只是参考材料,而可以被转化为可复用的Skill,参与后续任务执行。

但对于结构高度复杂或规则嵌套较深的定制化文档,解析准确率仍有波动,通用性与稳定性还有很多提升空间。

整体来看,K2.6的关键突破,在于首次将「复杂任务执行」「结果交付」与「经验沉淀」整合为一套相对完整的系统能力。这一变化,补齐了Agent从「可用」走向「好用」的关键环节。当然,这并不意味着问题已经被彻底解决,但至少为AI进入真实生产场景,提供了一种更接近可行路径的解法。

三、AI从工具走向生产系统的关键一步?

 

Kimi K2.6的发布,释放出一个行业信号:大模型与Agent的发展,正在迈过一个关键门槛——从通用工具,走向具备生产能力的系统形态。

这一变化可以从三个层面来看。在模型层,K2.6已不再局限于代码片段生成或简单推理,而是开始具备处理复杂工程任务的能力,代码理解与逻辑推演能力显著提升;在Agent层,能力边界从「单次对话、短时执行」扩展到「长时运行、持续任务处理」,稳定性与可靠性明显增强;而在产品层,最直观的变化则是从「生成内容」,走向「交付结果」,AI开始具备完成完整工作闭环的能力。

图片来源:AI生成

 

这些底层能力的叠加,最终在产品侧体现为两类更具决定性的变化:一是以Agent集群为代表的复杂任务交付能力,通过多智能体的协同调度,实现从任务拆解到执行再到结果输出的全流程覆盖;二是以document to skill为代表的经验复用能力,使原本分散在文档中的规则与经验,可以被结构化并持续调用。这两者叠加,使AI开始从「辅助工具」,转向能够独立完成任务的生产系统。

这些尝试还很早期。

不管是企业级数据安全、多系统对接能力,还是在极端复杂任务中的稳定性与容错率,以及更低成本的规模化部署能力,要想让成为AI真正意义上的产业级「操作系统」,这些都还有待进一步完善。

但趋势已经逐渐清晰:当AI从工具转向生产系统,数字世界的生产关系也会随之发生改变。人类在工作中的角色,将从具体执行逐步转向目标设定与结果把控;而AI行业的竞争,也将从模型层的能力比拼,转向系统能力与生态能力的综合博弈。

从这个角度看,K2.6所呈现的「任务执行—结果交付—能力沉淀」的能力组合,更像是AI生产基础设施的一个早期雏形。它还未成熟,但已经提供了一种演进方向:AI正在成为生产系统本身。

 

  •  

马斯克 600 亿美元锁定 Cursor;字节、荣威合作推出「AI 汽车」;传今年存储厂商人均奖金超 300 万元

600 亿美元!马斯克「锁定」Cursor

美国时间 4 月 21 日,《纽约时报》发出了一条让科技圈炸锅的消息。

Cursor 授予 SpaceX 权利,允许其在今年晚些时候以 600 亿美元收购 Cursor,或就双方合作支付 100 亿美元。

根据 SpaceX 在 X 上公布的消息,双方将在 GPU 算力上达成合作。xAI 旗下的 Colossus 超算系统拥有约 20 万张英伟达 GPU,正计划将其中数万张提供给 Cursor,用于训练下一代自研模型 Composer 2.5。

这是 AI 编程领域迄今规模最大的一次第三方算力合作,也是 xAI 并入 SpaceX 之后,首次尝试把算力变成对外出租的云服务。

这不是传统意义上的收购公告,而是一种罕见的商业结构。

马斯克用算力换来了一张对 Cursor 的「优先认购权」,而且把退出成本定得极高——如果 SpaceX 最终选择不行权,则需向 Cursor 支付 100 亿美元,作为双方合作的补偿。(来源:极客公园)

SpaceX 招股书披露:马斯克掌控投票权,资产 920 亿美元

4 月 21 日,据 SpaceX 招股说明书文件显示,截至 2025 年底,SpaceX 总资产为 920 亿美元,总负债为 508 亿美元。SpaceX 星链运营收入大幅增长,2025 年达到 44.2 亿美元,而 2024 年为 20 亿美元,2023 年为 4.69 亿美元。

SpaceX 计划在 IPO 后巩固创始人埃隆-马斯克的控制权,授予他和一小部分内部人士超级投票权,使其投票权超过其他投资者。

发行完成后,马斯克将继续担任首席执行官和首席技术官,并将担任 SpaceX 九人董事会主席。

虽然根据摘录,马斯克去年的薪酬为 54080 美元,但在公司首次登陆股市后,他将获得数十亿美元的股权。

SpaceX 的目标上市估值约为 1.75 万亿美元,融资额为 750 亿美元,这将使其成为历史上规模最大的首次公开募股。(来源:环球市场播报)

 

消息称贝索斯 AI 实验室「普罗米修斯」接近以 380 亿美元估值融资 100 亿美元

4 月 21 日消息,据《金融时报》稍早前报道,Amazon(亚马逊)创始人杰夫 · 贝索斯 (Jeff Bezos) 领导的工程物理 AI 实验室 Project Prometheus「普罗米修斯」即将以 380 亿美元的估值完成总额 100 亿美元的新一轮融资。

Project Prometheus 在去年 11 月筹集了 62 亿美元的启动资金,而新一轮融资将使其成为资金储备最为雄厚的早期初创企业之一。知情人士透露,摩根大通和贝莱德等投资者参与了此轮融资,交易预计很快完成,但条款尚未最终敲定。

除这部分融资外,Project Prometheus 还在为设立一家控股公司进行融资谈判,计划以数百亿美元收购 AI 可颠覆其运营模式的制造业企业。(来源:IT 之家)

Seedance 2.0 API 上线 1080P 生成能力

4 月 21 日,火山引擎宣布,Seedance 2.0 API 服务现已支持 1080P 全高清视频生成。

据介绍,该能力为模型原生能力,可直接在 1080P 分辨率下完成画面构建,在更高清晰度下,画面细节密度与光影层次显著提升。

原生 1080P 意味着生成内容可以直接进入下游链路,不再依赖超分处理。

据了解,在真人剧与漫改等影视场景中,人物五官、皮肤质感、骨相轮廓以及道具的材质细节都能得到更精致的还原;在广告与电商营销场景中,商品的色泽、清晰度与质感表达更加到位;在游戏、文旅、品牌营销等更多创意场景中,内容也能更高效地从「生成」走向「可交付」。(来源:新浪科技)

 

小米宣布上线 PC 版龙虾,Xiaomi miclaw 正式开启 PC、Mac、有屏音箱多终端封测

4 月 21 日,小米宣布上线 PC、Mac 和有屏音箱版 Xiaomi miclaw,并开启小范围封测。据了解,Xiaomi miclaw 是基于小米 MiMo 大模型构建的 AI 交互测试产品,也是国内首款手机端 AI 智能体应用,于 3 月 6 日上线并开启小范围封测。(来源:36 氪)

 

腾讯云开源 OpenAI、Manus 同款 Agent 底座

4 月 21 日,腾讯云宣布正式开源 Cube Sandbox。这是一套面向 AI Agent 的执行环境底座,也是业内首个兼顾硬件级隔离与亚百毫秒启动的开源沙箱服务。据介绍,Cube Sandbox 对 E2B 接口的兼容是 Drop-in 级别的——无论基于 Manus 技术栈、OpenAI Agents SDK,还是其他 E2B 生态框架构建的 Agent 应用,都可以在不修改业务代码的前提下,直接指向 Cube 完成运行。(来源:36 氪)

 

「自变量机器人」完成近 20 亿元 B 轮融资

据了解,「自变量机器人」已经于三月底至四月初完成近 20 亿元 B 轮融资,领投方为小米战投和红杉中国。不久前,美团、阿里和字节分别在 A 轮、A+轮、A++轮领投或独投自变量机器人。截至目前,自变量已成为国内唯一一家同时被四家互联网大厂投资的具身智能企业。(来源:36 氪)

 

长安将对阿维塔和深蓝战略整合

4 月 21 日,长安汽车董事长朱华荣表示,将对阿维塔和深蓝两个品牌进行战略性整合。

朱华荣表示,初期阿维塔和深蓝的独立运营很有必要,快速构建起了两个品牌。但是发展到今天,要快速的实现盈利性,已经有很多资源可以共享,要把阿维塔和深蓝进行战略性的整合和协同,预计到 2030 年大概能形成 150 万台的中高端品牌规模。

两大品牌整合之后,资源将进一步整合,效率也将进一步提升,项目体系能力包括技术资源、供应链等将得到加强,公用的资源预计将降低 20% 甚至 30%。他同时强调,整合的过程中,战略不变、品牌不变、用户权益不变。

朱华荣指出,这个调整现在还是一个初步的构想和规划,方案还在完善当中,会根据相关方利益不断优化方案,有计划的进行推进。这个过程中,也会按照上市公司的要求,符合相关的监管和信息的披露,依法合规的推进。(来源:新浪科技)

影石 Insta360 展示 Luna Ultra 双摄云台相机:1 英寸大底 +6 倍无损变焦

4 月 21 日消息,科技媒体 Notebook Check 发布博文,报道称在拉斯维加斯召开的 NAB 2026 活动中,影石 Insta360 预告展示了 Luna 系列手持云台相机,会后部分主播解锁分享了上手体验。

该系列由影石 Insta360 和徕卡(Leica)联合设计,涵盖 Luna Pro 和 Luna Ultra 两款机型,配备 1 英寸大尺寸传感器、F1.8 大光圈、可变焦距,并支持 10-bit 色彩。其中 Luna Pro 采用单镜头设计,而 Luna Ultra 则采用双镜头设计,并拥有更强的远摄性能。

双镜头支持 4K 240fps 视频录制,具备 10-bit 色深与 HDR Dolby Vision 功能,并集成 Deep Track 3.0 智能追踪技术。(来源:IT 之家)

 

荣威联合火山引擎发布全球首个 AI 原生汽车序列「家越」

4 月 21 日消息,在 2026 北京车展开幕前夕,荣威于品牌之夜上正式发布了与火山引擎深度合作的战略成果——全球首个 AI 原生汽车序列「家越」,并携家越 07、家越 06、家越 09 三款概念车联袂亮相。

此次荣威与火山引擎的合作实现全面升级,双方采用更前置、更深度、更一体化的合作模式,聚焦 AI 原生汽车的技术攻坚与创新突破。合作涵盖联合定义交互体验、联合开发 AI 平台,并在 AI 原生技术架构、智能座舱、车云一体化等领域展开深度联合开发,共同构建技术底座。

荣威全球首个 AI 原生汽车序列定名「家越」,荣威携家越 07、家越 06、家越 09 三款概念车登场,针对 AI 时代多样化的家庭用车需求,量身定制差异化出行解决方案。(来源:IT 之家)

 

OPPO 影像旗舰 Find X9s Pro/X9 Ultra 上市,顶配都涨价了

2026 年 4 月 21 日,OPPO 推出两款 Find 系列影像旗舰手机——OPPO Find X9s Pro 和 OPPO Find X9 Ultra。

另外,OPPO 还推出两款新平板 OPPO Pad 5 Pro、OPPO Pad Mini,以及时尚单品智能手表 OPPO Watch X3 Mini、耳机 OPPO Enco Clip2。

Find X9s Pro 主打「哈苏双 2 亿」,是 Pro 档唯一配备 2 亿主摄+2 亿长焦组合的旗舰手机。Find X9 Ultra 则主打「专业口袋哈苏」,搭载哈苏全大底五摄光学系统,支持 20 倍光学品质变焦。

价格方面,OPPO Find X9s Pro 起售价 5299 元,共分四个版本,其中主力版本 16+512GB 的价格是 5999 元,相比 Find X9 Pro,12GB+256GB、12GB+512GB、16GB+512GB 版本均未涨价,只有最高配的 16GB+1TB 版本价格 6999 元,上涨 300 元。

OPPO Find X9 Ultra 起售价 7499 元,相比 Find X8 Ultra 起售价直接上涨 1000 元。目前,两款新机 Find X9s Pro 和 Find X9 Ultra 均已开启全渠道预定,4 月 24 日 10:00 正式开售。(来源:智东西)

存储芯片暴利时代:SK 海力士 10% 利润发员工,今年人均或超 300 万元

4 月 21 日消息,据 Korea JoongAng Daily 报道,人工智能芯片超级周期为韩国两大存储芯片制造商带来了巨额利润,SK 海力士员工今年人均奖金或将达到约 7 亿韩元(约合 325.9 万元),明年更是有望接近 13 亿韩元(约合 605.1 万元)。与此同时,三星电子工会拒绝了管理层的薪酬方案,威胁将于 5 月 21 日至 6 月 7 日举行总罢工。

SK 海力士已于去年 9 月取消原有的奖金上限,承诺将年度营业利润的 10% 直接作为绩效奖金发放给员工。分析师预计,该公司 2026 年营业利润约为 250 万亿韩元(约合 1.16 万亿元),据此计算,25 万亿韩元的奖金池将由约 3.5 万名员工分享。据悉,公司今年 2 月已向员工发放人均约 1.4 亿韩元(约合 65.2 万元)的利润分红。

三星的情况则没有这么乐观,围绕利润分配比例的争议持续发酵。工会要求将营业利润的 15% 用于员工分红,市场分析师预计三星今年营业利润约为 298 万亿韩元(约合 1.39 万亿元)。若按此比例,仅半导体部门 7.7 万名员工,人均即可获得约 5.8 亿韩元(约合 270 万元)奖金。(来源:IT 之家)

 

  •  

卖出 6.1 亿片手机膜后,他们走上了一条最「重」的研发路

有一组非常有意思的数据:

2023 年国内手机膜的市场规模是 280 亿元,到了手机出货量依然没有明显回暖的 2024 年,这个数字反而涨到了 300 亿元,同比增幅超过 7%。不少行业预测认为,这个市场有望冲击 400 亿元的大关。

而根据中国信通院发布的报告,2025 年 12 月国内市场手机出货量 2447.3 万部,同比下降 29.1%,消费者的换机周期已经被拉长到了三年甚至更久。

手机的销量持续走低,手机膜的市场却在逐年上涨。

这个悖论背后,是一场消费预算的重新分配——换一台新手机的成本越来越高,但换一张不到 100 元的新手机膜,却能立刻找回「新机开箱」的干爽顺滑。

也就是说, 比起「换一台好手机」,大家现在更愿意为「用好这台手机」付钱

面对这种「买膜不买机」的消费心理转变,手机膜厂商是如何满足大众爽感的呢?

作为累计售出超过 6.1 亿片、常年占据行业销量榜首的闪魔,在这种时候并没有选择在舒适区里微调参数或打价格战,而是做出一个从商业角度看相当「吃力不讨好」的决定: 走上了一条极「重」的研发路径,对自己发起了一场「革命」

 

01

当我们不再为 10 块钱的手机膜买单

 

长期以来,给手机贴膜是一件充满了妥协的事情。

人们要么忍受屏幕边缘喇手的白边,要么忍受廉价膜带来的严重反光和生涩手感。追求极致手感的人选择成为「裸机党」,代价是时刻小心提防手滑摔机碎屏,且稍微出汗,屏幕就成了指纹收集器。

而手机膜厂商的「标准解法」是:优先满足防刮防摔,再尽可能把膜做薄,试图「还原」裸机手感,搭配 10 块钱的超低价就能坐等钱来。

当然近年来有不少手机膜厂商开始卷性能,钢化膜、高清膜、防窥膜、防蓝光膜等不同功效的手机膜层出不穷,定价几十到上百,但实际好不好用就是另外一件事了。

 

 

也有人会问:一张膜 10 块钱就能买到,为了所谓的手感花 100 元,值吗?

从经济账来看,中国手机用户平均一年购买 1-3 次手机膜。以主流价 19.9 元估算,两年在低端膜上的总花费约为 40-120 元。这花费其实跟一张高端膜的价格差不多,而 一张质量好的高端膜使用年限可达 2-3 年,反而更省钱

但经济账只是基础。

实际上用户正在主动花钱寻找「更好的膜」。

据 IDC 中国 2025 年 Q2 消费电子配件追踪数据显示,具备两种及以上复合功能的钢化膜产品在 2024 年销量占比已达 37.4%,较 2022 年增长近 15 个百分点。奥维云网(AVC)2024 年终端零售监测数据显示,单价在 80 元以上的高端膜在一线城市商务人群中的复购率达 41.2%。高端手机膜以 年均 15% 以上的增速扩张 ,成为行业新的增长极。

 

 

数据来源:行业研究报告

 

这些数据揭示了一个被长期忽视的事实: 用户并非不愿为更好的体验付费,而是市场上缺乏真正值得付费的产品

「能用就行」是大多数手机膜厂商的生存法则,厂商们普遍认为与其投入巨资研发 AR 镀膜、圆偏振光等高端技术,不如把成本压到最低,靠走量取胜。

但闪魔的研发团队发出了一个「反行业共识」的疑问:用户既想保护原屏,又愿意花钱追求更好的体验,为什么不干脆做一张超越原屏体验的高端手机膜?

这就是闪魔新品——超感膜的研发初衷。

不再是单纯地「还原」裸机,而是试图做到「超越原屏」。

 

 

「超越原屏」听起来像是一句营销话术,但如果我们观察日常使用场景,就会发现原厂屏幕确实存在很多体验盲区。

比如,现在的旗舰机屏幕亮度动辄几千尼特,但在户外的强光下,屏幕玻璃本身的反光依然会让人看不清导航;再比如,手机原厂的疏油层大多在几个月的高频滑动后就会磨损脱落,打游戏时那种干涩断触的感觉非常明显。

为了解决这些原屏厂商和手机膜厂商都搞不定的问题,闪魔在新品超感膜上引入了一套「屏幕感官工程学」—— 基于千万级用户画像,围绕用眼、握持与操控习惯建立需求模型,再通过技术手段重塑人和屏幕的交互

 

02

闪魔超感膜——不想妥协的「超越原屏体验」

 

为什么闪魔把这套技术改革叫做「工程学」?体现在闪魔把原本用于高端手机屏幕甚至半导体领域的技术,直接下放到了手机膜上。它覆盖了至少 10 项涉及观感、手感、质感的具体工艺技术。以下四个维度最能体现其核心价值:

 

视觉:把旗舰机的光学工艺,用在了一张膜上

 

市面上的普通钢化膜反光率通常在 5.8% 左右,苹果原屏的反射率大约是 2%。在强光和戴墨镜的情况下,仍会存在反光、黑屏、彩虹纹等情况。

闪魔采用了苹果同款的磁控溅射技术,在真空环境下,将光学材料通过等离子溅射像打靶一样一层层「焊」在玻璃上,镀上了 7 层 AR-Coating 光学镀膜。这一套复杂的 AR 工艺做下来,最终把超感膜的反射率压到了 0.7% 以下,透光率达到 96%。也就是说, 在强光下超感膜能比手机原屏和普通钢化膜都更清晰、更通透

值得一提的是,磁控溅射技术此前主要应用于高端光学镜头和半导体制造,闪魔将其引入手机膜行业,意味着配件厂商开始用「旗舰机」的工艺标准来做一张膜。

超感膜还加入了圆偏振光技术,将手机屏幕发出的光线转变为更接近自然光的形态。 因此,超感膜能减少对眼睛的刺激,用户长时间看屏幕也不容易累眼 ——这项技术此前只在少数高端手机上出现,如今被用在一张膜上。

 

 

 

手感:长效丝滑,超越原屏的消耗品属性

 

很多膜刚贴上很滑,打几天游戏或者用上几个月,表面的疏油层磨没了,滑动起来就会变得很干涩,像在搓玻璃。

为解决这个问题,超感膜采用了进口信越 AF 疏油层,配合专研的 Silktech 技术,让水滴和油脂在屏幕上无法停留,真正做到不沾指纹、油污。更关键的是,他们在疏油层之上又叠加了防护层,更耐磨耐用,不易产生划痕。在 SGS 的实验室里,这张膜抗住了 2 万次以上的耐摩擦测试。

即便用户每天高频打游戏、刷短视频,几个月后屏幕依然能保持顺滑不卡手。 这种长效的丝滑度和耐磨度,是原厂屏幕的消耗型涂层很难做到的

 

 

 

形态:让膜「消失」,成为裸机党的福音

 

市面上的手机膜厚度在 0.2-0.4mm 不等,边缘的弧角多为 90°,导致膜覆盖不全屏幕,割手不说还藏灰。而超感膜的厚度控制在 0.16mm,边缘采用 3D 热弯技术。更细致的是,闪魔还针对直屏用户做了「仿生弧面」设计——基于千万量级的指腹生理曲率计算,打造 145°的极致贴合曲面,配合 0.9mm 的超窄黑边,真正做到了无缝贴合、全屏覆盖、隐形无感。 超感膜,可以说是裸机党福音甚至必备

 

 

 

防护:不因追求手感而牺牲本分

 

超感膜内部加上了类汽车玻璃夹层结构的纳米缓冲层,60 厘米高度掉个铁球砸上去也能护住屏幕,而 145°的大圆角也让碎裂风险大幅降低。

就连贴膜这个动作,闪魔也做了重新设计,只需将手机放置模具中,拉一下 30 度的斜角滚轮,就能实现完美贴膜,成功率高达 99%。 手残党也能一次贴好

 

 

诚然,目前的闪魔依旧面临不少挑战——

比如怎么让更多的用户走出「19.9 元能用就行」的消费惯性?

这或许需要更多的时间和市场教育。

但至少现在 89 元的超感膜先给了用户一个足够有说服力的感官体验选择 。

 

03

结语

 

回顾闪魔在超感膜上的这套打法,我们会发现这确实是一场品牌的自我革新。

在习惯了赚快钱的手机膜市场里,耗费巨资去搞磁控溅射、去死磕不到百分之一的反射率、去研究偏振光对眼睛的刺激、去解决戴太阳镜看导航这种极度细微的场景痛点,显得非常「反常识」。

这些在微小细节上死磕的「重」研发,最终的目的只有一个—— 一切为了用户的最佳体验

无需繁复的概念和话术,产品在被使用的那一刻自己会说话。

闪魔的超感膜,或许不会立刻改变行业格局。但它证明了一件事:在极度成熟的品类里,依然有用户愿意为「更好的体验」买单。

当行业陷入参数内卷、价格血战时,回归人的感官本能——让每一次滑动更愉悦、每一次注视更清晰——也许才是真正的破局点。这不仅是手机膜的进化样本,也是所有成熟配件赛道值得思考的方向。

*头图来源:闪魔

  •