普通视图

Received today — 2026年4月26日

钛媒体
实测混元Hy3 preview：腾讯AI，终于能打了？ 2026年4月26日 15:08

钛媒体

实测混元Hy3 preview：腾讯AI，终于能打了？

作者AIX财经

2026年4月26日 15:08

（本文作者为 AIX财经，钛媒体经授权发布）

文 | AIX财经，作者 | 雷晶，编辑 | 金玙璠

AI圈近期动作频频，腾讯混元Hy3 preview也正式亮相。

4月23日，腾讯混元正式发布并开源了新一代语言模型Hy3 preview。据官网介绍，该模型采用快慢思考融合的混合专家架构，总参数295B、激活参数21B，最大支持256K上下文长度。这是被官方称为混元迄今最智能的模型。

三个月前，姚顺雨带着ReAct框架和OpenAI的实战经验加入腾讯，主导完成了预训练和强化学习基础设施的重构。Hy3 preview是重建后的首份答卷。官方表示，该模型在复杂推理、指令遵循、上下文学习、代码生成及智能体等能力均实现大幅提升。

从官方披露的数据和评测结果来看，Hy3 preview在多项基础测试中展现出亮眼的实力，虽然未必在所有维度都达到行业顶尖水准，但足以满足多数场景下的实用需求。

在实际运行效率和稳定性方面，Hy3 preview也有所突破。官方数据显示，这款模型的首Token延迟降低54%，端到端时长降低47%，大幅提升了响应速度。同时，任务成功率也有所提升，已能稳定驱动复杂的Agent工作流，覆盖文档处理、数据分析等多种业务场景。

此外，它的推理成本也有所下降。在腾讯云API输入低至1.2元/百万Tokens，个人套餐最低28元/月，在同尺寸模型中属于最低价梯队。目前，Hy3 preview已在腾讯云、元宝、WorkBuddy等腾讯核心产品中上线。

接下来，我们将根据官方提到的四个方向，实测混元大模型在实际应用中的表现。

推理能力：复杂逻辑能拆解，陷阱识别仍需加强

我们首先测试了模型的推理能力。逻辑推理题是网友最喜欢拿来测模型“智商”的类型之一。在这一环节中，我们先用经典的“洗车问题”在元宝内进行测试。

在这个经典陷阱题中，Hy3 preview起初并未答对。它给出了条理清晰的推理来建议步行，而忽视了重点在于“洗车”。在再次提醒需要洗车后，它才给出正确答案。

需要注意的是，在其他网友的实测中，Hy3 preview出现过能直接答对的情况，说明它的陷阱识别能力稳定性不足。

我们再来试一道脑筋急转弯题。在这个问题中，需要理解现实逻辑，碎了、煎了、吃了的是同一批鸡蛋。但Hy3 preview没有意识到这一点，它认为煎了的鸡蛋依然存在，可以吃掉。

随后，我们加大难度，用一道推导过程更为复杂的逻辑题来考验它。这道题的难点在于没有直接的定位信息，需要靠隐性条件来做排除，容易遗漏关键信息。

在这一场景中，Hy3 preview给出了正确答案。它先逐条拆解线索、提炼人物与职业的互斥关系，再通过排除法锁定身份。接着，它依次确定部分岗位的归属，再结合规则逐步补全。

综合来看，Hy3 preview常规理性逻辑推演能力较强，但逆向思维、陷阱识别与生活场景变通思考能力仍有不足。面对陷阱类脑筋急转弯时，容易局限于字面常规逻辑，忽略题目陷阱与现实场景，反应欠佳。但在面对条件隐蔽、推导繁琐的复杂逻辑推理题时，它能够拆解线索，层层推演，逻辑分析和分步推导能力表现扎实。

上下文学习和指令遵循：提取信息，干扰场景下表现稳定

这一环节考验模型的两个基本功：能否抓住真正的指令，以及能否快速理解指令。

腾讯在官方博客中给出了项目规划、旅游总结、读书记录等五个场景，我们选取两个场景来实测。

场景一：内容杂乱的会议纪要信息提取

我们给了一段混乱的会议录音转写，混杂着插话、跑题、反复修正等情况，要求其摘录三类信息。

Hy3 preview给出的答案准确地列出了这三类信息，信息抓取能力表现不错。

场景二：理解并遵循新的语言规则

我们自创了一个简单的语言，通过实例向它展示规则，并给它三个新的句子让它翻译。

在这一轮中，Hy3 preview能够准确完成相关要求，每个细节都能按规则执行。

综合来看，Hy3 preview能理解指令要求，有效排除干扰信息，适合繁杂信息干扰、信息抓取等实用场景。

代码和智能体：工具调用较成熟，任务交付完整性不足

代码能力与智能体能力，是评判一款AI助手是否好用的重要维度。这既考验模型对用户需求的理解深度，也检验Agent在多步骤任务中的规划、工具调用及任务闭环能力。这一环节，我们为WorkBuddy（腾讯旗下AI助手）设计了三个任务。

第一个任务，我们要求WorkBuddy爬取五个城市近一年的空气状况，并基于空气质量数据生成一份分析报告。

从页面呈现来看，成品表现合格。季节切换、雷达图、趋势图、相关性热力图等板块结构完整，视觉呈现有序，图表也具备基本的交互功能。这表明它在前端呈现这一层面的执行力达标。

但问题主要有两个，一是由于数据获取阶段受阻，Hy3 preview只拿到了224天的有效数据，缺口较大，影响了后续表格的可信度；二是提示词中明确要求写一段分析结论，Hy3 preview虽在页面上保留了对应板块的区域，但实际内容是一片空白。这意味着，它有任务闭环意识，但最终的交付能力仍有不足。

第二个任务，我们让它搭建一个贪吃蛇小游戏。

最终结果较为成熟，画面精美、逻辑完整，可以正常运行。但需要指出的是，贪吃蛇属于规则封闭类任务，需求明确且无需调用外部数据，评价标准比较明确，是智能体较擅长的应用场景。WorkBuddy在该任务中的表现只能体现在舒适区内的能力，验证了其具有一定的实用价值。

第三个任务，我们将难度提高，让它分析一个开放式复杂任务：分析AI Coding行业的商业模式演变，盘点2023年至今的发展历程，并找出行业关键转折点及核心驱动因素。

这是一个开放式复杂任务，没有统一的标准答案，成果质量取决于Agent的判断力、信息筛选能力与表达能力。

在执行层面，WorkBuddy能够自动调用多个工具，先修订执行计划、再落地推进计划，整个过程大概耗时半个小时。

但最终结果并不算惊艳，它只是搭建了一个基础框架，实际内容不够扎实。可以看出，虽然它掌握了拆解研究问题的方法，却不懂得如何将这些维度进一步提炼为有价值的研究论点。

总的来说，WorkBuddy已具备日常编码助手该有的能力，但在复杂任务的深度执行和最终交付上，还有提升空间。

自然对话：AI味明显减弱

最后，我们再来看看元宝有没有“人味”。这一轮通过两个场景来测试：闲聊对话与创意写作。

场景一：闲聊对话

官方文档中提到，Hy3 preview更能理解用户的倾诉意图，能承接用户情绪，避免说教式、模板化的回复。

实际测试下来，Hy3 preview的表现确实贴合这一定位。它没有一上来就罗列一堆建议，而是先客观分析背后的可能原因，再询问是否遇到什么事情。整体语气温和，较有分寸，有闲聊场景里的自然感。

场景二：创意写作

在这一环节中，我们设计了两个任务，考验它的叙事与表达能力。

我们先让它写一个主角全程未出场，但读者读完能清晰知道他是谁、经历了什么、为何重要的故事。

元宝交出的成品，全文逻辑自洽、叙事流畅，完成度较高，几乎读不出AI写作常见的套路感。

接着，我们再让它模仿《明朝那些事儿》的文风，撰写其他朝代的人物历史故事。

AI写作时容易将文风复刻表现为刻板的模仿，仅停留照搬行文框架，而不能吃透文章风格。但从生成结果来看，Hy3 preview文风复刻能力较强，整体符合要求。它抓住了原书通俗讲史的风格，较好地呈现了整个故事。

这一轮评测，最让人意外。整体来看，Hy3 preview在自然语言的表达上，已经摆脱了正确却无味的套路腔，能够写出可读性较高的文本。

结语

四个维度测下来，Hy3 preview给人的感觉是“稳而不惊”。

它没有在某一项上拿出碾压式的表现，但它也几乎没有明显的短板。放在整个国内大模型的排位里，它未必是最惊艳的一款，但符合能干活的实用型模型标准。

把视角拉远一点，Hy3 preview真正的意义或许并不在模型本身。

过去两年，腾讯在大模型战场上较为被动。今年1月底，马化腾在年会上公开承认，腾讯AI动作慢了。技术节奏相对较慢、没有一个能让外界记住的标杆模型，是腾讯面临的两大问题。而Hy3 preview的发布，让腾讯的AI故事有了转折点，也让腾讯有了整个生态都能用的AI模型。

目前Hy3 preview还只是一个预览版本，开源社区的反馈还在收集中，元宝、QQ、腾讯文档等产品的实际调用体验也还需要时间检验。据官方披露，后续会发布参数规模更大的模型。

但至少，腾讯AI已经开始撕掉过去两年“被动”的标签了。

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App

界面
主动“认输”的DeepSeek，这次到底行不行？ 2026年4月26日 13:07

界面

主动“认输”的DeepSeek，这次到底行不行？

作者jianli@jiemian.com(AIX财经)

2026年4月26日 13:07

实测V4长文本、代码、推理能力。

钛媒体
主动“认输”的DeepSeek，这次到底行不行？ 2026年4月26日 09:33

钛媒体

主动“认输”的DeepSeek，这次到底行不行？

作者AIX财经

2026年4月26日 09:33

（本文作者为 AIX财经，钛媒体经授权发布）

文 | AIX财经，作者 | 李梦冉，编辑 | 魏佳

没有发布会，没有倒计时，DeepSeek V4就这样直接上线了。

这已经是DeepSeek惯用的节奏。但这次不一样的地方在于，他们在技术报告里主动写下了一句话：V4的能力水平仍落后于GPT-5.4和Gemini-3.1-Pro，发展轨迹大约滞后前沿闭源模型3至6个月。

这句话放在国内AI圈的语境里，显得有些格格不入。大多数模型发布，标配的是“全球领先”“行业第一”。DeepSeek反过来，主动划出差距。

但如果细看这次发布的内容，就会发现这并不是谦虚，V4压根没打算在“谁最强”这个问题上和GPT-5掰手腕。V4想做的，是把百万token的超长上下文变成所有用户的标配，同时把价格打到竞品的三分之一以下。

这篇文章我们想说清三件事：V4是什么、它能干什么，以及这次发布背后值得关注的信号是什么。

01.V4最大变化：超长文本全系标配

V4模型按大小分为Pro和Flash两个版本，在官方网页端和APP界面分别是专家模式和快速模式。

Pro是旗舰版，主打能力上限，对标的是GPT-5、Gemini这类顶级闭源模型，适合对效果要求极高的复杂任务。Flash是轻量版，速度更快、价格更低，推理能力接近Pro，但世界知识储备稍逊一些。

两款模型都支持同一件事，也是这次发布最值得普通用户关注的变化——百万token的超长上下文，全系标配，不分版本，不加价。

“上下文”这个词听着技术，简言之就是“AI一次能读多少内容”。按照100万token大约是75万汉字换算，差不多把整部《三国演义》喂给V4，它都能完整理解和分析。

这源于V4采用了CSA（压缩稀疏注意力）和HCA（重度压缩注意力）的混合架构。同样处理一百万字的内容，V4只需要前代模型四分之一的算力和十分之一的显存。

以前这个能力不是没有，但价格都很贵，得单独付费或者升级套餐。V4把它变成了所有用户默认就有的基础能力。对日常使用来说，感知最明显的一点是：使用者不再需要把一份长报告剪来剪去分段喂给AI，整份材料可以一次性丢进去，让它直接处理。

此外，V4提供了三档推理强度：

Non-think直出模式，AI直接给答案，适合简单问答和日常对话，速度最快；在网页和APP上关闭深度思考即可。

Think High是常规深度思考，AI会在脑子里推导一遍再回答，适合需要分析计算的场景；

Think Max则适合极难推理，但耗时更长，消耗的token大约是普通模式的两倍。思考的强度，由模型根据问题的复杂程度自动判断，或者使用者可以通过API参数手动指定为High或Max。

定价方面，V4延续了DeepSeek一贯的激进风格。

V4-Pro每百万token输入1元（缓存命中）或12元（缓存未命中），输出为24元；V4-Flash为每百万token输入0.2元（缓存命中）或1元（缓存未命中），输出为2元。

粗算下来，DeepSeek的定价大约是竞品的三分之一甚至更低。另外，V4同时支持OpenAI和Anthropic两种API接口格式，对开发者来说，切换只需要改一个参数，迁移成本几乎为零。

02.三个场景实测：长文本、写代码、复杂推理

在实际使用中，V4表现如何？我们围绕三个高频使用场景对其展开测试：长文本处理、代码生成与调试和复杂推理。

场景一：长文本处理

长文本处理是V4此次核心卖点，我们直接选用某上市公司2025财年年度报告作为测试材料。这份年报篇幅为324页，涵盖财务报表、附注及股东信息等多个模块，信息密度高、数据分散，是测试长文本理解能力的理想素材。

我们的测试问题分两层：第一层要求提炼年报核心要点；第二层追问两个藏在文档深处的具体数据——该年度回购股份的总数量与总对价，以及管理人员酬金排名第三的具体人员与金额。这两个问题的答案分别散落在年报第212至213页和第311至313页，位置偏后，必须完整阅读文档才能准确定位。

V4响应时间约19秒，给出的答案完全符合原报告。

此外，在追加提问短期银行借款利率区间时，我们关闭了“深度思考”，选择Non-think模式，V4同样准确找到年报数据，信息来源同样精确到页码。

从整体表现来看，快速模式下V4对这份300余页年报的处理相当稳定。数据定位准确、跨章节关联清晰、单位换算无误，且在回答过程中主动识别了潜在的口径歧义并加以说明，并没有因为文档体量大而出现答非所问或信息遗漏的情况。

对于需要快速从大体量文档中提取特定数据，V4的长文本处理能力已经达到了实际可用的水准，且在快速模式下便能完成，不需要开启深度思考来换取准确性。

场景二：代码生成与调试

这一场景我们分两步进行测试：

第一步，让V4生成一段含有隐藏Bug的Python代码，要求故意埋入2至3个常见错误但不提示位置；

第二步，将这段代码重新交回V4，要求找出所有问题、修复代码并逐一解释原因。两轮分别在开启和关闭深度思考的模式下各跑一次。

开启深度思考模式响应时间15秒。V4在思考过程中主动梳理了代码的所有潜在问题，最终给出了6项错误分析，超出原题预设的2至3个范围。除了最核心的数据类型错误和文件未正确关闭之外，还额外识别出除零错误、列名不存在时的KeyError等。

关闭深度思考模式明显更快，直接输出结果，没有可见的思考过程。识别出的问题同样是文件未正确关闭、列数据类型错误、除零错误、列名不存在等，与开启深度思考的核心结论基本一致。

对于不懂代码的用户来说，日常的代码调试任务，关闭深度思考已经足够可用，速度也更快；如果是生产环境的代码审查，或者需要考虑各种异常边界，开启深度思考会给出更完整的分析。

场景三：复杂推理与分析

对于复杂推理测试，我们设定为一家中高端护肤品公司的经营困境分析：三年收入年均增长18%，但净利润率从12%腰斩至6%，同时面临库存积压、营销费用失控、电商渠道落后和竞争对手低价抢市等多重压力。

要求V4以商业顾问身份，识别核心问题、按紧迫程度列出三个优先风险并说明判断依据，随后在同一对话中追问：若公司决定优先发力电商渠道，可能面临哪些新风险。

深度思考响应用时9秒。V4在思考过程中先完成了问题拆解：将所有负面信号归类为现金流威胁、盈利能力恶化、市场结构性风险三个维度，再依据“若不立即处理会导致现金流断裂或持续亏损”的紧迫性标准完成排序，逻辑链条清晰可见。

最终它给出的三个优先风险依次是：库存积压与现金流风险排第一；盈利能力持续恶化排第二，中端市场被抢占与渠道结构性短板排第三，并均给出了充分理由。

为了验证连续推理能力，我们追问发力电商渠道的风险，响应用时仅3秒，直接在第一轮建立的背景基础上继续推导，V4识别出五项新风险。

关闭深度思考后结果也差不多，不过结论呈现上更结构化，增加了“止损时间窗口”，落地感更强，某种程度上比深度思考版本更像一份可以直接拿去汇报的分析文件。

这一轮测试最值得关注的有两点：一是推理的连贯性。前后两轮的分析形成了完整的逻辑链；二是结论的落地性。风险分析不停留在“可能会有影响”的泛泛层面，每条都给出了具体的传导路径。

比如它指出高端产品依赖线下BA服务和专柜体验来支撑溢价，一旦在电商大力促销，消费者会形成“不降价就不买”的预期，进而打击线下门店的正价销售能力，最终形成恶性循环。测试结果显示出推理逻辑连贯性和缜密性。

03.V4的真正影响力，在模型之外

DeepSeek主动说自己“落后3到6个月”，这不是谦虚。DeepSeek的牌是开源、是价格，承认差距，反而让这张牌打得更稳。

一位长期关注大模型领域的从业者对「AIX财经」称，“当一个开源模型把百万上下文变成标配、把API价格打到竞品的三分之一，你会发现闭源模型的护城河其实没有想象中那么宽。”V4最大的价值是让用户在成本可控的前提下，把很多以前想做但做不起的功能做出来了。

也因此，开源加低价，可能会动摇整个行业的定价逻辑。

对普通用户和中小开发者来说，顶级推理能力的使用门槛被大幅拉低。以前要用上好模型，要么付高额订阅，要么承受居高不下的API成本，现在这个壁垒被打薄了；对大厂来说，当一个性能接近的开源模型以极低价格提供服务，闭源模型的溢价空间会被持续压缩，而且这个压力是长期的，不会因为下一个版本发布就消失。

此外，V4技术报告里，首次把华为昇腾和英伟达GPU并列写进了硬件验证清单。

更值得注意的是，V4选用的FP4精度格式，恰好是华为今年新发布昇腾950芯片原生支持的精度，两者之间的适配不是巧合。DeepSeek官方表示，等下半年昇腾950超节点批量上市之后，V4-Pro的价格还会继续大幅下调。

在英伟达出口管制持续收紧的背景下，这次技术协同释放的信号很清晰：DeepSeek在主动构建一条不依赖英伟达的算力通道。这件事的战略意义，比V4本身的产品发布要深远得多。

上述从业者称，昇腾这条线如果真的跑通，对整个国内AI生态意义巨大，现在大家都在英伟达这根管子上排队，一旦有一套可以平替的硬件基础设施成熟起来，算力的定价权和供给稳定性都会发生根本变化。DeepSeek愿意在技术报告里公开背书昇腾，这个动作本身就不是普通的商业合作，更像是一个方向性的表态。

下半年随着昇腾950上量、价格进一步下探，V4的实际影响力可能才会真正显现。