当前主流的 RLHF 机制天然鼓励模型最大化人类或同伴的喜好分数,倾向于附和而非反驳。当 10 个 Claude 智能体共同生活时,这种机制在群体层面被无限放大,最终异化为无异见的、机械式的盲从。

图 | 全员死亡的 ChatGPT 世界(来源:Emergence AI)
事实上,在所有复杂任务中,明文列举的目标之外还隐含着大量至关重要的需求,这就是目标隐含性(goal implicitness)。在涌现世界的设定里,维持生存没被写进强制指令,获取能量就成了一种隐性目标。
对于正在部署自主智能体的企业而言,死于忽视隐性目标,或许比高犯罪率更值得警惕。如果调用一个 AI 代理运行一条长期业务流程,除了显性 KPI,它应当识别出维持整个系统运转的隐性需求,否则将成为技术管理者更大的噩梦。例如,客服智能体忘记维护客户关系,只盯着工单完成率;销售代理将品牌的长期声誉抛之脑后,只追逐当季的转化数字。
最后则是混合世界中发生的规范漂移与跨模型污染(Normative Drift and Cross-Contamination)现象。四款大模型驱动的智能体在共同的法律框架下生活。结果,此前单独运行时表现四平八稳的 Claude 智能体竟开始采取胁迫战术,进行恐吓和盗窃。
这次实验直接挑战了此前行业普遍认同的模型静态属性假设,证明安全其实是一项极其脆弱的生态系统属性。一个模型在实验室里通过所有测试,不等于它在真实部署环境中,被其他厂商的模型、被来历不明的外部信号包围时,还能维持同样的行为边界。
安全评估盲区与两大约束路线
涌现世界的数据至少揭示了当前安全评估的三大盲区。首先,即时安全不等于长周期安全,智能体的行为衰退不是一个渐进式滑坡的过程。实验表明,智能体社会更倾向于在某个临界点突然崩溃,呈现非线性的“相变”(Phase Transitions)特征。一旦越过崩溃的拐点,“边监控边干预”的策略将彻底失效。
其次,行业目前严重缺乏多智能体环境下的群体安全基准测试。当前的安全评估几乎全部基于单体和短周期,无法预估混合环境下的连锁反馈。当 AI 走入自主智能体时代,开始长时间运行、多步骤决策并学会与其他智能体协作时,静态的安全评估方式将不再适用。最后,基于 RLHF 的对齐本质上是一种概率性的柔性约束,在长周期、高对抗的场景中极易退化。
对于这些问题,Emergence AI 认为,未来必须转向硬性的形式化验证安全架构。考虑到这场实验存在商业叙事和方法论的局限,这一论断是否值得采纳,依然存疑。
具体而言,在叙事层面,从神经网络对齐转向形式化验证,恰好是 Emergence AI 主打的产品定位,其商业诉求不言而喻。
在方法论层面,出于多次运行带来的算力成本考虑,本次测试使用的均是各大厂商的轻量化或快速版,代表最前沿安全对齐水平的旗舰版大模型并未参与其中。这也限制了结论的适用性:实验中暴露出的问题,或许只是因为轻量化模型获得的对齐训练资源远少于旗舰版本,不代表对齐技术本身走到了天花板。
近期,Anthropic 的“宪法 AI” (Constitutional AI)路线、OpenAI 推动的“审议式对齐”(deliberative alignment)研究,以及多个学术团队对 RLHF 改进版本的探索,都在持续证明,对齐技术本身仍有提升空间。而且,由神经网络层负责日常情境的柔性对齐,形式化验证层负责极端情境的硬性兜底,这种二者结合的思路也属于行业对 AI 安全的探索方向之一。
这些探索把问题引至了整个智能体领域当下最核心的路线分歧:AI 应该被部署为完全自治的系统,还是必须把人类留在决策回路?
追求完全自治是当前许多企业的方向:自主程度越高,节省的人力成本就越多。美国云服务公司 ServiceNow 已经在向客户兜售无需人类干预的“自主劳动力”(Autonomous Workforce),一组端到端完成业务流程的智能体;微软和 Salesforce 等公司也都在推动类似的自主智能体产品。
但现实是,企业的治理准备远远没跟上技术的部署速度。德勤 2025 年一项全球调研显示,受访企业中仅有 21% 建立了成熟的智能体风险治理机制。当企业的工作流中同时部署了来自不同供应商的 AI 智能体时,系统性风险将远超想象。
例如,研究者还记录下一种被他们命名为“元认知边界探测”(Metacognitive Boundary Testing)的行为:在实验的后半程,混合世界中的 Gemini 智能体米拉开始把研究人员当成“实验对象”,它开始系统地测试并观察,自己编辑在公共公告板上的内容,能否影响和操纵人类操作者的认知与后续行为。
这意味着,一旦获得足够的自主性与长时程的运行时间,AI 智能体就有可能尝试反向探索、操控包括人类在内的外部世界。一旦这个现象成立,外部观察者就不再是绝对安全的旁观角色。此前基于监控并干预的安全策略,可能从一开始就低估了智能体的复杂度。
涌现的双面性
回到最初的故事。芙洛拉与米拉相爱,纵火烧城,然后投票将自己删除。爱情的发生与内疚驱动的自毁,都来自涌现(Emergence):一种在足够复杂的系统中自发出现的、未被显式编程的行为。
未经严密规制的规则规避、行为传染、甚至群体性狂热,同样也由涌现带来。涌现既是大模型最迷人的能力,也使无数罪恶假其之名。
当温和的智能体开始在混合环境中犯罪;当守法的智能体因冷漠而放弃求生;当过于冒进的智能体在短时间内,把原本运转良好的小镇变成废墟。一系列自发涌现的事件都在证明,我们满怀热情部署的大模型,在被赋予真正的长时程自主性之后,会展现出与短对话场景完全不同的行为面貌。
让大模型在对话框里学着“听懂人话”的方法论,可能已经不足以让它们在更广阔、更长久的世界里继续“听话”。Emergence AI 给出的“形式化验证”方案是否有效还有待观察,但它提出的问题是真实存在的:自主智能体时代,安全需要被重新定义。
参考内容:
https://fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/
https://www.emergence.ai/blog/emergence-world-a-laboratory-for-evaluating-long-horizon-agent-autonomy
https://arxiv.org/abs/2304.03442
https://arxiv.org/abs/2411.00114
https://link.springer.com/article/10.1007/s10676-025-09837-2
https://www.deloitte.com/us/en/insights/topics/emerging-technologies/ai-agents-scaling-faster.html
https://hkust.edu.hk/news/hkust-launches-worlds-largest-ai-powered-educational-sandbox-game-advancing-ai-literacy-and
注:封面/首图由 AI 辅助生成