普通视图

Received today — 2026年1月27日

Clawdbot爆火,我看到了腾讯元宝的通天路

作者字母AI
2026年1月27日 12:22

文 | 字母AI

GitHub上有这么一个项目,一天内就暴涨了9000颗星,从早上的7.9K飙升到晚上的17K+。截至发稿,这个项目已经突破4万颗星了。

这种增长速度在开源项目中极为罕见,甚至由于这个项目能运行在苹果M4芯片上,直接引起了Mac mini的抢购潮。

而这个项目就是Clawdbot。

周末这两天,整个硅谷A 圈都沉迷在了Clawdbot 里。

前特斯拉 AI 负责人安德烈·卡帕西(Andrej Karpathy)公开点赞,谷歌AI产品负责人洛根·基尔帕特里克(Logan Kilpatrick)跟风购买 Mac mini, MacStories 的费德里科·维蒂奇(Federico Viticci)在一周内烧掉1.8亿个Anthropic API Token,就为了体验Clawdbot。

看到Clawdbot的火爆,我突然意识到:这不正是元宝在微信生态里可以复制的机会吗?

但在探讨元宝的可能性之前,我们还是先来了解一下,Clawdbot到底是什么,它为什么能在短短几天内征服这么多AI大牛。

什么是Clawdbot

一句话概括,Clawdbot是一个开源的、可自托管的AI助手。

它的核心创新点在于,无需打开专门的网站或App,只需通过日常使用的通讯软件(WhatsApp、Telegram、iMessage、Discord、Slack等)发送消息,就能指挥它完成各种任务。

相当于是有个24小时不休息的员工坐在你电脑前,你下班的时候想看电视剧了,就可以跟Clawdbot说你的需求,他会打开相应的页面。等你到家后,坐在电脑前就可以直接看你想看的电视剧了。

Clawdbot 的设计逻辑是通过消息应用发出指令,它会调用后台运行的大语言模型,将需求转化为本地Shell脚本并在你的电脑上执行。

换句话说,它不是告诉你怎么做,而是直接帮你做完。

它的工作流程是“消息应用⇄网关⇄AI 模型+工具”的架构。网关作为协调中枢运行在你自己的设备上,负责消息路由、状态管理、定时任务和服务集成。

但纠结的地方来了,为了让AI更强大、更好用,它就需要极高的权限(读写文件、执行终端命令)。但为了安全,又必须限制它。

Clawdbot的解决方案是引入“会话隔离”机制。

它把使用场景分成两类:一类是“主会话”(main session),就是你一对一跟它聊天的时候;另一类是“非主会话”(non-main session),比如在群聊或者公共频道里。

在主会话中,Clawdbot拥有完整的系统权限,可以读写文件、执行bash命令、控制浏览器、操作日历。因为这时候只有你在和它对话,风险可控。

但在非主会话中,Clawdbot会自动切换到“沙箱模式”,它会把所有操作都放进Docker容器里执行。

这就好比给它准备了一个“训练场”。在这个隔离的环境里,它依然可以执行命令,但无法触及你电脑上的真实数据。即使有人在群聊里试图通过恶意指令攻击你的系统,Clawdbot也只会在沙箱里执行,不会影响到真实环境。

另一个技术难点是网关(Gateway)和工具(Tools)的协调。

网关是运行在你设备上的控制中枢,它负责接收来自各个聊天软件的消息,维护会话状态,调度 AI 模型,管理定时任务。而工具则是Clawdbot能够调用的各种能力。

这两者的配合并不简单。当你在聊天软件里给Clawdbot发一条消息,网关需要做这样几件事:

1.识别这条消息来自哪个会话(是主会话还是群聊),

2.决定用什么权限级别来处理(完整权限还是沙箱模式),

3.把消息发给 AI 模型理解意图,

4.AI 模型返回需要调用的工具和参数,

5.网关再去执行这些工具,

6.最后把结果返回给你。

整个过程中,网关要同时处理多个会话,每个会话可能有不同的权限配置,还要保证消息的顺序不乱,状态不丢失。

这就像一个交警,他需要协调来自不同方向的车,在保证效率的同时避免碰撞。

为了解决这个问题,Clawdbot 设计了一套“会话模型”。每个会话都有自己的状态、历史记录、权限配置。

虽然AI推理仍需调用Anthropic或OpenAI的API,但路由逻辑和自动化控制完全在本地,保证了隐私和可控性。这种架构设计让Clawdbot既能利用云端大模型的强大能力,又能保持本地优先的隐私原则。

模型的记忆是有限的,但是Clawdbot属于长期持续工作的产品,因此它将所有交互记录以Markdown格式存储在本地文件夹中,形成持久记忆,类似Obsidian的知识库。

它会记住你的偏好、习惯、正在进行的项目,每次对话都能延续上下文,而不是像传统AI那样每次都从零开始。

同时,Clawdbot还具备一定的“自我升级”能力。比如当你告诉它“我想让你能够生成图片”,它会自己去研究如何接入图片生成API,自己改进自己的代码,然后告诉你“我现在可以生成图片了”。

Clawdbot官方把这个过程叫做“自我技能扩展(Self-Expanding Skills)”。

它会优先检索官方技能库与用户本地已安装技能,仅在无可用资源时才进行完整API研究与代码编写。

当技能升级扩展完成后,Clawdbot会开始语法检查、权限验证、功能试运行三步,测试失败会自动回滚并向用户报告问题,不会影响现有功能。

此外,Clawdbot还是一个主动的AI助手。它通过cron定时任务,能够主动向你发送消息。每天早上自动发送日程摘要、每周五下午总结本周工作进展、监控特定条件并及时提醒。

这种主动性打破了传统AI的被动响应模式。你不再需要记得去问它,而是它会在合适的时间主动找你。

运行Clawdbot并不需要昂贵的硬件。虽然网上流传着很多人购买Mac mini来运行Clawdbot的故事,但实际上,对于基本的聊天、总结、API调用场景,只需要一台每月5美元的VPS就足够了。

只有当你需要运行本地大模型、执行重度自动化任务时,才需要考虑Mac mini这类本地硬件。Mac mini的抢购潮更多是一种社交证明和极客文化的体现,而非必需品。

不仅仅是操作电脑,从技术实现上看,Clawdbot支持超过50种集成,包括Gmail、GitHub、Obsidian、Notion、Todoist、Spotify、Philips Hue智能灯等。

那也就意味着,你可以用一条短信,控制整个屋子的智能家具。

Clawdbot可以连接你生活和工作中的几乎所有数字工具,成为一个真正的数字生活中枢。而且由于它是开源的,社区正在不断贡献新的技能和插件。

为何 Clawdbot 会爆火?

Clawdbot 的火爆源于它解决了现有AI工具的核心痛点:摩擦力太大。

这个问题听起来简单,但它是阻碍AI真正融入日常生活的最大障碍。

传统AI需要你打开网页、切换标签页、复制粘贴结果,每一步都在打断你的工作流。

你正在写邮件,突然需要AI帮忙润色一段话,你得切换到ChatGPT的标签页,粘贴内容,等待回复,再复制回来。

这个过程看似只需要几秒钟,但它打断了你的思维,使整个流程不再连贯。而Clawdbot不同,它就在你的聊天软件里,你发一条消息就能得到回复,不需要任何上下文切换。

另一大原因在于隐私。

在AI服务普遍依赖云端的今天,Clawdbot的本地优先、开源透明、用户可控理念击中了技术社区的核心诉求。你的对话记录、个人偏好、自动化脚本只会存储在自己的设备上,可以随时查看和修改。

“数据主权”掌握在自己手中,这对于重视隐私的用户来说是巨大的吸引力。

更深层的原因是,Clawdbot代表了一种新的软件范式。传统软件是静态的,开发者写好功能,用户被动使用。而 Clawdbot是动态的、可塑的。

你可以随时让它学习新技能,可以让它根据你的需求自我改造。

这其实是一种“软件即对话(SaaC,Software as a Chat)”的新模式,每个用户都能以自己独特的语言风格和需求,拥有一个量身定制的助手。

从社区反应来看,Clawdbot的火爆也体现了一种集体的渴望。人们等Siri变聪明等了十几年,等Alexa真正有用等了快十年,但这些大公司的产品始终停留在“设个闹钟、查个天气”的水平。

而Clawdbot用开源的方式,用社区的力量,在几周内就实现了这些大公司承诺了多年却没做到的事情。

这种“人人都是产品经理,人人都是开发者”的氛围,在技术社区引发了强烈共鸣。

诚然,Clawdbot在技术上并不没有什么很高深的地方,它本质上是一个“harness”(线束),它把强大的模型能力转化为实际可用的助手功能。没有这些模型的进步,Clawdbot 不可能实现。

但它的产品理念击中了人们的痛点。

AI助手的重点不是AI,而是助手。所以它不应该是一个单独的网站,而应该是一个生活在你日常工具里的存在。

更重要的是Clawdbot的可扩展能力,有人让Clawdbot每天早上总结Whoop手环的健康数据,有人让它自动处理保险理赔邮件,还有人让它监控服务器状态并在出问题时自动修复。

这些都不是官方预设的功能,而是用户根据自己的需求创造出来的。

元宝的机会来了

Clawdbot的成功证明,AI助手应该生活在用户已有的通讯工具中,而不是要求用户安装新 App。

在中国,这个工具就是微信。

微信不仅是中国最大的通讯工具,它本身就是现代生活的工作流之一。

人们在微信里聊天、工作、支付、购物,几乎所有的数字生活都能在微信里发生。

如果元宝能够以通讯录的形式存在,它将拥有天然的用户触达优势。用户不需要下载新应用,不需要学习新界面,只需要像给朋友发消息一样给元宝发消息,这种零门槛的使用方式,是任何独立App都无法比拟的。

而且,微信的优势还不止于此。

微信拥有支付和小程序生态,这意味着元宝可以做的事情比Clawdbot更多。

Clawdbot可以帮你查信息、写代码、管理日程,但它很难帮你完成支付、预订、购物这些闭环操作。

而元宝如果能打通微信支付和小程序,它就能真正成为一个万能助手。你可以让元宝帮你订外卖、买电影票、缴水电费、预约挂号,所有这些操作都在对话中完成,不需要跳转到其他应用。

Clawdbot将记忆存储为Markdown 文件,这已经很先进了。但元宝可以在微信生态内,以聊天记录、图片、表情包、订阅的公众号、微信订阅的服务,来构建更高维度、更精准的个人知识库。

微信记录了你的社交关系、消费习惯、兴趣偏好,这些数据如果能被元宝合理利用(当然前提是用户授权和隐私保护),它对你的了解将远超任何其他AI助手。

这种持久记忆能力将让元宝从临时工具变成长期伙伴,用户使用越久,它越了解你,它能带给你的价值也就越大。

Clawdbot的主动关心用户,对元宝也是一个启发。通过微信绑定的信息,元宝可以做到更多。

每天早上推送个性化日程和天气,这是基础功能。但元宝还可以监控快递物流并主动提醒签收,可以定期总结消费账单和理财建议,可以根据用户习惯推荐内容或服务。

比如,元宝发现你最近经常搜索某个话题,它可以主动推送相关的公众号文章或视频号内容。

这可不是畅想,从技术实现上看,元宝复制Clawdbot的核心能力是完全可行的。

Clawdbot的架构并不复杂,前文提到,一个消息网关,一个大语言模型接口,一套工具调用系统就够了。

这些技术腾讯都有,而且可能做得更好,更何况腾讯还有自己的混元大模型。如果腾讯愿意投入资源,元宝完全可以成为中国版的Clawdbot,甚至做得更好。

但元宝要成功,需要解决几个关键问题。

第一个是隐私和信任。Clawdbot之所以受欢迎,很大程度上是因为它开源、本地优先,用户完全掌控自己的数据。

而元宝作为腾讯的产品,必然是云端服务,如何让用户相信自己的数据是安全的、不会被滥用,这是一个巨大的挑战。

第二个肯定就是开放性,Clawdbot的强大来自于社区贡献的技能和插件,而元宝如果想要同样的生态,就需要开放API,让第三方开发者可以为元宝开发技能。

但腾讯对于开放API 的态度一直很审慎。多年来,微信一直对第三方API保持严格限制,甚至封禁使用itcha 等非官方API的账号。

微信的用户协议明确禁止“通过非腾讯开发、授权的第三方软件、插件、外挂、系统,登录或使用本软件及服务”。

所以如果腾讯真打算把元宝做成Clawdbot,那么需要好好想想究竟如何运营开发者社区。

最后是商业模式。

Clawdbot是开源项目,用户只需要支付API调用费用。而元宝作为商业产品,如何定价、如何盈利,这需要仔细设计。

如果定价太高,会吓跑用户,如果免费,又难以持续投入。

最近很火的freemium模式适合元宝版Clawbot。基础功能免费,高级功能(比如更强的模型、更多的API调用次数、企业级功能)收费。

从更大的视角看,元宝如果能成功复制 Clawdbot,它的影响力只会更大。中国有超过10亿微信用户,如果其中哪怕只有1%的人开始使用元宝作为个人AI助手,那就是 1000 万用户。

这个规模是Clawdbot在全球范围内短期内都难以达到的。

说到聊天软件和接壤AI助手,在美国,这个工具可能是WhatsApp、Telegram或iMessage。在中国,这个工具只能是微信。

元宝有机会成为中国版的Clawdbot,关键在于腾讯是否愿意投入资源,是否愿意开放生态,是否愿意真正把用户需求放在第一位。

如果答案是肯定的,那么元宝的未来将不可限量。

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

世界模型教父教母创业,公司估值加起来近百亿美元

作者字母AI
2026年1月27日 09:34

本文来自微信公众号:字母AI,作者:苗正,头图来自:视觉中国


AI 时代,独角兽已经不稀奇了,但世界模型这块还是有所空缺的。


从估值的变化上来看,李飞飞的World Labs,最有可能成为全球首个世界模型独角兽公司。


根据报道,World Labs的估值已经突破了50亿美元,并且拟融资5亿美元。


而2024年9月的时候,这家公司才以10亿美元估值完成2.3亿美元融资,正式在公众面前亮相。


从结果上来看,从登场到50亿美元估值,李飞飞仅用了16个月的时间。


这个速度有多快?


OpenAI从2015年成立,到 2019年微软首次投资,此时他们的估值也只有10亿美元。


最接近World Labs速度的可能是Anthropic,但也花了25个月。


如果说李飞飞是世界模型教母,那么杨立昆可以说是世界模型教父。


2025年12月,杨立昆在LinkedIn上确认离开Meta,结束了他在这家公司长达12年的职业生涯。


杨立昆创立的新公司名为Advanced Machine Intelligence Labs,总部设在巴黎。AMI Labs正在寻求以30至35亿欧元估值融资5亿欧元。


不过,这两家企业高估值背后,并非对世界模型这一技术的吹捧,而是实打实的技术落地和商业化。


一、何为World Labs?


World Labs的投资方阵容包括Andreessen Horowitz、NEA、Radical Ventures(李飞飞本人是Radical Ventures的科学合伙人)、英伟达风投部门、沙特Sanabil Investments和新加坡淡马锡。


天使投资人包括谷歌DeepMind首席科学家杰夫·迪恩(Jeff Dean),以及图灵奖得主杰弗里·辛顿(Geoffrey Hinton)


World Labs的核心技术理念叫做空间智能,这是一种“升维”的概念。


目前的顶尖AI虽然看起来很聪明,但它们本质上是“二维”的。它们只是处理文字序列或者像素排列,它们并不理解体积、有重量、受重力影响的实体。


World Labs的空间智能技术,就是要赋予AI“对三维世界的认知能力”。


以生成视频为例,空间智能是直接生成一个具有三维结构、且符合物理规律的虚拟环境,然后再在这个环境里去模拟要生成的实体。实体不仅有长宽高,还有材质和物理反馈。


在传统的AI训练中,模型学习的是像素之间的概率关联,比如蓝天下面通常是绿地,绿地旁边通常是小溪。


但World Labs的世界模型则是基于三维几何与物理模拟的原理进行训练的。


它在学习数据的过程中,得到的不仅仅是图像的纹理,还有图像背后的空间几何信息(比如深度、遮挡关系、透视角度)以及物理动力学规则(比如刚体如何碰撞、流体如何流动、光线如何反射)


2025年11月,World Labs推出首款商业产品Marble,这是一个能够从文本、图像、视频或粗略3D布局生成持久化3D世界的模型。


Marble的技术底层采用神经辐射场(NeRF)和高斯点云(3D Gaussian Splatting)技术,而非传统的多边形网格。


神经辐射场是一种利用神经网络表示三维场景的技术,它将场景表示为连续的体积函数,输入三维空间坐标和观察方向,输出该点的颜色和体积密度。这种方法通过多层感知机学习场景的几何和光照信息,然后通过体积渲染生成逼真的新视角图像。


相当于在相同场景内,从每一个角度对实体进行拍摄,这样生成实体以后,用户从哪个角度看都符合物理规律。


高斯点云则是另一种三维表示方法,它用数百万个带有位置、大小、形状、颜色和透明度属性的高斯椭球体来表示场景,渲染速度比神经辐射场快得多,同时保持了高质量的视觉效果。


类似于乐高,通过小积木块最终搭建成完整的实体。


这使其能够生成连续的辐射场,包含空间理解、光照和深度信息的完整环境,而不是简单地组装多边形。


在2026年CES大会上,李飞飞在AMD CEO苏姿丰的主题演讲中展示了Marble的能力。


李飞飞说:“将少数图片变成连贯、实时的世界,不再是对遥远未来的一瞥,而是下一章的开始。AI 正在给人们的生活带来一些改变,将少数图片或照片转化为一个实时可探索的世界。空间智能需要极致算力支持,才能实现可交互级帧率和无限持久的世界交互。”


World Labs采用免费增值模式,免费版提供4次生成,20 美元每月可获得更多生成次数,最高95美元每月提供75次生成和商业使用权。


目标客户包括游戏开发者、影视特效制作、虚拟现实应用。而且Marble还支持苹果Vision Pro和Quest 3 VR头显,每个生成的世界都可以在VR中查看。


更重要的是,Marble可以导出与Unreal Engine和Unity兼容的格式,这意味着它可以无缝集成到现有的游戏开发流程中。


李飞飞曾在访谈中表示,这项技术可能颠覆Unity和Epic Games的Unreal Engine等传统游戏引擎。


除了AIGC产业,World Labs还瞄准机器人训练市场,通过模拟环境训练机器人的自主导航软件。世界模型可以为机器人提供一个安全的虚拟训练场,让它们在数字空间中学习物理交互、因果关系和长期规划,然后再应用到真实世界。


二、AMI Labs的技术优势是什么?


但AMI Labs不像李飞飞的World Labs那样拥有实际的产品,目前还只停留在技术概念阶段。


潜在投资方包括Cathay Innovation、Greycroft、Hiro Capital(杨立昆是Hiro Capital的顾问)、20VC、法国公共投资银行Bpifrance、Daphni和HV Capital。


要注意,杨立昆在AMI Labs里担任的是执行主席而非CEO。


该公司CEO职位由亚历克斯·勒布朗(Alex LeBrun)担任,他是医疗AI初创公司Nabla的联合创始人兼前CEO。LeBrun的前一家公司Wit.ai被Meta收购后,他曾在FAIR直接向杨立昆汇报。


团队还包括Meta欧洲副总裁劳伦特·索利(Laurent Solly),他于2025年12月离职加入AMI。


不仅如此,AMI Labs有法国总统亲自背书。法国总统马克龙对杨立昆选择巴黎表示自豪,承诺将尽一切努力确保他从法国取得成功。


AMI Labs的核心技术是杨立昆多年倡导的联合嵌入预测架构(JEPA,Joint Embedding Predictive Architecture)


以往的AI,都是逐token生成输出的,然而联合嵌入预测架构能一口气直接以抽象表示的形式来创建世界,能够更好地预测未来状态。


联合嵌入预测架构的工作原理是,它不预测原始像素或token,而是预测高层次的嵌入表示。


系统有两个编码器,一个处理上下文信息,另一个处理目标信息,还有一个预测器在嵌入空间中进行预测。这种方法避免了生成模型的一个关键问题,生成模型必须预测每一个像素或token,包括那些不可预测的随机细节,而联合嵌入预测架构只关注可预测的高层次特征,忽略无关紧要的细节。


杨立昆在哈佛演讲中解释,这类系统通过在嵌入空间中进行优化来实现规划和推理。


AMI Labs公司将推进AI研究并开发可靠性、可控性和安全性真正重要的应用,特别是工业过程控制、自动化、可穿戴设备、机器人、医疗保健等领域。


AMI Labs的第一个应用将是医疗保健。


具体来讲,AMI Labs通过与Nabla合作,开发临床护理AI助手。截止发稿,这个AI助手已获得了1.2亿美元融资,预计两年内达到1亿美元年度订阅收入。


作为交易的一部分,Nabla获得AMI世界模型的特权访问权,而亚历克斯从CEO转为首席AI科学家兼董事长。


亚历克斯表示,他加入AMI的一个重要原因是将世界模型应用于医疗保健的前景,因为医疗保健的复杂性和高风险性使其成为测试世界模型的理想场景。


FDA认证要求确定性、可解释的推理,这正是LLM无法提供而世界模型承诺实现的。大语言模型存在幻觉问题,在医疗场景中可能导致严重后果,而世界模型通过建立对患者生理状态的内部模拟,可以预测疾病进展,提供更可靠的决策支持。


2026年1月,杨立昆还加入了另一家初创公司Logical Intelligence,担任技术研究委员会创始主席。这家公司推出了名为Kona 1.0的能量基础推理模型,通过对约束条件评分来验证和优化解决方案,寻找最低能量也就是最一致的结果。


这种非自回归模型也和AMI Labs的联合嵌入预测架构相似,能够一口气生成完整的推理轨迹。


能量基础模型是一类通过能量函数来定义概率分布的模型。在这个框架中,每个可能的输出都被赋予一个能量值,能量越低表示该输出越符合约束条件。


模型通过优化过程寻找能量最小的解决方案。这种方法的优势在于可以同时考虑多个约束条件,并且可以进行全局优化,而不是像自回归模型那样只能做局部决策。


杨立昆表示,AGI的最终状态不会来自单一模型类别,而需要能量基础模型、LLM、世界模型等组成的相互依存的生态系统。


三、都是世界模型,两家又有什么不同?


虽然李飞飞和杨立昆都在构建世界模型,但技术路线存在根本差异。


由于技术还处于早期,World Labs的Marble本质上还是传统的生成式AI方法。它确实能生成3D世界,但这些世界本身还不具备物理知识。


World Labs联合创始人在采访中表示,Marble生成的罗马拱门并不知道如果移除一块砖,其他砖可能会掉落。它只是学会了罗马拱门在视觉上应该是什么样子,而不是理解支撑它的物理原理。


这种方法在创意内容生成方面表现出色,可以快速产出视觉上令人信服的场景,但缺乏对因果关系的深层理解。


相比之下,因为杨立昆的联合嵌入预测架构能够直接生成完整的结果,它就能够表示出来这里面的因果关系。


但是在市场方面,World Labs已经获得了早期客户。World Labs透露已有多家组织采用了Marble API。这种先发优势使其在融资谈判中占据有利位置。


World Labs明确瞄准创意产业,这些市场已经存在,客户有明确的痛点,3D 内容制作成本高、周期长,Marble提供了立竿见影的价值。


游戏开发者可以用Marble快速生成背景环境,然后在Unity或Unreal Engine中添加交互逻辑。影视制作团队可以用它进行虚拟场景预览,大幅缩短前期制作时间。


从商业角度看,World Labs的策略更加务实。它选择了一个已经存在的市场,提供了一个可以立即使用的产品,并且建立了清晰的商业模式。


AMI Labs有点超前,它押注于一个尚未成熟的市场,追求技术突破,给这片全新的市场带来需求。这种方法风险更高,但如果成功,回报也会更大。


李飞飞的World Labs扎根硅谷,投资方以美国VC为主,虽然也包括沙特和新加坡主权基金。这使其能够充分利用硅谷的人才、资本和客户网络。


反观杨立昆,他选择巴黎作为总部,这不仅是个人偏好,更是战略选择。


欧盟正在建立AI主权,减少对美国科技巨头的依赖。AMI Labs获得法国政府的高调支持,可能在欧洲监管环境中获得优势,特别是在医疗保健等高度监管的领域。


两家公司的人才策略也有所不同。


World Labs主要招募的是大量计算机视觉和图形学背景的研究者,这些人擅长处理视觉数据和渲染问题。AMI Labs方面则更倾向于招募有机器学习理论和物理建模背景的研究者,这些人更关注模型的数学基础和泛化能力。


李飞飞相信通过大规模数据和计算,可以让模型学会对空间的隐式理解,即使它不明确建模物理规律。这种方法在计算机视觉领域已经被证明有效,ImageNet项目就是最好的例证。


杨立昆则坚持认为,真正的智能需要显式的世界模型,需要理解因果关系而不仅仅是相关性。他多年来一直批评纯粹的生成式方法,认为它们无法达到人类水平的推理能力。


所以看下来,虽然两个人的技术完全不同,然而实际上,这两条路之间好像也没有那么水火不相容。


事实上,它们可能最终会融合。World Labs的生成能力可以为杨立昆的因果模型提供丰富的训练数据,而联合嵌入预测架构的推理能力可以增强Marble的物理一致性。


AI的未来可能不是选择其中一条路,而是找到两者的最佳结合点。


无论哪条路径最终胜出,世界模型都代表了AI从理解语言到理解物理世界的重要转变。


它意味着我们不再满足于让AI模仿人类的语言能力,而是要让它理解什么才叫客观规律。


本文来自微信公众号:字母AI,作者:苗正

❌