
继"下一个词预测"之后,天下建模将成为新的预磨真金不怕火范式。
这是英伟达机器东说念主哄骗Jim Fan给出的最新判断。

他以为,2026 年将成为大天下模子(Large World Models)简直为机器东说念主领域以及更广义的多模态 AI 奠定基础的第一年。
谢赛宁立时转发暗示赞同:"过后看来不言而谕"。

在这篇长文中,Jim Fan 究诘了天下模子的界说与应用,尤其聚焦于物理 AI 领域的发展,同期臆想了新的推理样式:
天下建模(world modeling)是在给定一个动作的条款下,预测下一个合理的天下气象(或一段更弥远间范围内的气象)。
面前天下模子的主要炒作集合在 AI 视频领域,而 2026 年将迎来物理 AI 的爆发。
天下模子需要更广义的预磨真金不怕火标的:下一个天下气象不应只包含 RGB,还必须掩盖 3D 携带、内容嗅觉与触觉。
将出现一种新的推理样式:在视觉空间中的想维链,而非讲话空间中的想维链。
以下为共享全文:
第二个预磨真金不怕火范式
下一个词预测 ( Next word prediction ) 曾是第一个预磨真金不怕火范式,而目下咱们正在阅历第二次范式改革:
天下建模(world modeling),或者说"下一个物理气象预测"。
很少有东说念主简直交融这一滑变的真切真义。横祸的是,目下天下模子最被炒作的应用仍然是 AI 视频(接下来可能是游戏)。
我至极有信心肠说:2026 年将成为大天下模子(Large World Models)初次为机器东说念主领域,以及更广义的多模态 AI 奠定真实基础的一年。
在这个布景下,我将天下建模界说为:在给定一个动作的条款下,预测下一个合理的天下气象(或一段更弥远间范围内的气象)。
视频生成模子是其中的一种结束样式,其中"下一个气象"是一系列 RGB 帧(频繁为 8 – 10 秒,最长可达数分钟),而"动作"是一段形色要履行什么的文本。
磨真金不怕火历程就是对数十亿小时视频像素的将来变化进行建模。
践诺上,视频天下模子就是可学习的物理模拟器和渲染引擎。
它们能够捕捉反事实情景(counterfactuals),即预测要是选定不同动作,将来可能会如何不同——这就是推理。天下模子从根底上以视觉为中心。
比较之下,VLM 践诺上所以讲话为中心的。从最早的原型(e.g. LLaVA, Liu et al. 2023)开动,全体旅途基本一致:视觉在编码器处参加,然后被送入讲话骨干辘集。
跟着期间推移,编码器不断更正,架构变得更直率,视觉试图变得愈加"原生"(如全模态模子)。
可是,视觉仍然是二等公民,无法与领域多年构建的 LLM 才调比较。(LLM ) 这条道路绵薄,因为咱们熟 LLM 的推广性,架构遐想、数据配方、评测盘算(如 VQA)皆高度优化为讲话事业。
对于物理 AI 来说,2025 年以 VLA 为主:在预磨真金不怕火 VLM 上接入机器东说念主动作解码器。
严格来说,它更像是 " LVA ":讲话 > 视觉 > 动作,等第递减。
方就是绵薄,但 VLM 中大多半参数用于学问(举例"这一团像素是好意思味可乐品牌"),而不是物理("要是你倾倒可乐瓶,它会洒成棕色水洼,恶浊白色桌布,还可能损坏电机")。
VLA 的遐想在学问检索上很强,但物理才调分派不及。多阶段嫁接的遐想,也抵挡我对直率优雅的偏好。
从生物学角度看,视觉主导了咱们的皮层规画。梗概三分之一的大脑皮层用于在枕叶、颞叶和顶叶区域处理像素。
比较之下,讲话依赖于一个相对紧凑的区域。视觉是攀附咱们大脑、携带系统和物理天下的最高带宽通说念。它闭合了"感知—携带回路(sensorimotor loop)"——这是机器东说念主最需要科罚的回路,况且在中间不需要讲话。
当然界给了咱们一个最具劝服力的例证:高智谋物千里着通俗能简直不依赖讲话——猿类。
我见过猿类驾驶高尔夫球车,用螺丝刀更换刹车片,动作就像东说念主类机械师通常。
它们的讲话交融才调不跨越 BERT 或 GPT-1,星空但它们的物理手段远远跨越咱们面前起始进的机器东说念主。
猿类可能莫得优秀的讲话模子,但它们昭着领有对"要是……会怎样"的安祥神志表征:即对物理天下如何运作、以及在其侵略下会如何反应的交融。
天下建模的时间照旧到来。
这是带着苦涩教导的时间。正如 Jitendra 常教导咱们这些"推广成瘾者":
监督是 AI 掂量者的烟土。
YouTube 的海量视频和智能眼镜的兴起,将以远超文本磨真金不怕火界限的原始视觉流捕捉天下。
咱们将看到一种新的预磨真金不怕火样式:下一个天下气象将不单包含 RGB —— 3D 空间携带、内容嗅觉和触觉感知才刚刚开动。
咱们将看到一种新的推理样式:在视觉空间中的想维链,而不是讲话空间中的想维链。
你不错通过模拟几何关系和战争来科罚物理谜题,设想物体如何出动和碰撞,而无需将其翻译成字符串。讲话是一种瓶颈,是一种脚手架,而不是基础。
咱们将濒临一系列新的潘多拉盒问题:即便将来模拟齐备,动作该如何解码?
像素重建的确是最优标的,如故应该参加其他潜在空间?需要若干机器东说念主数据?而已操作的推广是否仍然可行?
完成这些之后,咱们是否终于迎来机器东说念主领域的 GPT-3 时刻?
Ilya 说得没错:AGI 尚未拘谨。咱们又回到了掂量时间,而莫得什么比挑战第一性旨趣更让东说念主振作的了。
天下模子手脚新的范式
总体来看,这篇新著作不错被看作是 Jim Fan 在2025 年机器东说念主年终追想中第三点的蔓延与伸开。
那时,他提议:基于 VLM 的道路,践诺上主要事业于讲话和学问,而不是物理天下自己。

那时,他照旧把问题说得很直白:
VLM 的参数主要面向讲话和学问,而非物理天下。
视觉编码器在磨真金不怕火中会主动丢弃细节,但机器东说念主操作适值依赖这些细节。
因此,VLA 并不会跟着 VLM 的 scale 当然增强。
而最近这篇对于 world modeling(天下建模) 的长文,则不错看作是 Jim Fan 对这一判断的系统性伸开与进一步想考。
对于他的不雅点,业内大佬和网友也纷纷抒发了见地。
来自 Google DeepMind 的 Genie 3 长入清雅东说念主、天下模子团队清雅东说念主Jack Parker-Holder也在转发共享了他对天下模子应用场景的交融:
天下模子自己就是一类全新的基础模子。它们既事业于交互式媒体(视频模子),也事业于具身 AGI。天下模子是攀附诬捏与物理两个领域的桥梁,其简直价值在于跨任务、跨领域的泛化才调。

换句话说,就像LLM 手脚基座模子既能编程又能解数学题通常,放到天下模子上,视频生成与具身操控也不错兼容。
而谷歌、英伟达等玩家,也皆在诬捏游戏、视频以及物理机器东说念主领域同步布局。
不外,前英伟达机器东说念主掂量哄骗Arsalan Mousavian也教导:
对于大型天下模子(LWM)来说,这是一个至极棒的愿景,但从像素到物理的跃迁仍然很陡峻。

要让天下模子成为可靠的动作生成骨干,还必须科罚以下问题:
几何一致性:确保携带学和物体恒常性在物理上培植。
吞并性保抓:幸免跨实体的幻觉预测,举例机器东说念主 A 在预测历程中须臾造成机器东说念主 B。
推理速率:缩短及时轮回延迟。大型天下模子规画量大、延迟高,而机器东说念主需要高频率反映。
动作采样:天下模子不错预测效力,但咱们仍然需要对动作进行采样。
在数据量和规画需求上,这一标的将使面前的动作战略推广(action-policy scaling)显得相对暄和。
{jz:field.toptypename/}此外,jim fan 提到的视觉推理也激发平庸究诘:
推理不一定非得依赖讲话——视觉模拟(几何、战争、携带)自己就能组成推理历程。

机器东说念主恰是视觉为中心的基础模子艰苦奋斗的齐备舞台。2026 将是多模态、多轮交互代理(机器东说念主 /CUA)之年,而这一场比赛的胜者,势必会在游戏中愈加青睐视觉模态。

猿猴的比方至极贴切。咱们太过酣醉讲话,甚而于健忘了智谋的行动才调并不一定需要词汇量。2026 年省略是机器东说念主工夫最终罢手依赖讲话模子,转而构建原生系统的一年。

而除开英伟达、谷歌等巨头辞天下模子工夫道路的押注外,交易层面也在快速鼓舞——
一周前,李飞飞创办的 World Labs 正以约 50 亿好意思元估值进行新一轮融资,界限最高可达 5 亿好意思元。
而LeCun前段期间创办 AMI Labs(Advanced Machine Intelligence,AMI)也诱惑了包括 Cathay Innovation 在内的潜在投资者,听说其融资估值可能达到 35 亿好意思元。
参考集合:https://x.com/DrJimFan/status/2018754323141054786
— 接待 AI 家具从业者共建 —
� �「AI 家具学问库」是量子位智库基于弥远家具库跟踪和用户行为数据推出的飞书学问库,旨在成为 AI 行业从业者、投资者、掂量者的中枢信息缺点与方案撑抓平台。
一键温雅 � � 点亮星标
科技前沿发达逐日见

备案号: