IM盘口

IM盘口

IM体育官方网站 李飞飞最新长文拆解:不是什么都叫\"寰宇模子\";它,才是破局重要!

发布日期:2026-06-05 01:04 来源:未知 作者:admin 浏览次数:

IM体育官方网站 李飞飞最新长文拆解:不是什么都叫\

出品 | 网易智能

作家 | 辰辰

“寰宇模子”是现时AI领域最重要、最热、亦然最被滥用的办法。“寰宇模子”也被认为是通往AGI的最大可能的终极阶梯。

现时寰宇模子(World Model)主流手艺阶梯尚未不休,好像分为4条主流阶梯。一是生成式视频阶梯,以OpenAI、视频生成公司为代表;二是交互式寰宇(动作条目)阶梯,以Google DeepMind Genie等为代表;三是空间智能(3D结构)阶梯,以李飞飞 (World Labs)为代表;四是连合镶嵌瞻望(JEPA)阶梯,为Yann LeCun(杨立昆)等建议。此外,(Cosmos/Omniverse)提倡走仿真基础圭表阶梯。国内的大厂、视频生成公司、具身智能、3D生成公司等领域的创业公司,也纷纷建议了我方“寰宇模子”的阶梯。

在一派喧嚣当中,寰宇模式阶梯代表东说念主物之一 李飞飞和World Labs 6月4日再度发出长文《寰宇模子的功能分类:渲染器、模拟器、规划器,以及通顺它们的轮回》 ,把“寰宇模子”这个办法再行圮绝:一个视频模子、一个游戏引擎、一个机器东说念主demo,三个主见顶着归拢个名字。李飞飞认为,它们践诺上是“渲染、模拟和规划”三件实足不同的事,而其中最不起眼的模拟器,才是物理AI的地基。

这套分类不是虚拟发明的,底下压着一个经典框架:智能体作念搬动作,篡改寰宇景象,再通过不雅察感知变化,然后链接作念动作。所有\"寰宇模子\",不外是这个轮回的不同投影。李飞飞团队把它拆成了三类。

·渲染器输出像素,给东说念主看,追求视觉传神。它是买卖化最锻真金不怕火的主见,谷歌的关系模子也曾装进数亿用户手机。但天花板也很明晰:它优化的是\"看起来对\",不是\"践诺上对\"。 AI航拍从天上看无可抉剔,一朝试图开进城市,楼就塌了。

·规划器输出下一步该作念什么。机器东说念主demo看起来很唬东说念主,但李飞飞说得很平直:\"险些所有演示都局限于严格受控的实验室环境。莫得一个在真实部署的复杂度上被考证过。\"从demo到的确干活,中间还隔着强劲鸿沟。但钱也曾砸下去了。因为能规划的机器东说念主,才是聪颖活的机器东说念主。

·模拟器输出的是几何数据、物理参数和碰撞网格。莫得任何颜面的东西。但要是把这件事比作盖楼,渲染器是外立面,规划器是动线,模拟器才是地基和承重墙。话语是对寰宇的概述,像素是对寰宇的投影,而几何、物理和能源学,才更接晚寰宇自己。

李飞飞用\"杯子放在桌上\"讲透了三者的关系:一个模子要是的确意会杯子的几何、材质和受力,就应该能从任何角度渲染它,模拟它被推倒后会发生什么,也能规齐截只手把它提起来。三种才略分享归拢套底层意会。

反过来却不开采。只会渲染,或者只会规划,都不一定作念得到另外两件事。因为模拟器操作的那一层,几何、物理和能源学,正好便是三者分享的底层自己。这便是模拟器被称为\"重要重要\"的原因:掌抓了模拟,既不错投射成像素给东说念主看,也不错投射成动作给机器东说念主用。

虽然,李飞飞我方的World Labs作念的便是模拟器,她不是旁不雅者。但这套论证不单靠态度,也靠逻辑。

这条路的买卖想象空间最大,问题也最大。三维数据比互联网视频稀缺好几个数目级,仿真到现实的鸿沟依然在,多物理场模拟的诡计资本雷同跳跃数目级。模拟器是最重要的一环,亦然最难啃的一环。

但更重要的变化在背面:三条线正在合并。渲染器驱动吸收动作输入,模拟器越来越可控,规划器也从\"响应\"走向\"三想此后行\"。三条分别撑起数十亿乃至数万亿好意思元想象空间的手艺阶梯,正在从寥寂面貌走向归拢件事。逻辑止境,是一个统一生界模子,能在三种输出模式之间切换。

这指向一次更深层的范式翻转。畴前十年,AI的中枢是瞻望下一个token。但话语的规模,不是寰宇的规模。 空间智能学的是光若何落在名义,物体若何顺从物理定律。这是实足不同的底层逻辑。要是这个主见开采,AI的下一跳不是链接堆更大的话语模子,而是让机器的确\"住进\"物理寰宇。

像素不错说谎,物理弗成。AI像片能骗过繁密网友,但机器东说念主走进厨房,地板上一都两毫米的高差就能让它败露。

李飞飞和她的团队,在行业最热的时候,画了一张稳健的阶梯图:渲染、模拟、规划。三个词圮绝,该作念什么,缺什么,什么最难,一目了然。

在一派\"寰宇模子\"的标语声中,先把这三个词分明晰,再来谈篡改寰宇。

李飞飞原文在X等外交媒体和博客发布后,反响热烈:

投资东说念主贾斯汀·摩尔(Justine Moore)转发时写说念:\"'寰宇模子'好像是脚下AI领域最被滥用的一个词。要是你搞不清寰宇模子到底干什么(许多东说念主都搞不清!),热烈推选李飞飞这篇,她把寰宇模子拆成了三种功能,还瞻望了走向。\"

AI行业资深众人扬·克龙贝格(Yann Kronberg)评述:\"我认为这篇著述的确有效的少量是,它把'看起来正确'和'的确可用'诀别开了。一个模子不错渲染出漂亮的房间,但仍然不知说念椅子是否挡住了门、某个物体能弗成搬动,或者有外力介入时场景会怎么。\"

硅谷科技高管安舒尔·达万(Anshul Dhawan)说了一句很精确的话:这三个不是三种家具,是三种功能。 这个诀别之是以重要,是因为今天大大宗顶着\"寰宇模子\"名号的东西,其实只把其中一种功能作念好了。一个能渲染视频的模子不等于意会寰宇,正如一个能在实验室抓杯子的机器东说念主不等于能在真实寰宇干活。

临床AI家具负责东说念主鲁特维克·沙阿(Rutwik Shah)指出了行业细心力的偏差:\"这篇著述太实时了!模拟器是物理AI和机器东说念主手艺的先决条目。面前许多商酌都围聚在外形上,东说念主形如故其他阵势,以及争抢往常任务中的第一东说念主称数据。然而重建环境、构建空间感知以便在真实寰宇中导航和操作,其重要性可能远不啻于此。\"

尊龙凯时中国官网入口

有从业者据此建议我方的看法:谷歌、OpenAI、所有东说念主在内的这场智能体竞赛,惟有在模拟手艺锻真金不怕火之后技艺的确范围化。在那之前,一切都停在\"精彩Demo\"阶段。 他写说念:\"李飞飞在最新著述中再次振领提纲,仿真才是的确的重要。渲染器能生成漂亮像素,规划器能给出通顺动作。但要是莫得一个的确以物理为先的模拟器行为基础,一切都只可停在'令东说念主印象深化的演示'这个层面。这意味着什么?通盘智能体竞赛惟有比及仿真手艺锻真金不怕火技艺的确范围化。到当时,统一的寰宇模子技艺把空间智能从泛论酿成的确能责任的机器东说念主、的确能瞻望物理历程的数字孪生,以及终于意会因果关系的智能体。对机器东说念主领域的开采者和设计师来说,这是颠覆性的篡改:可靠的sim-to-real转移终于成为现实,把长达数月的危急真实环境测试酿成快速、安全、可大范围扩展的试验场。这篇分类学著述一下子就把阶梯图讲明晰了。\"

还有读者留住了更宏不雅的判断:\"通往AGI的路,可能不是链接堆更大的模子,而是让机器的确'住进'这个寰宇。\"

附:李飞飞原文全文翻译

原标题:A Functional Taxonomy of World Models — Renderers, Simulators, Planners, and the Loop That Connects Them

中语译名:《寰宇模子的功能分类:渲染器、模拟器、规划器,以及通顺它们的轮回》

作家:李飞飞(Fei-Fei Li)及World Labs团队

寰宇不是由词语组成的。在更早的一篇著述中,咱们建议空间智能是AI的下一个前沿,寰宇模子是通往它的旅途。这篇著述里,我和World Labs团队想再往下走一层:在当下繁密被称为\"寰宇模子\"的东西中,到底哪些功能模块的确组成了这项才略,每一块又是干什么的?话语模子赋予了机器对办法、词汇和推理的不凡掌控力,但物理寰宇运行在实足不同的基底层上。话语模子学的是文本的统计结构,寰宇模子学的是空间与时刻的统计结构:光如何落在物体名义,一个花圃从某个没被相机拍过的角度看起来是什么样,物体若何受力、若何遵命物理定律。正因如斯,\"寰宇模子\"成了今天AI领域最重要、也最被滥用的术语。诡计机视觉、机器东说念主学、强化学习和生成式AI各自声称在构建寰宇模子,但每一家指的实足是不同的东西。一个能生成画面丽都但物理上不可能存在的火焰的视频模子,一个随性生成可玩游戏的话语模子,一个诚挚模拟根除历程的物理引擎,它们顶着归拢个名字。古希腊东说念主从未就寰宇由什么组成已毕一致,火、水,如故不可分割的原子,IM体育(InPlay Matrix)因为\"寰宇\"从来不是一个单一办法。它永久是一个占位符,代表某个想想家需要推理的阿谁\"全体\"。AI秉承了雷同的窘境,何况正好在这个领域最需要精确性的时刻。分类法底层的阿谁轮回拨开这团迷雾,要从一张比所有关系手艺都更陈旧的图提及。包括萨顿和巴托(Sutton and Barto)经典讲义在内,强化学习教科书几十年来一直在用归拢个图的某个版块描写智能体如何与寰宇交互。学术上的厚爱称呼唤\"部分可不雅测马尔可夫方案历程\"(POMDP),而\"寰宇模子\"一词最早的学术界说就出自这个传统。一个智能体,不错是东说念主、机器东说念主或软件系统,实施动作。动作影响寰宇的景象。智能体永远无法平直看到景象自己。到达智能体的是不雅察:落在视网膜上的光子、传感器读数、视频帧里的像素。新的不雅察催生新的动作,周而复始。\"景象\"这个词要圮绝说,因为不同领域含义不同。这里不是化学家说的景象,不是固液气的区别。这是物理学家和机器东说念主学家说的景象:对某一时刻寰宇正在发生什么的圆善描写,包括每一个物体、每一个位置、每一个速率、每一个属性。景象是寰宇的底层现实,原则上不错圆善界说,但身处其中的智能体无法平直看见它。 不雅察是智能体对那一现实的部分视角。动作是智能体据此作念出的复兴。这个轮回,智能体到动作到景象到不雅察再回到智能体,便是赋予\"寰宇模子\"这个当代术语以手艺含义的结构。词自己的历史更早,不错追想到肯尼斯·克雷克(Kenneth Craik)1943年建议的假说:心智通过运行现实的\"小范围模子\"来推理,其后在1980年代末和1990年代初被引入神经汇集。这个轮回也解释了今天东说念主们使用这个术语时到底在指什么。当下被称为寰宇模子的多样事物,践诺上便是这个轮回的不同投影。每一种输出的,仅仅轮回中的不归拢块。寰宇模子的三种功能第一种是渲染器。 渲染器输出一帧帧给东说念主眼看的像素,最重要的质地标准是视觉保真度。一个把翰墨指示革新为电影级航拍镜头的视频模子,便是渲染器。交互式系统也算,比如谷歌的Genie 3,或者World Labs我方的RTFM,模子凭证用户输入实时生成画面。这类模子对三维结构莫得显式意会。它生成的是不雅看者会看到的东西,而不是事物自己。航拍视角下的建筑从空中看可能无可抉剔,但一朝你试图驶入底下的城市,它们就坍塌了。第二种是模拟器。 模拟器输出的是景象:一个在几何、物理和能源学层面都诚挚的寰宇表征,东说念主和门径都不错在上头诡计和交互。渲染器的条约是视觉层面的,模拟器的条约是结构层面的,它要求几何经得起谛视,物理遵命牛顿定律,能源学按物理定律运行。模拟器同期职业两类铺张者。建筑师、设计师、电影东说念主和游戏开采者这些东说念主类专科东说念主士,需要卓越视觉的确度的准确性。强化学习智能体、机器东说念主适度器和自动驾驶汽车这些门径,则把模拟器当试验场,在内部与寰宇大范围交互,测试那些在现实中危急、不菲或不可能跑的场景。第三种是规划器。 规划器输出的是动作。给定不雅察和规划,规划器回答的问题是:下一步该作念什么。在许多方面,这是渲染器的逆操作。渲染器吸收动作行为输入、产生不雅察;规划器吸收不雅察行为输入、产机动作,闭合了感知-活动轮回。视觉-话语-动作模子、基于模子的系统,以及新一波的\"寰宇-动作模子\",都是规划器的尝试,它们试图决定一台机器东说念主在非结构化寰宇中该作念什么。这三种分类涵盖了今天大大宗落地家具,诀别在实践中有效。但三个类别并非根人道地相互寥寂。它们分享归拢套对于寰宇如何运作的底层学问:几何、物理、能源学。一个能从任何角度渲染一只杯子的模子,原则上也该能模拟杯子被鼓舞时会怎么,并规齐截只手去把它提起来。越来越多的前沿连络在刻意禁闭三者之间的规模。为什么模拟器是重要重要三者之中,模拟器取得的公众关心最少,却是重量最重的一环。本文要复兴的,恰是这种不合称。渲染器是买卖化最锻真金不怕火的主见。一批图像或视频生成家具正在铺张端和企业端快速膨胀。谷歌的Nano Banana模子也曾把渲染器级别的图像生成才略送到了数亿用户手中。手艺是果然,阛阓亦然果然。然而渲染器优化的是视觉的确度而非物理准确性,这个天花板至关重要。 输出很漂亮,但弗成拿来设计一座建筑或试验一台机器东说念主。规划器最引东说念主遐想,也最不锻真金不怕火,和快速演进的机器东说念主学习领域精致邻接。畴前两年,这个领域产出的机器东说念主演示在视频里看起来很唬东说念主,但对这些演示到底展示了什么,需要憨厚面对。险些所有演示都局限于严格受控的实验室环境,物体种类有限,任务时刻很短。莫得一个在真实部署所需的复杂度、多变性和接续性上被考证过。 从一段精彩的演示短片到一台能在厨房、仓库或手术室里分解责任的机器东说念主,中间鸿沟依然强劲。尽管如斯,买卖押注不小。一批资金充裕的入局者正在竞相录用通用规划系统,最大的基础圭表公司正在把规划才略架设在更庸俗的模拟栈之上。一台能规划的机器东说念主便是一台聪颖活的机器东说念主,通盘行业都在抢阿谁率先到止境的东说念主。模拟是两者之间的桥。 要是说话语是对寰宇的概述,像素是对寰宇的投影,那么几何、物理和能源学便是寰宇自己。模拟器必须在这一层运作:它是结构性的骨干,视觉外不雅(供渲染用具)和动作成果(供规划用具)都不错从中导出。一个掌抓了模拟的模子,不错把我方的意会投射为像素供东说念主铺张,也不错投射为动作瞻望供具身智能体使用。一个只掌抓了渲染或只掌抓了规划的模子,反过来作念不到。 买卖掩饰面极广。仅英伟达Omniverse一个平台,就对准了公司我方计算超万亿好意思元的可寻址阛阓,涵盖工场、仓库、供应链和数字孪生。机器东说念主试验、自动驾驶测试、建筑可视化、工程设计和药物发现,所有这些赛说念都依赖某种形态的模拟才略。这个领域最难的绽放问题也围聚在这里。带有明确几何标注、材质属性和物理注释的三维数据,比渲染器试验用的互联网视频稀缺好几个数目级。\"从模拟到现实\"的鸿沟,也便是事物在仿真中的活动与在现实中的活动之间的互异,永久存在。生成式模拟器在此基础上引入了一层新风险:AI生成的几何结构可能看起来正确,但阴私行相交面或罅隙比例尺,一朝接入物理引擎就会产出毫无真理的物理收尾。多物理场模拟,刚体、柔性体、流体和布料同期交互,诡计资本比单一物理域跳跃几个数目级。在World Labs,Marble是咱们投入这个领域的第一步。它吸收多模态指示(文本、图像、视频或空间草图),生成可探索的三维环境,同期输出用于视觉探索的高斯溅射和物理引擎可操作的碰撞网格。但Marble仅仅一段更漫长故事的第一章,跟着渲染、模拟和规划之间的规模驱动消融,这个故事正在通盘领域被书写。规模正在消融,接下来会怎么但更重要的还在背面。当下这个领域最重要的趋势是:三个类别正在相互会通。 分享的洞见在于,渲染一个寰宇、模拟一个寰宇、在一个寰宇中活动所需的学问,大体上是归拢套。延续前边的例子,一个的确意会杯子如何放在桌上的模子,意会它的几何阵势、材质属性、受力响应,应该能从任何角度渲染阿谁杯子,能模拟杯子被推倒时会怎么,也能规齐截只手去把杯子提起来。三个类别是归拢套底层意会的三种投影。例如来说:近期罕有量未几但接续增长的连络,来自多个机器东说念主实验室,也曾诠释至少在办法上,一个预试验的视频渲染器不错被用作\"寰宇+动作\"连合瞻望的骨干汇集。这线路了渲染器和规划器之间的一座桥,让一个模子同期想象会发生什么和该作念什么。World Labs的Marble也曾能从归拢个模子同期输出高斯溅射和碰撞网格,消解了渲染器和模拟器之间的规模。每一个层面都在从被迫输出走向交互式系统:渲染器驱动吸收动作输入,模拟器产出的寰宇越来越可控可剪辑,规划器松弛单响应走向三想此后行。逻辑止境是一个统一的寰宇模子:一个基础模子,能渲染像片级传神的视角,生成物理精确的结构,规划动作序列,凭证下贱需要在输出模式之间切换。 咱们面前仍有一系列令东说念主生畏的挑战。数据图景极不平衡:渲染器浸泡在互联网视频的海洋中,模拟器和规划器濒临三维财富和机器东说念主演示数据的严重缺少。优化视觉好意思感可能罢休机器东说念主或高精度模拟所需的精确性。在一个架构内统一这些矛盾,是今天寰宇模子连络中最中枢的绽放问题,亦然World Labs在接续演进Marble的历程中决心去作念的事。然而主见是清亮的。自1980年代末以来,这个领域一直在押归拢个赌注:一个饱胀丰富的寰宇模子,便是任何智能体去看寰宇、构建寰宇、谢寰宇中活动所需的全部。这个赌注如今正驱动着整整一代连络。赋予这一赌珍惜量的,是正在发生的会通:三条各自也曾鼓舞和塑造了数十亿好意思元产业的手艺阶梯,着手以寥寂连络面貌起步,面前驱动闪现得像一个全体。跟着它们之间的规模消融,它们将重塑一个更大的东西:机器智能与其所栖居的物理寰宇之间的关系,也便是空间智能的长弧。话语赋予了机器磋商寰宇的景色。寰宇模子,是机器终于驱动意会、想象、推理这个寰宇,并在其中与之互动的景色。