杨立昆团队推出全新世界模型;LeWM架构精简高效;单GPU训练开启新可能。

在人工智能领域迈向通用智能的关键阶段,世界模型成为研究者关注的焦点。这种模型能够让智能系统在虚拟环境中预演未来行动,从而做出更合理的决策。杨立昆团队近期发布的LeWorldModel简称LeWM,代表了联合嵌入预测架构的一次重要优化。它以轻量化的设计,从原始像素数据出发,实现了端到端的稳定训练。

传统世界模型在构建过程中常常面临多种挑战。一些方法容易出现表示崩溃现象,即模型将不同输入映射到相似的特征空间,导致学习到的信息缺乏区分度。此外,超参数设置复杂,需要反复调试,耗费大量计算资源。还有部分方案依赖大型预训练视觉模型,使得整体计算负担加重,规划速度较慢。这些问题限制了世界模型在实际机器人控制等场景中的广泛应用。
LeWM通过简化架构有效缓解了上述难题。它仅包含编码器和预测器两个核心组件。编码器负责将彩色图像转化为简洁的核心特征,捕捉场景中的关键信息。预测器则根据当前特征和拟执行动作,预测下一步特征的变化。这种设计让模型专注于环境的核心规律,而非无关细节,从而提升了学习效率。

在训练目标方面,LeWM采用了两个科学合理的损失项。预测损失确保模型准确把握未来的特征演化,SIGReg正则化则促进特征分布的均匀性和多样性,避免模型陷入偷懒行为。这种组合从根本上解决了表示崩溃问题,无需依赖复杂的经验性技巧。同时,超参数数量大幅减少,只剩下一个有效可调参数,调试过程变得简单易行。
研究团队在多种经典控制任务上验证了LeWM的表现,包括二维导航、机械臂操作以及推方块等场景。在导航任务中,模型能够精准捕捉智能体的位置信息,尽管在某些简单环境中与传统方法略有差异,但后续分析表明这与正则化要求和环境维度适配相关,并非核心能力不足。在推方块任务里,LeWM的成功率显著优于部分端到端方法,甚至超越了融合额外本体感受信息的方案。这充分说明,它能从纯视觉输入中提取任务所需的关键规律。

规划效率是LeWM的突出优势之一。由于模型参数规模适中且特征表示简洁,其决策规划速度实现了大幅提升,在不同任务和环境下均保持稳定表现。训练过程也展现出良好的一致性,曲线平滑收敛,不同随机种子下的结果方差较小,可复现性得到明显改善。这与传统方法训练波动剧烈的特点形成鲜明对比。
更值得关注的是,LeWM所构建的模拟器并非简单记忆数据,而是真正理解了物理世界的运行逻辑。通过对核心特征的探测,可以提取出物体位置、角度和速度等物理量,精度表现突出。在惊讶度测试中,模型对违反物理规律的瞬移事件显示出明显反应,而对颜色变化等外观调整则相对平静。这表明它能够区分无关表象与本质规律,为未来智能系统的因果推理能力奠定基础。
总体来看,LeWM的出现为世界模型研究提供了新的思路。它以轻量高效的设计,降低了训练门槛,让更多研究者和开发者能够在有限资源下探索相关技术。未来,随着这类模型的不断完善,机器人和智能代理有望在复杂环境中展现更强的自主规划能力,推动人工智能向实用化方向稳步前进。


