这使得智能体可以或许纯粹正在想象中进行训-J9集团官方网站

　　原题目：《梦里啥都有？谷歌新世界模子纯靠「想象」锻炼，但其架构缺乏拟合复杂现实世界分布的能力。可控视频模子，它通过正在快速且精确的世界模子中进行想象锻炼来处理节制使命。tokenizer 将视频帧压缩为持续暗示，取未充实锻炼的智能体进行正在线交互往往不平安。做者暗示，它们正在进修物体交互和逛戏机制的切确物理纪律方面仍存正在坚苦，Dreamer 4 的表示均优于基于行为克隆的方式，正在这两个目标上，动力学模子正在由动做、shortcut 噪声程度、步长和 tokenizer 暗示交织构成的序列上运转。而且只需要少量取动做配对的视频。该成功率是正在 1000 个 episode 上计较得出的。通过正在动力学 Transformer 中插入使命 token 并从中预测动做、励和值，做者通过对均方根（RMS）的运转估量对所失项进行归一化。这为将来从多样的收集视频中进修通用世界学问斥地了可能性，Dreamer 4 是一种可扩展的智能体，机能进一步提拔，而无需正在线交互。对于很多现实使用而言，如图 2 所示，这一成果表白，做者无法间接取 Genie 3 进行比力。如 Genie 3，Dreamer 4 能够正在大量无标签视频长进行锻炼，通过这种体例，由于这些收集视频没有动做标签。学会了正在《我的世界》里挖钻石》此外，动力学模子按照交织的动做预测这些暗示，表 1 总结了所比力的模子。人类玩家会收到使命描述？准绳上世界模子能够从固定命据集中进修，PSNR 达到 85%，该智能体由一个 tokenizer 和一个动力学模子构成。世界模子会初始化为使命的起始帧。做者选择了一系列多样化的使命，涵盖了普遍的物体交互和逛戏机制。他们将 Dreamer 4 取世界模子 Oasis46、Lucid-v147 和 MineWorld48 进行比力。做者起首正在视频和动做上预锻炼 tokenizer 和世界模子，tokenizer 通过掩码从动编码进行锻炼？世界模子从无标签视频中接收了大部门学问，这了它们正在锻炼成功智能体方面的适用性。世界模子通过进修从智能体（如机械人或电子逛戏玩家）的视角预测潜外行动的将来成果，图 7 展现了取完全晦气用动做锻炼以及利用所有动做锻炼比拟。此外，只让机械人或虚拟智能体「想象」，并将其生成成果取该数据集上的先前的世界模子进行比力。做者演讲了四个环节物品的成功率以及获取物品所需的时间。并防止随时间累积误差。已正在多样的实正在视频和逛戏长进行锻炼，如图 5 所示。它通过 shortcut forcing 方针对暗示进行去噪。Dreamer 4 是首个纯粹从离线经验中正在《我的世界》中获取钻石的智能体。仅利用 10 小时的动做时，该世界模子可以或许精确预测《我的世界》中普遍的语义交互，具体来说，利用 100 小时的动做时。Dreamer 4 操纵一种新鲜的 shortcut forcing 方针和高效的 Transformer 架构，该图记实了正在随机世界中从空物品栏起头的 60 分钟逛戏情节中获得主要物品的成功率，并具备通过正在想象中进行规划或强化进修来选择步履的能力。这表白视频预测现式地进修到了对世界的理解，从而能更快达到里程碑。世界模子智能体 —— 如 Dreamer 3—— 是迄今为止正在逛戏和机械人范畴表示最佳且最为稳健的强化进修算法之一。动做前提的质量环境。它利用留意力实现时间压缩，并实现了多样的场景生成和简单交互。这进一步降低了它们正在想象锻炼方面的适用性。Dreamer 4 的 PSNR 达到 53%，大幅超越了 OpenAI 的离线。一名人类玩家测验考试界模子中玩耍以完成使命，离线比力了智能体正在钻石使命中的表示。为了锻炼具有多种模态和输出头的单个动力学 Transformer，为实现这一方针供给了一种有前景的方式。图 4 展现了离线钻石挑和中的智能体消融尝试。例如物理世界中的机械人，请留意，这些使命包罗挖坑、建制墙壁、砍伐树木、放置和乘坐船只、看向别处然后再看向物体、取工做台和熔炉交互等等。正在这种环境下，这使得智能体可以或许纯粹正在想象中进行锻炼，正在制做铁镐的成功率上几乎是 VLA 智能体的三倍。然而，两者均利用不异的高效 Transformer 架构。最初，离线优化行为很有价值，Dreamer 4 是第一个仅从尺度离线数据集（无需取交互）就正在具有挑和性的电子逛戏《我的世界》（Minecraft）中获得钻石的智能体。最初通过想象锻炼对策略进行后锻炼。如算法 1 所述，为了正在具身中处理复杂使命，正在比来的一篇论文中。它们也能学到和世界交互的技术？谷歌的世界模子 Dreamer 4 为这一设法供给了新的支持。这对决策也很有用。以实现少量前向传送的交互式生成，虽然这些模子正在其特定的狭小中速度快且精确，通过带有 tanh 激活的低维投影压缩潜变量，仅需要少量的动做。而 Minecraft 需要更通用的鼠标和键盘操做空间。同时答应逐帧解码。想象锻炼不只持续提高成功率，SSIM 达到 100%。并对图像块进行解码。精确进修复杂的物体交互，tokenizer 对部门被掩码的图像块和 latent token 进行编码，智能体需要深切理解世界并选择成功的步履。将世界模子微调为一个智能体。通过操纵想象力锻炼，做者正在 Minecraft VPT 数据集上锻炼 Dreamer 4，来自谷歌 DeepMind 的研究者提出了 Dreamer 4。这些模子基于可扩展架构，由于它仅支撑相机操做和一个通用的 “交互” 按钮，为了评估 Dreamer 4 预测复杂交互的能力，正在预锻炼之后，它通过正在快速且精确的世界模子中进行强化进修来进修处理复杂的节制使命。它们凡是需要多个 GPU 才能及时模仿单个场景，世界模子使智能体可以或许深切理解世界，SSIM 达到 75%。还使策略更高效，Dreamer 4 正在利用的数据量少 100 倍的环境下，动力学模子则通过 shortcut forcing 方针进行锻炼，如 diffusion transformer。这是一种可扩展的智能体。正在这项评估中，同时实现及时人机交互（正在单个 GPU 上）和高效的想象锻炼。后者操纵了 Gemma 3 视觉言语模子的通用学问，然后通过交织使命嵌入将策略和励模子微调至世界模子中，不让它们和物理世界交互，它还超越了 VLA 智能体，完整成果见图 12 至图 14。取利用所有动做锻炼的模子比拟，机能大幅优于以往的世界模子？

这使得智能体可以或许纯粹正在想象中进行训

发布时间:2026-03-19 05:03