开云体育官方网站破解RL样本效用纳闷！让AI一次性提真金不怕火环境知识，后续零调用本钱

发布日期：2026-03-02 11:29 点击次数：136

在经典 RL 进程里，智能体只消在撞了南墙、遍历海量情景后，才能徐徐学到怎么完成任务，样本效用极低。昔时也有东谈主引入大模子领导，但频繁每换一个任务就得从头写 prompt、再调一次 API，既贵又难迁徙。

来自南京大学章宗长俞扬团队和腾讯叶德珩团队的霸术者们提神到，GPT 这类大模子还是内化了大宗日常知识，若是能一次性让它转头出"在这个环境下遍及有用的举止准则"，那么后续所有这个词任务皆不错分享归拢份知识，省去反复调用。

布景知识是怎么"真金不怕火"出来的？

什么是"环境布景知识"？平方来说，等于对所有这个词这个词环境有用的知识，而不局限于某个具体任务。

举例在迷宫类环境中"不要碰墙壁，绕开隔断物"，在生涯游戏中"优先捡取食品保抓存活"等教化，皆属于对该环境通用有利的知识。有了这些知识，智能体在践诺任何特定任务时皆能更灵验率地探索。

霸术者用 RND 算法在环境里进行赶紧探索和学习，银河国际游戏平台官网把看到的情景、四肢皆存下来当"原料"。这些轨迹不带任何任务标签，保证提真金不怕火出的知识弥散通用。接下来把轨迹姿首交给 GPT，让它赞理点评："哪些举止更像是合理、机灵的？" 具体有三种提真金不怕火套路，辩认对应三条本事道路（论文称BK-CODE、BK-PREF、BK-GOAL）。

{jz:field.toptypename/}

BK-CODE 让大模子径直写 Python 奖励函数，霸术者迭代动手、再把为止反应给 GPT-4 纠正，直到输出一段能厚实评价"好情景"与"坏情景"的代码。

BK-PREF把两段轨迹丢给 GPT-4 作念"二选一"，随后用基于 Bradley – Terry 模子的偏勤学习瑕疵把这些偏好信息转念为奖励信号。

BK-GOAL 请 GPT-4 说明轨迹列出可能的子主义（如"合成木镐"、"销毁熔岩"），并在历练时设想面前情景与这些主义的一样度。

三条道路的共同点是：终末皆会得到一个势函数 [ 数学公式 ] ，开云体育官方网站历练时稀疏加上形如 [ 数学公式 ] 的潜在奖励。说明经典表面，这么作念不会更动原任务最优战术，而合理的势函数遴荐却能起到加速守护的为止。终末，作家基于经典的 PPO 瑕疵，不才游任务上加入奖励重塑（reward shaping）进行 RL 历练。

为止到底有多快？

论文在Minigrid和Crafter两个不同类型环境中进行了大宗实验，考据了引入布景知识的奖励塑形对样本效用的栽培为止。

在 Minigrid 的四个任务中（包括有的新主义物体类型和姿首是知识索要时未出现过的），三种变体均全面高出了现存的探索增强基线瑕疵和基于谈话的探索瑕疵（如 RND、NovelD 等）。即使关于 LLM 从未"见过"的新任务类型，应用布景知识的智能体依然展现出彰着上风，评释注解索要的知识确乎具有任务无关性，不错泛化到新的主义。更难能贵重的是，提真金不怕火布景知识只需一次 LLM 调用，后续历练零 LLM 调用本钱。