发布日期:2026-03-02 11:29 点击次数:132

在经典 RL 进程里,智能体只消在撞了南墙、遍历海量情景后,才能徐徐学到怎么完成任务,样本效用极低。昔时也有东谈主引入大模子领导,但频繁每换一个任务就得从头写 prompt、再调一次 API,既贵又难迁徙。
来自南京大学章宗长俞扬团队和腾讯叶德珩团队的霸术者们提神到,GPT 这类大模子还是内化了大宗日常知识,若是能一次性让它转头出"在这个环境下遍及有用的举止准则",那么后续所有这个词任务皆不错分享归拢份知识,省去反复调用。

布景知识是怎么"真金不怕火"出来的?
什么是"环境布景知识"? 平方来说,等于对所有这个词这个词环境有用的知识,而不局限于某个具体任务。
举例在迷宫类环境中"不要碰墙壁,绕开隔断物",在生涯游戏中"优先捡取食品保抓存活"等教化,皆属于对该环境通用有利的知识。有了这些知识,智能体在践诺任何特定任务时皆能更灵验率地探索。

霸术者用 RND 算法在环境里进行赶紧探索和学习,j9game把看到的情景、四肢皆存下来当"原料"。这些轨迹不带任何任务标签,保证提真金不怕火出的知识弥散通用。接下来把轨迹姿首交给 GPT,让它赞理点评:"哪些举止更像是合理、机灵的?" 具体有三种提真金不怕火套路,辩认对应三条本事道路(论文称BK-CODE、BK-PREF、BK-GOAL)。
{jz:field.toptypename/}BK-CODE 让大模子径直写 Python 奖励函数,霸术者迭代动手、再把为止反应给 GPT-4 纠正,直到输出一段能厚实评价"好情景"与"坏情景"的代码。
BK-PREF把两段轨迹丢给 GPT-4 作念"二选一",随后用基于 Bradley – Terry 模子的偏勤学习瑕疵把这些偏好信息转念为奖励信号。
BK-GOAL 请 GPT-4 说明轨迹列出可能的子主义(如"合成木镐"、"销毁熔岩"),并在历练时设想面前情景与这些主义的一样度。

三条道路的共同点是:终末皆会得到一个势函数 [ 数学公式 ] ,开云体育官方网站历练时稀疏加上形如 [ 数学公式 ] 的潜在奖励。说明经典表面,这么作念不会更动原任务最优战术,而合理的势函数遴荐却能起到加速守护的为止。终末,作家基于经典的 PPO 瑕疵,不才游任务上加入奖励重塑(reward shaping)进行 RL 历练。
为止到底有多快?
论文在Minigrid和Crafter两个不同类型环境中进行了大宗实验,考据了引入布景知识的奖励塑形对样本效用的栽培为止。

在 Minigrid 的四个任务中(包括有的新主义物体类型和姿首是知识索要时未出现过的),三种变体均全面高出了现存的探索增强基线瑕疵和基于谈话的探索瑕疵(如 RND、NovelD 等)。即使关于 LLM 从未"见过"的新任务类型,应用布景知识的智能体依然展现出彰着上风,评释注解索要的知识确乎具有任务无关性,不错泛化到新的主义。更难能贵重的是,提真金不怕火布景知识只需一次 LLM 调用,后续历练零 LLM 调用本钱。

更令东谈主惊喜的是,布景知识对新任务和更大范围环境的泛化才气也得到了考据。作家让智能体在 Minigrid 中只节约单的" Goto "类任务索要知识(即导航去找单一主义物品),然后测试在愈加复杂的新任务上,举例需要按规则找两个主义(Goto-seq)或找到主义后践诺拾起四肢(Pickup)。
为止浮现,无需从头调用 LLM,之前提真金不怕火的知识径直用于这些新任务,依然大幅栽培了学习效用:比较之下,原有基线在这些更难任务上实在学不到任何东西,而有布景知识加抓的智能体很快学会了惩办任务。

另外,当将 Minigrid 的舆图范围从 20 × 20 扩大到 30 × 30 时,含布景知识的智能体依旧保抓了高采样效用,而基线瑕疵的性能跟着舆图变大急剧下落。这评释事先得回的环境知识具有素雅的可扩张性,能匡助智能体搪塞更复杂、更大的环境。

论文贯穿:https://arxiv.org/abs/2407.03964
样子代码:https://github.com/mansicer/background-knowledge-rl
一键三连「点赞」「转发」「提神心」
接待在指摘区留住你的思法!
— 完 —

� � 点亮星标 � �
科技前沿知道逐日见
Copyright © 1998-2026 开云体育官方网站 - KAIYUN™版权所有
技术支持:®开云体育 RSS地图 HTML地图