发布日期:2026-04-22 02:20 点击次数:175


第一作家是来自南边科技大学的本科生周圣力,合营者包含北京大学博士生郑明航和南边科技大学副耕作、磋议员郑锋,通信作家为北京大学王选盘算推算机磋议所磋议员、助理耕作刘洋。
本文主要先容来自该团队的最新论文:Scalable Object Relation Encoding for Better 3D Spatial Reasoning in Large Language Models。
该论文提议了全新 3D 位置镶嵌方法 QuatRoPE,显赫改善大讲话模子 3D 空间推理中物体关系编码可膨胀性差、空间信息与几何特征交融过早,以及不同位置镶嵌机制互相关扰的核肉痛点。
该方法以四元数旋转为基础,在保证输入长度与场景物体数目为线性关系的同期,诈欺大模子的自矜重力机制显式盘算推算所有这个词物体两两之间的空间关系,规复三维场景布局,让大模子高效捕捉物体间相对空间关联。
该论文还提议了阻遏门控 RoPE 膨胀机制 IGRE,有用镌汰 QuatRoPE 与大模子原生讲话 RoPE 的干预,保留模子原有的讲话和会与推理能力;同期构建空间推理基准 ASR,尽可能舍弃接洽想法物体属性的教唆对臆测模子空间推理能力的干预,为模子纯 3D 空间推理能力提供更公说念、严谨的评估神色。
这套好意思满措置决策大幅升迁大模子 3D 空间和会与推理能力。
目下该磋议已被 CVPR 2026 崇拜吸收,相关代码与模子已开源。

破碎编码窘境:3D 空间推理的两大核肉痛点
空间推理是具身智能体发展的关节能力,亦然措置 3D 视觉讲话(3D VL)任务(如 3D 视觉定位、3D 视觉问答)的基础,其中枢是基于 3D 场景中物体的空间关系信赖想法物体。达成精确的 3D 空间推理,前提是有用编码和盘算推算物体间的空间关系。
受限于 3D 场景 - 讲话配对数据的稀缺性,从新磨砺具备强空间推理能力的模子难度很大,因此一些现存磋议选用将 3D 场景表征注入大讲话模子(LLM),借助其在预磨砺中赢得的和会和推理能力完成 3D 空间推理。但面前的物体关系编码神色仍存在两大痛点,制约模子性能:
统统位置镶嵌的和会清贫:此前一些使命将物体 3D 坐标看成特征的一部分交融后提供给大讲话模子用于推理。由于 3D 坐标系的原点和坐标轴场地无实质物理界说,统统坐标本人不具备固有语义,让模子通过 3D 坐标和会物体之间的位置关系难度大;同期过早的特征交融让模子难以从交融后的特征中索要空间位置信息并盘算推算物体间的相对位置关系。
显式关系编码的可膨胀性残障:径直将场景内两两物体间的空间关系编码为输入 token 的神色,会让输入序列长度随物体数目呈二次方增长,容易超出大模子的输入长度上限(如 InteriorGS 数据集单场景平均超 554 个物体,采纳 token 三元组编码关系则会有近 46 万个 token)。若采纳 KNN 等剪枝计策仅保留部分空间关系,则可能因遗漏措置任务的关节关系导致推理失误。
此外,现存 3D VL 数据集无法准确评估模子的空间推理能力:在这些数据累积,3D VL 任务的讲话形色常出现存关想法物体属性(如类别、神思、时局等)的形色,因此模子可能通过识别非空间特征完成任务,无法实在反馈其空间推理能力。
针对这些问题,本文提议了包含 QuatRoPE 位置镶嵌、IGRE 阻遏机制、ASR 基准测试的好意思满措置决策,为大模子的 3D 空间推理能力升级提供了全新范式。
中枢革命:QuatRoPE+IGRE,达成高效可膨胀的 3D 空间编码
为措置现存编码神色的残障,磋议团队提议 QuatRoPE(四元数旋转位置镶嵌),在保证输入长度与物体数目线性相关的同期,通过矜重力层点积显式盘算推算所有这个词物体间的成对空间关系;并遐想 IGRE(阻遏门控 RoPE 膨胀机制),有用减少 QuatRoPE 与大模子原有讲话 RoPE 的干预,最猛进度保留模子的原生能力。
二者勾通,让大模子既能精确捕捉 3D 空间关系,又能保证编码的可膨胀性和模子的兼容性。
QuatRoPE:基于四元数旋转的三维空间位置镶嵌
QuatRoPE 的中枢念念路是为所有这个词物体相关 token 注入显式统统位置镶嵌,再借助 Transformer 的矜重力机制,在盘算推算矜重力分数的点积历程中将统统位置滚动为相对位置,从而使用 O (n) 个输入 token 承载 O (n²) 个空间关系,既幸免剪枝罅隙,又保证编码可膨胀性。其中枢遐想亮点体当今两方面:
四元数旋转的数学遐想:将查询和键向量分为三维片断后暗意为纯四元数并基于物体 3D 坐标对其进行四元数旋转。通过构建特定的旋转数学公式,让两个旋转后向量的点积(矜重力分数)仅与它们在 3D 场景中的相对位置接洽(与原始坐标无关),为大模子高效提供所有这个词物体两两之间的空间关系。
3D 坐标的举座向量编码:与将各轴坐标落寞编码的神色(如 M-RoPE)不同,QuatRoPE 将物体 3D 坐标编码为举座向量,幸免了当某个坐标轴上的坐标差较小时矜重力分数虚高的「伪善隔邻」问题。举例不才方左图中,床和沙发之间由于在横轴上(绿色线段部分)的坐标差较小,M-RoPE 会失误地增大二者之间的矜重力分数,导致模子误觉得床与沙发距离很近。而在 QuatRoPE 中(如下方右图所示),通过将物体坐标看成一个举座进行编码,不错更有用地表征 3D 场景的空间布局。

图 1 「伪善隔邻」问题(左图)与 QuatRoPE 的措置决策(右图)
此外,QuatRoPE 的矜重力分数遐想更合乎东说念主类领路的关系准则:空间上相近的物体,其 QuatRoPE 镶嵌更相通,点积后得到的矜重力分数更大,让模子能更好地和会当然讲话中对物体空间关系的隐式指代(如「门左边的窗户」默许指距离门最近的窗户)。
IGRE:阻遏门控机制,缓解多 RoPE 干预
大模子原生的讲话 RoPE 与新引入的 QuatRoPE 若径直勾通,开云体育官方网站会因二者同期旋转查询和键向量产生互相关扰,既影响文本位置感知,也放肆 3D 空间关系编码;同期,非物体 token(如教唆词、问题词)本无 3D 坐标,若未非凡处理,会被默许定位在坐标原点,导致模子失误关怀其与原点周边物体的关系。
针对上述问题,IGRE 通过两个遐想达成了 QuatRoPE 与讲话 RoPE 的有用阻遏:
维度阻遏:为物体相关 token 膨胀 QuatRoPE 专属维度,对非物体 token 则进行零填充对皆维度数目,让 QuatRoPE 的旋转仅作用于物体 token 的专属维度,与讲话 RoPE 的作用维度分离,从而有用减少干预。
门控退换:仅当两个物体 token 交互时,才通过点积诊疗矜重力分数以反馈相对位置;当非物体 token 参与交互时,零填充维度让这些维度的元素乘积为 0,矜重力分数保抓不变,使 QuatRoPE 的影响被严格截至在物体相关 token 范围内,保留大模子原有的讲话和会和推理能力。
全新基准:ASR,精确评估纯空间推理能力
为措置现存基准无法单独评估空间推理能力的问题,磋议团队构建了 ASR(无属性空间推理)基准,通过幸免物体属性对评估空间推理能力的干预,达成对模子 3D 空间推理能力的公说念、严谨评估。
ASR 基准的构建分为三个中枢法子:

图 2 ASR 基准的问题筛选及改写历程
样本筛选:从 ScanQA 数据累积录取谜底唯独、接头物体称呼的 3D VQA 问题,保证任务的空间推理导向;
属性过滤:剔除所有这个词包含想法物体属性(类别、神思、时局等)的问题,强制模子仅能通过空间关系推理得出谜底;
款式波折:将筛选后的问题滚动为 3D 视觉定位款式,让模子仅需在场景物体中作念单选题,弱化不同模子讲话生成能力各异对评估的影响。
通过这一系列遐想,ASR 不错看成成心评估大模子纯 3D 空间推理能力的会诊性基准,为相关磋议的性能对比提供了结伙、可靠的依次。
现实考证:中枢能力显赫升迁
本文开展了多维度现实,以 Chat-Scene、3DGraphLLM为基础基线模子,在经典 3D VL 基准(ScanRefer、Multi3DRef、SQA3D)和自研 ASR 基准上考证 QuatRoPE+IGRE 的有用性,同期通过消融现实考证各模块的中枢孝顺,现实收尾充分评释了方法的优厚性。
在现存数据集上,将 QuatRoPE+IGRE 应用于不同边界的基线模子后,各项评估方针均显赫升迁(详见表 1),且在对空间推理条件更高的 3D 视觉定位任务中升迁更为显赫:如 Chat-Scene-1B 模子在使用 QuatRoPE 后,ScanRefer 的 Acc@0.25 从 50.7 升迁至 55.4,Multi3DRef 的 F1@0.25 从 53.3 升迁至 58.1。

在 ASR 无属性空间推理基准的零样本推理现实中,加入 QuatRoPE 的模子在不同基线、不同边界下均达成显赫增益,考证了方法对模子纯空间推理能力的升迁后果:如 Chat-Scene-1B 模子的 Acc@0.25 从 22.92 升迁至 27.38,相对增益达 19.48%;3DGraphLLM-1B 模子的 Acc@0.25 从 25.89 升迁至 29.76,相对增益达 14.94%。
显赫改善「伪善隔邻」问题:关于 ScanRefer 数据累积仅波及两个物体之间空间关系的问题,本文笔据 x、y 轴坐标差的比例对数据集进行细分,并臆测不同比值上限 δ 下模子准确率的升迁情况(如表 2 所示)。现实收尾标明当「伪善隔邻」问题越严重时(即 δ 越小时),使用 QuatRoPE 后的增益越大,评释 QuatRoPE 通过将位置以好意思满向量的神色镶嵌不错有用改善「伪善隔邻」问题。

表 2 基于 ScanRefer 考证 QuatRoPE 措置「伪善隔邻」问题的现实收尾
定性收尾:精确捕捉隐式空间关系,贴合东说念主类领路
在 ScanRefer 数据集的定性案例中,加入 QuatRoPE 的模子能精确定位合乎当然讲话隐式空间形色的想法物体,而基线模子常出现定位失误。举例关于下图的 (c) 组对比,关于文本中「机器右侧的门」这一表述,基线模子无法辩认距离机器遐迩的两扇门,而 QuatRoPE 能笔据矜重力分数聚焦更近的门,更合乎东说念主类对「足下」「左侧」等词汇的隐式和会。

图 3 部分定性现实收尾
归来:3D 大模子空间推理的全新基石
QuatRoPE 是一种面向 3D 大模子的高效可膨胀位置镶嵌方法,通过四元数旋转将统统 3D 坐标滚动为矜重力层的相对空间关系,勾通举座向量编码达成了精确的空间布局表征;IGRE 阻遏门控机制则措置了多 RoPE 的干预问题,保证了方法与现存大模子的兼容性;同期构建的 ASR 基准,丰富了纯 3D 空间推理评估体系。
现实收尾标明,QuatRoPE+IGRE 在多个 3D VL 主流基准和 ASR 专属基准上达成大幅升迁,能有用为大模子提供 3D 空间关系陈迹,显赫增强其空间推理能力。
该磋议不仅为 3D 大模子的位置镶嵌提供了全新决策kaiyun sports,也为智能具身 agent、3D 视觉问答等依赖空间推理的下流任务提供了可行手艺旅途,股东大模子更好地和会 3D 物理天下。
HJC黄金城官方首页入口
Copyright © 1998-2026 开云体育官方网站 - KAIYUN™版权所有
技术支持:®开云体育 RSS地图 HTML地图