Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments
该论文针对连续环境视觉语言导航任务中监督信号稀疏及错误累积问题,提出了步感知的对比对齐(SACA)框架,通过基于感知的逐步审计机制从不完美的轨迹中提取密集监督信号,并结合场景条件分组策略实现动态优化,从而在基准测试中取得了最先进的性能。
6073 篇论文
该论文针对连续环境视觉语言导航任务中监督信号稀疏及错误累积问题,提出了步感知的对比对齐(SACA)框架,通过基于感知的逐步审计机制从不完美的轨迹中提取密集监督信号,并结合场景条件分组策略实现动态优化,从而在基准测试中取得了最先进的性能。
本文提出了名为 ENIGMA-360 的新数据集,该数据集在真实工业场景中采集了 180 组时间同步的 360 度第一人称与第三人称视频及标注,旨在填补工业领域人机行为理解数据的空白,并通过基线实验展示了现有模型在此类复杂场景下的局限性。
本文提出了语言感知规划(LAP)模型,该模型利用微调后的视觉语言模型将视觉观测转化为更具区分性的文本嵌入,并通过扩散模型生成动作序列,在多个程序规划基准测试中显著超越了现有最先进方法。
本文提出了一种受毛毛虫启发的弹簧基压缩连续体机器人,该机器人通过腱驱动实现弯曲与轴向伸缩的耦合运动,并集成人工刚毛接触传感器,从而为商业机械臂提供了一种低成本、高适应性的受限空间探索与表面感知解决方案。
该论文研究了网格上两条路径的无自交同时几何嵌入问题,证明了最小化最长边长度是 NP 难的,并提出了当一条路径为 x 单调、另一条为 y 单调时,可在 时间内最小化包含该嵌入的整数网格周长的算法。
该论文主张商业电子游戏是连接人机交互与认知科学的独特研究环境,通过利用游戏固有的认知需求与动机特性,结合屏幕录制、眼动追踪等最小化观测工具,为在生态效度更高的自然情境下系统研究感知、注意及执行功能提供了新的方法论框架。
本文提出了一种神经符号生成代理,通过链式思维推理和量纲分析自主识别并修正科学文献中的隐含物理假设(如将非排水条件误判为排水条件),从而在热压致裂等模拟中避免物理幻觉,实现了对物理机制的自主补全与验证。
LogoDiffuser 是一种无需训练的基于多模态扩散变换器的方法,它通过将目标字符作为图像输入并利用字母感知注意力控制机制,实现了能够保持字符结构且支持多语言的高质量 Logo 生成与风格化。
本文提出了 MuxGel,一种通过棋盘格涂层实现空间复用并结合基于 U-Net 的深度学习重建框架,从而在单一 GelSight 风格传感器中同时获取高分辨率外部视觉与接触触觉信息的双模态感知系统。
该论文通过理论证明与实证研究揭示了后门攻击中“替代触发器”的必然存在性,指出仅移除训练触发器无法彻底清除后门,并主张防御策略应从输入空间转向针对特征空间后门方向的治理。
该论文提出了一种基于密度梯度的投影方法,通过利用局部密度梯度信息在结构边缘处选择性地施加强投影,有效解决了变厚度拓扑优化中结构边缘模糊及低厚度区域难以制造的问题,在显著恢复边缘清晰度的同时几乎不影响结构的最终柔度。
本文提出了名为 CLIOPATRA 的首个针对“隐私保护”LLM 洞察系统(如 Anthropic 的 Clio)的攻击方法,证明即使采用多重启发式防护,攻击者仍能通过精心设计的恶意对话成功窃取目标用户的敏感医疗历史,且现有审计机制无法有效检测此类泄露。
本文提出了名为 TIMID 的新架构,旨在通过结合视频与任务提示,利用弱监督学习检测机器人执行高难度任务时出现的复杂时间依赖性错误,并借助多机器人仿真数据集解决了错误执行数据稀缺及零样本仿真到现实评估的难题。
本文提出了测试时自视 - 他视适应(TE²A³)任务,并设计了通过多标签原型生长和双线索一致性机制来在线调整模型以应对多动作候选及跨视角时空差异的 DCPGN 方法,在 EgoMe-anti 和 EgoExoLearn 基准上显著优于现有最先进方法。
本文通过构建统一框架,系统比较了旨在支持 GQL 标准修订的 PG-Keys 语言与图函数依赖(GFD)、图生成依赖(GGD)的表达能力,确立了包含严格分层关系的完整表达力层级,并精确定位了 PG-Keys 在现有属性图约束形式化方法中的独特优势。
该论文提出了细粒度的区域感知声源理解(RA-SSU)新任务,构建了包含音乐和生活场景的细粒度数据集(f-Music 和 f-Lifescene),并设计了具备掩码协同与混合专家提示机制的 SSUFormer 模型,实现了帧级声源分割与描述的最先进性能。
ConfCtrl 提出了一种置信度感知的视频插值框架,通过结合置信度加权投影点云潜变量与卡尔曼启发式的预测 - 更新机制,使扩散模型在大视角变化下既能遵循指定相机姿态,又能有效重建未见区域,从而生成几何一致且视觉合理的 novel view。
本文提出了 EmoSURA 评估框架,通过将情感语音描述分解为原子感知单元并结合音频验证机制,有效解决了传统指标和 LLM 在长文本情感语音字幕评估中的语义捕捉不足与推理不一致问题,并配套推出了标准化基准 SURABench 以提升评估的准确性与可靠性。
本文提出了 BrainSTR 框架,通过结合自适应相位划分、注意力机制及时空监督对比学习,实现了可解释的动态脑网络建模,能够精准识别精神疾病诊断中的关键时间相位与亚网络特征。
该论文提出了 VLM-Loc 框架,利用大视觉语言模型的空间推理能力,通过将点云转换为鸟瞰图与场景图并结合部分节点分配机制,实现了从自然语言描述到 3D 点云地图的精准定位,并发布了 CityLoc 基准数据集以验证其优越性能。