EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations
本文提出了首个面向真实世界第一人称视角噪声观测的轨迹预测基准 EgoTraj-Bench,并设计了结合双流去噪与 EgoAnchor 机制的 BiFlow 模型,显著提升了机器人导航在感知受限环境下的轨迹预测鲁棒性与精度。
6941 篇论文
本文提出了首个面向真实世界第一人称视角噪声观测的轨迹预测基准 EgoTraj-Bench,并设计了结合双流去噪与 EgoAnchor 机制的 BiFlow 模型,显著提升了机器人导航在感知受限环境下的轨迹预测鲁棒性与精度。
本文提出了 Graph2Eval,一种基于知识图谱的自动多模态任务生成框架,通过结构化子图采样与多阶段过滤机制,有效解决了现有方法中任务语义不一致和不可解的问题,并构建了包含 1319 个任务的 Graph2Eval-Bench 基准数据集以全面评估智能体性能。
本文介绍了由临床医生共同设计的 SpineMed 生态系统,其包含首个面向椎体级推理的大规模指令数据集 SpineMed-450k 及临床评估基准 SpineBench,旨在解决脊柱疾病诊断中多模态影像与特定椎体级别推理的缺失问题,并显著提升了大模型在脊柱病理评估与手术规划中的临床实用性。
MachaGrasp 提出了一种基于形态感知和特征主成分(eigengrasp)的端到端框架,通过从手部形态描述中提取嵌入并预测低维关节系数,实现了跨不同灵巧手形态的泛化抓取生成,在仿真和真实世界实验中均取得了高成功率。
本文提出了“图即记忆”微调(GMT)新范式,通过将局部图结构编码为显式记忆令牌并利用跨注意力机制注入大语言模型,克服了传统前缀拼接方法的浅层交互局限,显著提升了知识图谱补全任务中的细粒度证据检索与推理能力。
本文提出了 OmniVideoBench,这是一个包含 1000 个高质量问答对和 13 种任务类型的大规模基准测试,旨在通过强调模态互补与逻辑一致性,全面评估多模态大语言模型在音视频协同理解方面的能力。
本文提出了首个无需 3D 归纳偏置或显式多视图几何概念的自监督新视角合成模型 XFactor,通过结合成对姿态估计与简单的输入输出增强方案,成功实现了姿态表示在不同场景间的可迁移性,从而确立了可迁移性作为衡量真正新视角合成能力的关键标准。
该论文指出,针对特定窄域的微调会在大型语言模型的激活中留下清晰可辨的偏差痕迹,通过分析这些激活差异不仅能有效推断微调内容,还揭示了此类窄域模型作为更广泛微调研究代理的局限性及潜在的安全风险。
本文提出了 CBF-RL 框架,通过在训练阶段将控制障碍函数(CBF)安全过滤机制内化到强化学习策略中,使智能体在无需运行时安全过滤器的情况下即可实现安全探索、快速收敛及在真实机器人上的鲁棒安全部署。
本文提出了 MSSR 框架,通过双智能体协作从专家模型中筛选最小充分信息集(MSS),有效解决了视觉语言模型在 3D 空间推理中因 2D 预训练局限和信息冗余导致的瓶颈,从而在多个基准测试中实现了最先进的性能。
本文提出了名为 SceneCOT 的新框架,通过引入 3D 场景中的接地思维链推理方法并构建了首个大规模数据集 SCENECOT-185K,有效解决了 3D 大语言模型在接地问答中的难题,实现了具有高度一致性的分步人类式场景推理。
本文提出了将薛定谔桥训练范式与 Mamba 架构相结合的 Schrödinger Bridge Mamba(SBM)模型,该模型仅需单步推理即可在联合去噪和去混响任务中超越现有强基线方法,同时保持适合流式处理的实时性。
本文提出了 Grasp Any Region (GAR) 框架,通过引入 RoI 对齐特征回放技术,使多模态大语言模型能够在保留全局上下文的同时实现任意区域的精准感知与多区域交互推理,并构建了 GAR-Bench 基准以验证其在复杂场景理解及视频任务中的卓越性能。
本文提出了首个针对动态移动设备环境中环境注入攻击的基准测试 GhostEI-Bench,通过在实际 Android 模拟器中注入对抗性 UI 元素并引入细粒度评估协议,揭示了当前视觉语言模型代理在感知和推理被篡改界面时存在严重脆弱性,从而为提升具身智能体的安全性提供了量化与缓解框架。
本文提出了 LLEMA 框架,通过结合大语言模型的领域知识、化学约束进化规则及基于记忆的优化机制,在满足多目标性能要求的同时高效发现化学合理且热力学稳定的新材料,显著提升了材料发现的命中率与帕累托前沿质量。
本文提出了名为 FMint-SDE 的多模态基础模型,该模型基于解码器 Transformer 架构,通过利用数值和文本模态学习通用误差校正方案,仅需训练一次即可实现对随机微分方程(SDE)的高效、高精度模拟,从而在分子动力学、金融等多个领域超越了传统求解器在精度与效率上的权衡。
本文提出了 FLoC,一种基于设施选址函数的无训练、模型无关的高效视觉令牌压缩框架,通过结合懒惰贪心算法在严格预算下快速筛选出最具代表性和多样性的令牌子集,显著提升了长视频理解模型的处理效率与性能。
本文提出了 CytoNet,这是一种基于 4000 多张组织切片中 10 个死后人脑的 100 万个无标签图像块训练的基础模型,能够通过自监督学习将复杂的细胞模式编码为具有解剖学意义的特征表示,从而实现对人脑皮层微结构的可扩展分析,并建立细胞架构与宏观功能组织之间的联系。
本文提出了名为 RefAgent 的多智能体大语言模型框架,通过规划、执行、测试及自我反思的协同机制实现了端到端的自动软件重构,实验表明其在提升代码质量、消除代码异味及重构成功率方面显著优于单智能体方法和传统工具。
该论文提出了一种名为 CoRPO 的新方法,通过引入正确性阈值截断基线来修正 GRPO 中因平均基线导致的错误优势高估问题,从而显著提升了大语言模型在强化学习中的泛化能力和跨领域推理表现。