Long-Short Term Agents for Pure-Vision Bronchoscopy Robotic Autonomy
该论文提出了一种仅依赖视觉的自主支气管镜导航框架,通过长短期智能体协同与世界模型批判机制,在无外部追踪传感器的情况下实现了高精度的机器人自主导航,并在体内外实验中验证了其达到专家水平的可行性。
4955 篇论文
该论文提出了一种仅依赖视觉的自主支气管镜导航框架,通过长短期智能体协同与世界模型批判机制,在无外部追踪传感器的情况下实现了高精度的机器人自主导航,并在体内外实验中验证了其达到专家水平的可行性。
本文提出了 Ares 框架,通过轻量级路由器为多步代理任务中的每个步骤动态选择最低所需的推理强度,在显著降低推理成本(最高减少 52.7% 的推理 token 使用)的同时保持了任务成功率。
本文针对关系数据库中实体分类任务存在的类别不平衡问题,提出了关系中心的小样本合成过采样图神经网络模型 Rel-MOSS,通过设计关系门控控制器和关系引导合成器来增强少数类信息表达与一致性,显著提升了模型在平衡准确率和几何平均数上的性能。
本文提出了 IMSE 方法,通过仅微调预训练视觉 Transformer 线性层的奇异值(即谱专家)并引入基于专家输入对齐的多样性最大化损失以解决特征坍塌问题,结合域感知谱码检索机制,在显著减少可训练参数量的同时实现了测试时适应及持续测试时适应任务中的最先进性能。
本文提出了 SWE-Fuse 框架,通过融合无问题轨迹学习与熵感知 RLVR 训练,有效解决了真实软件问题中描述与解决方案不匹配导致的噪声干扰,在 SWE-bench Verified 基准测试中显著提升了大语言模型智能体的代码修复成功率。
本文提出以基于大语言模型和深度学习的智能人机协作代理系统(如中科院高能物理所的 Dr. Sai 系统)作为科学研究的下一代范式,旨在解决数据规模超越传统分析能力的危机,通过扩展人类认知边界来推动粒子物理乃至整个数据驱动科学领域的革命性发展。
该论文针对现有大语言模型在生成受重大社会事件影响的人类轨迹时难以平衡习惯模式与事件约束的局限,构建了首个事件标注移动数据集,并提出了基于模糊痕迹理论的自对齐大语言模型框架 ELLMob,通过提取并迭代对齐竞争推理来生成兼具习惯基础与事件响应性的轨迹,实验表明其性能优于现有最先进方法。
本文提出了一种名为 PSTNet 的轻量级物理结构化网络,通过将湍流物理定律直接嵌入架构(如 Monin-Obukhov 理论和 Kolmogorov 输出层),在仅含 552 个参数且资源受限的机载微控制器上实现了比传统方法更准确、可解释且高效的实时大气湍流强度估计。
本文提出了名为 EvoStage 的新型进化范式,通过将算法设计分解为多阶段并结合多智能体与全局 - 局部视角机制,有效解决了大语言模型在自动化算法设计中的幻觉问题,并在芯片布局等工业场景中实现了超越人类专家及现有方法的性能突破。
该论文提出了 HILA 框架,通过引入包含成本感知奖励的 GRPO 内循环与将专家反馈转化为监督信号的外循环持续学习机制,使多智能体系统能够学习元认知策略以动态决定自主解决或向人类专家求助,从而突破静态知识限制并实现持续进化的协作能力。
本文提出了 VORL-EXPLORE 框架,通过引入表征局部可导航性的“执行保真度”信号,将任务分配与运动执行紧密耦合,并结合 Voronoi 优化与风险自适应仲裁机制,有效解决了动态密集环境中多机器人探索易出现的拥塞、振荡及冗余覆盖问题。
该论文提出了 OSExpert 框架,通过基于深度优先搜索的 GUI 探索算法自动发现并构建细粒度动作原语与技能组合课程,显著提升了通用计算机使用代理在复杂任务中的表现(提升约 20%)及效率(缩小与人类差距约 80%),使其更接近专家水平。
该论文通过论证人类智能本质上依赖于领域特定的模式积累而非抽象压缩,反驳了“涌现智能”的必要性,并提出应将通用人工智能(AGI)重新概念化为由无数孤立专家模块组成的“专家群岛”。
本文提出了\$OneMillion-Bench,一个涵盖法律、金融、工业、医疗和自然科学五大领域的专家级基准测试,旨在通过评估语言智能体在权威信息检索、矛盾证据处理及专业规则应用等复杂场景中的表现,衡量其从聊天助手向具备专业深度与可靠性的长程智能体迈进的程度。
该论文提出了 CMMR-VLN 框架,通过构建基于全景视觉和显著地标的多模态经验记忆库、引入检索增强生成机制以及实施基于反思的记忆更新策略,有效弥补了现有大语言模型在长程和陌生场景下缺乏选择性调用先验经验能力的不足,显著提升了视觉语言导航任务的成功率。
本文提出了一种名为“拖曳感知气动操纵性(DAAM)”的几何框架,通过引入基于剩余对称加速度能力的黎曼度量,将电机扭矩限制与气动阻力显式纳入冗余多旋翼飞行器的控制分配中,从而生成一种对广义力空间坐标缩放具有不变性、能自动规避阻力饱和并解析其全局跳变不连续性的状态相关最优分配策略。
该论文提出了一种名为 ViSA 的视觉 - 空间推理增强框架,通过三阶段协作架构利用结构化视觉提示使视觉语言模型直接在图像平面上进行推理,从而克服了现有空中视觉语言导航方法在空间推理和语言歧义方面的瓶颈,并在 CityNav 基准测试中实现了比最先进方法高出 70.3% 的成功率。
该论文提出了 PIRA-Bench 基准和 PIRF 框架,旨在推动 GUI 智能体从依赖显式指令的被动响应模式,向能够基于连续视觉输入主动预测用户意图并提供推荐的新范式转变。
该论文提出了 FedMomentum 框架,通过奇异值分解(SVD)在联邦微调中实现数学正确且保留训练动量的 LoRA 聚合,从而解决了现有方法因噪声或结构表达受限导致的收敛慢和性能差问题。
该论文通过“任务”与“意图”两个互补视角,重构了对对齐、过程结构与结果质量之间动态关系的理解,旨在超越简单的线性对应,为人类、AI 及人机协作提供统一的动态分析框架。