SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

本文提出了 SurgFed 框架,通过语言引导的通道选择(LCS)和语言引导的超聚合(LHA)机制,有效解决了机器人辅助微创手术中因组织多样性和任务多样性导致的联邦学习适应性与聚合难题,显著提升了跨手术类型场景下的分割与深度估计性能。

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

该论文提出了基于 LLM 的 RuleSafe 基准测试以评估长程非马尔可夫操作任务,并设计了结合 VQ-VAE 的 VQ-Memory 模块,通过离散潜变量编码历史状态,显著提升了现有视觉 - 语言 - 动作模型在复杂长程操作中的规划能力、泛化性及计算效率。

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai Chenjia2026-03-11💻 cs

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

该论文提出了一种名为 NS-VLA 的新型神经符号视觉 - 语言 - 动作框架,通过结合符号编码器、符号求解器和在线强化学习,有效解决了现有模型在数据效率、可复用原语学习以及探索能力方面的局限,并在机器人操作任务中展现出卓越的少样本训练、抗干扰及零样本泛化性能。

Ziyue Zhu, Shangyang Wu, Shuai Zhao, Zhiqiu Zhao, Shengjie Li, Yi Wang, Fang Li, Haoran Luo2026-03-11💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

本文提出了 GeoSolver 框架,通过构建基于熵引导蒙特卡洛树搜索的大规模细粒度过程监督数据集 Geo-PRM-2M 及相应的过程奖励模型 GeoPRM,结合过程感知的树结构 GRPO 强化学习算法,有效解决了遥感视觉语言模型在复杂推理中的视觉忠实性瓶颈,实现了具有状态最先进性能的测试时推理扩展。

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang2026-03-11💻 cs

Trajectory Optimization for Self-Wrap-Aware Cable-Towed Planar Object Manipulation under Implicit Tension Constraints

该论文提出了一种将自缠绕感知与隐式张力约束相结合的电缆牵引平面物体轨迹优化方法,通过构建包含三种松弛模式的优化框架,利用隐式模式松弛(IMR)在状态演化中主动利用自缠绕产生的力矩通道,从而避免了传统显式路由决策导致的保守解问题。

Yu Li, Amin Fakhari, Hamid Sadeghian2026-03-11💻 cs