cs 篇论文 | Gist.Science

Asset-Centric Metric-Semantic Maps of Indoor Environments

该论文提出了一种基于资产（Asset-Centric）的度量语义地图方法，利用四足机器人构建包含详细网格、类别和位姿的物体级场景表示，在精度上优于现有基础模型和机器人建图方案，并实现了与大型语言模型的无缝集成以支持复杂的场景理解与语义导航。

Christopher D. Hsu, Pratik Chaudhari2026-03-11💻 cs

NaviGait: Navigating Dynamically Feasible Gait Libraries using Deep Reinforcement Learning

NaviGait 提出了一种结合轨迹优化结构与强化学习适应性的分层框架，通过从离线步态库中选择、微调并稳定步态，实现了训练更快、奖励设计更直观且兼具高鲁棒性与参考运动保真度的双足机器人 locomotion 控制。

Neil Janwani, Varun Madabushi, Maegan Tucker2026-03-11💻 cs

BanaServe: Unified KV Cache and Dynamic Module Migration for Balancing Disaggregated LLM Serving in AI Infrastructure

BanaServe 是一种面向解耦大模型服务的动态编排框架，通过引入分层权重迁移、注意力级 KV 缓存迁移及全局共享存储机制，实现了计算与内存资源的细粒度动态重平衡，有效解决了静态分配导致的资源浪费、负载不均及缓存热点问题，从而显著提升了系统吞吐量并降低了延迟。

Yiyuan He, Minxian Xu, Jingfeng Wu + 7 more2026-03-11💻 cs

Real-Time Neural Video Compression with Unified Intra and Inter Coding

该论文提出了一种统一帧内与帧间编码的实时神经视频压缩框架，通过引入自适应帧内编码机制有效解决了遮挡、新内容处理及误差累积问题，并采用双向两帧压缩设计，在保持实时性的同时显著提升了压缩效率与稳定性。

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong Liu2026-03-11💻 cs

Polynomial-time Configuration Generator for Connected Unlabeled Multi-Agent Pathfinding

本文针对连通无标号多智能体路径规划（CUMAPF）问题，提出了一种名为 PULL 的轻量级多项式时间算法，该算法通过规则驱动的单步配置更新在保持连通性的同时高效生成路径，显著优于整数线性规划方法并适用于大规模智能体场景。

Takahiro Suzuki, Keisuke Okumura2026-03-11💻 cs

Revisiting Replanning from Scratch: Real-Time Incremental Planning with Fast Almost-Surely Asymptotically Optimal Planners

该论文挑战了动态环境中增量规划必须复用旧有信息的传统假设，提出利用快速几乎必然渐近最优（ASAO）算法将增量规划问题转化为一系列独立求解任务，从而在无需显式复用计划的情况下更高效地应对环境变化并生成高质量路径。

Mitchell E. C. Sabbadini, Andrew H. Liu, Joseph Ruan, Tyler S. Wilson, Zachary Kingston, Jonathan D. Gammell2026-03-11💻 cs

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

该论文提出通过筛选关键身体地标子集并结合样条插值填补缺失数据，在巴西手语（LIBRAS）孤立手势识别任务中实现了比现有方法快 5 倍且精度相当甚至更优的轻量化解决方案。

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. Paixão2026-03-11💻 cs

Who Made This? Fake Detection and Source Attribution with Diffusion Features

该论文提出了名为 FRIDA 的轻量级框架，通过利用预训练 Stable Diffusion 模型的特征，实现了无需训练即可检测合成图像并准确归因其生成源，在 GenImage 基准测试中展现了跨生成器检测与源模型归因的卓越性能。

Simone Bonechi, Paolo Andreini, Barbara Toniella Corradini2026-03-11💻 cs

EgoMI: Learning Active Vision and Whole-Body Manipulation from Egocentric Human Demonstrations

本文提出了 EgoMI 框架，通过从第一人称视角捕捉同步的手部操作与主动头部运动轨迹，并结合记忆增强策略，有效解决了人形机器人模仿学习中因视角差异导致的分布偏移问题，显著提升了半人形机器人的操作性能。

Justin Yu, Yide Shentu, Di Wu, Pieter Abbeel, Ken Goldberg, Philipp Wu2026-03-11💻 cs

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

本文提出了一种名为 SPAN 的新方法，通过空间点对齐和 3D-2D 投影对齐机制，结合分层任务学习策略，解决了单目 3D 目标检测中因解耦预测导致的几何不一致问题，从而显著提升了检测性能。

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming Yang2026-03-11💻 cs

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

本文提出了名为 V-Attack 的新型攻击方法，通过利用 Transformer 注意力机制中解耦且富含局部语义信息的“值特征”（Value Features）替代传统纠缠的 patch 特征，并引入自值增强与文本引导操纵模块，实现了对大型视觉语言模型（LVLMs）图像语义的精准可控对抗攻击，显著提升了攻击成功率。

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin Chen2026-03-11💻 cs

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

本文提出了名为 AFRO 的自监督框架，通过在不依赖动作或重建监督的情况下，利用生成扩散过程联合建模正向与逆向动力学，成功解决了现有 3D 视觉预训练方法在机器人操作任务中因缺乏状态 - 动作动态建模而表现不佳的问题，显著提升了多任务下的操作成功率并展现出良好的可扩展性。

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing Xu2026-03-11💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

该论文提出了首个音频 - 视觉世界模型（AVWM）框架，通过构建包含双耳音频与视觉轨迹的 AVW-4k 数据集，并设计 AV-CDiT 多模态扩散 Transformer 模型，实现了在精确动作控制下对视听动态的高保真模拟，显著提升了智能体在连续视听导航任务中的表现。

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin Mao2026-03-11💻 cs

Beware of the Classical Benchmark Instances for the Traveling Salesman Problem with Time Windows

该论文提出了一种针对带时间窗旅行商问题（TSPTW）的高效精确算法，证明了经典基准实例因结构可被利用而不再具备代表性，无法有效评估算法性能或作为机器学习训练集。

Francisco J. Soulignac2026-03-11💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

本文通过深入分析 VGGT 和 $\pi^3$ 中全局注意力模块的作用机制，提出了一种无需训练的加速方案，通过将早期层转换为帧注意力并结合 K/V 子采样策略，在显著提升多视图推理速度（最高达 10 倍）的同时保持了原有的精度与鲁棒性。

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang2026-03-11💻 cs

UniBYD: A Unified Framework for Learning Robotic Manipulation Across Embodiments Beyond Imitation of Human Demonstrations

本文提出了 UniBYD 统一框架，通过结合统一形态表示、动态 PPO 算法及混合马尔可夫影子引擎，实现了从模仿人类演示到适应多样化机器人形态的强化学习策略探索，并在首个跨本体操作基准 UniManip 上取得了显著性能提升。

Tingyu Yuan, Biaoliang Guan, Wen Ye, Ziyan Tian, Yi Yang, Weijie Zhou, Zhaowen Li, Yan Huang, Peng Wang, Chaoyang Zhao, Jinqiao Wang2026-03-11💻 cs

cs