cs 篇论文 | Gist.Science

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

本文提出了一种名为累积共识分数（CCS）的标签无关且模型无关的评估指标，通过利用测试时数据增强来衡量预测边界框的空间一致性，从而在无真实标注的情况下实现对部署中目标检测模型的持续可靠性监控。

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

本文提出了 WHU-STree，这是一个跨越两个城市、包含 21,007 个标注实例的多模态街景树木数据集，旨在通过融合点云与高分辨率图像数据，解决现有数据集规模小、标注少及模态单一的问题，并支持包括树种分类和单木分割在内的十余种街景树木清查任务。

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

Agile in the Face of Delay: Asynchronous End-to-End Learning for Real-World Aerial Navigation

本文提出了一种异步强化学习框架，通过解耦感知与控制并引入显式处理感知延迟的时序编码模块，成功解决了复杂环境中无人机高频敏捷控制与低频感知流之间的冲突，实现了在零样本仿真到现实迁移下 100 赫兹控制率的鲁棒自主导航。

Yude Li, Zhexuan Zhou, Huizhe Li, Youmin Gong, Jie Mei2026-03-10💻 cs

GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model

本文提出了 GeoAware-VLA，一种通过集成预训练几何视觉模型的特征来增强视点不变性的视觉 - 语言 - 动作模型，该方法在无需重新训练视觉编码器或依赖显式 3D 数据的情况下，显著提升了机器人在未见视角下的零样本泛化能力，并在仿真与真实物理环境中均取得了优异表现。

Ali Abouzeid, Malak Mansour, Qinbo Sun, Zezhou Sun, Dezhen Song2026-03-10💻 cs

OIPP: Object-Adaptive Impact Point Predictor for Catching Diverse In-Flight Objects

本文针对四足机器人接取多样化飞行物体的挑战，构建了包含 8000 条轨迹的真实世界数据集，并提出了能够适应不同物体气动特性的 OIPP 预测器，通过实验验证了其在仿真与真机环境中对早期落点预测及接取成功率的有效性。

Ngoc Huy Nguyen, Kazuki Shibata, Takamitsu Matsubara2026-03-10💻 cs

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

该论文提出了首个基于 LibriTTS-R 的公开语音印象（VI）语料库 LibriTTS-VI，并设计了通过双 utterance 解耦训练及无参考音频控制的新方法，有效解决了语音印象控制中缺乏公开数据和印象泄露的问题，显著提升了数值化语音印象控制的精度。

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki Kumakura2026-03-10💻 cs

Compose by Focus: Scene Graph-based Atomic Skills

本文提出了一种基于场景图的原子技能学习框架，通过聚焦任务相关对象与关系来缓解分布偏移，并结合扩散模型与视觉语言规划器，显著提升了通用机器人在长程复杂任务中的执行鲁棒性与组合泛化能力。

Han Qi, Changhe Chen, Heng Yang2026-03-10💻 cs

DroFiT: A Lightweight Band-fused Frequency Attention Toward Real-time UAV Speech Enhancement

本文提出了名为 DroFiT 的轻量级单麦克风语音增强网络，通过融合频域 Transformer、全/子带混合编解码器及 TCN 后端，在显著降低计算与内存开销的同时，实现了无人机强自噪环境下的高效实时语音增强。

Jeongmin Lee, Chanhong Jeon, Hyungjoo Seo, Taewook Kang2026-03-10💻 cs

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

本文提出了一种基于事件相机的视觉示教与复现（VT&R）导航系统，通过频域互相关算法将处理延迟降至 2.88 毫秒（比传统相机方案快 3.5 倍），并在昼夜室内外复杂环境下实现了跨 3000 米、横向误差小于 15 厘米的高精度自主导航。

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

该论文通过审计现有视频基准发现其严重缺乏对音频能力的评估，进而提出一种可扩展的语音编码器集成方案，证明在引入音频信息后，模型在涉及语音理解和跨模态对齐的任务上取得了显著提升，而纯视觉任务则未受影响。

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

本文提出了名为 FINS 的轻量级框架，通过结合多分辨率哈希网格编码器与预训练基础模型，实现了仅需单张 RGB 图像即可在数秒内高效重建高保真隐式表面及 SDF 场，并在收敛速度、重建精度及机器人表面跟随任务中优于现有最先进方法。

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

本文提出了 RetoVLA 架构，通过复用原本用于缓解注意力伪影的注册令牌（Register Tokens）来增强轻量级视觉 - 语言 - 动作模型的空间推理能力，在零增加参数量的前提下显著提升了机器人任务的成功率。

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

本文提出了首个针对视觉几何基础 Transformer（VGGT）的量化框架 QuantVGGT，通过引入双平滑细粒度量化与噪声过滤多样化采样技术，有效解决了特殊令牌导致的重尾分布及多视图数据校准不稳定问题，在实现显著内存缩减与加速的同时保持了极高的重建精度。

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

本文提出了一种面向复杂地形的自主无人机 - 四足机器人对接框架，通过四足侧的强化学习主动姿态稳定与无人机侧的约束感知控制策略，成功实现了在 GPS 拒止环境下对高差台阶及陡坡等崎岖地形的稳定对接。

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

该论文提出了运动感知 Transformer（MATR），通过显式预测跨帧物体运动来提前更新跟踪查询，有效解决了现有端到端 MOT 框架中检测与跟踪查询的冲突问题，并在 DanceTrack、SportsMOT 和 BDD100k 等多个基准测试中取得了最先进的性能。

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

本文提出了名为 GS-2M 的框架，通过联合优化渲染质量相关的属性并引入基于多视图光度变化的粗糙度监督策略，在无需复杂神经组件的情况下，实现了从多视图图像到包含高反射表面细节的高保真网格重建。

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Towards Strategic Persuasion with Language Models

本文基于贝叶斯说服理论构建了一个可扩展的评估与训练框架，利用强化学习使大语言模型（包括小模型）能够掌握复杂的战略说服策略并显著提升说服效果。

Zirui Cheng, Jiaxuan You2026-03-10💻 cs

SAC-Loco: Safe and Adjustable Compliant Quadrupedal Locomotion

本文提出了一种名为 SAC-Loco 的安全感知柔顺运动框架，该框架通过结合可调节柔顺的强化学习策略、安全导向的恢复策略以及实时安全监督机制，使四足机器人能够在无需显式力传感器的情况下，在外部力干扰下同时实现平滑的柔顺响应与鲁棒的安全保障。

Aoqian Zhang, Zixuan Zhuang, Chunzheng Wang, Shuzhi Sam Ge, Fan Shi, Cheng Xiang2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

本文提出了 FAMDA 框架，通过利用视觉基础模型作为教师网络，在自训练范式下生成高质量伪标签，从而在合成到真实及昼夜适应等场景中实现了高效且性能领先的无监督多任务域自适应密集预测。

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

本文提出了 QuantSparse 框架，通过多尺度显著注意力蒸馏和基于二阶残差重参数化的稀疏注意力机制，有效解决了视频扩散 Transformer 在联合应用模型量化与注意力稀疏化时的性能退化问题，在显著降低存储与推理成本的同时大幅提升了生成质量。

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs