cs.CV 篇论文 | Gist.Science

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

本文提出了一种名为累积共识分数（CCS）的标签无关且模型无关的评估指标，通过利用测试时数据增强来衡量预测边界框的空间一致性，从而在无真实标注的情况下实现对部署中目标检测模型的持续可靠性监控。

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

本文提出了 WHU-STree，这是一个跨越两个城市、包含 21,007 个标注实例的多模态街景树木数据集，旨在通过融合点云与高分辨率图像数据，解决现有数据集规模小、标注少及模态单一的问题，并支持包括树种分类和单木分割在内的十余种街景树木清查任务。

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

MICA: Multi-Agent Industrial Coordination Assistant

本文提出了 MICA（多智能体工业协调助手），这是一个在受限计算与隐私约束下运行的感知驱动、语音交互系统，它通过五个角色专用智能体与自适应步骤融合技术，为工业装配、故障排查等任务提供实时、安全且可靠的指导，并建立了相应的评估基准以验证其优越性。

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

该论文提出了 ORIC 框架，通过构建上下文不协调的物体识别基准（ORIC-Bench）揭示了大视觉语言模型在此类场景下的性能退化与幻觉问题，并验证了基于该框架数据的视觉强化微调能有效提升模型的可靠性。

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

本文提出了一种基于事件相机的视觉示教与复现（VT&R）导航系统，通过频域互相关算法将处理延迟降至 2.88 毫秒（比传统相机方案快 3.5 倍），并在昼夜室内外复杂环境下实现了跨 3000 米、横向误差小于 15 厘米的高精度自主导航。

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

该论文通过审计现有视频基准发现其严重缺乏对音频能力的评估，进而提出一种可扩展的语音编码器集成方案，证明在引入音频信息后，模型在涉及语音理解和跨模态对齐的任务上取得了显著提升，而纯视觉任务则未受影响。

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

本文提出了名为 FINS 的轻量级框架，通过结合多分辨率哈希网格编码器与预训练基础模型，实现了仅需单张 RGB 图像即可在数秒内高效重建高保真隐式表面及 SDF 场，并在收敛速度、重建精度及机器人表面跟随任务中优于现有最先进方法。

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

本文提出了首个针对视觉几何基础 Transformer（VGGT）的量化框架 QuantVGGT，通过引入双平滑细粒度量化与噪声过滤多样化采样技术，有效解决了特殊令牌导致的重尾分布及多视图数据校准不稳定问题，在实现显著内存缩减与加速的同时保持了极高的重建精度。

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

该论文提出了运动感知 Transformer（MATR），通过显式预测跨帧物体运动来提前更新跟踪查询，有效解决了现有端到端 MOT 框架中检测与跟踪查询的冲突问题，并在 DanceTrack、SportsMOT 和 BDD100k 等多个基准测试中取得了最先进的性能。

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

本文提出了名为 GS-2M 的框架，通过联合优化渲染质量相关的属性并引入基于多视图光度变化的粗糙度监督策略，在无需复杂神经组件的情况下，实现了从多视图图像到包含高反射表面细节的高保真网格重建。

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

本文提出了 FAMDA 框架，通过利用视觉基础模型作为教师网络，在自训练范式下生成高质量伪标签，从而在合成到真实及昼夜适应等场景中实现了高效且性能领先的无监督多任务域自适应密集预测。

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

本文提出了 QuantSparse 框架，通过多尺度显著注意力蒸馏和基于二阶残差重参数化的稀疏注意力机制，有效解决了视频扩散 Transformer 在联合应用模型量化与注意力稀疏化时的性能退化问题，在显著降低存储与推理成本的同时大幅提升了生成质量。

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

本文提出了首个统一且高效的多模态双人运动生成框架 DualFlow，该框架利用整流流（Rectified Flow）技术实现确定性采样以加速推理，并结合检索增强生成（RAG）模块与对比学习目标，在文本、音乐及先验动作等多种条件下生成高质量、语义对齐且节奏同步的交互式与反应式双人运动。

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

本文提出了一种基于纳维 - 斯托克斯方程物理原理的轻量级 rPPG 测量模型 PHASE-Net，通过零计算成本的轴向交换模块、自适应空间滤波器及门控因果卷积网络，在无需增加计算量的前提下显著提升了运动与光照变化下的脉搏信号测量精度与鲁棒性。

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

本文提出了 LMOD+，这是一个包含 32,633 个实例的大规模多模态眼科基准数据集，通过扩展数据规模、丰富任务类型（涵盖疾病筛查、分级及人口学预测）并系统评估 24 种先进多模态大语言模型，旨在推动眼科人工智能的发展并缓解全球视力威胁疾病的负担。

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

cs.CV