cs.CV 篇论文 | Gist.Science

FLAIR-HUB: Large-scale Multimodal Dataset for Land Cover and Crop Mapping

法国国家地理与林业信息研究所（IGN）推出了名为 FLAIR-HUB 的大规模多模态数据集，该数据集整合了六种对齐的遥感数据模态并覆盖法国 2528 平方公里区域，旨在通过大规模标注支持高精度的土地覆盖与作物类型制图研究。

Anatol Garioud, Sébastien Giordano, Nicolas David + 1 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

本文提出了名为 Poly2Graph 的高效开源工具，构建了包含 1700 万张空间多重图的 HSG-12M 数据集，首次将非厄米晶体能谱自动转化为几何图数据，填补了现有图基准缺乏空间几何信息的空白，并为凝聚态物理的数据驱动发现及几何感知图学习开辟了新途径。

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

本文提出了 InterActHuman 框架，通过引入布局对齐的音频条件及掩码预测器，实现了多概念（包括多人与物体）在视频中的精确区域绑定与高质量交互动画生成，有效解决了现有方法无法处理多主体复杂交互的局限。

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

AutoV: Loss-Oriented Ranking for Visual Prompt Retrieval in LVLMs

本文提出了 AutoV 框架，通过利用预训练大模型预测损失来构建无监督的视觉提示排序机制，实现了针对特定实例自适应检索最优视觉提示，从而显著提升了大视觉语言模型在多种任务中的性能。

Yuan Zhang, Chun-Kai Fan, Sicheng Yu + 6 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

本文提出了用于评估视觉定位推理能力的诊断基准 TreeBench 以及结合强化学习的 Traceable Evidence Enhanced Visual Grounded Reasoning (TreeVGR) 训练范式，通过引入可追溯证据和联合监督机制，显著提升了模型在复杂场景下的定位精度与推理可解释性。

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Graph-Based Multi-Modal Light-weight Network for Adaptive Brain Tumor Segmentation

本文提出了一种名为 GMLN-BTS 的图基多模态轻量级网络，通过模态感知自适应编码器、图基多模态协同交互模块及体素细化上采样模块，在仅需 4.58M 参数（比主流 3D Transformer 减少 98%）的情况下，于 BraTS 多个基准测试中实现了兼具高精度与低资源消耗的脑肿瘤分割。

Guohao Huo, Ruiting Dai, Zitong Wang + 2 more2026-03-06💻 cs

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

本文提出了 EDA 框架，通过统一任意噪声扩散模型的理论设计空间，在保持模块化且无额外计算开销的前提下，有效解决了 EDM 强制注入高斯噪声对图像恢复任务造成的负面影响，并在多种医学与自然图像恢复任务中展现出卓越的泛化能力。

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

SAMPO-Path: Segmentation Intent-Aligned Preference Optimization for Pathology Foundation Model Segmentation

本文提出了 SAMPO 框架，作为首个将直接偏好优化（DPO）应用于纯视觉基础模型的方案，通过在线提示偏好挖掘、多掩码偏好学习及混合损失函数，有效解决了组织病理学图像中因高细胞密度和提示噪声导致的临床分割意图对齐难题，显著提升了分割精度与鲁棒性。

Yonghuang Wu, Wenwen Zeng, Xuan Xie + 3 more2026-03-06💻 cs

Optimizing Multi-Modality Trackers via Significance-Regularized Tuning

本文提出了一种显著性正则化微调框架，通过结合预训练权重切线空间中的先验显著性与微调阶段的迁移显著性，有效平衡了多模态跟踪器在适应 RGB 数据时的可塑性与稳定性，从而在多个基准测试中超越了现有最先进方法。

Zhiwen Chen, Jinjian Wu, Zhiyu Zhu + 3 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

本文提出了一种利用可微分仿真、时间到达图特权信息及偏航对齐损失函数的强化学习方法，使四旋翼无人机能够在包含大型障碍物的复杂环境中高效导航，并在真实户外场景中实现了无碰撞飞行。

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Distant Object Localisation from Noisy Image Segmentation Sequences

本文提出了一种利用多视图三角测量或粒子滤波处理含噪声图像分割序列以进行远距离物体定位的方法，该方法无需专用传感器或复杂三维重建，结合无人机机载计算资源即可实现可靠的无人机野火监测。

Julius Pesonen, Arno Solin, Eija Honkavaara2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

本文提出了 BridgeDrive，一种基于锚点引导的扩散桥策略，通过建立前向与反向过程理论一致的轨迹规划框架，在保持实时性的同时显著提升了自动驾驶闭环场景下的规划性能。

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

该论文提出了 SphereAR，一种通过利用超球面 VAE 将自回归生成过程中的输入输出约束在固定半径超球面上，从而解决潜在变量方差异质性问题并消除方差崩溃的图像生成方法，其在 ImageNet 上实现了超越扩散模型和掩码生成模型的自回归新纪录。

Guolin Ke, Hui Xue2026-03-06💻 cs

Continuous Space-Time Video Super-Resolution with 3D Fourier Fields

本文提出了一种基于连续 3D 视频傅里叶场（VFF）的新型视频超分辨率方法，通过联合建模时空信息替代传统的显式光流补偿，实现了任意时空位置的灵活采样、无混叠重建，并在多个基准测试中显著提升了重建的清晰度、时间一致性及计算效率。

Alexander Becker, Julius Erbach, Dominik Narnhofer + 1 more2026-03-06💻 cs

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

本文提出了首个面向真实世界第一人称视角噪声观测的轨迹预测基准 EgoTraj-Bench，并设计了结合双流去噪与 EgoAnchor 机制的 BiFlow 模型，显著提升了机器人导航在感知受限环境下的轨迹预测鲁棒性与精度。

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Weakly Supervised Cloud Detection Combining Spectral Features and Multi-Scale Deep Network

本文提出了一种结合光谱特征与多尺度场景级深度网络的弱监督云检测方法（SpecMCD），通过渐进式训练框架及自适应阈值优化，在缺乏精细标注的情况下显著提升了不同云覆盖条件下的像素级云检测精度。

Shaocong Zhu, Zhiwei Li, Xinghua Li + 1 more2026-03-06💻 cs

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

本文提出了 VidGuard-R1，这是首个利用组相对策略优化（GRPO）强化学习框架，通过激励模型探索推理路径并引入物理一致性奖励，从而在零样本设置下实现高精度检测与可解释性归因的 AI 生成视频检测系统。

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

本文介绍了由临床医生共同设计的 SpineMed 生态系统，其包含首个面向椎体级推理的大规模指令数据集 SpineMed-450k 及临床评估基准 SpineBench，旨在解决脊柱疾病诊断中多模态影像与特定椎体级别推理的缺失问题，并显著提升了大模型在脊柱病理评估与手术规划中的临床实用性。

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

本文提出了 ExposureEngine，这是一个面向体育转播的端到端系统，通过预测旋转边界框（OBB）实现精准的品牌曝光检测，并结合自然语言智能体层生成可审计的赞助可视性分析报表。

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

TerraCodec: Compressing Optical Earth Observation Data

本文提出了 TerraCodec，这是一个基于 Sentinel-2 数据预训练的地球观测数据学习压缩模型族，它通过引入时序 Transformer 和新型可变码率训练方法 Latent Repacking，在实现比传统编码器高 3-10 倍压缩率的同时，还具备零样本云修复能力。

Julen Costa-Watanabe, Isabelle Wittmann, Benedikt Blumenstiel + 1 more2026-03-06💻 cs