cs.CV 篇论文 | Gist.Science

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

本文提出了首个面向真实世界第一人称视角噪声观测的轨迹预测基准 EgoTraj-Bench，并设计了结合双流去噪与 EgoAnchor 机制的 BiFlow 模型，显著提升了机器人导航在感知受限环境下的轨迹预测鲁棒性与精度。

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Weakly Supervised Cloud Detection Combining Spectral Features and Multi-Scale Deep Network

本文提出了一种结合光谱特征与多尺度场景级深度网络的弱监督云检测方法（SpecMCD），通过渐进式训练框架及自适应阈值优化，在缺乏精细标注的情况下显著提升了不同云覆盖条件下的像素级云检测精度。

Shaocong Zhu, Zhiwei Li, Xinghua Li + 1 more2026-03-06💻 cs

VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

本文提出了 VidGuard-R1，这是首个利用组相对策略优化（GRPO）强化学习框架，通过激励模型探索推理路径并引入物理一致性奖励，从而在零样本设置下实现高精度检测与可解释性归因的 AI 生成视频检测系统。

Kyoungjun Park, Yifan Yang, Juheon Yi + 6 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

本文介绍了由临床医生共同设计的 SpineMed 生态系统，其包含首个面向椎体级推理的大规模指令数据集 SpineMed-450k 及临床评估基准 SpineBench，旨在解决脊柱疾病诊断中多模态影像与特定椎体级别推理的缺失问题，并显著提升了大模型在脊柱病理评估与手术规划中的临床实用性。

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

本文提出了 ExposureEngine，这是一个面向体育转播的端到端系统，通过预测旋转边界框（OBB）实现精准的品牌曝光检测，并结合自然语言智能体层生成可审计的赞助可视性分析报表。

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

TerraCodec: Compressing Optical Earth Observation Data

本文提出了 TerraCodec，这是一个基于 Sentinel-2 数据预训练的地球观测数据学习压缩模型族，它通过引入时序 Transformer 和新型可变码率训练方法 Latent Repacking，在实现比传统编码器高 3-10 倍压缩率的同时，还具备零样本云修复能力。

Julen Costa-Watanabe, Isabelle Wittmann, Benedikt Blumenstiel + 1 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

本文提出了首个无需 3D 归纳偏置或显式多视图几何概念的自监督新视角合成模型 XFactor，通过结合成对姿态估计与简单的输入输出增强方案，成功实现了姿态表示在不同场景间的可迁移性，从而确立了可迁移性作为衡量真正新视角合成能力的关键标准。

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

本文提出了 VIST3A 框架，通过将预训练的文本到视频生成模型与多视图 3D 重建网络进行模型缝合，并利用直接奖励微调技术确保生成潜空间与 3D 解码器的对齐，从而实现了高质量且几何一致的文本到 3D 场景生成。

Hyojun Go, Dominik Narnhofer, Goutam Bhat + 3 more2026-03-06💻 cs

DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights

本文提出了一种名为 DRBD-Mamba 的高效 3D 脑肿瘤分割模型，通过双分辨率双向 Mamba 架构、空间填充曲线映射及门控融合模块，在显著降低计算开销（提升 15 倍效率）的同时，有效解决了肿瘤异质性问题，并在 BraTS2023 数据集的系统性评估中实现了优于现有最先进方法的分割精度与鲁棒性。

Danish Ali, Ajmal Mian, Naveed Akhtar + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

本文提出了 MSSR 框架，通过双智能体协作从专家模型中筛选最小充分信息集（MSS），有效解决了视觉语言模型在 3D 空间推理中因 2D 预训练局限和信息冗余导致的瓶颈，从而在多个基准测试中实现了最先进的性能。

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

本文提出了名为 SceneCOT 的新框架，通过引入 3D 场景中的接地思维链推理方法并构建了首个大规模数据集 SCENECOT-185K，有效解决了 3D 大语言模型在接地问答中的难题，实现了具有高度一致性的分步人类式场景推理。

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

本文提出了 Grasp Any Region (GAR) 框架，通过引入 RoI 对齐特征回放技术，使多模态大语言模型能够在保留全局上下文的同时实现任意区域的精准感知与多区域交互推理，并构建了 GAR-Bench 基准以验证其在复杂场景理解及视频任务中的卓越性能。

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

本文提出了 FLoC，一种基于设施选址函数的无训练、模型无关的高效视觉令牌压缩框架，通过结合懒惰贪心算法在严格预算下快速筛选出最具代表性和多样性的令牌子集，显著提升了长视频理解模型的处理效率与性能。

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

MotionStream 通过自强制分布匹配蒸馏将双向教师模型转化为因果学生模型，并结合滑动窗口因果注意力与 KV 缓存滚动机制，实现了在单 GPU 上以亚秒级延迟和高达 29 FPS 的速度进行无限时长的实时交互式视频生成。

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

本文提出了一种名为 SASG-DA 的新型扩散数据增强方法，通过语义表征引导机制和稀疏感知语义采样策略，在确保肌电信号生成样本忠实性的同时提升其多样性，从而显著改善了表面肌电手势识别模型在数据稀缺场景下的过拟合问题与泛化性能。

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DeiTFake: Deepfake Detection Model using DeiT Multi-Stage Training

该论文提出了名为 DeiTFake 的基于 DeiT 的深度学习模型，通过结合知识蒸馏与包含标准及高级仿真的两阶段渐进式训练策略，在 OpenForensics 数据集上实现了高达 99.22% 的准确率，显著优于现有基线模型。

Saksham Kumar, Ashish Singh, Srinivasarao Thota + 2 more2026-03-06💻 cs

Fully Automatic Data Labeling for Ultrasound Screen Detection

该论文提出了一种无需人工标注的全自动方法，通过生成训练数据来检测并校正超声屏幕照片中的图像，从而绕过 DICOM 传输瓶颈，使校正后的图像在心脏视图分类任务中能达到与原始 DICOM 数据相当的平衡准确率（0.79）。

Alberto Gomez, Jorge Oliveira, Ramon Casero + 1 more2026-03-06💻 cs

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

本文提出了 DAP，一种基于离散 Token 的自回归自动驾驶规划器，通过联合预测鸟瞰图语义与自车轨迹并结合强化学习微调，在仅 1.6 亿参数量的紧凑预算下实现了开放环与封闭环测试中的领先性能。

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

本文提出了一种名为 CCSD 的跨模态组合自蒸馏框架，通过共享 - 特定编码器 - 解码器架构及分层与渐进式自蒸馏策略，有效解决了多模态 MRI 脑肿瘤分割中因模态缺失导致的性能下降问题，并在各种缺失场景下实现了最先进的分割效果与泛化能力。

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

本文提出了 FlashCache，一种通过频域分析识别并保留关键异常键值对（Outlier KVs）的多模态 KV 缓存压缩框架，在显著降低显存占用并加速推理的同时保持了模型性能。

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs