cs.CV 篇论文 | Gist.Science

SABER: Spatially Consistent 3D Universal Adversarial Objects for BEV Detectors

本文提出了 SABER 框架，通过生成具有多视角和时间一致性的通用 3D 对抗物体，在不修改目标车辆的情况下有效攻击鸟瞰图（BEV）3D 目标检测器，从而揭示了自动驾驶系统对上下文线索的过度依赖并提供了更实用的鲁棒性评估方案。

Aixuan Li, Mochu Xiang, Bosen Hou + 3 more2026-03-04💻 cs

Interaction Field Matching: Overcoming Limitations of Electrostatic Models

本文提出了交互场匹配（IFM）方法，通过引入受夸克与反夸克强相互作用启发的通用交互场，克服了静电场匹配（EFM）在建模电容板外复杂场时的局限性，并在多种数据生成与迁移任务中验证了其有效性。

Stepan I. Manukhov, Alexander Kolesov, Vladimir V. Palyulin + 1 more2026-03-04🤖 cs.AI

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

本文提出了 HSSBench，这是一个专为评估多模态大语言模型在人文社科领域跨学科推理能力而设计的多语言基准，通过专家与智能体协作生成的 1.3 万多个样本填补了现有评测体系的空白，并揭示了当前顶尖模型在此类任务上仍面临显著挑战。

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

本文提出了无需训练的"Frame Guidance"方法，通过创新的潜在空间处理与优化策略，实现了基于关键帧、风格参考图、草图或深度图等帧级信号对任意视频扩散模型的高效可控生成。

Sangwon Jang, Taekyung Ki, Jaehyeong Jo + 4 more2026-03-04🤖 cs.AI

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

该论文提出了 Perception-R1 方法，通过引入基于视觉感知一致性的新型奖励机制，有效解决了现有强化学习范式难以提升多模态大模型感知能力的问题，从而显著增强了其多模态推理性能。

Tong Xiao, Xin Xu, Zhenya Huang + 4 more2026-03-04🤖 cs.AI

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

本文提出了 StreamSplat，一种完全前馈的在线框架，能够通过三项关键技术革新，将未校准的视频流即时转化为动态 3D 高斯泼溅（3DGS）表示，在实现任意长度视频实时重建的同时，将重建速度相比传统优化方法提升了 1200 倍并达到了最先进的重建质量。

Zike Wu, Qi Yan, Xuanyu Yi + 2 more2026-03-04🤖 cs.LG

Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

该论文提出了名为 ECAD 的进化缓存方法，利用遗传算法为扩散模型自动学习高效的缓存调度策略，在无需修改模型参数或参考图像的情况下，显著提升了推理速度并实现了质量与延迟的灵活权衡，且在多种模型、分辨率及未见过的变体上展现出卓越的泛化能力。

Anirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam2026-03-04💻 cs

Synthetic Perception: Can Generated Images Unlock Latent Visual Prior for Text-Centric Reasoning?

该论文通过系统评估发现，利用文生图模型实时生成图像作为“合成感知”机制，能够有效弥合文本与视觉模态间的差距，从而在特定条件下显著提升纯文本大语言模型的推理能力。

Yuesheng Huang, Peng Zhang, Xiaoxin Wu + 2 more2026-03-04💻 cs

SceneStreamer: Continuous Scenario Generation as Next Token Group Prediction

该论文提出了 SceneStreamer，一种基于 Transformer 的自回归统一框架，通过将交通场景表示为包含信号灯、智能体状态及运动矢量的令牌序列进行连续生成，从而克服了现有数据驱动方法的局限，实现了能够动态引入和移除智能体的高保真、长视野自动驾驶仿真环境。

Zhenghao Peng, Yuxin Liu, Bolei Zhou2026-03-04💻 cs

Navigating with Annealing Guidance Scale in Diffusion Space

本文提出了一种基于条件噪声信号动态调整引导尺度的退火调度策略，旨在解决无分类器引导（CFG）的稳定性问题，从而在不增加额外计算开销的前提下显著提升文本到图像生成的质量与提示词对齐度。

Shai Yehezkel, Omer Dahary, Andrey Voynov + 1 more2026-03-04🤖 cs.AI

MC-INR: Efficient Encoding of Multivariate Scientific Simulation Data using Meta-Learning and Clustered Implicit Neural Representations

本文提出了一种名为 MC-INR 的新型框架，通过结合元学习、基于残差的动态重聚类机制以及多变量分支层，有效解决了现有隐式神经表示方法在处理复杂非结构化网格多变量科学模拟数据时存在的灵活性不足、单变量局限及网格依赖等问题。

Hyunsoo Son, Jeonghyun Noh, Suemin Jeon + 2 more2026-03-04🤖 cs.LG

CoBELa: Steering Transparent Generation via Concept Bottlenecks on Energy Landscapes

本文提出了 CoBELa 框架，通过利用冻结生成器的潜在空间中的可加性概念能量函数来替代传统瓶颈表示，实现了无需重新训练生成器即可进行高效、透明且支持组合干预的生成控制。

Sangwon Kim, Kyoungoh Lee, Jeyoun Dong + 1 more2026-03-04🤖 cs.AI

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

本文提出了 InstructVLA，一种通过新颖的“视觉 - 语言 - 动作指令微调”（VLA-IT）范式，在保留大语言模型灵活推理能力的同时显著提升机器人操作性能，并在模拟与真实场景中展现出卓越泛化能力和推理时扩展性的端到端模型。

Shuai Yang, Hao Li, Bin Wang + 7 more2026-03-04💻 cs

DMTrack: Spatio-Temporal Multimodal Tracking via Dual-Adapter

本文提出了名为 DMTrack 的新型双适配器架构，通过时空模态适配器（STMA）和渐进式模态互补适配器（PMCA）模块，在仅引入 0.93M 可训练参数的情况下，实现了多模态时空跟踪的跨模态特征融合与状态最先进（SOTA）性能。

Weihong Li, Shaohua Dong, Haonan Lu + 3 more2026-03-04🤖 cs.AI

Zero-shot CT Super-Resolution using Diffusion-based 2D Projection Priors and Signed 3D Gaussians

本文提出了一种基于扩散模型投影先验与带符号 3D 高斯泼溅（含负 Alpha 混合）的零样本 3D CT 超分辨率框架，旨在无需配对数据的情况下，通过两阶段策略有效恢复低分辨率 CT 中的精细结构细节。

Jeonghyun Noh, Hyun-Jic Oh, Won-Ki Jeong2026-03-04⚡ eess

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

本文提出了 MMTok 方法，通过将视觉令牌选择问题构建为最大覆盖问题，利用视觉和文本令牌的多模态互补信息来最大化覆盖度，从而在显著减少推理延迟的同时保持了视觉语言模型的高性能。

Sixun Dong, Juhua Hu, Mian Zhang + 3 more2026-03-04💻 cs

ConEQsA: Concurrent and Asynchronous Embodied Questions Scheduling and Answering

本文提出了面向真实多任务场景的并发异步具身问答（EQsA）新范式，构建了包含 CAEQs 基准测试与评估指标的完整体系，并设计了利用共享记忆和优先级规划的 ConEQsA 智能体框架，显著提升了机器人在处理异步、多紧迫度问题时的响应效率与性能。

Haisheng Wang, Dong Liu, Weiming Zhi2026-03-04🤖 cs.AI

Are VLMs Ready for Lane Topology Awareness in Autonomous Driving?

该论文通过构建基于鸟瞰图车道信息的诊断性视觉问答任务，系统评估了视觉语言模型在自动驾驶道路拓扑理解方面的能力，发现尽管模型规模、推理长度和示例数量与性能呈正相关，但当前模型（包括闭源和开源）在空间拓扑推理上仍存在显著瓶颈，尚未达到安全导航所需的成熟度。

Xin Chen, Jia He, Maozheng Li + 5 more2026-03-04💻 cs

SiNGER: A Clearer Voice Distills Vision Transformers Further

本文提出了名为 SiNGER 的新型知识蒸馏框架，通过基于零空间的扰动对教师模型特征进行精炼，在有效抑制视觉 Transformer 高范数伪影的同时保留关键信息，从而显著提升学生模型在下游任务中的性能与表征可解释性。

Geunhyeok Yu, Sunjae Jeong, Yoonyoung Choi + 2 more2026-03-04🤖 cs.AI

Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents

本文提出了首个统一可见光与光谱遥感数据、基于 MCP 工具生态实现跨模态多步定量推理的地球观测智能体框架 Earth-Agent，并配套构建了包含 248 个专家任务的大规模基准 Earth-Bench，从而推动了地球观测领域向科学驱动的下一代大模型应用范式转变。

Peilin Feng, Zhutao Lv, Junyan Ye + 8 more2026-03-04💻 cs