cs.CV 篇论文 | Gist.Science

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

本文提出了名为 v-HUB 的视频幽默理解基准，通过包含非语言短视频及环境声音标注的多样化评估任务，揭示了当前多模态大模型在纯视觉幽默理解上的局限性，并证实了引入音频模态能显著提升模型对复杂视频幽默的感知能力。

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

该论文针对视觉语言模型在多轮多模态对话中面临的安全挑战，构建了包含 4484 条标注对话的 MMDS 数据集及自动化红队测试框架，并提出了 LLaVAShield 安全审计系统，该系统在检测多轮对话中的隐蔽恶意意图和累积风险方面显著优于现有模型与工具。

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun Shen2026-03-11💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

该研究通过开发一种针对历史地图复杂性的双阶段 U-Net 深度学习流程，成功从 1925 至 1950 年的法国历史地图中提取并发布了首个覆盖全国的高精度城市足迹数据集，填补了 20 世纪 70 年代前法国城市扩张量化分析的空白。

Walid Rabehi, Marion Le Texier, Rémi Lemoy2026-03-11💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

本文提出了旨在评估导航智能体空间感知与推理能力的 NavSpace 基准及包含六个任务类别的 1,228 条轨迹 - 指令对，并通过该基准对 22 种现有模型进行了全面评估，同时推出了在 NavSpace 和真实机器人测试中均表现优异的新型空间智能导航模型 SNav。

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

该论文针对 LiDAR 语义分割中标签噪声与域泛化双重挑战，首次建立了相关基准并提出了名为 DuNe 的双视图一致性框架，在多个数据集的含噪标签域泛化任务中取得了最先进性能。

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer Stiefelhagen2026-03-11🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

该论文提出了名为 RECODE 的代理框架，通过将结构化视觉逆向工程为可执行代码并进行迭代验证与优化，显著提升了多模态大语言模型在图表和几何等视觉推理任务中的精确性与可验证性。

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi2026-03-11🤖 cs.AI

Real-Time Neural Video Compression with Unified Intra and Inter Coding

该论文提出了一种统一帧内与帧间编码的实时神经视频压缩框架，通过引入自适应帧内编码机制有效解决了遮挡、新内容处理及误差累积问题，并采用双向两帧压缩设计，在保持实时性的同时显著提升了压缩效率与稳定性。

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong Liu2026-03-11💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

本文提出了名为 FALCON 的新范式，通过利用空间基础模型从 RGB 图像中提取丰富的 3D 几何先验并注入动作头，有效弥补了现有视觉 - 语言 - 动作模型在空间推理上的不足，从而在仿真和真实世界任务中实现了超越基线的状态-of-the-art 性能。

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

该论文提出通过筛选关键身体地标子集并结合样条插值填补缺失数据，在巴西手语（LIBRAS）孤立手势识别任务中实现了比现有方法快 5 倍且精度相当甚至更优的轻量化解决方案。

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. Paixão2026-03-11💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

本文提出了名为 SynHLMA 的新框架，利用离散的人机交互表示和语言模型，实现了根据自然语言指令生成可变形关节物体的手部操作序列，并在生成、预测及插值任务中展现出优于现有技术的性能，同时支持机器人模仿学习抓取应用。

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

Who Made This? Fake Detection and Source Attribution with Diffusion Features

该论文提出了名为 FRIDA 的轻量级框架，通过利用预训练 Stable Diffusion 模型的特征，实现了无需训练即可检测合成图像并准确归因其生成源，在 GenImage 基准测试中展现了跨生成器检测与源模型归因的卓越性能。

Simone Bonechi, Paolo Andreini, Barbara Toniella Corradini2026-03-11💻 cs

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

本文提出了一种名为 SPAN 的新方法，通过空间点对齐和 3D-2D 投影对齐机制，结合分层任务学习策略，解决了单目 3D 目标检测中因解耦预测导致的几何不一致问题，从而显著提升了检测性能。

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming Yang2026-03-11💻 cs

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

本文针对医学图像中多轮推理分割的新任务，构建了大规模数据集 MR-MedSeg 并提出了具备纠错机制的 MediRound 模型，有效解决了传统方法无法支持多轮实体级推理的问题。

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming Lu2026-03-11🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

本文提出了一种名为自适应多样性缓存（ADC）的免训练、即插即用模块，通过构建类别特定缓存并动态分配容量以增强稀有类别特征，有效缓解了基于视觉语言模型的人机交互检测中的长尾偏差问题。

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong Li2026-03-11🤖 cs.AI

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

本文提出了名为 V-Attack 的新型攻击方法，通过利用 Transformer 注意力机制中解耦且富含局部语义信息的“值特征”（Value Features）替代传统纠缠的 patch 特征，并引入自值增强与文本引导操纵模块，实现了对大型视觉语言模型（LVLMs）图像语义的精准可控对抗攻击，显著提升了攻击成功率。

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin Chen2026-03-11💻 cs

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

该论文针对视觉 - 语言 - 动作（VLA）模型在未知架构和跨模型场景下缺乏通用对抗攻击的问题，提出了名为 UPA-RFAS 的统一框架，通过结合特征空间优化、鲁棒性增强训练及特定于 VLA 的注意力劫持与语义错位损失，成功生成了能够跨模型、跨任务及跨视角物理转移的通用对抗补丁。

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong Jiang2026-03-11🤖 cs.AI

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

本文提出了名为 AFRO 的自监督框架，通过在不依赖动作或重建监督的情况下，利用生成扩散过程联合建模正向与逆向动力学，成功解决了现有 3D 视觉预训练方法在机器人操作任务中因缺乏状态 - 动作动态建模而表现不佳的问题，显著提升了多任务下的操作成功率并展现出良好的可扩展性。

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing Xu2026-03-11💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

该论文提出了首个音频 - 视觉世界模型（AVWM）框架，通过构建包含双耳音频与视觉轨迹的 AVW-4k 数据集，并设计 AV-CDiT 多模态扩散 Transformer 模型，实现了在精确动作控制下对视听动态的高保真模拟，显著提升了智能体在连续视听导航任务中的表现。

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin Mao2026-03-11💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

本文通过深入分析 VGGT 和 $\pi^3$ 中全局注意力模块的作用机制，提出了一种无需训练的加速方案，通过将早期层转换为帧注意力并结合 K/V 子采样策略，在显著提升多视图推理速度（最高达 10 倍）的同时保持了原有的精度与鲁棒性。

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang2026-03-11💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

该论文针对卫星遥感图像中船舶检测面临的尺度差异大和长宽比高等挑战，提出了一种名为 LiM-YOLO 的轻量化检测器，通过统计船舶尺度分布将检测头从传统的 P3-P5 层级调整为 P2-P4 层级以满足奈奎斯特采样条件，并引入组归一化线性投影模块以解决小批量训练下的梯度不稳定问题，从而在显著减少参数量的同时实现了优于现有方法的检测精度。

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin Kim2026-03-11⚡ eess