cs.CV 篇论文 | Gist.Science

Kuramoto Orientation Diffusion Models

该论文提出了一种名为“Kuramoto 取向扩散模型”的生成方法，通过利用生物启发的 Kuramoto 同步动力学在周期性域上构建分数模型，有效解决了指纹和纹理等富含方向性信息的图像生成难题，显著提升了此类数据的生成质量。

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

本文提出了一种名为 CSLICS 的低成本模块化成像系统，利用人机协作训练的目标检测技术实现珊瑚产卵的自动化计数，在 Great Barrier Reef 的实验中不仅显著提升了不同发育阶段产卵检测的准确率（表面检测 F1 分数达 82.4%），还大幅减少了人工劳动时间，从而有效推动了珊瑚礁生态修复的规模化发展。

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett Raine2026-03-11💻 cs

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

该论文提出了一种无监督方法，通过识别解码方向（基于激活聚类）和估计编码方向（基于信号向量），并利用不确定性区域对齐技术，成功恢复了深度视觉网络中概念信息的编码 - 解码方向对，从而实现了对模型黑盒机制的可解释性分析、预测解释及干预修正。

Alexandros Doumanoglou, Kurt Driessens, Dimitrios Zarpalas2026-03-11💻 cs

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

本文提出了 VSSFlow，一种基于流匹配的联合学习框架，通过引入解耦条件聚合机制，成功统一了视频到声音和视频文本到语音生成任务，并在端到端联合训练中实现了超越现有专用基线的性能。

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

本文提出了名为 v-HUB 的视频幽默理解基准，通过包含非语言短视频及环境声音标注的多样化评估任务，揭示了当前多模态大模型在纯视觉幽默理解上的局限性，并证实了引入音频模态能显著提升模型对复杂视频幽默的感知能力。

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

该论文针对视觉语言模型在多轮多模态对话中面临的安全挑战，构建了包含 4484 条标注对话的 MMDS 数据集及自动化红队测试框架，并提出了 LLaVAShield 安全审计系统，该系统在检测多轮对话中的隐蔽恶意意图和累积风险方面显著优于现有模型与工具。

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun Shen2026-03-11💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

该研究通过开发一种针对历史地图复杂性的双阶段 U-Net 深度学习流程，成功从 1925 至 1950 年的法国历史地图中提取并发布了首个覆盖全国的高精度城市足迹数据集，填补了 20 世纪 70 年代前法国城市扩张量化分析的空白。

Walid Rabehi, Marion Le Texier, Rémi Lemoy2026-03-11💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

本文提出了旨在评估导航智能体空间感知与推理能力的 NavSpace 基准及包含六个任务类别的 1,228 条轨迹 - 指令对，并通过该基准对 22 种现有模型进行了全面评估，同时推出了在 NavSpace 和真实机器人测试中均表现优异的新型空间智能导航模型 SNav。

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

该论文针对 LiDAR 语义分割中标签噪声与域泛化双重挑战，首次建立了相关基准并提出了名为 DuNe 的双视图一致性框架，在多个数据集的含噪标签域泛化任务中取得了最先进性能。

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer Stiefelhagen2026-03-11🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

该论文提出了名为 RECODE 的代理框架，通过将结构化视觉逆向工程为可执行代码并进行迭代验证与优化，显著提升了多模态大语言模型在图表和几何等视觉推理任务中的精确性与可验证性。

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi2026-03-11🤖 cs.AI

Real-Time Neural Video Compression with Unified Intra and Inter Coding

该论文提出了一种统一帧内与帧间编码的实时神经视频压缩框架，通过引入自适应帧内编码机制有效解决了遮挡、新内容处理及误差累积问题，并采用双向两帧压缩设计，在保持实时性的同时显著提升了压缩效率与稳定性。

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong Liu2026-03-11💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

本文提出了名为 FALCON 的新范式，通过利用空间基础模型从 RGB 图像中提取丰富的 3D 几何先验并注入动作头，有效弥补了现有视觉 - 语言 - 动作模型在空间推理上的不足，从而在仿真和真实世界任务中实现了超越基线的状态-of-the-art 性能。

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

该论文提出通过筛选关键身体地标子集并结合样条插值填补缺失数据，在巴西手语（LIBRAS）孤立手势识别任务中实现了比现有方法快 5 倍且精度相当甚至更优的轻量化解决方案。

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. Paixão2026-03-11💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

本文提出了名为 SynHLMA 的新框架，利用离散的人机交互表示和语言模型，实现了根据自然语言指令生成可变形关节物体的手部操作序列，并在生成、预测及插值任务中展现出优于现有技术的性能，同时支持机器人模仿学习抓取应用。

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

cs.CV