cs.CV 篇论文 | Gist.Science

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

该论文提出了一种名为 SFDA-PFT 的轻量级无源域自适应方法，通过在潜在空间中利用预训练的特征翻译器将源域风格映射到仅含中性表情的目标域数据，从而在无需源数据或图像合成的隐私敏感场景下实现了高效的面部表情识别。

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric GrangerWed, 11 Ma🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

本文提出了 EgoCross 基准，旨在通过涵盖手术、工业、极限运动和动物视角等四个高影响力跨域场景的评测，揭示现有多模态大语言模型在 egocentric 视频问答任务中面对域偏移时的泛化局限性，并为构建更鲁棒的领域自适应视频理解系统奠定基础。

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling WangWed, 11 Ma🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

本文提出了YOPO，一种单阶段、基于查询的极简检测Transformer框架，仅需单目RGB图像和类别级标签即可实现端到端的9自由度多物体姿态估计，并在多个基准测试中刷新了仅用RGB数据的性能纪录。

Hakjin Lee, Junghoon Seo, Jaehoon SimWed, 11 Ma💻 cs

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

CoRe-GS 提出了一种面向任务驱动的粗到精高斯溅射框架，通过仅对感兴趣区域进行选择性优化并引入颜色过滤机制去除异常点，在显著降低计算成本的同时提升了特定场景点的重建质量与分割效率，从而满足机器人实时操作需求。

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel RothWed, 11 Ma💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

本文提出了 VocSegMRI 框架，通过融合视频、音频和音位信息并利用交叉注意力机制与对比学习，显著提升了实时磁共振成像（rtMRI）中声道分割的精度与鲁棒性，在 USC-75 数据集上取得了优于现有方法的性能。

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-ToroWed, 11 Ma💻 cs

Kuramoto Orientation Diffusion Models

该论文提出了一种名为“Kuramoto 取向扩散模型”的生成方法，通过利用生物启发的 Kuramoto 同步动力学在周期性域上构建分数模型，有效解决了指纹和纹理等富含方向性信息的图像生成难题，显著提升了此类数据的生成质量。

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

本文提出了一种名为 CSLICS 的低成本模块化成像系统，利用人机协作训练的目标检测技术实现珊瑚产卵的自动化计数，在 Great Barrier Reef 的实验中不仅显著提升了不同发育阶段产卵检测的准确率（表面检测 F1 分数达 82.4%），还大幅减少了人工劳动时间，从而有效推动了珊瑚礁生态修复的规模化发展。

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

该论文提出了一种无监督方法，通过识别解码方向（基于激活聚类）和估计编码方向（基于信号向量），并利用不确定性区域对齐技术，成功恢复了深度视觉网络中概念信息的编码 - 解码方向对，从而实现了对模型黑盒机制的可解释性分析、预测解释及干预修正。

Alexandros Doumanoglou, Kurt Driessens, Dimitrios ZarpalasWed, 11 Ma💻 cs

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

本文提出了 VSSFlow，一种基于流匹配的联合学习框架，通过引入解耦条件聚合机制，成功统一了视频到声音和视频文本到语音生成任务，并在端到端联合训练中实现了超越现有专用基线的性能。

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

本文提出了名为 v-HUB 的视频幽默理解基准，通过包含非语言短视频及环境声音标注的多样化评估任务，揭示了当前多模态大模型在纯视觉幽默理解上的局限性，并证实了引入音频模态能显著提升模型对复杂视频幽默的感知能力。

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

该论文针对视觉语言模型在多轮多模态对话中面临的安全挑战，构建了包含 4484 条标注对话的 MMDS 数据集及自动化红队测试框架，并提出了 LLaVAShield 安全审计系统，该系统在检测多轮对话中的隐蔽恶意意图和累积风险方面显著优于现有模型与工具。

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun ShenWed, 11 Ma💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

该研究通过开发一种针对历史地图复杂性的双阶段 U-Net 深度学习流程，成功从 1925 至 1950 年的法国历史地图中提取并发布了首个覆盖全国的高精度城市足迹数据集，填补了 20 世纪 70 年代前法国城市扩张量化分析的空白。

Walid Rabehi, Marion Le Texier, Rémi LemoyWed, 11 Ma💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

本文提出了旨在评估导航智能体空间感知与推理能力的 NavSpace 基准及包含六个任务类别的 1,228 条轨迹 - 指令对，并通过该基准对 22 种现有模型进行了全面评估，同时推出了在 NavSpace 和真实机器人测试中均表现优异的新型空间智能导航模型 SNav。

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

该论文针对 LiDAR 语义分割中标签噪声与域泛化双重挑战，首次建立了相关基准并提出了名为 DuNe 的双视图一致性框架，在多个数据集的含噪标签域泛化任务中取得了最先进性能。

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

该论文提出了名为 RECODE 的代理框架，通过将结构化视觉逆向工程为可执行代码并进行迭代验证与优化，显著提升了多模态大语言模型在图表和几何等视觉推理任务中的精确性与可验证性。

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

Real-Time Neural Video Compression with Unified Intra and Inter Coding

该论文提出了一种统一帧内与帧间编码的实时神经视频压缩框架，通过引入自适应帧内编码机制有效解决了遮挡、新内容处理及误差累积问题，并采用双向两帧压缩设计，在保持实时性的同时显著提升了压缩效率与稳定性。

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong LiuWed, 11 Ma💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

本文提出了名为 FALCON 的新范式，通过利用空间基础模型从 RGB 图像中提取丰富的 3D 几何先验并注入动作头，有效弥补了现有视觉 - 语言 - 动作模型在空间推理上的不足，从而在仿真和真实世界任务中实现了超越基线的状态-of-the-art 性能。

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

该论文提出通过筛选关键身体地标子集并结合样条插值填补缺失数据，在巴西手语（LIBRAS）孤立手势识别任务中实现了比现有方法快 5 倍且精度相当甚至更优的轻量化解决方案。

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. PaixãoWed, 11 Ma💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

本文提出了名为 SynHLMA 的新框架，利用离散的人机交互表示和语言模型，实现了根据自然语言指令生成可变形关节物体的手部操作序列，并在生成、预测及插值任务中展现出优于现有技术的性能，同时支持机器人模仿学习抓取应用。

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan GuoWed, 11 Ma🤖 cs.AI

Who Made This? Fake Detection and Source Attribution with Diffusion Features

该论文提出了名为 FRIDA 的轻量级框架，通过利用预训练 Stable Diffusion 模型的特征，实现了无需训练即可检测合成图像并准确归因其生成源，在 GenImage 基准测试中展现了跨生成器检测与源模型归因的卓越性能。

Simone Bonechi, Paolo Andreini, Barbara Toniella CorradiniWed, 11 Ma💻 cs