cs.CV 篇论文 | Gist.Science

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

本文提出了名为 ENIGMA-360 的新数据集，该数据集在真实工业场景中采集了 180 组时间同步的 360 度第一人称与第三人称视频及标注，旨在填补工业领域人机行为理解数据的空白，并通过基线实验展示了现有模型在此类复杂场景下的局限性。

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria FarinellaWed, 11 Ma💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

本文提出了语言感知规划（LAP）模型，该模型利用微调后的视觉语言模型将视觉观测转化为更具区分性的文本嵌入，并通过扩散模型生成动作序列，在多个程序规划基准测试中显著超越了现有最先进方法。

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie LowryWed, 11 Ma💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

LogoDiffuser 是一种无需训练的基于多模态扩散变换器的方法，它通过将目标字符作为图像输入并利用字母感知注意力控制机制，实现了能够保持字符结构且支持多语言的高质量 Logo 生成与风格化。

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk ChoiWed, 11 Ma💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

本文提出了首个面向 360°全景环境的整体 affordance 定位任务，通过构建 360-AGD 数据集及提出包含畸变感知谱调制器和全向球面致密化头的 PanoAffordanceNet 框架，有效解决了全景图像中的几何畸变与语义分散问题，显著提升了具身智能的场景级感知能力。

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun YangWed, 11 Ma⚡ eess

Ego: Embedding-Guided Personalization of Vision-Language Models

该论文提出了一种名为 Ego 的高效个性化方法，通过利用模型内部注意力机制提取代表目标概念的视觉令牌作为记忆，从而在不依赖额外训练阶段或外部模块的情况下，显著提升了大型视觉语言模型在单概念、多概念及视频场景下的个性化能力。

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf AljundiWed, 11 Ma🤖 cs.AI

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

该论文通过理论证明与实证研究揭示了后门攻击中“替代触发器”的必然存在性，指出仅移除训练触发器无法彻底清除后门，并主张防御策略应从输入空间转向针对特征空间后门方向的治理。

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan PicekWed, 11 Ma💻 cs

What is Missing? Explaining Neurons Activated by Absent Concepts

该论文指出可解释人工智能（XAI）领域长期忽视了神经元对“缺失概念”的编码现象，并提出扩展归因和特征可视化方法以有效揭示此类机制，从而提升模型解释性与去偏效果。

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan RothWed, 11 Ma🤖 cs.LG

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

本文提出了测试时自视 - 他视适应（TE²A³）任务，并设计了通过多标签原型生长和双线索一致性机制来在线调整模型以应对多动作候选及跨视角时空差异的 DCPGN 方法，在 EgoMe-anti 和 EgoExoLearn 基准上显著优于现有最先进方法。

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang LiWed, 11 Ma💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

该论文提出了细粒度的区域感知声源理解（RA-SSU）新任务，构建了包含音乐和生活场景的细粒度数据集（f-Music 和 f-Lifescene），并设计了具备掩码协同与混合专家提示机制的 SSUFormer 模型，实现了帧级声源分割与描述的最先进性能。

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan SunWed, 11 Ma💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

ConfCtrl 提出了一种置信度感知的视频插值框架，通过结合置信度加权投影点云潜变量与卡尔曼启发式的预测 - 更新机制，使扩散模型在大视角变化下既能遵循指定相机姿态，又能有效重建未见区域，从而生成几何一致且视觉合理的 novel view。

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav ValadaWed, 11 Ma💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

本文提出了 BrainSTR 框架，通过结合自适应相位划分、注意力机制及时空监督对比学习，实现了可解释的动态脑网络建模，能够精准识别精神疾病诊断中的关键时间相位与亚网络特征。

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. ZaianeWed, 11 Ma💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

该论文提出了 VLM-Loc 框架，利用大视觉语言模型的空间推理能力，通过将点云转换为鸟瞰图与场景图并结合部分节点分配机制，实现了从自然语言描述到 3D 点云地图的精准定位，并发布了 CityLoc 基准数据集以验证其优越性能。

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun LiuWed, 11 Ma💻 cs

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

该论文针对未来多智能体协作场景，正式定义了多视角长时序第一人称视频理解问题，提出了包含 1.7 千个问题的 MA-EgoQA 基准数据集及共享记忆动态检索基线模型 EgoMAS，以评估并推动系统在多智能体系统级理解能力上的发展。

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju HwangWed, 11 Ma🤖 cs.AI

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

本文提出了 CycleULM，这是首个用于超声定位显微镜的无标签统一深度学习框架，它通过物理模拟的域翻译技术克服了数据稀缺和仿真到现实的差距，在无需配对真值数据的情况下显著提升了血管成像的对比度、分辨率及微泡定位精度，并实现了实时处理速度。

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing TangWed, 11 Ma⚡ eess

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

本文提出了 MissBench 基准及框架，旨在通过标准化不平衡缺失模态协议并引入模态公平性指数（MEI）和模态学习指数（MLI）等诊断指标，揭示现有情感计算模型在真实缺失场景下隐藏的模态贡献不公与优化失衡问题。

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi NguyenWed, 11 Ma💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

本文提出了轻量级统一多模态模型 InternVL-U，通过解耦视觉表征与推理中心的数据合成策略，在仅使用 40 亿参数的情况下实现了理解、推理、生成与编辑能力的统一，其综合性能显著超越了参数量大 3 倍以上的同类基线模型。

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie ZhangWed, 11 Ma💻 cs

cs.CV