cs.CV 篇论文 | Gist.Science

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

本文提出了 PO-GUISE+，一种利用驾驶员姿态和交互物体信息引导 Transformer 令牌选择的多任务视频模型，旨在以显著降低的计算成本实现高效的分心驾驶行为识别，并在多个数据集及 Jetson 边缘计算平台上验证了其优越的性能与效率。

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs

MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics

本文提出了名为 MSSPlace 的多传感器场所识别方法，通过融合多摄像头图像、LiDAR 点云、语义分割掩码及文本描述，利用晚期融合策略生成综合场所描述符，在 Oxford RobotCar 和 NCLT 数据集上实现了优于单模态方法的最先进性能。

Alexander Melekhin, Dmitry Yudin, Ilia Petryashin + 1 more2026-03-03💻 cs

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation

本文发布了一个专为视障人士导航设计的数据集，包含 21 段户外视频、经焦点小组研究确定的 90 类关键物体分类体系及相应的标注数据，旨在揭示现有计算机视觉模型在识别此类关键物体方面的不足，并推动开发更具包容性的导航系统。

Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce + 2 more2026-03-03💻 cs

Latent 3D Brain MRI Counterfactual

针对现有生成模型难以在分布外生成高质量数据以及高维空间因果建模质量低的问题，本文提出了一种基于 VQ-VAE 潜在空间构建结构因果模型的两阶段方法，利用广义线性模型执行反事实推理，从而在真实高分辨率脑 MRI 数据上成功生成了高质量且多样化的 3D 反事实图像。

Wei Peng, Tian Xia, Fabio De Sousa Ribeiro + 5 more2026-03-03🤖 cs.AI

MV-Adapter: Enhancing Underwater Instance Segmentation via Adaptive Channel Attention

本文提出了名为 MV-Adapter 的自适应通道注意力模块，通过动态调整特征权重以应对水下光衰减、色偏及复杂背景等挑战，显著提升了 USIS-SAM 模型在水下实例分割任务中的性能。

Lianjun Liu2026-03-03💻 cs

XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

本文提出了 XPoint，一种基于自监督视觉状态空间架构的模块化多光谱图像配准框架，通过引入 VMamba 编码器与多任务解码头，有效解决了跨模态匹配中的非线性强度变化与标注数据稀缺问题，并在多种光谱组合任务中展现出优于或持平现有最先进方法的性能。

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation

本文提出了 EchoMimicV2，一种通过音频 - 姿态动态协调策略、头部局部注意力机制及分阶段去噪损失，在简化输入条件并有效利用头部数据的同时，实现高质量半身人物动画的新方法。

Rang Meng, Xingyu Zhang, Yuming Li + 1 more2026-03-03💻 cs

MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

本文提出了 MFP3D 框架，通过单目图像重建 3D 点云并结合 RGB 特征进行回归分析，实现了无需参考物或多视角输入的高精度食物份量估算。

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment

本文针对现有基于多模态大语言模型的图像质量评估方法缺乏细粒度感知的问题，提出了结合定位与指代的“Grounding-IQA"新范式，构建了包含 16 万条数据的 GIQA-160K 数据集及 GIQA-Bench 基准，实现了具备精确区域定位能力的细粒度图像质量描述与问答评估。

Zheng Chen, Xun Zhang, Wenbo Li + 7 more2026-03-03💻 cs

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

本文提出了一种名为 DAWN-FM 的数据感知与噪声感知流匹配方法，通过显式嵌入数据与噪声信息并针对特定逆问题训练，有效解决了图像去模糊和断层扫描等任务中数据不完整或噪声干扰导致的病态问题，同时实现了精确重建与不确定性量化。

Shadab Ahamed, Eldad Haber2026-03-03⚡ eess

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

本文提出了 FiLo++ 方法，通过融合大语言模型生成的细粒度描述与可变形定位模块，有效解决了现有零样本和少样本异常检测中描述泛化性不足及定位精度低的问题，显著提升了模型在目标类别无标签或少量样本场景下的检测与定位性能。

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 3 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

本文提出了一种基于正交基（包括埃尔米特多项式、傅里叶三角函数及热带化多项式）的激活函数族，通过简单的方差保持初始化成功解决了深度模型中的激活与梯度爆炸/消失问题，实现了在 GPT-2 和 ConvNeXt 等大规模任务上的有效训练，并揭示了多项式激活网络的代数结构及其在微调任务中通过埃尔米特插值逼近经典激活函数的潜力。

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Deep generative computed perfusion-deficit mapping of ischaemic stroke

该研究利用深度生成推理技术，仅基于超急性期 CT 血管造影（CTA）数据构建计算灌注缺损图，在无需已知病灶信息的情况下成功定位了缺血性卒中 NIHSS 亚评分的神经基质，揭示了新的神经依赖关系并验证了该方法在急性卒中临床表型分析中的巨大价值。

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

该研究指出 CLIP 模型并非缺乏属性与对象的绑定信息，而是跨模态对齐未能有效保留这些信息，因此仅需通过简单的线性变换即可在无需重新训练编码器的情况下显著提升其跨模态绑定能力。

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

本文提出了首个涵盖视觉、音频和文本的“世界感知”（WorldSense）基准，通过 1,662 个高质量音视频同步视频及 3,172 个多轮问答对，系统评估了多模态大模型在真实场景下对多模态协同理解的现有能力与局限。

Jack Hong, Shilin Yan, Jiayin Cai + 3 more2026-03-03🤖 cs.AI

Precise Parameter Localization for Textual Generation in Diffusion Models

该论文通过注意力激活修补技术发现扩散模型中不到 1% 的参数（集中于注意力层）主导图像文本生成，并据此提出了一种仅微调这些局部参数即可提升文本生成能力、实现文本编辑及低成本抑制有毒文本生成的通用高效方法。

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

该论文提出了一种针对仇恨模因检测的鲁棒大模型自适应框架，通过增强领域内准确性与跨领域泛化能力，在六个数据集上实现了超越现有代理系统的性能，同时提升了模型的抗攻击能力与可解释性。

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

Thicker and Quicker: A Jumbo Token for Fast Plain Vision Transformers

该论文提出了一种名为“Jumbo"的新型大令牌机制，通过减少普通令牌宽度并增加一个共享参数的全局大令牌，在保持纯 Vision Transformer 架构通用性与灵活性的同时，显著提升了模型在速度、精度及多种下游任务中的表现。

Anthony Fuller, Yousef Yassin, Daniel G. Kyrollos + 2 more2026-03-03💻 cs

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

该论文提出了名为 MemeIntel 的框架，通过构建首个大规模双语解释性数据集 MemeXplain 并采用多阶段优化策略训练视觉语言模型，显著提升了阿拉伯语宣传类及英语仇恨类模因的检测准确率与解释生成质量。

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

Openfly: A comprehensive platform for aerial vision-language navigation

本文提出了 OpenFly 平台，该平台集成了多种渲染引擎与自动化工具链，构建了包含 10 万条轨迹的大规模户外空中视觉语言导航基准数据集，并提出了关键帧感知的 OpenFly-Agent 模型，有效解决了该领域数据匮乏与仿真挑战。

Yunpeng Gao, Chenhui Li, Zhongrui You + 20 more2026-03-03💻 cs