cs.CV 篇论文 | Gist.Science

Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm

本文提出了结合数据增强、迁移学习和测试时增强策略的斑马鱼自动心血管评估框架（ZACAF），有效克服了传统监督模型在跨成像设置和突变类型上的泛化局限，成功实现了对 nrap 突变体等新型模型心脏功能的精准量化分析。

Amir Mohammad Naderi, Jennifer G. Casey, Mao-Hsiang Huang + 5 more2026-03-03⚡ eess

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

本文提出了一种名为 FiLo 的零样本异常检测方法，通过利用大语言模型生成细粒度描述和结合多尺度跨模态交互实现高质量定位，显著提升了在 MVTec 和 VisA 等数据集上的异常检测与定位性能并达到了最先进水平。

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 4 more2026-03-03🤖 cs.LG

Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization

该论文通过理论证明锐度感知最小化（SAM）相比梯度下降（GD）具有更低的“简单性偏差”，并据此提出了一种名为 USEFUL 的算法，通过早期聚类识别并过采样特定样本以调整训练数据分布，从而显著提升了多种模型在多个数据集上的分布内泛化性能。

Dang Nguyen, Paymon Haddad, Eric Gan + 1 more2026-03-03🤖 cs.AI

Towards Camera Open-set 3D Object Detection for Autonomous Driving Scenarios

本文提出了名为 OS-Det3D 的两阶段训练框架，通过结合 LiDAR 几何线索生成类无关 3D 提案并利用联合选择模块进行筛选，有效解决了自动驾驶场景中相机 3D 检测器难以识别未知物体的问题，同时提升了对已知物体的检测性能。

Zhuolin He, Xinrun Li, Jiacheng Tang + 4 more2026-03-03🤖 cs.AI

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

本文提出了 PO-GUISE+，一种利用驾驶员姿态和交互物体信息引导 Transformer 令牌选择的多任务视频模型，旨在以显著降低的计算成本实现高效的分心驾驶行为识别，并在多个数据集及 Jetson 边缘计算平台上验证了其优越的性能与效率。

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs

MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics

本文提出了名为 MSSPlace 的多传感器场所识别方法，通过融合多摄像头图像、LiDAR 点云、语义分割掩码及文本描述，利用晚期融合策略生成综合场所描述符，在 Oxford RobotCar 和 NCLT 数据集上实现了优于单模态方法的最先进性能。

Alexander Melekhin, Dmitry Yudin, Ilia Petryashin + 1 more2026-03-03💻 cs

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation

本文发布了一个专为视障人士导航设计的数据集，包含 21 段户外视频、经焦点小组研究确定的 90 类关键物体分类体系及相应的标注数据，旨在揭示现有计算机视觉模型在识别此类关键物体方面的不足，并推动开发更具包容性的导航系统。

Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce + 2 more2026-03-03💻 cs

Latent 3D Brain MRI Counterfactual

针对现有生成模型难以在分布外生成高质量数据以及高维空间因果建模质量低的问题，本文提出了一种基于 VQ-VAE 潜在空间构建结构因果模型的两阶段方法，利用广义线性模型执行反事实推理，从而在真实高分辨率脑 MRI 数据上成功生成了高质量且多样化的 3D 反事实图像。

Wei Peng, Tian Xia, Fabio De Sousa Ribeiro + 5 more2026-03-03🤖 cs.AI

MV-Adapter: Enhancing Underwater Instance Segmentation via Adaptive Channel Attention

本文提出了名为 MV-Adapter 的自适应通道注意力模块，通过动态调整特征权重以应对水下光衰减、色偏及复杂背景等挑战，显著提升了 USIS-SAM 模型在水下实例分割任务中的性能。

Lianjun Liu2026-03-03💻 cs

XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

本文提出了 XPoint，一种基于自监督视觉状态空间架构的模块化多光谱图像配准框架，通过引入 VMamba 编码器与多任务解码头，有效解决了跨模态匹配中的非线性强度变化与标注数据稀缺问题，并在多种光谱组合任务中展现出优于或持平现有最先进方法的性能。

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation

本文提出了 EchoMimicV2，一种通过音频 - 姿态动态协调策略、头部局部注意力机制及分阶段去噪损失，在简化输入条件并有效利用头部数据的同时，实现高质量半身人物动画的新方法。

Rang Meng, Xingyu Zhang, Yuming Li + 1 more2026-03-03💻 cs

MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

本文提出了 MFP3D 框架，通过单目图像重建 3D 点云并结合 RGB 特征进行回归分析，实现了无需参考物或多视角输入的高精度食物份量估算。

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment

本文针对现有基于多模态大语言模型的图像质量评估方法缺乏细粒度感知的问题，提出了结合定位与指代的“Grounding-IQA"新范式，构建了包含 16 万条数据的 GIQA-160K 数据集及 GIQA-Bench 基准，实现了具备精确区域定位能力的细粒度图像质量描述与问答评估。

Zheng Chen, Xun Zhang, Wenbo Li + 7 more2026-03-03💻 cs

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

本文提出了一种名为 DAWN-FM 的数据感知与噪声感知流匹配方法，通过显式嵌入数据与噪声信息并针对特定逆问题训练，有效解决了图像去模糊和断层扫描等任务中数据不完整或噪声干扰导致的病态问题，同时实现了精确重建与不确定性量化。

Shadab Ahamed, Eldad Haber2026-03-03⚡ eess

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

本文提出了 FiLo++ 方法，通过融合大语言模型生成的细粒度描述与可变形定位模块，有效解决了现有零样本和少样本异常检测中描述泛化性不足及定位精度低的问题，显著提升了模型在目标类别无标签或少量样本场景下的检测与定位性能。

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 3 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

本文提出了一种基于正交基（包括埃尔米特多项式、傅里叶三角函数及热带化多项式）的激活函数族，通过简单的方差保持初始化成功解决了深度模型中的激活与梯度爆炸/消失问题，实现了在 GPT-2 和 ConvNeXt 等大规模任务上的有效训练，并揭示了多项式激活网络的代数结构及其在微调任务中通过埃尔米特插值逼近经典激活函数的潜力。

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Deep generative computed perfusion-deficit mapping of ischaemic stroke

该研究利用深度生成推理技术，仅基于超急性期 CT 血管造影（CTA）数据构建计算灌注缺损图，在无需已知病灶信息的情况下成功定位了缺血性卒中 NIHSS 亚评分的神经基质，揭示了新的神经依赖关系并验证了该方法在急性卒中临床表型分析中的巨大价值。

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

该研究指出 CLIP 模型并非缺乏属性与对象的绑定信息，而是跨模态对齐未能有效保留这些信息，因此仅需通过简单的线性变换即可在无需重新训练编码器的情况下显著提升其跨模态绑定能力。

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

本文提出了首个涵盖视觉、音频和文本的“世界感知”（WorldSense）基准，通过 1,662 个高质量音视频同步视频及 3,172 个多轮问答对，系统评估了多模态大模型在真实场景下对多模态协同理解的现有能力与局限。

Jack Hong, Shilin Yan, Jiayin Cai + 3 more2026-03-03🤖 cs.AI

Precise Parameter Localization for Textual Generation in Diffusion Models

该论文通过注意力激活修补技术发现扩散模型中不到 1% 的参数（集中于注意力层）主导图像文本生成，并据此提出了一种仅微调这些局部参数即可提升文本生成能力、实现文本编辑及低成本抑制有毒文本生成的通用高效方法。

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs