cs.CV 篇论文 | Gist.Science

A multimodal slice discovery framework for systematic failure detection and explanation in medical image classification

该论文提出了一种面向医疗图像分类的首个自动审计框架，通过扩展多模态表示的切片发现方法，有效解决了现有单模态或元数据分析在可解释性及捕捉隐藏系统性故障方面的局限性，并在 MIMIC-CXR-JPG 数据集上验证了其在故障发现与解释生成方面的卓越能力。

Yixuan Liu, Kanwal K. Bhatia, Ahmed E. Fetit2026-03-02🤖 cs.LG

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

本文提出了名为 UMPIRE 的训练-free 不确定性量化框架，通过利用模型内部特征计算响应样本的“非一致性调整语义体积”，有效解决了多模态大语言模型在多种模态及分布外场景下现有不确定性指标受限的问题，显著提升了错误检测与校准性能。

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

本文提出了名为 SenCache 的敏感性感知缓存框架，通过分析模型输出对去噪输入扰动的敏感性来动态选择缓存时机，从而在无需训练的情况下显著提升了扩散视频生成模型的推理效率与视觉质量。

Yasaman Haghighi, Alexandre Alahi2026-03-02🤖 cs.LG

MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy

本文提出了 MuViT，一种专为显微镜多尺度分析设计的多分辨率 Transformer 架构，它通过将图像块嵌入共享的世界坐标系并扩展旋转位置编码，实现了在同一编码器中融合广域上下文与高分辨率细节，从而在多个基准测试中显著优于现有的 ViT 和 CNN 模型。

Albert Dominguez Mantes, Gioele La Manno, Martin Weigert2026-03-02🤖 cs.LG

Enhancing Spatial Understanding in Image Generation via Reward Modeling

该论文提出了一种通过构建包含 8 万多对偏好数据的 SpatialReward-Dataset 并训练出超越现有领先模型的 SpatialScore 奖励模型，从而利用在线强化学习显著增强文本到图像生成模型空间理解能力的新方法。

Zhenyu Tang, Chaoran Feng, Yufan Deng + 5 more2026-03-02💻 cs

Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution

本文提出了 GTASR，一种针对真实世界图像超分辨率的轻量级一致性训练范式，通过轨迹对齐策略和双重参考结构校正机制，有效解决了现有方法中的累积漂移与几何解耦问题，在保持极低延迟的同时实现了卓越的生成质量。

Chengyan Deng, Zhangquan Chen, Li Yu + 3 more2026-03-02💻 cs

Histopathology Image Normalization via Latent Manifold Compaction

本文提出了一种名为潜在流形压缩（LMC）的无监督表示学习框架，通过显式压缩染色诱导的潜在流形来学习批次不变嵌入，从而有效消除组织病理学图像中的批次效应，显著提升了模型在跨批次分类和检测任务中的泛化性能。

Xiaolong Zhang, Jianwei Zhang, Selim Sevim + 3 more2026-03-02🤖 cs.LG

Hierarchical Action Learning for Weakly-Supervised Action Segmentation

本文提出了基于分层因果生成过程与分层金字塔 Transformer 的弱监督动作分割模型 HAL，通过利用高低层变量演化速率差异及稀疏过渡约束实现潜在动作变量的严格可辨识性，从而在多个基准测试中显著优于现有方法。

Junxian Huang, Ruichu Cai, Hao Zhu + 5 more2026-03-02💻 cs

Mode Seeking meets Mean Seeking for Fast Long Video Generation

该论文提出了一种名为“模式寻求与均值寻求”（Mode Seeking meets Mean Seeking）的训练范式，通过解耦局部保真度与长期连贯性，利用全局流匹配头学习长视频叙事结构并结合局部分布匹配头对齐短视频教师模型，从而实现了快速生成高保真、长时程一致的视频。

Shengqu Cai, Weili Nie, Chao Liu + 8 more2026-03-02🤖 cs.LG

BSDM: Background Suppression Diffusion Model for Hyperspectral Anomaly Detection

本文提出了一种名为 BSDM 的背景抑制扩散模型，通过利用伪背景噪声学习潜在分布、引入统计偏移模块实现跨域泛化，以及改进推理过程将背景视为噪声去除，从而在无标签样本条件下有效解决了高光谱异常检测中复杂背景干扰和模型泛化能力不足的问题。

Jitao Ma, Weiying Xie, Yunsong Li + 1 more2026-02-27💻 cs

StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning

本文提出了 StableMaterials，一种结合半监督学习与潜在扩散模型的新技术，通过对抗训练、扩散细化、潜在一致性蒸馏及平铺去噪技术，实现了仅需少量标注数据即可生成多样化、高分辨率且无缝的逼真物理渲染（PBR）材质。

Giuseppe Vecchio2026-02-27💻 cs

SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation

本文提出了 SGIFormer，一种通过语义引导混合查询初始化与几何增强交错 Transformer 解码器，在 ScanNet 等数据集上实现高精度且高效 3D 实例分割的新方法。

Lei Yao, Yi Wang, Moyun Liu + 1 more2026-02-27💻 cs

Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture

该论文提出了一种基于参数高效适配的开放集人脸伪造检测方法，通过构建伪造风格混合策略增强模型泛化能力，并利用轻量级模块微调预训练 ViT 模型，在显著降低训练参数量的同时实现了跨未知伪造域的高性能检测。

Chenqi Kong, Anwei Luo, Peijun Bao + 5 more2026-02-27💻 cs

Abstracted Gaussian Prototypes for True One-Shot Concept Learning

本文提出了一种基于高斯混合模型的抽象高斯原型（AGP）框架，通过从单一样本中推断拓扑子部分并生成增强原型，在无需预训练或知识工程的情况下，实现了兼具分类与生成能力的“真正”单样本概念学习。

Chelsea Zou, Kenneth J. Kurtz2026-02-27🤖 cs.AI

SplatSDF: Boosting SDF-NeRF via Architecture-Level Fusion with Gaussian Splats

本文提出了 SplatSDF，一种通过将 3D 高斯泼溅（3DGS）在架构层面直接融合为 SDF-NeRF 输入的新型方法，利用稀疏融合策略显著加速了收敛速度并提升了几何与渲染质量，从而克服了传统 SDF-NeRF 训练缓慢的瓶颈并推动其在实际机器人系统中的应用。

Runfa Blark Li, Keito Suzuki, Bang Du + 3 more2026-02-27💻 cs

Distractor-free Generalizable 3D Gaussian Splatting

本文提出了 DGGS 框架，通过引入场景无关的参考掩码预测与优化模块以及两阶段推理机制，有效解决了跨场景泛化 3D 高斯泼溅中干扰数据导致的训练不稳定和重建伪影问题，实现了在未见场景中的鲁棒前馈推理与高质量重建。

Yanqi Bao, Jing Liao, Jing Huo + 1 more2026-02-27💻 cs

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

该论文提出了一种结合伪未知嵌入学习与多尺度对比锚点学习的框架，旨在解决开放词汇检测模型在开放世界场景中对未知物体识别与增量学习的局限性，从而在自动驾驶等关键应用中实现更鲁棒的检测性能。

Zizhao Li, Zhengkang Xiang, Joseph West + 1 more2026-02-27🤖 cs.AI

Enhancing Sketch Animation: Text-to-Video Diffusion Models with Temporal Consistency and Rigidity Constraints

该论文提出了一种结合文本描述驱动的手绘草图动画生成方法，通过利用预训练的文生视频扩散模型，并引入长度 - 面积正则化与保形刚性约束，有效解决了运动平滑性、时序一致性及拓扑结构保持等难题，在定量与定性评估中均超越了现有最先进水平。

Gaurav Rai, Ojaswa Sharma2026-02-27💻 cs

PPT: Pretraining with Pseudo-Labeled Trajectories for Motion Forecasting

本文提出了 PPT 框架，利用由现成检测器和跟踪器自动生成的伪标签轨迹进行预训练，以低成本、可扩展的方式学习鲁棒的运动表示，从而在标注数据稀缺及跨域场景下显著提升自动驾驶运动预测的泛化性能。

Yihong Xu, Yuan Yin, Éloi Zablocki + 3 more2026-02-27💻 cs

IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks

本文针对全量微调导致特征空间受限的问题，提出了名为 IV-tuning 的参数高效迁移学习方法，该方法通过仅微调 3% 的骨干网络参数，在显著降低计算成本的同时，有效提升了红外 - 可见光多模态任务中的泛化能力与性能表现。

Yaming Zhang, Chenqiang Gao, Fangcen Liu + 4 more2026-02-27💻 cs