cs.CV 篇论文 | Gist.Science

AdaGen: Learning Adaptive Policy for Image Synthesis

AdaGen 提出了一种基于强化学习和对抗奖励机制的通用自适应框架，通过 Markov 决策过程动态优化图像生成过程中的步长参数调度，从而在降低推理成本的同时显著提升多种生成范式下的图像质量与多样性。

Zanlin Ni, Yulin Wang, Yeguo Hua, Renping Zhou, Jiayi Guo, Jun Song, Bo Zheng, Gao Huang2026-03-10💻 cs

TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models

该论文提出了 TrajPred 框架，通过编码手术器械轨迹引入时序运动线索，并结合提示微调与动词重述技术生成细粒度视觉语义嵌入，从而显著提升了机器人手术中器械 - 组织交互识别的精度与视 - 文对齐效果。

Jiajun Cheng, Xiaofan Yu, Subarna, Sainan Liu, Shan Lin2026-03-10💻 cs

OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation

本文提出了 OV-DEIM，一种基于 DEIMv2 框架并集成视觉语言模型与 GridSynthetic 数据增强策略的实时端到端 DETR 风格开放词汇目标检测器，在保持低延迟的同时显著提升了检测性能，特别是在稀有类别上的表现。

Leilei Wang, Longfei Liu, Xi Shen, Xuanlong Yu, Ying Tiffany He, Fei Richard Yu, Yingyi Chen2026-03-10💻 cs

Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

该论文提出了一种名为 TFM 的新型越狱攻击框架，通过利用文生视频模型在仅指定起始和结束帧的稀疏提示下自主补全中间有害内容的“时间轨迹填充”漏洞，成功绕过了现有内容过滤机制并显著提升了攻击成功率。

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang2026-03-10💻 cs

Fine-Grained 3D Facial Reconstruction for Micro-Expressions

该论文提出了一种融合全局动态特征与多源局部信息的细粒度微表情三维重建方法，通过动态编码模块利用宏观表情先验知识缓解数据稀缺问题，并借助动态引导的网格变形模块自适应优化细节，在几何精度与感知细节上均超越了现有最先进方法。

Che Sun, Xinjie Zhang, Rui Gao, Xu Chen, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

该论文提出了一种名为 CAPL 的框架，通过引入可选择的图像令牌交互注意力机制和基于跨图像建模的偏好优化策略，有效增强了大型视觉语言模型在多图像任务中的跨图像关联感知能力，从而显著缓解了幻觉问题并提升了整体性能。

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

本文提出了 SODA（敏感性导向动态加速）方法，通过构建跨时间步、层和模块的细粒度敏感性误差建模框架，利用动态规划自适应优化缓存与剪枝策略，从而在显著提升扩散 Transformer 推理效率的同时，有效克服了现有固定启发式方法导致的生成质量下降问题。

Tong Shao, Yusen Fu, Guoying Sun, Jingde Kong, Zhuotao Tian, Jingyong Su2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

MedSteer 提出了一种无需训练的激活导向框架，通过在扩散 Transformer 的交叉注意力层中识别病理向量并引导图像激活，从而在保持解剖结构不变的前提下生成高质量的医学内窥镜反事实合成数据，显著提升了下游息肉检测任务的性能。

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding

针对现有长视频理解评估中因关键帧缺失导致模型“盲目猜测”而非“诚实拒答”从而产生误导性结果的问题，本文提出了 VirtueBench 基准，通过构建多帧采样层级和区分可答/不可答情况，旨在评估并推动大模型在不确定性下的可信度与诚实拒答能力。

Xueqing Yu, Bohan Li, Yan Li, Zhenheng Yang2026-03-10💻 cs

Physics-Guided VLM Priors for All-Cloud Removal

该论文提出了一种名为 PhyVLM-CR 的新方法，通过将视觉语言模型（VLM）的语义先验转化为物理散射参数与置信度图，利用自适应加权机制实现了无需显式云类型判别的统一全云去除，从而在保持辐射保真度的同时有效消除了幻觉并提升了定量精度。

Liying Xu, Huifang Li, Huanfeng Shen2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

该论文提出了一种结合 Retinex 物理先验与语言语义引导的水下图像增强网络 PSG-UIENet，通过构建大规模图文数据集 LUIQD-TD 及设计图像 - 文本语义相似度损失，有效解决了现有方法适应性差和数据稀缺的问题，显著提升了水下图像增强效果。

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

Aligning What EEG Can See: Structural Representations for Brain-Vision Matching

该论文提出了基于“神经可见性”概念的 EEG 可见层选择策略与分层互补融合（HCF）框架，通过将脑电波与视觉模型的中间层特征对齐，显著提升了零样本视觉解码的准确率并实现了优异的泛化性能。

Jingyi Tang, Shuai Jiang, Fei Su, Zhicheng Zhao2026-03-10💻 cs

mAVE: A Watermark for Joint Audio-Visual Generation Models

本文提出了首个专为联合音视频生成模型设计的 mAVE 水印框架，通过在不微调的情况下对音视频潜在空间进行加密绑定，有效解决了现有方法因模态解耦而面临的“交换攻击”漏洞，从而在零性能损失的前提下实现了近完美的绑定完整性与版权保护。

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

本文提出了一种结合监督微调与人类反馈强化学习的新方法，通过将身份无关的面部表情生成建模为动作学习过程，实现了在自然双向交互中生成符合人类偏好且情感社会适配的面部表情。

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

该论文提出了一种名为 NuNext 的新方法，通过将细胞核检测重构为基于多模态大语言模型的“下一点预测”任务，并采用包含空间感知软监督、视觉思维链策略及强化学习微调的两阶段训练框架，在无需复杂后处理的情况下显著提升了组织病理学图像中细胞核检测的精度。

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

该论文提出了一种名为语义分区对比学习（S-PCL）的高效自监督预训练框架，通过随机划分图像块构建互补视图来隐式学习胸部 X 光片的解剖与病理特征，从而在无需手工增强、辅助解码器或动量编码器的情况下，实现了比现有方法更低的计算成本和更高的诊断精度。

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

该论文提出了 TIQA 任务及配套的标注数据集，并设计了轻量级的 ANTIQA 方法，旨在通过更贴合人类感知的文本质量评分，有效解决现有生成式图像中文本渲染评估与 OCR 或通用视觉模型判断偏差较大的问题，从而显著提升生成流程中的文本质量筛选与重排序效果。

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

该论文提出了一种名为“图像间像素混洗（IPS）”的新方法，通过将多聚焦图像融合重构为像素级分类任务，利用单张清晰图像及其低通滤波版本生成无需真实多聚焦数据的合成训练集，并结合卷积神经网络与状态空间模型构建的跨图像融合网络，实现了在缺乏真实多聚焦训练数据的情况下仍能显著超越现有方法的高质量融合效果。

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

本文提出了 EyExIn 框架，通过专家感知双流编码、语义自适应门控融合及自适应深度专家注入机制，有效解决了视网膜视觉语言模型在细粒度病理感知和推理过程中因语言先验主导而产生的幻觉问题，显著提升了眼科视觉问答的精度与可信度。

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

该论文提出了 AutoSelect 方法，通过将视觉 Token 剪枝重构为容量受限的通信问题，利用噪声门控机制在无需辅助目标的情况下自动筛选关键 Token，从而在显著降低推理成本的同时保持了视觉语言模型的高精度。

Landi He, Xiaoyu Yang, Lijian Xu2026-03-10💻 cs