cs.CV 篇论文 | Gist.Science

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

该论文提出了名为 DPCache 的免训练加速框架，通过将扩散模型采样加速建模为全局路径规划问题，利用动态规划从校准集中构建路径感知成本张量以自动选择最优关键时间步序列，从而在显著减少计算开销的同时有效避免误差累积并提升生成质量。

Bowen Cui, Yuanbin Wang, Huajiang Xu, Biaolong Chen, Aixi Zhang, Hao Jiang, Zhengzheng Jin, Xu Liu, Pipei Huang2026-03-09💻 cs

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

本文提出了大规模合成视频场景图数据集 SVG2 及其配套的生成模型 TRaSER，通过全自动流水线构建包含数百万对象与关系的时空图数据，并利用轨迹对齐机制显著提升了视频场景图生成及视频问答任务的性能。

Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna2026-03-09💻 cs

Adaptive Dynamic Dehazing via Instruction-Driven and Task-Feedback Closed-Loop Optimization for Diverse Downstream Task Adaptation

该论文提出了一种结合任务反馈闭环与文本指令引导的自适应动态去雾框架，能够在无需重新训练的情况下，根据下游任务表现和用户指令实时调整去雾效果，从而灵活满足多样化下游任务的特定需求。

Yafei Zhang, Shuaitian Song, Huafeng Li, Shujuan Wang, Yu Liu2026-03-09💻 cs

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

该论文针对现有全色锐化方法在高分辨率场景下泛化能力不足的问题，提出了首个跨尺度数据集 PanScale 与基准 PanScale-Bench，并设计了名为 ScaleFormer 的新型架构，通过将图像分辨率泛化转化为序列长度泛化，实现了在未见尺度下的高质量融合与卓越泛化性能。

Ke Cao, Xuanhua He, Xueheng Li, Lingting Zhu, Yingying Wang, Ao Ma, Zhanjie Zhang, Man Zhou, Chengjun Xie, Jie Zhang2026-03-09💻 cs

Mobile-VTON: High-Fidelity On-Device Virtual Try-On

本文提出了 Mobile-VTON，一种基于教师 - 服装 - 试穿网络（TGT）架构的隐私保护框架，通过特征引导对抗蒸馏等创新技术，在普通移动设备上实现了无需云端上传、兼具高保真度与低计算开销的离线虚拟试穿。

Zhenchen Wan, Ce Chen, Runqi Lin, Jiaxin Huang, Tianxi Chen, Yanwu Xu, Tongliang Liu, Mingming Gong2026-03-09💻 cs

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

该论文提出了一种基于隐式神经表示和重参数化策略的张量环函数分解方法，通过引入可学习潜张量与固定基的混合结构来优化频谱特性并改善训练动态，从而在图像修复、去噪、超分辨率及点云恢复等多维数据恢复任务中实现了优于现有方法的性能。

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters

本文提出了 FastLightGen 算法，通过构建最优教师模型并在协同框架下同时蒸馏模型规模与推理步数，成功将大型视频生成模型转化为仅需 4 步采样和 30% 参数剪枝即可达到最优视觉质量的高效轻量级模型，从而在受限推理预算下确立了新的视频生成效率标杆。

Shitong Shao, Yufei Gu, Zeke Xie2026-03-09💻 cs

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

本文提出了 VSearcher，一种通过强化学习将静态多模态模型转化为具备长程多轮工具调用能力的搜索智能体，并构建了高质量合成数据与专用基准 MM-SearchExam，使其在多模态网络搜索任务中表现优于现有模型及多个专有模型。

Ruiyang Zhang, Qianguo Sun, Chao Song, Yiyan Qi, Zhedong Zheng2026-03-09💻 cs

Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

该论文提出了名为“边看边想”（TaYS）的统一框架，通过并行化思维链生成、流式约束训练及双 KV 缓存等机制，解决了大视觉语言模型在视频流数据上无法实时并发推理的问题，显著提升了推理性能并降低了延迟。

Jialiang Zhang, Junlong Tong, Junyan Lin, Hao Wu, Yirong Sun, Yunpu Ma, Xiaoyu Shen2026-03-09💻 cs

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

CoEditor++ 是一种无需训练的认知结构化框架，通过“编辑什么”和“如何编辑”的双阶段推理及自选择机制，在无需微调的情况下实现了超越现有开源及闭源模型的指令驱动图像编辑性能，同时显著提升了视觉一致性和任务可解释性。

Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo2026-03-09💻 cs

RoboLayout: Differentiable 3D Scene Generation for Embodied Agents

RoboLayout 通过引入可微分的可达性约束和局部细化优化机制，扩展了 LayoutVLM 框架，使其能够生成既符合语义逻辑又适应不同具身智能体物理交互能力的 3D 室内场景布局。

Ali Shamsaddinlou2026-03-09🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

本文提出了 Omni-C，一种基于单一稠密 Transformer 编码器的统一架构，它通过大规模非对齐数据的单模态对比预训练和轻量级投影头，在无需混合专家（MoE）或配对监督的情况下，有效压缩了图像、音频和文本等异构模态，显著降低了推理内存开销并实现了与专家模型相当的性能。

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Clinical-Injection Transformer with Domain-Adapted MAE for Lupus Nephritis Prognosis Prediction

本文提出了一种结合临床特征注入 Transformer 与领域自适应掩码自编码器的多模态计算病理框架，仅利用常规 PAS 染色活检和临床数据，在儿童狼疮性肾炎预后预测中实现了高达 90.1% 的三类准确率。

Yuewen Huang, Zhitao Ye, Guangnan Feng, Fudan Zheng, Xia Gao, Yutong Lu2026-03-09🤖 cs.LG

Edges Are All You Need: Robust Gait Recognition via Label-Free Structure

该论文提出了一种名为 SKETCHGAIT 的鲁棒步态识别框架，通过引入无需标签的“素描”（SKETCH）模态来提取高频结构线索，并结合多模态解耦融合策略，有效克服了传统轮廓和解析方法在判别力与稳定性上的局限，在多个数据集上取得了领先的识别性能。

Chao Zhang, Zhuang Zheng, Ruixin Li, Zhanyong Mei2026-03-09💻 cs

Digital-Twin Losses for Lane-Compliant Trajectory Prediction at Urban Intersections

本文提出了一种基于数字孪生的 V2X 轨迹预测框架，通过结合 Bi-LSTM 生成器与包含标准均方误差及新型“孪生损失”的联合训练目标，在确保预测精度的同时有效降低了交通违规和碰撞风险，从而提升了城市复杂路口多智能体交互场景下的安全性与合规性。

Kuo-Yi Chao, Erik Leo Haß, Melina Gegg, Jiajie Zhang, Ralph Raßhofer, Alois Christian Knoll2026-03-09💻 cs

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

AutoThinkRAG 通过引入查询复杂度路由器和将视觉解析与逻辑推理功能解耦的小规模 VLM 与大语言模型协同架构，有效解决了多模态文档问答中的长上下文与信息过载难题，在显著降低推理成本的同时实现了新的最先进性能。

Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang Cai2026-03-09💻 cs

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

本文提出了一种名为“偏差不变子网络提取（BISE）”的策略，旨在无需重新训练或额外数据的情况下，通过剪枝技术从标准预训练模型中直接提取出具备去偏能力且性能鲁棒的子网络，从而实现高效的结构化偏差缓解。

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, Vito Paolo Pastore, Enzo Tartaglione2026-03-09🤖 cs.LG

Thinking with Spatial Code for Physical-World Video Reasoning

本文提出了“空间代码思维”框架，通过将 RGB 视频转化为包含显式 3D 定向边界框和语义标签的结构化空间代码，并结合强化学习微调大语言模型，使其能够在 VSI-Bench 基准上超越现有专有视觉语言模型，实现物理世界视频推理的显著突破。

Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille2026-03-09💻 cs

From Decoupled to Coupled: Robustness Verification for Learning-based Keypoint Detection with Joint Specifications

该论文提出了首个针对基于热力图的关键点检测器的耦合鲁棒性验证框架，通过混合整数线性规划将验证问题转化为联合偏差约束下的反例搜索，从而克服了传统解耦方法在连续坐标输出和高维输入下的局限性，实现了对关键点间依赖关系及下游任务需求的更紧确且有效的鲁棒性证明。

Xusheng Luo, Changliu Liu2026-03-09🤖 cs.LG

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

DreamCAD 提出了一种利用可微参数曲面从点级监督直接生成可编辑 BRep 的多模态生成框架，结合新构建的百万级 CAD 描述数据集，在无需特定 CAD 标注的情况下实现了大规模训练并显著提升了文本、图像及点云到 CAD 生成的几何保真度。

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi2026-03-09🤖 cs.AI

← 上一页下一页 →