cs.CV 篇论文 | Gist.Science

Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation Towards Embodied Intelligence

本文针对 embodied intelligence 中动作提示视频分割面临的标注噪声问题，首次构建了 ActiSeg-NL 基准，系统评估了多种噪声学习策略，并提出了并行掩码头机制（PMHM）以有效应对文本和掩码标注噪声。

Wenxin Li, Kunyu Peng, Di Wen + 4 more2026-03-05🤖 cs.LG

Category-Level Object Shape and Pose Estimation in Less Than a Millisecond

本文提出了一种基于类别先验和主动形状模型的快速局部求解器，利用自洽场迭代在亚毫秒级时间内同时估计物体的形状与姿态，并提供了全局最优性证明。

Lorenzo Shaikewitz, Tim Nguyen, Luca Carlone2026-03-05💻 cs

Raw-JPEG Adapter: Efficient Raw Image Compression with JPEG

本文提出了 RawJPEG Adapter，这是一种轻量级且可逆的预处理流水线，通过将原始图像适配为标准 JPEG 压缩格式，在保持高压缩率和广泛兼容性的同时实现了比直接 JPEG 存储更高的重建保真度。

Mahmoud Afifi, Ran Zhang, Michael S. Brown2026-03-05💻 cs

Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

本文提出了 Vision-Zero，一种基于多智能体自博弈的无标签框架，通过让视觉语言模型在任意图像生成的策略性游戏中进行自我进化，并配合迭代式自博弈策略优化算法，实现了在无需人工标注的情况下显著提升多模态推理与理解能力。

Qinsi Wang, Bo Liu, Tianyi Zhou + 6 more2026-03-05🤖 cs.AI

Training-Free Reward-Guided Image Editing via Trajectory Optimal Control

该论文提出了一种无需训练的奖励引导图像编辑框架，通过将扩散模型的逆向过程建模为轨迹最优控制问题并迭代更新伴随状态，在无需重新训练的情况下实现了比现有基线更优的奖励最大化与源图像保真度之间的平衡。

Jinho Chang, Jaemin Kim, Jong Chul Ye2026-03-05🤖 cs.AI

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

本文针对现有视觉生成模型在处理结构化图表时缺乏事实准确性的问题，构建了包含 130 万高质量数据的大规模数据集，提出了融合 VLM 与 FLUX.1 的统一模型及三阶段训练策略，并发布了名为 StructBench 的评测基准与 StructScore 指标，系统性地推动了结构化视觉内容的生成与编辑研究。

Le Zhuo, Songhao Han, Yuandong Pu + 8 more2026-03-05💻 cs

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

本文提出了 TIGeR 框架，通过让视觉语言模型调用外部工具执行精确几何计算而非依赖内部感知，结合自研数据集与两阶段训练策略，成功实现了机器人任务中所需的厘米级几何推理精度。

Yi Han, Enshen Zhou, Shanyu Rong + 6 more2026-03-05🤖 cs.AI

Topological Alignment of Shared Vision-Language Embedding Space

本文提出了 ToMCLIP 框架，通过引入基于持久同调的拓扑对齐损失和图稀疏化近似策略，在保留共享嵌入空间全局几何结构的同时，有效解决了多模态大模型跨模态对齐中的英语偏见问题，显著提升了多语言零-shot 分类与检索性能。

Junwon You, Dasol Kang, Jae-Hun Jung2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

该论文提出了 COGS 框架，通过将种子问题分解为感知与推理因子并重组生成合成数据，有效解决了图表等人工图像领域缺乏大规模标注数据的难题，显著提升了多模态大语言模型的视觉推理与泛化能力。

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

A Geometry-Based View of Mahalanobis OOD Detection

本文通过大规模研究揭示了马氏距离 OOD 检测性能对特征表示几何结构（类内谱结构与局部内在维度）的依赖性，并提出了通过径向缩放 $\ell_2$ 归一化来主动调控特征空间几何形态，从而显著提升检测效果的新方法。

Denis Janiak, Jakub Binkowski, Tomasz Kajdanowicz2026-03-05🤖 cs.LG

Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model

本文提出了 Kaleido，一种通过构建高质量一致性训练数据并引入参考旋转位置编码（R-RoPE）机制，从而显著提升多参考图像条件下主体一致性与背景解耦能力的开源多主体参考视频生成模型。

Zhenxing Zhang, Jiayan Teng, Zhuoyi Yang + 6 more2026-03-05🤖 cs.AI

Weakly Supervised Concept Learning with Class-Level Priors for Interpretable Medical Diagnosis

本文提出了一种名为 PCP 的新型弱监督框架，它利用类别级概念先验作为弱监督信号，无需显式标注或语言模型即可实现可解释的医学诊断，在 PH2 和 WBCatt 等数据集上显著提升了概念预测性能并保持了与全监督模型相当的分类效果。

Md Nahiduzzaman, Steven Korevaar, Alireza Bab-Hadiashar + 1 more2026-03-05💻 cs

Improving Multi-View Reconstruction via Texture-Guided Gaussian-Mesh Joint Optimization

本文提出了一种纹理引导的高斯 - 网格联合优化框架，通过同步优化网格几何与顶点颜色，实现了兼顾几何精度与渲染真实感的统一重建，从而有效支持下游编辑任务。

Zhejia Cai, Puhua Jiang, Shiwei Mao + 2 more2026-03-05🤖 cs.AI

Re-coding for Uncertainties: Edge-awareness Semantic Concordance for Resilient Event-RGB Segmentation

该论文提出了一种名为“边缘感知语义协同”的新框架，通过边缘感知潜在重编码和不确定性优化机制，有效解决了极端条件下事件与 RGB 模态的异构融合难题，显著提升了语义分割的鲁棒性。

Nan Bao, Yifan Zhao, Lin Zhu + 1 more2026-03-05💻 cs

NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization

本文提出了 NeuCLIP，一种通过凸分析与变分分析将对比损失中的归一化项估计重构为辅助神经网络预测问题的新型优化框架，从而在大规模 CLIP 训练中克服了传统方法对大批次或分块坐标更新的依赖，实现了更准确的归一化估计与更优的训练性能。

Xiyuan Wei, Chih-Jen Lin, Tianbao Yang2026-03-05🤖 cs.LG

Scriboora: Rethinking Human Pose Forecasting

本文通过建立统一的训练评估流程解决人体姿态预测中的复现问题，借鉴语音模型提升预测性能，并引入新数据变体评估了含噪声估计姿态下的模型鲁棒性及无监督微调的恢复效果。

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-05💻 cs

MatPedia: A Universal Generative Foundation for High-Fidelity Material Synthesis

MatPedia 是一种基于新型联合 RGB-PBR 表示的通用生成基础模型，它利用视频扩散架构和混合数据集，在单一框架下实现了高质量、多样化的物理渲染材料生成、图像转材料以及内在分解任务。

Di Luo, Shuhui Yang, Mingxin Yang + 6 more2026-03-05💻 cs

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

本文提出了 VideoChat-M1，一种基于多智能体强化学习的视频理解框架，通过创新的协作策略规划（CPP）机制，使多个智能体能够动态生成、执行并相互沟通优化工具调用策略，从而在多个基准测试中实现了超越现有最先进模型（如 Gemini 2.5 Pro 和 GPT-4o）的卓越性能。

Boyu Chen, Zikang Wang, Zhengrong Yue + 9 more2026-03-05💻 cs

UniLight: A Unified Representation for Lighting

本文提出了 UniLight，一种通过对比学习和辅助球谐预测任务将文本、图像、辐照度及环境图等多种光照模态统一到共享潜在空间中的表示方法，从而实现了跨模态的光照检索、环境图生成及扩散模型图像合成中的灵活光照控制。

Zitian Zhang, Iliyan Georgiev, Michael Fischer + 3 more2026-03-05💻 cs

Measurement-Consistent Langevin Corrector for Stabilizing Latent Diffusion Inverse Problem Solvers

本文针对潜在扩散模型逆问题求解器不稳定的问题，通过识别其与稳定反向扩散动力学的差异，提出了一种基于测量一致朗之万更新的理论驱动型即插即用模块（MCLC），从而在无需线性流形假设的情况下显著提升了求解器的稳定性与可靠性。

Lee Hyoseok, Sohwi Lim, Eunju Cha + 1 more2026-03-05🤖 cs.LG