cs.CV 篇论文 | Gist.Science

QDFlow: A Python package for physics simulations of quantum dot devices

QDFlow 是一个开源的 Python 物理模拟软件包，它通过结合自洽托马斯 - 费米求解器、动态电容模型和灵活噪声模块，为量子点阵列生成带有真实标签的高保真合成数据，从而解决实验数据稀缺和标注困难的问题，以支持机器学习在量子设备校准与操作中的应用。

Donovan L. Buterakos, Sandesh S. Kalantre, Joshua Ziegler + 2 more2026-03-05⚛️ quant-ph

Enhancing Feature Fusion of U-like Networks with Dynamic Skip Connections

本文提出了一种架构无关的动态跳跃连接（DSC）模块，通过集成测试时训练（TTT）和动态多尺度核（DMSK）机制，分别解决传统 U 型网络中特征融合的静态约束与多尺度交互不足问题，从而显著提升了各类医学图像分割网络的性能。

Yue Cao, Quansong He, Kaishen Wang + 3 more2026-03-05💻 cs

Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation Towards Embodied Intelligence

本文针对 embodied intelligence 中动作提示视频分割面临的标注噪声问题，首次构建了 ActiSeg-NL 基准，系统评估了多种噪声学习策略，并提出了并行掩码头机制（PMHM）以有效应对文本和掩码标注噪声。

Wenxin Li, Kunyu Peng, Di Wen + 4 more2026-03-05🤖 cs.LG

Category-Level Object Shape and Pose Estimation in Less Than a Millisecond

本文提出了一种基于类别先验和主动形状模型的快速局部求解器，利用自洽场迭代在亚毫秒级时间内同时估计物体的形状与姿态，并提供了全局最优性证明。

Lorenzo Shaikewitz, Tim Nguyen, Luca Carlone2026-03-05💻 cs

Raw-JPEG Adapter: Efficient Raw Image Compression with JPEG

本文提出了 RawJPEG Adapter，这是一种轻量级且可逆的预处理流水线，通过将原始图像适配为标准 JPEG 压缩格式，在保持高压缩率和广泛兼容性的同时实现了比直接 JPEG 存储更高的重建保真度。

Mahmoud Afifi, Ran Zhang, Michael S. Brown2026-03-05💻 cs

Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

本文提出了 Vision-Zero，一种基于多智能体自博弈的无标签框架，通过让视觉语言模型在任意图像生成的策略性游戏中进行自我进化，并配合迭代式自博弈策略优化算法，实现了在无需人工标注的情况下显著提升多模态推理与理解能力。

Qinsi Wang, Bo Liu, Tianyi Zhou + 6 more2026-03-05🤖 cs.AI

Training-Free Reward-Guided Image Editing via Trajectory Optimal Control

该论文提出了一种无需训练的奖励引导图像编辑框架，通过将扩散模型的逆向过程建模为轨迹最优控制问题并迭代更新伴随状态，在无需重新训练的情况下实现了比现有基线更优的奖励最大化与源图像保真度之间的平衡。

Jinho Chang, Jaemin Kim, Jong Chul Ye2026-03-05🤖 cs.AI

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

本文针对现有视觉生成模型在处理结构化图表时缺乏事实准确性的问题，构建了包含 130 万高质量数据的大规模数据集，提出了融合 VLM 与 FLUX.1 的统一模型及三阶段训练策略，并发布了名为 StructBench 的评测基准与 StructScore 指标，系统性地推动了结构化视觉内容的生成与编辑研究。

Le Zhuo, Songhao Han, Yuandong Pu + 8 more2026-03-05💻 cs

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

本文提出了 TIGeR 框架，通过让视觉语言模型调用外部工具执行精确几何计算而非依赖内部感知，结合自研数据集与两阶段训练策略，成功实现了机器人任务中所需的厘米级几何推理精度。

Yi Han, Enshen Zhou, Shanyu Rong + 6 more2026-03-05🤖 cs.AI

Topological Alignment of Shared Vision-Language Embedding Space

本文提出了 ToMCLIP 框架，通过引入基于持久同调的拓扑对齐损失和图稀疏化近似策略，在保留共享嵌入空间全局几何结构的同时，有效解决了多模态大模型跨模态对齐中的英语偏见问题，显著提升了多语言零-shot 分类与检索性能。

Junwon You, Dasol Kang, Jae-Hun Jung2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

该论文提出了 COGS 框架，通过将种子问题分解为感知与推理因子并重组生成合成数据，有效解决了图表等人工图像领域缺乏大规模标注数据的难题，显著提升了多模态大语言模型的视觉推理与泛化能力。

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

A Geometry-Based View of Mahalanobis OOD Detection

本文通过大规模研究揭示了马氏距离 OOD 检测性能对特征表示几何结构（类内谱结构与局部内在维度）的依赖性，并提出了通过径向缩放 $\ell_2$ 归一化来主动调控特征空间几何形态，从而显著提升检测效果的新方法。

Denis Janiak, Jakub Binkowski, Tomasz Kajdanowicz2026-03-05🤖 cs.LG

Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model

本文提出了 Kaleido，一种通过构建高质量一致性训练数据并引入参考旋转位置编码（R-RoPE）机制，从而显著提升多参考图像条件下主体一致性与背景解耦能力的开源多主体参考视频生成模型。

Zhenxing Zhang, Jiayan Teng, Zhuoyi Yang + 6 more2026-03-05🤖 cs.AI

Weakly Supervised Concept Learning with Class-Level Priors for Interpretable Medical Diagnosis

本文提出了一种名为 PCP 的新型弱监督框架，它利用类别级概念先验作为弱监督信号，无需显式标注或语言模型即可实现可解释的医学诊断，在 PH2 和 WBCatt 等数据集上显著提升了概念预测性能并保持了与全监督模型相当的分类效果。

Md Nahiduzzaman, Steven Korevaar, Alireza Bab-Hadiashar + 1 more2026-03-05💻 cs

Improving Multi-View Reconstruction via Texture-Guided Gaussian-Mesh Joint Optimization

本文提出了一种纹理引导的高斯 - 网格联合优化框架，通过同步优化网格几何与顶点颜色，实现了兼顾几何精度与渲染真实感的统一重建，从而有效支持下游编辑任务。

Zhejia Cai, Puhua Jiang, Shiwei Mao + 2 more2026-03-05🤖 cs.AI

Re-coding for Uncertainties: Edge-awareness Semantic Concordance for Resilient Event-RGB Segmentation

该论文提出了一种名为“边缘感知语义协同”的新框架，通过边缘感知潜在重编码和不确定性优化机制，有效解决了极端条件下事件与 RGB 模态的异构融合难题，显著提升了语义分割的鲁棒性。

Nan Bao, Yifan Zhao, Lin Zhu + 1 more2026-03-05💻 cs

NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization

本文提出了 NeuCLIP，一种通过凸分析与变分分析将对比损失中的归一化项估计重构为辅助神经网络预测问题的新型优化框架，从而在大规模 CLIP 训练中克服了传统方法对大批次或分块坐标更新的依赖，实现了更准确的归一化估计与更优的训练性能。

Xiyuan Wei, Chih-Jen Lin, Tianbao Yang2026-03-05🤖 cs.LG

Scriboora: Rethinking Human Pose Forecasting

本文通过建立统一的训练评估流程解决人体姿态预测中的复现问题，借鉴语音模型提升预测性能，并引入新数据变体评估了含噪声估计姿态下的模型鲁棒性及无监督微调的恢复效果。

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-05💻 cs

MatPedia: A Universal Generative Foundation for High-Fidelity Material Synthesis

MatPedia 是一种基于新型联合 RGB-PBR 表示的通用生成基础模型，它利用视频扩散架构和混合数据集，在单一框架下实现了高质量、多样化的物理渲染材料生成、图像转材料以及内在分解任务。

Di Luo, Shuhui Yang, Mingxin Yang + 6 more2026-03-05💻 cs

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

本文提出了 VideoChat-M1，一种基于多智能体强化学习的视频理解框架，通过创新的协作策略规划（CPP）机制，使多个智能体能够动态生成、执行并相互沟通优化工具调用策略，从而在多个基准测试中实现了超越现有最先进模型（如 Gemini 2.5 Pro 和 GPT-4o）的卓越性能。

Boyu Chen, Zikang Wang, Zhengrong Yue + 9 more2026-03-05💻 cs