cs.CV 篇论文 | Gist.Science

Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

本文提出了 Kinematify 框架，该框架能够仅凭任意 RGB 图像或文本描述，通过结合蒙特卡洛树搜索与几何驱动优化，自动合成具有物理一致性和功能有效性的高自由度可动物体模型，从而克服了现有方法对运动序列或人工数据集的依赖。

Jiawei Wang, Dingyou Wang, Jiaming Hu + 3 more2026-03-04💻 cs

Online Data Curation for Object Detection via Marginal Contributions to Dataset-level Average Precision

本文提出了名为 DetGain 的在线数据筛选方法，通过估算图像对数据集平均精度（AP）的边际贡献来动态选择训练样本，从而在多种目标检测架构上实现了精度提升、低质数据鲁棒性增强以及与知识蒸馏技术的兼容。

Zitang Sun, Masakazu Yoshimura, Junji Otsuka + 2 more2026-03-04💻 cs

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

本文提出了 PrismAudio 框架，通过引入分解式思维链（CoT）与多维奖励机制解决视频生成音频中的目标纠缠问题，并借助 Fast-GRPO 优化训练效率及 AudioCanvas 基准测试，实现了在语义一致性、时空同步性、美学质量和空间准确性四个维度上的最先进性能。

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess

Markovian Scale Prediction: A New Era of Visual Autoregressive Generation

本文提出了基于马尔可夫尺度预测的 Markov-VAR 模型，通过将视觉自回归生成重构为非全上下文马尔可夫过程并利用滑动窗口压缩历史信息，在显著降低计算开销和显存占用的同时，实现了比现有 VAR 模型更优的生成性能。

Yu Zhang, Jingyi Liu, Yiwei Shi + 4 more2026-03-04💻 cs

ALARM: Automated MLLM-Based Anomaly Detection in Complex-EnviRonment Monitoring with Uncertainty Quantification

本文提出了名为 ALARM 的框架，该框架通过集成不确定性量化、推理链、自我反思及多模型集成等质量保障技术，利用多模态大语言模型在复杂环境中实现了具备高可靠性的视觉异常检测。

Congjing Zhang, Feng Lin, Xinyi Zhao + 5 more2026-03-04🤖 cs.AI

Self-Paced and Self-Corrective Masked Prediction for Movie Trailer Generation

该论文提出了一种名为 SSMP 的新方法，通过自-paced 掩码预测和渐进式自纠正机制，利用双向上下文建模克服了现有“先选后排”范式的误差传播问题，在电影预告片自动生成任务中取得了最先进的效果。

Sidan Zhu, Hongteng Xu, Dixin Luo2026-03-04💻 cs

Value Gradient Guidance for Flow Matching Alignment

本文提出了名为 VGG-Flow 的基于梯度匹配的微调方法，利用最优控制理论将流匹配模型的微调速度场差异与价值函数梯度对齐，从而在有限计算预算下实现了高效且能保持先验分布的人类偏好对齐。

Zhen Liu, Tim Z. Xiao, Carles Domingo-Enrich + 2 more2026-03-04🤖 cs.LG

Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

本文提出了 AVI-Edit 框架，通过粒度感知掩码细化器和自反馈音频代理，实现了具备高保真音画同步与细粒度时空控制能力的视频实例编辑，并构建了相应的大规模数据集以验证其优越性。

Haojie Zheng, Shuchen Weng, Jingqi Liu + 3 more2026-03-04💻 cs

CHAMMI-75: Pre-training multi-channel models with heterogeneous microscopy images

本文介绍了 CHAMMI-75 数据集，该数据集汇集了来自 75 项不同研究的异质多通道显微图像，旨在通过训练通道自适应模型来解决现有细胞形态量化模型因成像通道不匹配而无法跨研究复用的问题。

Vidit Agrawal, John Peters, Tyler N. Thompson + 13 more2026-03-04🤖 cs.LG

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

本文提出了 UniDrive-WM，一种基于统一视觉语言模型的世界模型，通过在一个架构中联合执行驾驶场景理解、轨迹规划及轨迹条件未来图像生成，利用生成预测作为监督信号来相互增强各模块性能，从而在 Bench2Drive 基准测试中显著提升了自动驾驶的规划精度并降低了碰撞率。

Zhexiao Xiong, Xin Ye, Burhan Yaman + 5 more2026-03-04💻 cs

Hot-Start from Pixels: Low-Resolution Visual Tokens for Chinese Language Modeling

该论文提出了一种利用极低分辨率（如 8x8 像素）的汉字灰度图像替代传统索引令牌进行中文语言建模的方法，实验表明其不仅达到了与基线相当的预测准确率，还展现出显著的训练初期“热启动”优势。

Shuyang Xiang, Hao Guan2026-03-04🤖 cs.AI

Unsupervised Deformable Image Registration with Local-Global Attention and Image Decomposition

本文提出了一种名为 LGANet++ 的无监督可变形图像配准框架，通过结合新颖的局部 - 全局注意力机制与特征交互融合技术，在跨患者、跨时间及跨模态 CT-MR 等多种临床场景下显著提升了配准精度与泛化能力，并优于现有最先进方法。

Zhengyong Huang, Xingwen Sun, Xuting Chang + 5 more2026-03-04⚡ eess

Graph Recognition via Subgraph Prediction

本文提出了一种名为 GraSP（基于子图预测的图识别）的通用方法，旨在解决视觉图识别任务缺乏统一框架的问题，该方法无需针对特定任务进行修改即可在多种合成基准和真实世界应用中实现跨场景的图识别。

André Eberhard, Gerhard Neumann, Pascal Friederich2026-03-04🤖 cs.LG

MLV-Edit: Towards Consistent and Highly Efficient Editing for Minute-Level Videos

MLV-Edit 提出了一种无需训练的基于光流的框架，通过分块编辑策略结合速度融合与注意力汇聚模块，有效解决了长视频编辑中的计算开销大及全局时序一致性难以维持的挑战。

Yangyi Cao, Yuanhang Li, Lan Chen + 1 more2026-03-04💻 cs

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

本文提出了 VideoTemp-o3，一种统一了视频定位与问答的代理思考框架，通过联合建模、统一掩码机制及专用奖励策略，有效解决了长视频理解中均匀采样导致的性能下降与幻觉问题，并实现了精准的按需剪辑与定位修正。

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

本文提出了 WristMIR 框架，通过利用结构化放射学报告驱动的区域感知学习及两阶段检索策略，实现了无需手动图像标注的儿科腕部 X 光片细粒度检索，显著提升了骨折诊断的准确性与临床相关性。

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs

The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

本文介绍了名为“垃圾数据集（GD）”的公开多类别图像基准，该数据集包含 12,259 张涵盖 10 类常见废弃物的标注图像，并通过严格的验证与多种深度学习模型的性能及碳排放评估，证明了 EfficientNetV2S 在 95.13% 准确率下的优越性，同时揭示了类别不平衡和背景复杂性等挑战，旨在推动自动化垃圾分类研究及环境可持续性应用。

Suman Kunwar2026-03-04💻 cs

EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data

该论文提出了 EO-VAE，这是一种基于动态超网络的单模型多传感器变分自编码器，能够灵活编码不同通道组合的地球观测数据，并在 TerraMesh 数据集上实现了优于现有方法的重建保真度，从而为遥感领域的潜在生成建模奠定了坚实基础。

Nils Lehmann, Yi Wang, Zhitong Xiong + 1 more2026-03-04💻 cs

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

本文介绍了 MedXIAOHE，一种通过实体感知持续预训练、强化学习与工具增强智能体训练，以及证据导向的低幻觉报告生成等综合策略构建的医疗多模态大模型，其在多项基准测试中超越了领先的闭源系统，显著提升了医疗理解、推理及临床应用的可靠性。

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling

本文提出了一种名为 UniTAF 的模块化框架，通过将文本转语音（TTS）与音频到面部（A2F）模型统一，实现了内部特征迁移以增强音画一致性，并从系统设计角度验证了复用 TTS 中间表示进行语音与表情协同建模的可行性。

Qiangong Zhou, Nagasaka Tomohiro2026-03-04⚡ eess