cs.CV 篇论文 | Gist.Science

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

ArtHOI 提出了一种首个零-shot 框架，通过将单目视频先验转化为 4D 重建问题，利用光流分割与解耦重建策略，实现了无需 3D 监督即可生成具有物理合理性和几何一致性的关节式人机交互场景。

Zihao Huang, Tianqi Liu, Zhaoxi Chen + 7 more2026-03-05💻 cs

Balancing Fidelity, Utility, and Privacy in Synthetic Cardiac MRI Generation: A Comparative Study

该研究通过基准测试三种生成架构，发现去噪扩散概率模型（DDPM）在有限数据条件下最能平衡心脏 MRI 合成数据的保真度、下游分割效用与隐私保护，而流匹配（FM）模型虽在隐私方面表现优异但任务性能略低。

Madhura Edirisooriya, Dasuni Kawya, Ishan Kumarasinghe + 5 more2026-03-05🤖 cs.LG

Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters

本文提出了 Hold-One-Shot-Out (HOSO) 方法，通过利用一个单样本留出集来学习 CLIP 适配器的融合比例，从而在无需验证集的情况下实现了 Few-Shot 场景下 CLIP 适配的显著性能提升。

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

Enhancing Authorship Attribution with Synthetic Paintings

该研究提出了一种结合真实与由 DreamBooth 微调 Stable Diffusion 生成的合成图像数据的混合方法，有效解决了绘画作者归属任务中训练数据稀缺的问题，并显著提升了分类模型的准确率与泛化能力。

Clarissa Loures, Caio Hosken, Luan Oliveira + 2 more2026-03-05🤖 cs.LG

Underrepresented in Foundation Model Pretraining Data? A One-Shot Probe

该论文提出了一种仅需每类单张标注图像的高效方法，利用大语言模型生成反事实描述并结合线性回归，以极高相关性（Pearson-r 0.96）预测视觉 - 语言基础模型在包括非洲等代表性不足领域在内的各种目标域上的零样本准确率，从而为资源受限场景下的模型评估提供了低成本工具。

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

本文提出了 RANGER 框架，通过引入稀疏门控混合专家（MoE）解码器与自适应检索重排序模块，有效解决了全切片病理图像生成报告中的专家专业化不足及外部知识噪声问题，并在 PathText-BRCA 数据集上取得了优于现有方法的性能。

Yixin Chen, Ziyu Su, Hikmat Khan + 1 more2026-03-05🤖 cs.AI

FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering

本文提出了 FocusGraph 框架，通过结合基于图结构场景描述的轻量级可训练场景描述选择器与免训练的稀疏光流保留关键帧选择方法，实现了在显著降低推理时间的同时，在长视频具身问答任务上达到最先进性能。

Tatiana Zemskova, Solomon Andryushenko, Ilya Obrubov + 4 more2026-03-05💻 cs

Helios: Real Real-Time Long Video Generation Model

本文介绍了 Helios，这是首个能在单张 NVIDIA H100 上以 19.5 FPS 实时生成分钟级长视频且无需自强制、KV 缓存等常见优化技术的 14B 自回归扩散模型，它通过创新的训练策略和上下文压缩技术，在消除长视频漂移的同时实现了卓越的生成质量与效率。

Shenghai Yuan, Yuanyang Yin, Zongjian Li + 3 more2026-03-05💻 cs

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

本文提出了 TaxonRL，一种利用中间奖励和组相对策略优化将细粒度视觉推理分解为层级分类的强化学习方法，该方法在鸟类等数据集上不仅超越了人类准确率，还生成了可解释的推理过程并展现出强大的跨域泛化能力。

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

本文提出了 ZipMap，一种结合测试时训练的状态化前馈模型，能够在单次前向传播中以线性时间将大规模图像集压缩为紧凑的场景状态，从而在保持或超越现有二次复杂度方法精度的同时，实现比 VGGT 快 20 倍以上的 3D 重建速度。

Haian Jin, Rundi Wu, Tianyuan Zhang + 4 more2026-03-05🤖 cs.AI

SimpliHuMoN: Simplifying Human Motion Prediction

本文提出了一种名为 SimpliHuMoN 的简洁高效 Transformer 模型，通过自注意力机制统一捕捉姿态的空间依赖与运动的时间关系，无需任务特定修改即可在轨迹、姿态及联合预测任务中均取得最先进的性能。

Aadya Agrawal, Alexander Schwing2026-03-05🤖 cs.LG

Thought Flow Nets: From Single Predictions to Trains of Model Thought

本文提出受黑格尔辩证法启发的“思维流”（Thought Flow）概念，通过引入自我修正机制使模型能够进行多轮迭代预测，实验表明该方法不仅能显著提升模型在问答任务中的自我纠错能力与性能，还能改善人类用户的判断表现并使其感知更加自然与智能。

Hendrik Schuff, Heike Adel, Ngoc Thang Vu2026-03-04🤖 cs.LG

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

本文提出了包含 49 名参与者的多模态人类注视数据集 VQA-MHUG，并通过分析发现，五个最先进的视觉问答模型在文本注意力上与人类的一致性越高，其整体性能越好，从而强调了改进文本注意力机制对提升视觉语言任务表现的重要性。

Ekta Sood, Fabian Kögel, Florian Strohm + 2 more2026-03-04💬 cs.CL

Multimodal Integration of Human-Like Attention in Visual Question Answering

本文提出了首个在视觉问答任务训练中将人类图像与文本注意力多模态整合到神经网络中的方法 MULAN，该方法不仅以比 prior 工作少约 80% 的可训练参数在 VQAv2 数据集上取得了新的最先进性能，还验证了多模态人类注意力与神经注意力整合的巨大潜力。

Ekta Sood, Fabian Kögel, Philipp Müller + 3 more2026-03-04💬 cs.CL

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

该研究提出利用视觉基础模型作为无需额外训练的通用特征提取器来构建医学影像内容检索系统，并通过在包含 160 万张影像的大规模数据集上的基准测试，证明了 BiomedCLIP 等弱监督模型在检索性能上可与专用系统媲美，从而展示了基础模型在推动放射学通用检索系统发展方面的巨大潜力。

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs

Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes

本文提出了名为"Implicit-Zoo"的大规模神经隐式函数数据集，旨在通过整合多样化的 2D 和 3D 场景数据并解决资源与数据匮乏的瓶颈，推动图像分类、语义分割及 3D 姿态回归等任务的性能提升与新研究方向的发展。

Qi Ma, Danda Pani Paudel, Ender Konukoglu + 1 more2026-03-04💻 cs

WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

本文提出了名为 Waffle 的新微调策略，通过结构感知注意力机制和对比学习分别解决 HTML 层级结构表示及 UI 图像与代码对齐的难题，从而显著提升了多模态模型在 UI 到前端代码生成任务中的性能。

Shanchao Liang, Nan Jiang, Shangshu Qian + 1 more2026-03-04💬 cs.CL

RealOSR: Latent Guidance Boosts Diffusion-based Real-world Omnidirectional Image Super-Resolutions

本文提出了 RealOSR，一种基于扩散模型的现实世界全景图像超分辨率框架，通过引入轻量级的潜在梯度对齐路由（LaGAR）模块实现高效的一步去噪引导，在显著提升视觉质量的同时实现了超过 200 倍的推理加速。

Xuhan Sheng, Runyi Li, Bin Chen + 3 more2026-03-04⚡ eess

Slot-BERT: Self-supervised Object Discovery in Surgical Video

本文提出了 Slot-BERT，一种基于双向长程建模和新型槽对比损失的自监督框架，旨在解决手术视频中长距离时序一致性与计算效率的矛盾，实现了在长视频中的高效物体发现、表示解纠缠及跨领域的零样本适应。

Guiqiu Liao, Matjaz Jogan, Marcel Hussing + 5 more2026-03-04⚡ eess

Weight Space Representation Learning on Diverse NeRF Architectures

本文提出了首个能够处理多种架构（包括 MLP、三平面和哈希表）NeRF 的无监督图元网络框架，通过对比学习构建架构无关的潜在空间，实现了在分类、检索和语言任务中对训练时未见架构的鲁棒推理，且性能优于现有单架构专用方法。

Francesco Ballerini, Pierluigi Zama Ramirez, Luigi Di Stefano + 1 more2026-03-04💻 cs