cs.CV 篇论文 | Gist.Science

Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning

本文提出了一种名为 Prompt-Driven Noise Generation (PNG) 的新框架，通过提示驱动学习高维噪声特征来生成逼真的 sRGB 图像噪声，从而在无需相机元数据的情况下显著提升了真实世界去噪任务的泛化能力与应用效果。

Jaekyun Ko, Dongjin Kim, Soomin Lee + 2 more2026-03-06💻 cs

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

该研究利用大规模职业棒球数据，通过结合扩散模型 3D 姿态估计与梯度提升分类器，仅凭投手身体运动学特征实现了 80.4% 的投球类型预测准确率，并揭示了上肢动作（特别是手腕位置）的主导作用及握球差异导致的预测性能上限。

Jerrin Bright, Michelle Lu, John Zelek2026-03-06🤖 cs.AI

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

本文提出了一种结构观察驱动的两阶段图像 - 文本对比学习框架，通过结构特定的视觉查询与文本特征进行对比学习及动态负样本队列优化，有效解决了 CT 报告生成中数据量大和细节复杂的问题，并在公开数据集上取得了最先进的性能。

Hong Liu, Dong Wei, Qiong Peng + 4 more2026-03-06💻 cs

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

本文提出了 DeformTrace，一种结合可变形自/交叉状态空间模型与中继令牌机制的新型混合架构，旨在通过动态感受野和子空间划分解决视频音频时序伪造定位中边界模糊、长程依赖及稀疏伪造检测等难题，从而实现更精准、高效且鲁棒的伪造片段识别。

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

该论文提出了一种名为 FedMEPD 的新型联邦学习框架，通过采用联邦模态特定编码器和基于参数更新差异动态调整的部分个性化融合解码器，并结合跨模态注意力机制校准缺失模态信息，有效解决了多模态医学图像分析中存在的模态间异质性及个性化需求问题，在 BraTS 基准测试中显著优于现有方法。

Hong Liu, Dong Wei, Qian Dai + 3 more2026-03-06💻 cs

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

本文提出了 FedAFD 框架，通过客户端的双层对抗对齐与粒度感知融合模块，以及服务器端的相似性引导集成蒸馏机制，有效解决了多模态联邦学习中个性化性能不足、模态任务差异及模型异构等挑战，显著提升了在 IID 和非 IID 设置下的整体性能与效率。

Min Tan, Junchao Ma, Yinfu Feng + 6 more2026-03-06🤖 cs.AI

Locality-Attending Vision Transformer

本文提出了一种名为 Locality-Attending Vision Transformer 的简单有效附加模块，通过引入可学习的高斯核调制自注意力机制以增强局部感知并优化 patch 表示，从而在不改变训练策略且不牺牲图像分类性能的前提下，显著提升了视觉 Transformer 在图像分割任务上的表现。

Sina Hajimiri, Farzad Beizaee, Fereshteh Shakeri + 3 more2026-03-06💻 cs

FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation

本文提出了 FC-VFI 方法，通过引入潜序列时间建模策略、语义匹配线结构感知运动引导以及时序差异损失，解决了现有视频扩散模型在帧插值中保真度不足和时序不一致的问题，实现了在 2560×1440 分辨率下将 30 FPS 视频高质量地插值至 120 或 240 FPS。

Ganggui Ding, Hao Chen, Xiaogang Xu2026-03-06💻 cs

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

本文提出了 AdaIAT 方法，通过自适应地增强生成文本对图像令牌的注意力权重，在有效降低大视觉语言模型幻觉率的同时避免了描述重复并保持了语言连贯性。

Li'an Zhong, Ziqiang He, Jibin Zheng + 3 more2026-03-06💻 cs

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

本文提出了一种基于可微渲染的视点一致 3D 对抗纹理优化方法，通过结合期望变换、由粗到细的课程学习及显著性引导策略，有效克服了传统 2D 补丁在动态视角下的局限性，显著提升了针对机器人视觉运动策略的对抗攻击效果与泛化能力。

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

Person Detection and Tracking from an Overhead Crane LiDAR

本文针对工业室内场景下吊装 LiDAR 视角的行人检测与跟踪难题，构建了专用数据集并评估了多种 3D 检测器与跟踪算法，实现了高精度实时检测并开源了相关资源以填补该领域的研究空白。

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

Adaptive Prototype-based Interpretable Grading of Prostate Cancer

本文提出了一种基于自适应原型的可解释弱监督框架，通过模拟病理学家比对临床验证案例的推理过程，利用原型感知损失和动态剪枝机制，实现了前列腺癌组织病理图像的可信自动分级。

Riddhasree Bhattacharyya, Pallabi Dutta, Sushmita Mitra2026-03-06💻 cs

TimeWarp: Evaluating Web Agents by Revisiting the Past

本文提出了名为 TimeWarp 的基准测试，通过模拟网页 UI 和布局的演变来评估 Web 智能体的泛化能力，并进一步提出了利用多版本轨迹蒸馏的 TimeTraj 算法，显著提升了智能体在动态网页环境中的鲁棒性。

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

Location-Aware Pretraining for Medical Difference Visual Question Answering

该论文提出了一种融合自动指代、接地描述等定位感知任务的预训练框架，以增强视觉编码器对细微差异的捕捉能力，从而在胸部 X 光医学差异视觉问答任务中实现了最先进的性能。

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

本文提出了 VisionPangu，一款仅含 1.7B 参数的紧凑多模态模型，它通过结合 InternVL 视觉编码器、OpenPangu 语言骨干网络以及基于 DOCCI 数据集的细粒度指令微调，在无需大规模参数扩展的情况下实现了高质量且结构化的图像描述生成。

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

本文提出了一种引入收缩参数的新型相机模型，在保留正交投影稳定性的同时有效模拟了近景图像中的透视畸变，从而显著提升了单目 3D 可变形模型在头戴式摄像机近景视频中的回归性能。

Toby Chong, Ryota Nakajima2026-03-06💻 cs

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

本文提出了 BiEvLight 框架，通过构建梯度引导的事件去噪先验并将去噪过程重构为受增强任务约束的 bilevel 优化问题，有效解决了事件相机背景噪声与图像低信噪比耦合导致的融合瓶颈，从而在低光照图像增强任务中显著提升了性能。

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

本文提出了首个将强化学习可验证奖励范式应用于视频三维场景理解的 3D-RFT 框架，通过基于评估指标（如 3D IoU 和 F1 分数）的严格奖励函数进行强化微调，使模型在多项三维感知与推理任务中超越了更大规模的现有模型。

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

该论文提出了 VideoHV-Agent 框架，通过“先思考后验证”的假设生成与验证多智能体机制，有效解决了长视频理解中的语义漂移与冗余问题，在多个基准测试中实现了更高的准确率、逻辑性和更低的计算成本。

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

本文提出了 Wallaroo，一种基于简单自回归 next-token 预测的基线模型，通过解耦视觉编码和四阶段训练策略，实现了多模态理解、生成与编辑的统一，并支持多分辨率图像及中英双语。

Jie Zhu, Hanghang Ma, Jia Wang + 6 more2026-03-06💻 cs