Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
本文提出了 Vision-DeepResearch,一种通过冷启动监督与强化学习训练多轮、多实体及多尺度视觉文本搜索能力的多模态大模型新范式,使其在复杂噪声环境下能进行深度推理与广泛证据聚合,从而显著超越现有模型及基于 GPT-5 等闭源强基座的工作流。
4370 篇论文
本文提出了 Vision-DeepResearch,一种通过冷启动监督与强化学习训练多轮、多实体及多尺度视觉文本搜索能力的多模态大模型新范式,使其在复杂噪声环境下能进行深度推理与广泛证据聚合,从而显著超越现有模型及基于 GPT-5 等闭源强基座的工作流。
该论文针对传统异常检测忽略上下文依赖性的局限,提出了一个名为 CAAD-3K 的新基准和一种基于视觉 - 语言表征的条件兼容性学习框架,通过建模主体与上下文的兼容性关系,在多个数据集上实现了显著优于现有方法的性能。
本文提出了名为 HitEmotion 的基于心智理论(ToM)的分层基准、引导情感推理的推理链以及利用中间心理状态进行过程监督的强化学习方法 TMPO,旨在解决多模态大模型在深层情感理解上的不足,并通过实验验证了该方法在提升推理准确性与连贯性方面的有效性。
本文提出了一种针对扩散模型的后训练量化方法,通过为校准样本学习最优权重以对齐不同时间步的梯度方向,有效解决了现有均匀量化策略因忽略时间步差异而导致的性能下降问题。
本文提出了一种名为 CaCoVID 的基于强化学习的视频理解新框架,通过优化策略网络主动选择对预测贡献最大的视频令牌组合,从而有效解决现有注意力分数导向的压缩方法中令牌贡献度不明确的问题,显著提升了视频大语言模型的推理效率。
CloDS 提出了一种名为 Cloth Dynamics Grounding 的新场景及相应的无监督学习框架,通过引入支持双向映射的“双位置不透明度调制”技术,仅利用多视角视觉观测数据即可在未知条件下有效学习布料动力学并具备强大的泛化能力。
本文针对现有基准在视觉搜索导向性和评估场景真实性方面的不足,构建了包含 2000 个实例的 Vision-DeepResearch 基准(VDR-Bench)以评估多模态大模型的复杂图文检索能力,并提出了一种有效的多轮裁剪搜索工作流以提升模型在真实场景下的表现。
本研究通过分析 Stable Diffusion XL 和 DALL-E 3 的生成结果,揭示了当前文生图模型在残障群体表征上存在的持续失衡问题,并强调了通过持续评估与优化以推动更具包容性描绘的必要性。
本文提出了残差流扩散模型(RFDM),这是一种基于图像扩散模型的高效因果视频编辑方法,通过预测帧间残差实现了可变长度视频的逐帧编辑,在保持与图像模型相当计算成本的同时,显著提升了视频编辑的效率与效果。
该研究通过对比五个前沿模型在医疗与自然图像数据集上的表现,揭示了单切片重建 3D 体积时因深度模糊导致的体素重叠率普遍低下,但指出 SAM3D 在拓扑相似性上表现最佳,从而强调了实现可靠医疗 3D 重建亟需领域特定适配与解剖约束。
本文提出了 EchoTorrent,一种通过多教师训练、自适应 CFG 校准、混合长尾强制及 VAE 解码器优化等创新设计,旨在解决多模态视频生成中延迟高、时序不稳定及流式推理性能下降问题,从而实现快速、持久且同步的高质量视频生成的新型架构。
本文提出了 GPEReg-Net,一种通过位置编码时序注意力机制将跨域图像配准转化为场景表示与外观统计解耦重组的无变形配准方法,在无需显式估计形变场的情况下实现了超越现有方法的精度与速度。
本文提出了 OmniCT,一种统一的 CT 切片 - 体积大语言模型,通过空间一致性增强和器官级语义增强机制,有效解决了现有模型在局部细节与全局空间推理上的割裂问题,并发布了大规模数据集 MedEval-CT 以推动医学影像理解的临床转化。
本文提出了 Prefer-DAS 模型,通过结合稀疏提示学习与局部偏好优化(包括 LPO、SLPO 及 UPO),在仅需稀疏点标注或人类反馈的情况下,实现了比现有无监督及弱监督方法更优越且接近全监督水平的电子显微镜域自适应分割性能。
本文提出了专为肝细胞病理分析设计的多模态大语言模型 Hepato-LLaVA,通过引入稀疏拓扑打包注意力机制有效解决全切片图像中的信息丢失与特征冗余问题,并构建了专家验证的 HepatoPathoVQA 数据集,在肝癌诊断与描述任务中取得了领先性能。
该论文提出了一种基于因果推理框架的医学图像分割模型解释方法,通过量化平均处理效应来评估输入区域及网络组件对分割结果的影响,实验表明该方法不仅比现有技术提供更忠实的解释,还能揭示不同模型及输入间感知策略的显著异质性,为模型优化提供了新见解。
本文提出了数据集颜色量化(DCQ)框架,通过减少图像颜色空间的冗余并保留对模型训练至关重要的语义和结构信息,在显著压缩大规模图像数据集存储需求的同时提升了模型训练性能。
该论文提出了名为“视觉指令注入(VII)”的训练无关且可迁移的越狱框架,通过将恶意文本意图伪装成安全参考图像中的视觉指令,成功利用图像到视频生成模型的视觉指令跟随能力,在四大主流商业模型上实现了高达 83.5% 的攻击成功率并几乎消除了拒绝响应。
本文提出了 HorizonForge,这是一个通过结合可编辑的 Gaussian Splats 与 Mesh 表示及噪声感知视频扩散过程,实现任意轨迹和车辆驱动的逼真驾驶场景编辑的统一框架,并配套推出了 HorizonSuite 基准测试以验证其在保真度与可控性上的显著优势。
本文提出了一种基于光 - 几何交互(LGI)图的新方法,通过将光照方向与几何结构显式关联,构建了首个涵盖复杂反射与透射的大规模联合阴影生成与重光照基准数据集,并利用桥接匹配生成模型实现了物理一致且逼真的阴影生成与重光照效果。