Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
本文提出 Vision-R1,通过构建无需人工标注的高质量多模态思维链冷启动数据集,并结合渐进式思维抑制训练与 GRPO 强化学习策略,成功在大规模多模态数学数据上激发了模型的复杂推理能力,使其在 MathVista 等基准测试中达到接近 OpenAI O1 的顶尖水平。
1714 篇论文
本文提出 Vision-R1,通过构建无需人工标注的高质量多模态思维链冷启动数据集,并结合渐进式思维抑制训练与 GRPO 强化学习策略,成功在大规模多模态数学数据上激发了模型的复杂推理能力,使其在 MathVista 等基准测试中达到接近 OpenAI O1 的顶尖水平。
该论文提出了一种基于离散潜在变量的生成模型,从理论上证明了通过下一词预测训练的大语言模型所学习到的表示近似于潜在概念的后验概率对数,从而为线性表示假设提供了统一视角并验证了其在多个模型族中的有效性。
本文提出了基于轻量级开源大语言模型的 MoBLLM,通过参数高效微调技术构建了首个个体移动性预测基础模型,在多个真实数据集上实现了超越现有深度学习模型的精度、跨场景迁移能力及对突发状况的鲁棒性,同时显著降低了训练成本。
本文提出了一种名为“修正链”(CoC)的多轮对话方法,利用大语言模型结合预识别文本与全文语境对自动语音识别结果进行分段修正,实验表明该方法在稳定性、可控性及流畅性等方面显著优于现有基准系统。
本文提出了首个专注于麻醉学推理的大模型综合基准与数据集套件 AnesSuite,并基于此构建了基线模型 Morpheus,显著提升了模型在麻醉专业及通用医学领域的推理能力。
本文提出了多样性感知奖励调整(DRA)框架,通过利用子模互信息校准奖励信号以解决标准 GRPO 在数学推理中因奖励非单射导致的多样性与质量不一致问题,从而在少量数据下显著提升了模型的推理性能。
该研究通过对比实验发现,大型语言模型(LLM)在诚实与欺骗性说服情境下均能超越受激励的人类说服者,其优势源于更高的表达确信度,但这种优势会随着交互次数增加而减弱,且不同模型在特定情境下的表现存在差异。
本文提出了模块化化学语言模型 mCLM,该模型通过将分子表示为具有功能意义的合成构建块而非原子,实现了在生成具备优异药物属性且易于自动化合成的分子方面的显著突破,并在性能上超越了包括 GPT-5 在内的其他主流生成式 AI 方法。
本文提出了 DTR,一种通过优化键值缓存动态调整视觉 token 权重的推理时防御方法,旨在无需额外安全数据或图像转文本转换的情况下,有效缓解多模态大模型的越狱攻击并兼顾通用任务性能。
本文提出了一种名为“链式诱饵(Chain-of-Lure)”的新型通用越狱攻击框架,该方法利用大语言模型自身不受约束的欺骗能力,通过任务转移将恶意意图隐藏于对话中,并借助辅助模型生成无模板的渐进式诱饵问题,从而在无需预设模板的情况下成功突破多种大语言模型的安全限制。
该论文提出了负感知微调(NFT)方法,通过利用自生成的错误答案构建隐式负策略,在无需外部教师的情况下使大语言模型能够自主反思并改进数学推理能力,从而在性能上超越传统监督学习基线并媲美领先强化学习算法,最终在理论层面证明了监督学习与强化学习在严格同策略训练下的等价性。
本文提出了名为 SQUiD 的神经符号框架,利用大语言模型将非结构化文本自动合成为包含模式生成与数据填充的完整关系型数据库,并在多项实验中展现出优于基线的性能。
该论文提出了名为 Intuitor 的强化学习框架,通过利用模型自身的“自我确信度”作为唯一奖励信号,实现了无需外部验证奖励或标注数据即可进行复杂推理训练,并在保持数学基准性能的同时展现出优于传统方法的跨域泛化能力。
该论文提出了 RPM 框架,通过从原始行为数据中自动挖掘用户特定的推理结构来引导黑盒大模型的个性化推理,从而在个性化性能和可解释性上超越了现有的仅关注响应层面的方法。
本文通过实证研究提出了一种在社会科学领域(特别是气候谈判)中利用元数据引导生成和自动化初步验证来增强大语言模型研究构思的框架,结果表明该方法不仅显著提升了生成想法的可行性与整体质量,还能有效辅助研究人员产生更高质量的创新构思。
本文提出了 RefTool 框架,通过利用外部参考资料(如教科书)引导大语言模型自动生成并分层组织可执行工具,从而有效克服模型内部知识局限,在知识密集型推理任务中显著提升了准确率与泛化能力。
本文提出了首个名为 VeriTrail 的闭域幻觉检测方法,该方法不仅能检测最终输出中的幻觉,还能追溯多步生成过程中幻觉的引入位置及中间步骤的忠实度,并配套发布了包含中间输出和人工标注的新数据集。
本文提出了名为 RedTeamCUA 的对抗性测试框架及包含 864 个样本的 RTC-Bench 基准,通过创新的混合沙箱环境评估了计算机使用代理(CUA)在真实 Web-OS 场景下对间接提示注入的脆弱性,发现当前最先进的模型(如 Claude 4.5 Sonnet)仍存在高达 60% 的攻击成功率,凸显了部署前加强防御的紧迫性。
本文提出了名为 CityLens 的综合基准,通过涵盖全球 17 个城市、6 大领域及 11 项任务的跨模态数据集,系统评估了大型视觉语言模型在从卫星和街景图像中预测城市社会经济指标方面的能力与局限性。
本文提出了基于认知心理学的综合性空间推理基准 OmniSpatial,涵盖动态推理、复杂空间逻辑、空间交互和视角转换四大类共 50 个子类,通过 8400 多个精细标注的问答对揭示了当前视觉语言模型在全面空间推理上的显著局限,并探索了 PointGraph 和 SpatialCoT 两种增强策略。