AStar: Boosting Multimodal Reasoning with Automated Structured Thinking
该论文提出了 AStar,一种无需训练的多模odal 推理框架,它通过自适应检索并融合轻量级的“思维卡片”来引导模型进行结构化思考,从而在不依赖昂贵搜索或复杂后训练的情况下,显著提升了多模态大模型在复杂视觉推理任务中的性能。
1624 篇论文
该论文提出了 AStar,一种无需训练的多模odal 推理框架,它通过自适应检索并融合轻量级的“思维卡片”来引导模型进行结构化思考,从而在不依赖昂贵搜索或复杂后训练的情况下,显著提升了多模态大模型在复杂视觉推理任务中的性能。
该论文提出了一种无需训练的推理时幻觉检测方法,通过向模型参数或隐藏层激活注入噪声来更准确地量化贝叶斯不确定性,从而显著提升了大语言模型幻觉检测的效果。
本文提出了名为 LLM-ProS 的新型评估方法,利用 2011 至 2024 年国际大学生程序设计竞赛(ICPC)世界总决赛的 166 道题目,对 GPT-4o、Mistral Large、Llama-3.1-405B 及 o1 系列等先进大语言模型在算法解题中的推理能力、准确性及效率进行了全面基准测试,并深入分析了训练方法、数据污染和思维链等因素对模型性能的影响。
该论文提出了一种针对仇恨模因检测的鲁棒大模型自适应框架,通过增强领域内准确性与跨领域泛化能力,在六个数据集上实现了超越现有代理系统的性能,同时提升了模型的抗攻击能力与可解释性。
该论文提出了名为 MemeIntel 的框架,通过构建首个大规模双语解释性数据集 MemeXplain 并采用多阶段优化策略训练视觉语言模型,显著提升了阿拉伯语宣传类及英语仇恨类模因的检测准确率与解释生成质量。
该论文提出了一种基于对数评分规则奖励的强化学习方法,通过直接微调大语言模型,使其在生成答案的同时输出经过校准的置信度估计,从而有效解决过度自信与自信不足问题,并实现了在未见任务上的泛化能力。
该论文通过对 92 个开源预训练模型的元分析,揭示了除模型规模和训练数据量之外,数据构成(如代码占比)和架构选择(如旋转位置编码)等设计决策对下游性能有显著影响,从而构建了一个能更准确预测模型能力的框架。
本文综述了大语言模型在基因组序列建模、RNA 结构预测、蛋白质功能推断及单细胞转录组分析等生物信息学领域的最新进展,深入探讨了数据稀缺、计算复杂度等挑战,并展望了多模态学习、混合 AI 模型及临床应用等未来方向,强调了其在推动精准医学创新中的变革潜力。
本文提出了名为 LLaVE 的大语言与视觉嵌入模型框架,通过引入基于难度的加权对比学习有效解决了正负样本相似度分布重叠问题,在 MMEB 基准测试中实现了超越更大规模模型的最先进性能,并展现出优异的零样本泛化能力。
本文提出 Vision-R1,通过构建无需人工标注的高质量多模态思维链冷启动数据集,并结合渐进式思维抑制训练与 GRPO 强化学习策略,成功在大规模多模态数学数据上激发了模型的复杂推理能力,使其在 MathVista 等基准测试中达到接近 OpenAI O1 的顶尖水平。
该论文提出了一种基于离散潜在变量的生成模型,从理论上证明了通过下一词预测训练的大语言模型所学习到的表示近似于潜在概念的后验概率对数,从而为线性表示假设提供了统一视角并验证了其在多个模型族中的有效性。
本文提出了基于轻量级开源大语言模型的 MoBLLM,通过参数高效微调技术构建了首个个体移动性预测基础模型,在多个真实数据集上实现了超越现有深度学习模型的精度、跨场景迁移能力及对突发状况的鲁棒性,同时显著降低了训练成本。
本文提出了一种名为“修正链”(CoC)的多轮对话方法,利用大语言模型结合预识别文本与全文语境对自动语音识别结果进行分段修正,实验表明该方法在稳定性、可控性及流畅性等方面显著优于现有基准系统。
本文提出了首个专注于麻醉学推理的大模型综合基准与数据集套件 AnesSuite,并基于此构建了基线模型 Morpheus,显著提升了模型在麻醉专业及通用医学领域的推理能力。
本文提出了多样性感知奖励调整(DRA)框架,通过利用子模互信息校准奖励信号以解决标准 GRPO 在数学推理中因奖励非单射导致的多样性与质量不一致问题,从而在少量数据下显著提升了模型的推理性能。
该研究通过对比实验发现,大型语言模型(LLM)在诚实与欺骗性说服情境下均能超越受激励的人类说服者,其优势源于更高的表达确信度,但这种优势会随着交互次数增加而减弱,且不同模型在特定情境下的表现存在差异。
本文提出了模块化化学语言模型 mCLM,该模型通过将分子表示为具有功能意义的合成构建块而非原子,实现了在生成具备优异药物属性且易于自动化合成的分子方面的显著突破,并在性能上超越了包括 GPT-5 在内的其他主流生成式 AI 方法。
本文提出了 DTR,一种通过优化键值缓存动态调整视觉 token 权重的推理时防御方法,旨在无需额外安全数据或图像转文本转换的情况下,有效缓解多模态大模型的越狱攻击并兼顾通用任务性能。
本文提出了一种名为“链式诱饵(Chain-of-Lure)”的新型通用越狱攻击框架,该方法利用大语言模型自身不受约束的欺骗能力,通过任务转移将恶意意图隐藏于对话中,并借助辅助模型生成无模板的渐进式诱饵问题,从而在无需预设模板的情况下成功突破多种大语言模型的安全限制。
该论文提出了负感知微调(NFT)方法,通过利用自生成的错误答案构建隐式负策略,在无需外部教师的情况下使大语言模型能够自主反思并改进数学推理能力,从而在性能上超越传统监督学习基线并媲美领先强化学习算法,最终在理论层面证明了监督学习与强化学习在严格同策略训练下的等价性。