Towards Autonomous Mathematics Research
本文介绍了名为 Aletheia 的自主数学研究智能体,它通过结合先进推理模型、推理时扩展定律及工具使用能力,实现了从奥林匹克竞赛题到生成无人类干预研究论文、证明新定理及解决开放问题等里程碑式的 AI 辅助数学研究突破。
5822 篇论文
本文介绍了名为 Aletheia 的自主数学研究智能体,它通过结合先进推理模型、推理时扩展定律及工具使用能力,实现了从奥林匹克竞赛题到生成无人类干预研究论文、证明新定理及解决开放问题等里程碑式的 AI 辅助数学研究突破。
该论文提出了以效用反馈为核心的框架,通过构建涵盖多种复杂场景的 AgoraBench 基准、引入基于人类偏好的经济评估指标,以及利用人类偏好数据集优化提示与微调流程,显著提升了大语言模型在谈判中的策略深度与对手感知能力。
这项基于 737 名参与者的研究通过对比实验发现,在“氛围编程”(vibe coding)协作中,人类主导指令而 AI 负责评估的混合模式表现最佳,且人类提供的高层指令能有效避免 AI 主导指令导致的性能崩溃,凸显了人类指导在构建未来人机协作社会中的关键作用。
该论文提出了名为 DataChef-32B 的强化学习框架,通过端到端自动生成数据食谱来优化大语言模型适应过程,其生成的食谱在多个任务上达到了专家级水平,并成功将 Qwen3-1.7B-Base 在 AIME'25 数学基准上的表现提升至超越官方后训练检查点的 66.7 分。
该论文提出了 SWE-MiniSandbox,一种利用内核级机制和轻量级环境预缓存技术实现的无容器强化学习框架,它在保持隔离性的同时显著降低了磁盘占用和环境准备时间,为软件工程智能体的规模化训练提供了高效且可访问的基础。
该论文针对多轮对话中提示注入攻击难以在代理层进行有效聚合检测的问题,提出了一种结合单轮峰值风险、持久性比率与类别多样性的“峰值 + 累积”评分公式,在无需调用大语言模型的情况下,于大规模数据集上实现了高召回率与低误报率的攻击检测效果。
本文通过系统文献综述批判了机器学习中将人类分歧视为噪声的“共识陷阱”谬误,揭示了数据标注中存在的锚定偏差与西方中心主义霸权,并主张将分歧重新定义为构建文化胜任模型的关键信号,从而推动从追求单一“真理”向映射人类经验多样性的标注范式转型。
本文提出了 AHSIV 框架,通过整合考虑预测视界退化的指标调整、需求结构分类及多目标优化机制,解决了多 SKU 场景下因预测视界变化导致的模型排序不稳定问题,为异构需求环境下的业务决策提供了自适应且可复现的模型选择方案。
该论文提出了 IntelliAsk,一种通过构建基于专家标注的奖励模型 IntelliReward 并结合 DAPO 强化学习算法,使大语言模型能够生成更具深度、证据充分且基于全文内容的高质量科研审稿问题的方法。
该论文展示了基于确定性语义状态基底的 C++ 生产级实现,通过局部状态演化机制在 Apple M2 芯片上实现了不随节点规模(100 万至 2500 万)而增长的恒定延迟与极低能耗,证明了“计算冰河时代”(ICE-AGE)在仅受内存容量限制而非推理重计算成本约束下的可扩展性。
本文提出了 FLoRG 框架,通过聚合单个低秩矩阵的 Gram 矩阵并结合 Procrustes 对齐技术,有效解决了联邦微调中 LoRA 方法存在的聚合误差与分解漂移问题,在显著提升下游任务精度的同时大幅降低了通信开销。
该论文提出了一种匹配骨干测试方法并结合机制分析,揭示当前语音大语言模型在多数场景下实为成本高昂的级联系统,且在噪声环境下其性能甚至可能低于传统的“语音识别转文本再输入大模型”的级联方案。
本文提出了混合在线与离线策略优化的记忆增强强化学习框架 EMPO,通过利用记忆机制有效解决了大语言模型智能体在探索新状态时的瓶颈,并在 ScienceWorld 和 WebShop 等基准测试中显著提升了性能及泛化能力。
该论文从信息论角度将多模态大模型的模态坍塌现象重新定义为“失配解码”问题,揭示了其性能瓶颈源于解码器的评分规则而非编码器架构,并证明了训练目标直接决定了模型可提取的信息范围。
本文提出了名为 CoME 的新型移动智能体架构,通过引入四个针对特定推理阶段的专家模块、分阶段渐进式训练策略以及基于信息增益的 Info-DPO 优化方法,有效解决了现有移动智能体在屏幕总结、子任务规划等混合能力推理中难以实现解耦增强与平衡协同的问题,并在 AITZ 和 AMEX 数据集上取得了优于密集模型及混合专家方法的表现。
该论文提出了“代码空间理论”(ToCS)基准,通过让 AI 代理在部分可观测条件下探索程序化生成的代码库并维护结构化信念状态,揭示了不同大模型在主动探索能力、信念自我支撑机制以及信念稳定性方面存在显著差异,表明当前代理在构建和维护软件架构理解方面仍面临挑战。
该论文提出了一种基于隐式神经表示和重参数化策略的张量环函数分解方法,通过引入可学习潜张量与固定基的混合结构来优化频谱特性并改善训练动态,从而在图像修复、去噪、超分辨率及点云恢复等多维数据恢复任务中实现了优于现有方法的性能。
该论文通过系统分析 43 个基准测试与 72,342 个任务,揭示了当前 AI 代理开发过度集中于编程领域,与美国劳动力市场中实际就业和经济价值分布存在显著错位,并据此提出了涵盖性、真实性和细粒度评估三项原则,以指导设计更能反映社会重要性和技术挑战的基准测试。
本文提出了名为 MERA 的检索增强多模态混合专家框架,通过结合分层多专家检索与基于 Dempster-Shafer 证据理论的可靠性感知融合策略,有效解决了蛋白质活性位点识别中训练数据稀疏及模态可靠性估计不足的挑战,并在多个数据集上实现了最先进的预测性能。
该论文通过两项研究揭示了当前 AI 代理在协同创作中缺乏对并发用户动作的实时理解能力,进而提出了能解析协作意图并实时自适应的 CLEO 系统,并通过决策模型阐明了人类与代理在委托、指导及并发协作等模式间的动态切换机制。