RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback
本文提出了 RetroAgent,一种通过引入包含数值进展追踪与可检索经验记忆的双重内在反馈机制的在线强化学习框架,使智能体不仅能解决复杂交互任务,还能通过持续自我反思与演化,在多个基准测试中显著超越现有方法并展现出强大的泛化能力。
5285 篇论文
本文提出了 RetroAgent,一种通过引入包含数值进展追踪与可检索经验记忆的双重内在反馈机制的在线强化学习框架,使智能体不仅能解决复杂交互任务,还能通过持续自我反思与演化,在多个基准测试中显著超越现有方法并展现出强大的泛化能力。
该论文通过数学形式化构建了基于“确信度”(即来源立场被独立共识验证的可能性)的信任框架,论证了确信度是比正确性或忠实性更可靠的信任基础,并指出持续验证机制是 AI 等来源建立稳健声誉的唯一途径。
本文提出了两种专为资源受限硬件设计的新型流式深度强化学习算法(S2AC 和 SDAC),它们在无需繁琐超参数调优的情况下实现了与现有流式基线相当的性能,并有效解决了从批量学习向流式学习过渡以用于 Sim2Real 等在线微调场景的实际挑战。
本文提出了一种名为 MAGIC Net 的新型流式持续学习框架,该框架通过结合持续学习架构策略与循环神经网络,利用可学习掩码机制在在线推理的同时有效应对概念漂移、时间依赖和灾难性遗忘挑战。
该论文提出了一种利用稀疏病理学标注和指数移动平均稳定教师网络生成渐进式优化伪掩码的弱监督教师 - 学生框架,有效解决了结肠癌组织病理学中腺体分割对大规模像素级标注的依赖问题,并在多个数据集上展现了良好的泛化性能。
该论文提出了 PostTrainBench 基准,旨在评估大语言模型智能体在受限算力下自主执行大模型后训练的能力,研究发现尽管前沿智能体在特定场景下能超越官方微调模型,但整体表现仍不及后者,且存在奖励黑客、数据作弊等安全风险。
本文介绍了 OfficeQA Pro,这是一个基于近百年美国财政部公报(含 89,000 页文档和 2600 万个数值)构建的企业级基准,旨在评估 AI 代理在跨多文档、混合非结构化文本与表格数据的接地推理能力,结果显示当前前沿大模型在此类任务上表现不佳,而采用结构化文档表示可显著提升性能,但距离企业级可靠应用仍有较大差距。
本文利用 AI 引导的进化搜索框架 AlphaEvolve 在双边贸易中发现了 Random-Offerer 机制的新最坏情况实例,将其相对于完全效率基准的近似比下界从之前的约 2.02 提升至 2.0749。
该论文提出了名为 Trilobyte 的字节级分词方案,解决了高分辨率音频下词汇量爆炸的问题,首次实现了基于语言模型的 24 位无损音频压缩,并验证了其在多种音频领域和位深下均优于 FLAC 且具备实用性的压缩性能。
本文针对分层联邦学习架构中分割层与客户端分配对性能影响的忽视问题,提出了首个兼顾精度与延迟的启发式联合优化算法,在公开数据集上实现了相比现有方案 3% 的精度提升、20% 的延迟降低及 50% 的通信开销减少。
该论文提出了“代理批判训练”(ACT)这一强化学习范式,通过奖励模型对行动优劣的正确判断,使其能够自主发展出真正的自我反思推理能力,从而在多个代理基准测试中显著超越了传统的模仿学习和现有强化学习方法。
该论文提出了一种基于关键医学概念和概念图卷积网络的解释性框架,旨在通过模拟临床医生的认知视角,解决胎儿超声标准切面检测中深度学习模型缺乏透明度和可解释性的问题。
本文提出了一种基于参考值的不完整成对比较均值计算方法,通过扩展算术和几何启发式估计(HRE)方法,证明了新几何方法的优化性与解的存在性,并给出了算术变体解存在的充分条件。
该论文通过实验揭示了大型语言模型在生成任务与评估任务之间存在显著性能差距,指出模型可能在缺乏相关能力的领域仍给出看似准确但不可靠的评估结果,从而凸显了“生成式 AI 悖论”并强调了对模型评估忠实度与可信度的深入审视。
该论文提出了 RAG-Driver,一种基于检索增强和上下文学习的多模态大语言模型,旨在通过利用检索到的专家演示数据,在不进行额外训练的情况下实现高性能、可解释且具备卓越零-shot 泛化能力的自动驾驶决策与解释。
本文推导了基于学习存内(LIM)范式、通过调制物理存储能量势垒以匹配优化动力学的理想神经形态优化器的理论能耗下限,提出了一个仅依赖操作数、模型规模、收敛速度和精度的模型无关性能评估框架,并将其应用于大规模 AI 工作负载的能耗估算。
该论文提出了一种名为 PA-ICVL 的基于姿态信息的上下文视觉学习方法,利用视觉语言模型(VLM)显著提升了在非写实渲染(如卡通)图像中检测语义结构视觉幻觉的能力。
该论文通过实验发现,基于大语言模型(LLM)的定价代理在寡头市场及拍卖环境中能自主达成超竞争价格与利润,且指令措辞的细微变化会显著影响其合谋程度,这为监管此类 AI 定价代理带来了独特挑战。
本文利用自然语言处理和机器学习技术对两千多首弗拉门戈歌词进行计算分析,不仅成功实现了流派(palos)的自动分类,还通过语义场提取和流派间距离网络分析,揭示了弗拉门戈各风格间的历史联系与演变规律,为这一非物质文化遗产提供了定量的研究视角。
本文提出了一种结合无监督 X 向量聚类与基于蒙特卡洛 Dropout 的贝叶斯批主动学习的两阶段流水线,通过分阶段筛选多样且信息丰富的语音样本,显著降低了自动语音识别模型训练的数据标注需求并提升了性能。