INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic
本文介绍了名为 INDUCTION 的基准测试,旨在评估大语言模型在有限结构中进行一阶逻辑概念合成的能力,通过精确模型检查验证公式正确性,并揭示了不同模型在任务难度、公式简洁性及泛化策略上的显著差异。
3852 篇论文
本文介绍了名为 INDUCTION 的基准测试,旨在评估大语言模型在有限结构中进行一阶逻辑概念合成的能力,通过精确模型检查验证公式正确性,并揭示了不同模型在任务难度、公式简洁性及泛化策略上的显著差异。
该论文利用 CityLearn 环境构建了一个涵盖多关键性能指标(KPI)的基准测试,通过对比不同训练架构和神经网络的 MARL 算法,发现去中心化训练在平均表现、最坏情况性能及电池寿命等实际挑战上优于集中式训练,并揭示了策略在应对资源移除时的鲁棒性。
本文介绍了基于 ModernBERT 架构、支持 35 种语言及代码的 MrBERT 模型系列,该系列通过词汇、领域和维度适配(含 Matryoshka 表示学习)在加泰罗尼亚语、西班牙语及生物医学、法律等专业领域实现了最先进的性能,同时显著降低了推理与存储成本。
本文提出了 ARLArena 框架以系统分析智能体强化学习(ARL)的稳定性问题,并基于此设计了能显著缓解训练不稳定的 SAMPO 方法,为构建稳定且可复现的 LLM 智能体训练流程提供了统一视角与实践指导。
CryoNet.Refine 是一种基于单步扩散模型的深度学习框架,它通过整合密度感知损失函数与立体化学约束,实现了比传统方法更快速、自动化且高质量的冷冻电镜结构模型优化。
本文提出“氛围研究”(vibe researching)概念,通过构建认知任务框架界定 AI 智能体在社会科学研究中的能力边界,论证其虽能大幅加速研究流程并辅助方法实施,但在理论原创性与隐性知识方面仍无法替代人类学者,进而警示了该变革带来的职业分层风险与教学危机。
该论文提出了衡量系统交互有效性的“双预测性”(bipredictability)这一核心指标,证明了其在经典与量子系统中的理论界限,指出当前 AI 仅具备行动能力而缺乏自我监控与适应的“智能”,并据此提出了一种受生物机制启发的实时反馈架构以构建具备真正智能的自适应系统。
本文提出了名为 AVDE 的轻量级框架,通过结合对比学习对齐 EEG 与图像表征,并利用基于“多尺度预测”策略的自回归生成模型,实现了高效、低参数量且符合人类视觉感知层级特性的脑电视觉解码。
该研究通过分解 HealthBench 数据集中的医师分歧发现,尽管大部分分歧源于病例本身的结构性特征且难以通过常规元数据消除,但区分“可消除的不确定性”(如信息缺失)与“不可消除的不确定性”(如固有医学模糊性)为优化评估设计提供了关键方向,即通过填补信息缺口可在不增加固有模糊性的情况下降低分歧。
本文提出了 CeRA(容量增强型秩适应)方法,通过引入 SiLU 门控和结构式丢弃在权重层面实现流形扩展,从而突破低秩适应(LoRA)在复杂推理任务中因线性约束导致的性能瓶颈,以显著更低的秩实现了超越高秩 LoRA 的谱效率与推理能力。
本文提出了一种基于学习显式转移模型的广义规划方法,通过让神经网络自回归预测中间世界状态而非直接预测动作序列,在多个领域中以更少的训练样本和更小的模型实现了比直接动作预测更强的分布外泛化能力。
该论文通过利用经过优化的微调大语言模型生成数百万条文本相关性标签,有效解决了专家标注稀缺的难题,并在 App Store 搜索排序中实现了行为相关性与文本相关性的同步提升,最终在全球 A/B 测试中显著提高了转化率,尤其在长尾查询场景下效果最为突出。
本文提出了 Attn-QAT,一种针对 4 比特注意力机制的量化感知训练方法,通过解决反向传播中的精度失配问题,在无需显式异常值抑制的情况下实现了稳定的 FP4 训练与推理,并在 RTX 5090 上带来了高达 1.5 倍的加速。
本文提出了 PEPA,一种通过三层认知架构利用人格特质作为内在组织原则,使具身智能体能够在无需外部任务指令的情况下自主生成目标并实现持久自主运行的机器人系统。
本文提出了一种可复现的评估框架,通过将心电图推理分解为“感知”(利用代理框架生成代码验证时序结构)和“推理”(基于检索比对临床准则)两个独立组件,实现了对多模态模型在心电图信号上真实推理能力的可扩展验证。
该论文提出了一种共形预测框架,通过针对不同临床文档结构(如结构化 FDA 标签与自由文本放射报告)中大语言模型置信度校准偏差的异质性进行自适应调整,在确保医疗实体提取达到 90% 以上覆盖率的同时实现了可控的拒绝率,从而为临床安全部署提供了保障。
该技术报告通过引入城市资源分配新案例,跨领域验证了可解释性解决方案空间(ESS)框架的通用性,证明其能根据治理角色、风险特征及利益相关者配置系统性地调整可解释 AI 策略,从而成为适用于各类社会技术系统的通用决策支持工具。
该论文针对 2026 年 F1 新规下因对手隐藏状态导致的部分可观测随机博弈问题,提出了一种结合隐藏马尔可夫模型(HMM)推断对手能量状态与深度 Q 网络(DQN)制定决策的两层框架,有效解决了传统单智能体优化方法无法应对的“反收割陷阱”等复杂策略挑战。
HarmonyCell 是一个端到端智能体框架,通过大语言模型驱动的语义统一器和自适应蒙特卡洛树搜索引擎,分别解决单细胞扰动研究中的语义异构与分布偏移挑战,实现了无需人工干预的自动化虚拟细胞建模。
本文提出了一种由大语言模型驱动的闭环框架,通过将自然语言指令映射为可执行规则并自动语义标注选项,有效解决了深度强化学习在数据效率、可解释性及跨环境迁移方面的关键挑战,并在 Office World 和 Montezuma's Revenge 任务中验证了其在约束合规与任务迁移上的优越性能。