SommBench: Assessing Sommelier Expertise of Language Models
本文提出了多语言基准 SommBench,通过与专业品酒师合作构建包含葡萄酒理论问答、特征补全及餐酒搭配任务的测试集,评估了语言模型在缺乏感官体验的情况下仅凭文本描述所展现的专家级品酒能力,并揭示了模型在理论问答上表现优异但在特征补全和餐酒搭配等更具挑战性的任务上仍存在显著局限。
2384 篇论文
本文提出了多语言基准 SommBench,通过与专业品酒师合作构建包含葡萄酒理论问答、特征补全及餐酒搭配任务的测试集,评估了语言模型在缺乏感官体验的情况下仅凭文本描述所展现的专家级品酒能力,并揭示了模型在理论问答上表现优异但在特征补全和餐酒搭配等更具挑战性的任务上仍存在显著局限。
本文介绍了 CRAFT 手,这是一种基于“关节处接触集中而连杆主要承载”设计理念的腱驱动拟人化手,通过在关节处采用软材料、连杆保持刚性并引入滚动接触关节,实现了在接触丰富操作中的高强度、高耐久性与高重复性,且具备低成本、开源及支持遥操作和仿真的特点。
该研究指出,在资源稀缺环境下,提升 AI 智能体的多样性与强化学习能力反而可能加剧系统过载并导致集体混乱,而这一风险完全取决于可预先计算的“容量与人口比率”。
该论文提出了 TopoBench 基准以评估大语言模型在拓扑推理任务中的表现,发现其失败主要源于从空间表示中提取约束的困难而非推理能力本身,并据此提出了相应的缓解策略。
该论文提出了一套包含通用提示模板、分层验证和迭代修复的自动化方法,能够以极低的计算成本将复杂的强化学习环境高效转化为高性能实现,并在多个案例中实现了显著的速度提升与语义等价性验证。
FlashMotion 提出了一种结合轨迹适配器预训练、生成器蒸馏及混合策略微调的新框架,旨在解决现有轨迹可控视频生成方法在加速至少步生成时质量与精度下降的问题,并显著提升了生成视频的视觉质量与轨迹一致性。
该论文研究了大语言模型强化学习后训练中采样算力的最优分配策略,发现并行rollout数量随算力预算增加而饱和,且针对难易问题分别通过“解锐化”和“覆盖扩展”机制发挥作用,从而为高效RL训练提供了可操作的算力分配规则。
GlyphBanana 提出了一种无需训练的代理工作流,通过向潜在空间和注意力图注入字形模板来辅助现有文生图模型,从而显著提升了复杂字符和数学公式的精确渲染能力。
该论文基于双模态混合抽象,从理论上量化了生成模型持续后训练中的遗忘现象,揭示了前向与反向 KL 散度在质量遗忘和旧分量漂移上的不同机制,并阐明了重放策略及现有近于策略方法如何受散度方向、几何重叠度及采样机制的影响。
BehaviorVLM 是一个无需特定任务微调的统一视觉语言框架,它通过引导预训练模型进行显式推理,实现了仅需极少人工标注即可同时完成多动物姿态估计与行为语义理解的可扩展分析。
该论文通过构建基于 800 份异构 PDF 文档的 MADQA 基准及新的“精度 - 努力”评估协议,揭示了当前多模态智能体虽能达到与人类相当的准确率,但主要依赖暴力搜索而非真正的战略规划,导致其性能与最优解仍存在显著差距。
该论文提出了“可携带证明材料”(PCM)框架,通过对抗性证伪、统计置信包络和形式化验证,解决了机器学习势函数在材料筛选中可靠性缺失的问题,显著提升了稳定材料的发现率并实现了跨架构的失效预测。
本文提出了一种将带有持续动作的时序数值规划问题编译为 PDDL+ 的实用多项式方法,该方法在仅假设动作不自我重叠的前提下完整保留了语义,并能在保持规划长度常数倍增长的同时有效解决高难度的时序数值问题。
该论文提出了名为 WORKSWORLD 的新领域,旨在通过结合数据与资源图表示,利用数值无关规划器自动为分布式数据流水线生成并调度包含组件构建与资源分配的综合计划。
本文提出了一种名为 RDNet 的遥感图像显著目标检测网络,该网络通过引入 SwinTransformer 骨干网络以及动态自适应细节感知、频匹配上下文增强和区域比例感知定位三个核心模块,有效解决了目标尺度变化大及全局上下文建模不足的问题,显著提升了检测精度与定位能力。
该论文提出了一种名为 Portfolio-CEGAR-SEQ 的并行化求解策略,通过结合多种对象排列策略(如角落放置和按高度调度)并利用现代多核 CPU 的并行计算能力,有效解决了顺序 3D 打印中的物体排列与调度难题,且实验表明其性能优于原有的 CEGAR-SEQ 算法。
本文提出了名为"Idea-Catalyst"的新框架,通过系统性地识别跨学科见解并将目标领域挑战转化为通用概念问题以检索外部学科知识,从而在避免过早锚定具体方案的同时辅助人机进行创造性推理,显著提升了研究的新颖性与洞察力。
该论文提出并验证了在大型预训练模型中,任务专家密集分布在参数空间邻域内,因此一种简单的随机采样扰动结合多数投票的并行后训练方法,其性能可与 PPO 等标准优化方法相媲美。
本文基于 Perplexity 在运营通用智能体系统的实践经验,深入分析了 AI 智能体因架构变革带来的新型安全威胁与攻击面,并提出了涵盖多层防御机制、策略执行及未来研究方向的系统性安全建议。
该论文提出了一种可集成于任意分支定界神经网络的增量验证技术,通过跨相关查询复用学习到的冲突(即不可行的激活模式组合)并借助 SAT 求解器进行一致性检查,从而有效减少搜索冗余并显著提升验证效率。