cs.AI 篇论文 | Gist.Science

SommBench: Assessing Sommelier Expertise of Language Models

本文提出了多语言基准 SommBench，通过与专业品酒师合作构建包含葡萄酒理论问答、特征补全及餐酒搭配任务的测试集，评估了语言模型在缺乏感官体验的情况下仅凭文本描述所展现的专家级品酒能力，并揭示了模型在理论问答上表现优异但在特征补全和餐酒搭配等更具挑战性的任务上仍存在显著局限。

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL

CRAFT: A Tendon-Driven Hand with Hybrid Hard-Soft Compliance

本文介绍了 CRAFT 手，这是一种基于“关节处接触集中而连杆主要承载”设计理念的腱驱动拟人化手，通过在关节处采用软材料、连杆保持刚性并引入滚动接触关节，实现了在接触丰富操作中的高强度、高耐久性与高重复性，且具备低成本、开源及支持遥操作和仿真的特点。

Leo Lin, Shivansh Patel, Jay Moon, Svetlana Lazebnik, Unnat Jain2026-03-13🤖 cs.AI

Increasing intelligence in AI agents can worsen collective outcomes

该研究指出，在资源稀缺环境下，提升 AI 智能体的多样性与强化学习能力反而可能加剧系统过载并导致集体混乱，而这一风险完全取决于可预先计算的“容量与人口比率”。

Neil F. Johnson2026-03-13💰 q-fin

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

该论文提出了 TopoBench 基准以评估大语言模型在拓扑推理任务中的表现，发现其失败主要源于从空间表示中提取约束的困难而非推理能力本身，并据此提出了相应的缓解策略。

Mayug Maniparambil, Nils Hoehing, Janak Kapuriya, Arjun Karuvally, Ellen Rushe, Anthony Ventresque, Noel O'Connor, Fergal Reid2026-03-13🤖 cs.AI

Automatic Generation of High-Performance RL Environments

该论文提出了一套包含通用提示模板、分层验证和迭代修复的自动化方法，能够以极低的计算成本将复杂的强化学习环境高效转化为高性能实现，并在多个案例中实现了显著的速度提升与语义等价性验证。

Seth Karten, Rahul Dev Appapogu, Chi Jin2026-03-13🤖 cs.LG

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

FlashMotion 提出了一种结合轨迹适配器预训练、生成器蒸馏及混合策略微调的新框架，旨在解决现有轨迹可控视频生成方法在加速至少步生成时质量与精度下降的问题，并显著提升了生成视频的视觉质量与轨迹一致性。

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

该论文研究了大语言模型强化学习后训练中采样算力的最优分配策略，发现并行rollout数量随算力预算增加而饱和，且针对难易问题分别通过“解锐化”和“覆盖扩展”机制发挥作用，从而为高效RL训练提供了可操作的算力分配规则。

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

GlyphBanana 提出了一种无需训练的代理工作流，通过向潜在空间和注意力图注入字形模板来辅助现有文生图模型，从而显著提升了复杂字符和数学公式的精确渲染能力。

Zexuan Yan, Jiarui Jin, Yue Ma, Shijian Wang, Jiahui Hu, Wenxiang Jiao, Yuan Lu, Linfeng Zhang2026-03-13🤖 cs.AI

A Quantitative Characterization of Forgetting in Post-Training

该论文基于双模态混合抽象，从理论上量化了生成模型持续后训练中的遗忘现象，揭示了前向与反向 KL 散度在质量遗忘和旧分量漂移上的不同机制，并阐明了重放策略及现有近于策略方法如何受散度方向、几何重叠度及采样机制的影响。

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

BehaviorVLM 是一个无需特定任务微调的统一视觉语言框架，它通过引导预训练模型进行显式推理，实现了仅需极少人工标注即可同时完成多动物姿态估计与行为语义理解的可扩展分析。

Jingyang Ke, Weihan Li, Amartya Pradhan, Jeffrey Markowitz, Anqi Wu2026-03-13🤖 cs.AI

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

该论文通过构建基于 800 份异构 PDF 文档的 MADQA 基准及新的“精度 - 努力”评估协议，揭示了当前多模态智能体虽能达到与人类相当的准确率，但主要依赖暴力搜索而非真正的战略规划，导致其性能与最优解仍存在显著差距。

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

该论文提出了“可携带证明材料”（PCM）框架，通过对抗性证伪、统计置信包络和形式化验证，解决了机器学习势函数在材料筛选中可靠性缺失的问题，显著提升了稳定材料的发现率并实现了跨架构的失效预测。

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

Compiling Temporal Numeric Planning into Discrete PDDL+: Extended Version

本文提出了一种将带有持续动作的时序数值规划问题编译为 PDDL+ 的实用多项式方法，该方法在仅假设动作不自我重叠的前提下完整保留了语义，并能在保持规划长度常数倍增长的同时有效解决高难度的时序数值问题。

Andrea Micheli, Enrico Scala, Alessandro Valentini2026-03-13🤖 cs.AI

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

该论文提出了名为 WORKSWORLD 的新领域，旨在通过结合数据与资源图表示，利用数值无关规划器自动为分布式数据流水线生成并调度包含组件构建与资源分配的综合计划。

Taylor Paul, William Regli2026-03-13🤖 cs.AI

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

本文提出了一种名为 RDNet 的遥感图像显著目标检测网络，该网络通过引入 SwinTransformer 骨干网络以及动态自适应细节感知、频匹配上下文增强和区域比例感知定位三个核心模块，有效解决了目标尺度变化大及全局上下文建模不足的问题，显著提升了检测精度与定位能力。

Bin Wan, Runmin Cong, Xiaofei Zhou, Hao Fang, Yaoqi Sun, Sam Kwong2026-03-13🤖 cs.AI

Portfolio of Solving Strategies in CEGAR-based Object Packing and Scheduling for Sequential 3D Printing

该论文提出了一种名为 Portfolio-CEGAR-SEQ 的并行化求解策略，通过结合多种对象排列策略（如角落放置和按高度调度）并利用现代多核 CPU 的并行计算能力，有效解决了顺序 3D 打印中的物体排列与调度难题，且实验表明其性能优于原有的 CEGAR-SEQ 算法。

Pavel Surynek2026-03-13🤖 cs.AI

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

本文提出了名为"Idea-Catalyst"的新框架，通过系统性地识别跨学科见解并将目标领域挑战转化为通用概念问题以检索外部学科知识，从而在避免过早锚定具体方案的同时辅助人机进行创造性推理，显著提升了研究的新颖性与洞察力。

Priyanka Kargupta, Shuhaib Mehri, Dilek Hakkani-Tur, Jiawei Han2026-03-13💬 cs.CL

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

该论文提出并验证了在大型预训练模型中，任务专家密集分布在参数空间邻域内，因此一种简单的随机采样扰动结合多数投票的并行后训练方法，其性能可与 PPO 等标准优化方法相媲美。

Yulu Gan, Phillip Isola2026-03-13🤖 cs.LG

Security Considerations for Artificial Intelligence Agents

本文基于 Perplexity 在运营通用智能体系统的实践经验，深入分析了 AI 智能体因架构变革带来的新型安全威胁与攻击面，并提出了涵盖多层防御机制、策略执行及未来研究方向的系统性安全建议。

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Incremental Neural Network Verification via Learned Conflicts

该论文提出了一种可集成于任意分支定界神经网络的增量验证技术，通过跨相关查询复用学习到的冲突（即不可行的激活模式组合）并借助 SAT 求解器进行一致性检查，从而有效减少搜索冗余并显著提升验证效率。

Raya Elsaleh, Liam Davis, Haoze Wu, Guy Katz2026-03-13🤖 cs.AI