SommBench: Assessing Sommelier Expertise of Language Models

本文提出了多语言基准 SommBench,通过与专业品酒师合作构建包含葡萄酒理论问答、特征补全及餐酒搭配任务的测试集,评估了语言模型在缺乏感官体验的情况下仅凭文本描述所展现的专家级品酒能力,并揭示了模型在理论问答上表现优异但在特征补全和餐酒搭配等更具挑战性的任务上仍存在显著局限。

William Brach, Tomas Bedej, Jacob Nielsen, Jacob Pichna, Juraj Bedej, Eemeli Saarensilta, Julie Dupouy, Gianluca Barmina, Andrea Blasi Núñez, Peter Schneider-Kamp, Kristian Koštál, Michal Ries, Lukas Galke Poech2026-03-13💬 cs.CL

CRAFT: A Tendon-Driven Hand with Hybrid Hard-Soft Compliance

本文介绍了 CRAFT 手,这是一种基于“关节处接触集中而连杆主要承载”设计理念的腱驱动拟人化手,通过在关节处采用软材料、连杆保持刚性并引入滚动接触关节,实现了在接触丰富操作中的高强度、高耐久性与高重复性,且具备低成本、开源及支持遥操作和仿真的特点。

Leo Lin, Shivansh Patel, Jay Moon, Svetlana Lazebnik, Unnat Jain2026-03-13🤖 cs.AI

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

该论文研究了大语言模型强化学习后训练中采样算力的最优分配策略,发现并行rollout数量随算力预算增加而饱和,且针对难易问题分别通过“解锐化”和“覆盖扩展”机制发挥作用,从而为高效RL训练提供了可操作的算力分配规则。

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

该论文通过构建基于 800 份异构 PDF 文档的 MADQA 基准及新的“精度 - 努力”评估协议,揭示了当前多模态智能体虽能达到与人类相当的准确率,但主要依赖暴力搜索而非真正的战略规划,导致其性能与最优解仍存在显著差距。

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

本文提出了一种名为 RDNet 的遥感图像显著目标检测网络,该网络通过引入 SwinTransformer 骨干网络以及动态自适应细节感知、频匹配上下文增强和区域比例感知定位三个核心模块,有效解决了目标尺度变化大及全局上下文建模不足的问题,显著提升了检测精度与定位能力。

Bin Wan, Runmin Cong, Xiaofei Zhou, Hao Fang, Yaoqi Sun, Sam Kwong2026-03-13🤖 cs.AI