AI Steerability 360: A Toolkit for Steering Large Language Models

本文介绍了 AI Steerability 360,这是一个开源的 Python 工具包,旨在通过统一的管道接口和模块化设计,降低大语言模型在输入、结构、状态和输出四个控制维度上进行可控性调整与评估的门槛。

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

该论文提出了 SynPlanResearch-R1 框架,通过合成鼓励深度探索的工具使用轨迹来优化冷启动监督微调,从而有效解决了强化学习在研究智能体探索行为上的不足,并在多个基准测试中显著提升了基于 Qwen3 模型的研究性能。

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

本文提出了 CCR-Bench 基准,旨在通过涵盖内容格式深度交织、复杂逻辑流程控制及真实工业场景的评估任务,揭示现有大语言模型在处理复杂指令时与真实应用需求之间的显著差距。

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

本文通过粒子滤波(如序贯蒙特卡洛)的视角,为语言模型推理中的并行采样方法建立了理论框架,揭示了采样误差与奖励评估次数之间的非渐近关系,并指出了该方法在理论保证与最终准确率之间的根本局限。

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

该论文提出了一种基于决策理论的框架,通过融合人工智能天气预测模型与动态农民期望统计模型,成功开发了更精准的印度季风预报系统,并于 2025 年向 3800 万印度农民提供了有效的季节性降雨 onset 预报以辅助农业决策。

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

本文提出了 EveryQuery,一种基于任务条件预训练的电子健康记录基础模型,它通过单次前向传播直接根据患者病史和结构化查询预测临床结果,在无需微调或轨迹生成的情况下实现了零-shot 推理,并在 MIMIC-IV 数据集的绝大多数任务(尤其是罕见事件)上显著优于自回归基线模型。

Payal Chandak, Gregory Kondas, Isaac Kohane, Matthew McDermott2026-03-10💻 cs