cs.AI 篇论文 | Gist.Science

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

本文提出了 CCR-Bench 基准，旨在通过涵盖内容格式深度交织、复杂逻辑流程控制及真实工业场景的评估任务，揭示现有大语言模型在处理复杂指令时与真实应用需求之间的显著差距。

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

本文通过粒子滤波（如序贯蒙特卡洛）的视角，为语言模型推理中的并行采样方法建立了理论框架，揭示了采样误差与奖励评估次数之间的非渐近关系，并指出了该方法在理论保证与最终准确率之间的根本局限。

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

本文提出了 VLM-SubtleBench 基准，旨在通过涵盖工业、医疗和航拍等多领域及十种细微差异类型的配对图像与问题，评估视觉语言模型在细微对比推理方面与人类水平的差距，并揭示了现有模型在复杂场景下的系统性不足。

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

该论文提出将图像分割作为联盟形成博弈的可视化诊断测试平台，通过量化机制设计参数对均衡结构的影响，揭示了从凝聚到碎片化再到失效的演化过程。

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

A Lightweight Traffic Map for Efficient Anytime LaCAM*

该论文提出了一种利用 LaCAM* 在搜索过程中构建动态轻量级交通图的新方法，旨在克服现有基于引导路径的优化方案计算开销大且静态的局限性，从而在多种多智能体路径规划变体中实现更优的解质量。

Bojie Shen, Yue Zhang, Zhe Chen, Daniel Harabor2026-03-10💻 cs

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

该论文提出了一种基于决策理论的框架，通过融合人工智能天气预测模型与动态农民期望统计模型，成功开发了更精准的印度季风预报系统，并于 2025 年向 3800 万印度农民提供了有效的季节性降雨 onset 预报以辅助农业决策。

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

SMGI: A Structural Theory of General Artificial Intelligence

该论文提出了名为 SMGI 的结构化通用人工智能理论，通过形式化一个包含动态组件的元模型，将学习问题重新定义为学习接口本身的受控演化，并证明了经典机器学习范式均为该理论的结构受限特例。

Aomar Osmani2026-03-10🤖 cs.LG

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

本文提出了 EveryQuery，一种基于任务条件预训练的电子健康记录基础模型，它通过单次前向传播直接根据患者病史和结构化查询预测临床结果，在无需微调或轨迹生成的情况下实现了零-shot 推理，并在 MIMIC-IV 数据集的绝大多数任务（尤其是罕见事件）上显著优于自回归基线模型。

Payal Chandak, Gregory Kondas, Isaac Kohane, Matthew McDermott2026-03-10💻 cs

Long-Short Term Agents for Pure-Vision Bronchoscopy Robotic Autonomy

该论文提出了一种仅依赖视觉的自主支气管镜导航框架，通过长短期智能体协同与世界模型批判机制，在无外部追踪传感器的情况下实现了高精度的机器人自主导航，并在体内外实验中验证了其达到专家水平的可行性。

Junyang Wu, Mingyi Luo, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Chunxi Zhang, Junhao Wang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

本文提出了 Ares 框架，通过轻量级路由器为多步代理任务中的每个步骤动态选择最低所需的推理强度，在显著降低推理成本（最高减少 52.7% 的推理 token 使用）的同时保持了任务成功率。

Jingbo Yang, Bairu Hou, Wei Wei, Yujia Bao, Shiyu Chang2026-03-10💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

本文针对关系数据库中实体分类任务存在的类别不平衡问题，提出了关系中心的小样本合成过采样图神经网络模型 Rel-MOSS，通过设计关系门控控制器和关系引导合成器来增强少数类信息表达与一致性，显著提升了模型在平衡准确率和几何平均数上的性能。

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi Zhang2026-03-10🤖 cs.LG

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

本文提出了 IMSE 方法，通过仅微调预训练视觉 Transformer 线性层的奇异值（即谱专家）并引入基于专家输入对齐的多样性最大化损失以解决特征坍塌问题，结合域感知谱码检索机制，在显著减少可训练参数量的同时实现了测试时适应及持续测试时适应任务中的最先进性能。

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

cs.AI

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

A Lightweight Traffic Map for Efficient Anytime LaCAM*

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

SMGI: A Structural Theory of General Artificial Intelligence

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

Long-Short Term Agents for Pure-Vision Bronchoscopy Robotic Autonomy

Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

AI Agents, Language, Deep Learning and the Next Revolution in Science

ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework

PSTNet: Physically-Structured Turbulence Network

Advancing Automated Algorithm Design via Evolutionary Stagewise Design with LLMs

Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning

VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments

OSExpert: Computer-Use Agents Learning Professional Skills via Exploration