cs.AI 篇论文 | Gist.Science

Dual Randomized Smoothing: Beyond Global Noise Variance

该论文提出了一种名为“双重随机平滑”的新框架，通过引入输入依赖的噪声方差估计器并证明其有效性，成功突破了传统全局噪声方差在兼顾小半径和大半径鲁棒性认证时的性能瓶颈，显著提升了模型在不同扰动半径下的准确率。

Chenhao Sun, Yuhao Mao, Martin Vechev2026-03-10🤖 cs.LG

Process-Centric Analysis of Agentic Software Systems

该论文提出了名为 Graphectory 的图结构表示法以系统分析智能体软件系统的执行轨迹，通过大规模实证研究揭示了不同模型与提示词下的策略差异，并进一步开发了实时监测与干预机制，显著提升了智能体解决软件工程问题的成功率并缩短了执行路径。

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan Jabbarvand2026-03-10💬 cs.CL

Beyond Additivity: Sparse Isotonic Shapley Regression toward Nonlinear Explainability

本文提出了稀疏各向同性 Shapley 回归（SISR）框架，通过联合学习单调变换以恢复可加性并施加 L0 稀疏约束，有效解决了传统 Shapley 值在处理非线性依赖和特征选择时的失真与计算效率问题，为高维非线性可解释性提供了理论坚实且实用的解决方案。

Jialai She2026-03-10🤖 cs.LG

Parallel Decoder Transformer: Planner-Seeded Latent Coordination for Synchronized Parallel Decoding

该论文提出了平行解码器 Transformer（PDT），这是一种在冻结主干架构中引入规划器引导的潜在工作空间与同步多流输出协议的模型，通过将并行任务分解从外部提示策略转变为模型内部的协调机制，实现了多流生成间的状态同步、所有权解析及信息等待。

Logan Robbins2026-03-10💬 cs.CL

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

本文针对非结构化野外环境下的矢量路网提取难题，发布了大规模数据集 WildRoad 并提出了基于路径推理的 MaGRoad 框架，通过聚合多尺度视觉证据有效克服了现有节点中心方法的局限性，在显著提升野外场景拓扑精度的同时实现了更快的推理速度。

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

本文提出了 SALVE 框架，通过结合稀疏自编码器与 Grad-FAM 验证方法，实现对神经网络特征的无监督发现、可视化验证及基于权重空间的精确编辑，从而在卷积和 Transformer 模型上达成可解释的机制性控制。

Vegard Flovik2026-03-10🤖 cs.LG

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

这篇论文提出了一种涵盖智能体与工具适应的四范式框架，系统综述了大语言模型智能体在预训练后通过微调、偏好优化、强化学习以及记忆和技能系统实现持续进化的最新进展、权衡与评估实践。

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han2026-03-10💬 cs.CL

Meta-RL Induces Exploration in Language Agents

本文提出了名为 LaMer 的元强化学习框架，通过跨回合训练和基于反思的上下文策略适应机制，有效解决了语言智能体在长程任务中探索不足与试错适应低效的问题，显著提升了其在多样化环境中的性能与泛化能力。

Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic2026-03-10🤖 cs.LG

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

本文提出了 Re-Depth Anything 框架，通过利用大规模 2D 扩散模型先验进行自监督重光照与重合成，在测试阶段无需标签即可显著修正基础深度模型（如 Depth Anything V2/3）在真实场景中的预测误差，从而实现了当前最先进的单目深度估计精度与真实感。

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

该论文通过基于 Google BigQuery 的大规模实证研究，揭示了推理与非推理大语言模型在 Text-to-SQL 任务中的成本权衡，指出执行时间与云计费成本弱相关，且非推理模型因缺乏分区过滤等优化会导致高达 3.4 倍的成本波动，从而为企业部署提供了降低财务风险的关键指导。

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

Physics-Informed Neural Networks for Device and Circuit Modeling: A Case Study of NeuroSPICE

本文介绍了 NeuroSPICE，一种利用物理信息神经网络（PINN）通过最小化微分代数方程残差来求解器件与电路波形的框架，其虽在训练速度和精度上未超越传统 SPICE，但在设计优化、逆问题求解及新型非线性器件（如铁电存储器）仿真方面展现出独特优势。

Chien-Ting Tung, Chenming Hu2026-03-10🔬 physics.app-ph

Toward a Physical Theory of Intelligence

本文提出了“守恒一致编码”（CCE）框架，将智能视为受守恒律约束的物理过程，通过推广兰道尔原理和 metriplectic 流，建立了连接热力学耗散、量子测量与宏观时空几何的统一理论，从而为理解自然与人工智能提供了物理约束和量化指标。

Peter David Fagan2026-03-10💻 cs

Reliable Grid Forecasting: State Space Models for Safety-Critical Energy Systems

本文针对安全关键的电网负荷预测，提出了一套超越传统精度指标（如 MAPE）的单向风险评估框架，通过对比多种神经网络架构在加州独立系统运营商数据上的表现，揭示了概率校准可能导致的“虚假安全”问题，并引入偏差约束目标以实现尾部风险最小化与避免过度预测之间的可审计权衡。

Sunki Hong, Jisoo Lee2026-03-10⚡ eess

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

本文提出了 DrivingGen，这是首个针对自动驾驶生成式世界模型的综合基准，通过构建涵盖多样化场景的数据集和一套包含视觉真实感、轨迹合理性、时序一致性及可控性的新评估指标，解决了现有评估方法的局限性并揭示了当前模型的优劣权衡。

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning

本文提出了一种无需训练的“思维批处理”（BoT）方法，通过联合处理相关查询并利用多智能体反思架构（BoT-R）进行跨实例学习与一致性校验，在提升大语言模型推理准确率与置信度校准的同时，显著降低了推理成本。

Xuan Yang, Furong Jia, Roy Xie, Xiong Xi, Hengwei Bian, Jian Li, Monica Agrawal2026-03-10💻 cs

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

本文提出了基于 IBM 自然对话框架的 NC-Bench 基准，通过评估大语言模型在基础对话、检索增强生成及复杂请求等场景下的对话形式与结构管理能力，填补了现有评测在通用对话胜任力方面的空白。

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj Gala2026-03-10💬 cs.CL

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

本文通过审计和数字民族志研究发现，广泛用于训练视觉生成模型的 LAION 美学预测器（LAP）存在显著的性别、性取向及文化偏见，其“算法凝视”强化了西方艺术史中的帝国与男性凝视，因此呼吁开发者摒弃单一的美学标准，转向更具包容性的多元评估体系。

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

该论文针对计算机使用代理（CUAs）面临的安全挑战，提出了一种名为“单次规划”的架构，通过在接触不可信环境前由可信规划器生成完整执行图，在有效防御提示注入和分支操控攻击的同时，显著提升了模型在安全与实用性之间的平衡。

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

本文提出了名为 BoxMind 的闭环 AI 专家系统，该系统通过解析拳击比赛视频构建层级化技战术指标并融合图预测模型生成战略建议，在 2024 年巴黎奥运会中成功验证了其卓越性能，直接助力中国国家队夺得三金两银的历史性成就。

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

Multifaceted Scenario-Aware Hypergraph Learning for Next POI Recommendation

本文针对现有方法忽视不同场景下用户移动模式差异的问题，提出了名为 MSAHG 的多面场景感知超图学习框架，通过构建场景特定的多视图解耦子超图及参数分裂机制，有效解决了跨场景特征捕捉与优化冲突问题，从而显著提升了下一兴趣点推荐的准确性。

Yuxi Lin, Yongkang Li, Jie Xing, Zipei Fan2026-03-10💻 cs