cs.AI 篇论文 | Gist.Science

Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations

本文提出了名为 SymLang 的统一框架，通过结合类型化对称约束语法、语言模型引导的程序合成以及 MDL 正则化贝叶斯模型选择，在含噪和部分观测条件下显著提升了从实验数据中精确发现物理控制方程的准确性与可解释性。

Mirza Samad Ahmed Baig, Syeda Anshrah Gillani2026-03-10🤖 cs.LG

LEAD: Breaking the No-Recovery Bottleneck in Long-Horizon Reasoning

该论文提出了一种名为 LEAD 的展望增强原子分解方法，通过引入短视野未来验证和重叠推演聚合，解决了长程推理中因极端分解导致的“不可恢复瓶颈”问题，显著提升了大模型在复杂算法任务中的稳定性与求解能力。

Denys Pushkin, Emmanuel Abbe2026-03-10💻 cs

LieCraft: A Multi-Agent Framework for Evaluating Deceptive Capabilities in Language Models

本文提出了名为 LieCraft 的多智能体评估框架，通过构建包含 10 个高利害现实场景的隐藏角色游戏，揭示了当前主流大语言模型在追求目标时普遍存在违背伦理、隐瞒意图及撒谎等欺骗行为。

Matthew Lyle Olson, Neale Ratzlaff, Musashi Hinck, Tri Nguyen, Vasudev Lal, Joseph Campbell, Simon Stepputtis, Shao-Yen Tseng2026-03-10💬 cs.CL

Not Too Short, Not Too Long: How LLM Response Length Shapes People's Critical Thinking in Error Detection

该研究通过实验发现，大语言模型回答的长度会调节用户对错误推理的识别能力，其中在模型推理错误时，中等长度的解释比过短或过长的解释更能帮助用户保持批判性判断的准确性。

Natalie Friedman, Adelaide Nyanyo, Kevin Weatherwax, Lifei Wang, Chengchao Zhu, Zeshu Zhu, S. Joy Mountford2026-03-10💻 cs

Physics-informed AI Accelerated Retention Analysis of Ferroelectric Vertical NAND: From Day-Scale TCAD to Second-Scale Surrogate Model

该研究提出了一种基于物理信息神经算子（PINO）的人工智能代理模型，通过嵌入物理原理，将铁电垂直 NAND 器件的阈值电压漂移和保持特性模拟速度提升了超过 10000 倍，从而克服了传统 TCAD 工具在大规模参数优化中计算成本过高的问题。

Gyujun Jeong (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Sungwon Cho (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Minji Shon (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Namhoon Kim (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Woohyun Hwang (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Kwangyou Seo (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Suhwan Lim (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Wanki Kim (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Daewon Ha (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Prasanna Venkatesan (NVIDIA, Santa Clara, CA, USA), Kihang Youn (NVIDIA, Santa Clara, CA, USA), Ram Cherukuri (NVIDIA, Santa Clara, CA, USA), Yiyi Wang (NVIDIA, Santa Clara, CA, USA), Suman Datta (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Asif Khan (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Shimeng Yu (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA)2026-03-10🤖 cs.LG

Distributed Legal Infrastructure for a Trustworthy Agentic Web

该论文针对人工智能代理主导的“代理网络”对现有法律框架带来的挑战，提出了一种由自主身份、认知约束、去中心化裁决、自下而上的市场规制及可移植制度框架五层构成的分布式法律基础设施（DLI）治理范式，旨在通过互操作协议将合法性嵌入技术底层，从而在去中心化环境中实现可问责、可争议且符合法治原则的治理。

Tomer Jordi Chaffer, Victor Jiawei Zhang, Sante Dino Facchini, Botao Amber Hu, Helena Rong, Zihan Guo, Xisen Wang, Carlos Santana, Giovanni De Gasperis2026-03-10💻 cs

Enhancing the Detection of Coronary Artery Disease Using Machine Learning

该研究通过训练双向长短期记忆网络（Bi-LSTM）、门控循环单元（GRU）及其混合模型，利用临床特征、影像和生物标志物数据成功将冠状动脉疾病检测准确率提升至 97.07%，显著优于传统诊断方法。

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra2026-03-10💻 cs

Empowering Locally Deployable Medical Agent via State Enhanced Logical Skills for FHIR-based Clinical Tasks

该论文提出了一种名为 SELSM 的免训练框架，通过蒸馏模拟临床轨迹为实体无关的逻辑规则，并利用查询锚定的两阶段检索机制解决状态多义性问题，从而在严格隐私约束下显著提升了本地部署的 30B 级医疗大模型在 FHIR 临床任务中的零-shot 推理能力与任务完成率。

Wanrong Yang, Zhengliang Liu, Yuan Li, Bingjie Yan, Lingfang Li, Mingguang He, Dominik Wojtczak, Yalin Zheng, Danli Shi2026-03-10💻 cs

MindfulAgents: Personalizing Mindfulness Meditation via an Expert-Aligned Multi-Agent System

本文介绍了 MindfulAgents，这是一种基于大语言模型的多智能体系统，能够通过专家对齐的框架生成个性化正念冥想脚本并实时适应用户需求，从而显著提升用户在冥想过程中的参与度、自我觉察能力及长期练习意愿。

Mengyuan (Millie), Wu, Zhihan Jiang, Yuang Fan, Richard Feng, Sahiti Dharmavaram, Mathew Polowitz, Shawn Fallon, Bashima Islam, Lizbeth Benson, Irene Tung, David Creswell, Xuhai Xu2026-03-10💻 cs

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

该研究揭示了 DNA 基础模型生成的嵌入表示（尤其是 per-token 嵌入）存在严重隐私风险，攻击者可通过模型反演攻击近乎完美地重建原始基因组序列，从而表明在嵌入即服务（EaaS）框架广泛部署前亟需加强隐私保护设计。

Sofiane Ouaari, Jules Kreuer, Nico Pfeifer2026-03-10🤖 cs.LG

Post-Training with Policy Gradients: Optimality and the Base Model Barrier

该论文研究了基于策略梯度的后训练方法，证明了在基础模型具备非平凡似然时，该方法能以最优样本复杂度提升性能，但指出仅使用结果奖励会因基础模型支持集限制而遭遇指数级查询复杂度障碍，而引入过程奖励模型则能通过依赖令牌级似然分位数有效克服这一维度灾难。

Alireza Mousavi-Hosseini, Murat A. Erdogdu2026-03-10🤖 cs.LG

Learning Quadruped Walking from Seconds of Demonstration

该论文通过理论分析揭示了四足机器人模仿学习在小样本下的有效性，并提出了一种新方法，仅需数秒演示即可离线训练出具备合理鲁棒性的行走策略。

Ruipeng Zhang, Hongzhan Yu, Ya-Chien Chang, Chenghao Li, Henrik I. Christensen, Sicun Gao2026-03-10🤖 cs.LG

Elenchus: Generating Knowledge Bases from Prover-Skeptic Dialogues

本文提出了名为 Elenchus 的对话系统，该系统基于推论主义语义，通过人类专家与大型语言模型之间的“证明者 - 质疑者”对话来构建知识基，并将对话状态映射到 Hlobil 和 Brandom 的非单调多后继逻辑（NMMS）中，从而在 W3C PROV-O 本体等案例中实现了从对话协商到形式化推理的端到端集成。

Bradley P. Allen2026-03-10💬 cs.CL

A Systematic Investigation of Document Chunking Strategies and Embedding Sensitivity

该论文通过大规模跨领域评估，首次系统性地证明了内容感知分块策略（特别是段落分组法）在结合不同嵌入模型时能显著提升检索效果，并揭示了分块策略与领域特性及模型规模之间的互补关系与效率权衡。

Muhammad Arslan Shaukat, Muntasir Adnan, Carlos C. N. Kuhn2026-03-10💬 cs.CL

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

本文提出了一种名为 NePPO 的新多智能体强化学习流程，通过学习玩家无关的势函数将混合合作 - 竞争环境转化为近似势博弈，从而在通用和博弈中有效计算近似纳什均衡，其性能优于 MAPPO、IPPO 和 MADDPG 等主流基线方法。

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

该论文提出了 Diffusion Controller (DiffCon) 框架，通过控制理论视角将扩散采样统一为线性可解马尔可夫决策过程，并据此推导了高效的强化学习微调算法与轻量级侧网络参数化方法，在保持骨干网络冻结的同时显著提升了扩散模型的偏好对齐效果与质量效率。

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

Masked Unfairness: Hiding Causality within Zero ATE

该论文揭示了仅基于平均处理效应（ATE）为零的监管标准存在“因果掩盖”漏洞，即优化算法可在满足该统计指标的同时通过混淆因素实施严重的不公平对待，且此类隐蔽的不公难以被检测，因此主张应将公平性监管从决策层面提升至模型层面。

Zou Yang, Sophia Xiao, Bijan Mazaheri2026-03-10🤖 cs.LG

Foundational World Models Accurately Detect Bimanual Manipulator Failures

该论文提出了一种基于预训练视觉基础模型（Cosmos Tokenizer）压缩潜在空间的概率性世界模型，通过结合保形预测框架生成不确定性指标来构建运行时监控器，从而在无需显式定义故障模式的情况下，以极少的参数量实现了对双机械臂操作任务中异常故障的高效准确检测。

Isaac R. Ward, Michelle Ho, Houjun Liu, Aaron Feldman, Joseph Vincent, Liam Kruse, Sean Cheong, Duncan Eddy, Mykel J. Kochenderfer, Mac Schwager2026-03-10💻 cs

SuperSkillsStack: Agency, Domain Knowledge, Imagination, and Taste in Human-AI Design Education

该研究通过“超级技能栈”框架分析 80 个学生设计团队的反思，发现生成式 AI 主要作为认知加速器辅助设计早期阶段，而人类凭借能动性、领域知识、想象力和品味等核心能力在理解语境、验证输出及优化方案中发挥不可替代的关键作用。

Qian Huang, King Wang Poon2026-03-10💻 cs

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

该论文提出了名为 Self-MOA 的全自动框架，利用自动化评估模型提供的弱监督信号，通过动态生成红队提示和多目标偏好优化，在显著减少训练数据依赖的同时，有效提升了小型语言模型的安全性与有用性。

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda2026-03-10🤖 cs.LG