cs.AI 篇论文 | Gist.Science

Learning Quadruped Walking from Seconds of Demonstration

该论文通过理论分析揭示了四足机器人模仿学习在小样本下的有效性，并提出了一种新方法，仅需数秒演示即可离线训练出具备合理鲁棒性的行走策略。

Ruipeng Zhang, Hongzhan Yu, Ya-Chien Chang, Chenghao Li, Henrik I. Christensen, Sicun Gao2026-03-10🤖 cs.LG

Elenchus: Generating Knowledge Bases from Prover-Skeptic Dialogues

本文提出了名为 Elenchus 的对话系统，该系统基于推论主义语义，通过人类专家与大型语言模型之间的“证明者 - 质疑者”对话来构建知识基，并将对话状态映射到 Hlobil 和 Brandom 的非单调多后继逻辑（NMMS）中，从而在 W3C PROV-O 本体等案例中实现了从对话协商到形式化推理的端到端集成。

Bradley P. Allen2026-03-10💬 cs.CL

A Systematic Investigation of Document Chunking Strategies and Embedding Sensitivity

该论文通过大规模跨领域评估，首次系统性地证明了内容感知分块策略（特别是段落分组法）在结合不同嵌入模型时能显著提升检索效果，并揭示了分块策略与领域特性及模型规模之间的互补关系与效率权衡。

Muhammad Arslan Shaukat, Muntasir Adnan, Carlos C. N. Kuhn2026-03-10💬 cs.CL

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

本文提出了一种名为 NePPO 的新多智能体强化学习流程，通过学习玩家无关的势函数将混合合作 - 竞争环境转化为近似势博弈，从而在通用和博弈中有效计算近似纳什均衡，其性能优于 MAPPO、IPPO 和 MADDPG 等主流基线方法。

Addison Kalanther, Sanika Bharvirkar, Shankar Sastry, Chinmay Maheshwari2026-03-10🤖 cs.LG

Diffusion Controller: Framework, Algorithms and Parameterization

该论文提出了 Diffusion Controller (DiffCon) 框架，通过控制理论视角将扩散采样统一为线性可解马尔可夫决策过程，并据此推导了高效的强化学习微调算法与轻量级侧网络参数化方法，在保持骨干网络冻结的同时显著提升了扩散模型的偏好对齐效果与质量效率。

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

Masked Unfairness: Hiding Causality within Zero ATE

该论文揭示了仅基于平均处理效应（ATE）为零的监管标准存在“因果掩盖”漏洞，即优化算法可在满足该统计指标的同时通过混淆因素实施严重的不公平对待，且此类隐蔽的不公难以被检测，因此主张应将公平性监管从决策层面提升至模型层面。

Zou Yang, Sophia Xiao, Bijan Mazaheri2026-03-10🤖 cs.LG

Foundational World Models Accurately Detect Bimanual Manipulator Failures

该论文提出了一种基于预训练视觉基础模型（Cosmos Tokenizer）压缩潜在空间的概率性世界模型，通过结合保形预测框架生成不确定性指标来构建运行时监控器，从而在无需显式定义故障模式的情况下，以极少的参数量实现了对双机械臂操作任务中异常故障的高效准确检测。

Isaac R. Ward, Michelle Ho, Houjun Liu, Aaron Feldman, Joseph Vincent, Liam Kruse, Sean Cheong, Duncan Eddy, Mykel J. Kochenderfer, Mac Schwager2026-03-10💻 cs

SuperSkillsStack: Agency, Domain Knowledge, Imagination, and Taste in Human-AI Design Education

该研究通过“超级技能栈”框架分析 80 个学生设计团队的反思，发现生成式 AI 主要作为认知加速器辅助设计早期阶段，而人类凭借能动性、领域知识、想象力和品味等核心能力在理解语境、验证输出及优化方案中发挥不可替代的关键作用。

Qian Huang, King Wang Poon2026-03-10💻 cs

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

该论文提出了名为 Self-MOA 的全自动框架，利用自动化评估模型提供的弱监督信号，通过动态生成红队提示和多目标偏好优化，在显著减少训练数据依赖的同时，有效提升了小型语言模型的安全性与有用性。

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda2026-03-10🤖 cs.LG

RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States

该论文提出了名为 ReSched 的极简深度强化学习框架，通过重新定义马尔可夫决策过程将状态空间压缩至四个核心特征，并结合改进的 Transformer 架构，在降低建模复杂度的同时显著提升了柔性作业车间调度问题及其变体的求解性能与泛化能力。

Xiangjie Xiao, Cong Zhang, Wen Song, Zhiguang Cao2026-03-10🤖 cs.LG

Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment

本文提出了 Hit-RAG，一种通过监督微调、判别式偏好对齐和组相对策略优化三阶段偏好对齐框架，有效解决多模态大模型在长上下文检索增强生成中注意力稀释与推理幻觉问题，从而显著提升长场景下推理准确性的方法。

Junming Liu, Yuqi Li, Shiping Wen, Zhigang Zeng, Tingwen Huang2026-03-10💬 cs.CL

Enhancing Web Agents with a Hierarchical Memory Tree

该论文针对现有基于大语言模型的 Web 智能体因扁平记忆结构导致跨网站泛化能力不足的问题，提出了一种名为分层记忆树（HMT）的框架，通过将记忆解耦为意图、阶段和行动三个层级，实现了逻辑规划与动作执行的分离，从而显著提升了智能体在跨网站和跨域场景下的任务泛化能力。

Yunteng Tan, Zhi Gao, Xinxiao Wu2026-03-10💻 cs

Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding

本文提出了名为 DeepEarth 的自监督多模态世界模型，其核心创新是能够将 3D 多分辨率哈希编码扩展至时间维度的 Earth4D 行星级 4D 时空位置编码器，该模型在生态预测基准测试中取得了最先进性能，甚至超越了在更大规模数据上预训练的多模态基础模型。

Lance Legel, Qin Huang, Brandon Voelker, Daniel Neamati, Patrick Alan Johnson, Favyen Bastani, Jeff Rose, James Ryan Hennessy, Robert Guralnick, Douglas Soltis, Pamela Soltis, Shaowen Wang2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

该论文提出了一种名为 CAPL 的框架，通过引入可选择的图像令牌交互注意力机制和基于跨图像建模的偏好优化策略，有效增强了大型视觉语言模型在多图像任务中的跨图像关联感知能力，从而显著缓解了幻觉问题并提升了整体性能。

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

cs.AI