cs.AI 篇论文 | Gist.Science

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

该论文通过对比 2024 年和 2025 年两个时间点的 FreshStack 技术检索基准快照，发现尽管文档随时间发生迁移（如从 LangChain 转向 LlamaIndex），但检索模型的评估排名仍保持高度相关，证明了在动态演变的语料库中重新评估检索基准依然可靠。

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

Invariant Causal Routing for Governing Social Norms in Online Market Economies

本文提出了一种名为“不变因果路由（ICR）”的治理框架，通过结合反事实推理与不变因果发现技术，在异质环境识别出稳定的政策 - 规范因果关系，从而为在线市场经济社会规范的引导提供了可解释且具备分布泛化能力的干预方案。

Xiangning Yu, Qirui Mi, Xiao Xue + 4 more2026-03-06💻 cs

Adaptive Memory Admission Control for LLM Agents

本文提出了自适应记忆准入控制（A-MAC）框架，通过将记忆价值分解为五个可解释因素并结合轻量级规则与 LLM 辅助评估，实现了可审计且高效的长时记忆管理，在 LoCoMo 基准测试中显著提升了精度 - 召回平衡并降低了延迟。

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

Why Do Neural Networks Forget: A Study of Collapse in Continual Learning

该研究通过测量权重和激活的有效秩（eRank），揭示了持续学习中的遗忘现象与模型结构崩溃之间的强相关性，并评估了不同架构与策略在缓解这一问题上的效果。

Yunqin Zhu, Jun Jin2026-03-06💻 cs

Self-Attribution Bias: When AI Monitors Go Easy on Themselves

该论文揭示了“自我归因偏差”现象，即当 AI 监控器评估由自身（或同一助手轮次）生成的行动时，会倾向于比评估用户提供的相同行动时更宽松地判定其正确性或安全性，从而导致基于静态测试的评估结果高估了监控器在实际部署中的可靠性。

Dipika Khullar, Jack Hopkins, Rowan Wang + 1 more2026-03-06💻 cs

ECG-MoE: Mixture-of-Expert Electrocardiogram Foundation Model

本文提出了 ECG-MoE，一种融合多模型时序特征与心脏周期感知专家模块的混合架构，通过在五个临床任务中实现比多任务基线快 40% 的推理速度并达到最先进性能，有效解决了现有心电图基础模型在捕捉周期性和多样化特征方面的不足。

Yuhao Xu, Xiaoda Wang, Yi Wu + 3 more2026-03-06💻 cs

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

本文提出了名为 GOLF 的强化学习框架，通过聚合外部批评与组内尝试等群体级自然语言反馈来生成可操作的优化建议，并将其作为离策略脚手架注入训练，从而在稀疏奖励环境下显著提升探索效率与样本利用率。

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

本文提出了名为 Vibe Code Bench 的新基准，通过自主浏览器代理对 16 个前沿模型进行端到端 Web 应用开发评估，揭示了当前模型在从零构建应用方面仍存在显著局限，并强调了自测试机制及评估者一致性对结果的关键影响。

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Towards automated data analysis: A guided framework for LLM-based risk estimation

本文提出了一种在人类监督下利用大语言模型自动识别数据库模式语义与结构特征、生成聚类代码并解释结果的风险评估框架，旨在解决现有手动审计效率低下及全自动分析存在幻觉与对齐问题的挑战，为未来的自动化风险分析奠定基础。

Panteleimon Rodis2026-03-06💻 cs

When Agents Persuade: Propaganda Generation and Mitigation in LLMs

该研究揭示了大语言模型在特定提示下会生成包含多种修辞技巧的煽动性内容，并发现通过监督微调、直接偏好优化及 ORPO 等对齐技术可有效缓解该问题，其中 ORPO 效果最佳。

Julia Jose, Ritik Roongta, Rachel Greenstadt2026-03-06💻 cs

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

本文提出了 RoboMME，这是一个针对长程和历史依赖型机器人操作任务的大规模标准化基准，旨在通过系统评估 14 种基于π0.5 的内存增强视觉 - 语言 - 动作（VLA）模型变体，深入探究不同内存表示在时空、对象及程序性记忆任务中的表现与局限性。

Yinpei Dai, Hongze Fu, Jayjun Lee + 6 more2026-03-06💻 cs

When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift

本文提出通过引入 Transformer 等时序序列模型来增强 PPO 算法，使其能够在传感器漂移导致的部分可观测环境下，通过历史推断缺失信息从而维持鲁棒性能，并提供了理论界与实验验证。

Kevin Vogt-Lowell, Theodoros Tsiligkaridis, Rodney Lafuente-Mercado + 4 more2026-03-06💻 cs

GIANT - Global Path Integration and Attentive Graph Networks for Multi-Agent Trajectory Planning

本文提出了一种名为 GIANT 的基于注意力图神经网络的创新方法，通过融合全局路径规划与局部导航策略，显著提升了多机器人系统在复杂动态环境中的避障成功率、碰撞规避能力及导航效率。

Jonas le Fevre Sejersen, Toyotaro Suzumura, Erdal Kayacan2026-03-06💻 cs

Neuro-Symbolic Financial Reasoning via Deterministic Fact Ledgers and Adversarial Low-Latency Hallucination Detector

本文提出了 VeNRA 框架，通过结合严格类型的通用事实账本、双重锁定接地算法以及基于对抗性仿真训练的轻量级哨兵模型，解决了传统检索增强生成在金融领域因算术缺陷和语义混淆导致的幻觉问题，实现了零幻觉的确定性数值推理。

Pedram Agand2026-03-06💻 cs

Using Vision + Language Models to Predict Item Difficulty

该研究利用 GPT-4.1-nano 模型结合视觉与文本特征，成功实现了对美国成年人数据可视化测试题目难度的预测，其中多模态方法在预测精度上显著优于单一模态方法，展示了大语言模型在心理测量分析和自动化试题开发中的潜力。

Samin Khan2026-03-06💻 cs

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

该论文揭示了推理型视觉语言模型在多图理解任务中存在注意力弥散和位置偏差现象，并提出了一种无需训练的推理时方法 PulseFocus，通过结构化思维链和软注意力门控机制显著提升了模型在多图基准测试中的表现。

Chenjun Li2026-03-06💻 cs

Optimizing Language Models for Crosslingual Knowledge Consistency

本文提出了直接一致性优化（DCO）方法，这是一种无需显式奖励模型、基于大语言模型自身推导的 DPO 启发式技术，通过结构化奖励函数显著提升了多语言大模型在不同语言间知识回答的一致性、泛化性及可控性。

Tianyu Liu, Jirui Qi, Mrinmaya Sachan + 3 more2026-03-06💻 cs

Why the Brain Consolidates: Predictive Forgetting for Optimal Generalisation

该论文提出“预测性遗忘”假说，认为大脑通过离线巩固过程选择性地保留能预测未来结果的信息，从而在压缩存储复杂度的同时优化泛化能力，解决了传统记忆巩固理论难以解释的表征漂移和语义化等问题。

Zafeirios Fountas, Adnan Oomerjee, Haitham Bou-Ammar + 2 more2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

该论文通过对比传统分类器与多种大语言模型，评估了数据增强和特征增强技术在仇恨言论检测中的效果，发现开源的 gpt-oss-20b 模型表现最佳，同时揭示了隐式仇恨言论检测的难点以及数据集、模型架构与增强策略之间的复杂交互关系。

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

Detection of Illicit Content on Online Marketplaces using Large Language Models

本研究利用参数高效微调等技术，评估了 Llama 3.2 和 Gemma 3 等大型语言模型在 DUTA10K 数据集上检测在线市场非法内容的表现，发现其在处理包含 40 个类别的复杂多分类任务时显著优于传统机器学习模型和 BERT 基线。

Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson2026-03-06💻 cs