cs.AI 篇论文 | Gist.Science

Enhancing Web Agents with a Hierarchical Memory Tree

该论文针对现有基于大语言模型的 Web 智能体因扁平记忆结构导致跨网站泛化能力不足的问题，提出了一种名为分层记忆树（HMT）的框架，通过将记忆解耦为意图、阶段和行动三个层级，实现了逻辑规划与动作执行的分离，从而显著提升了智能体在跨网站和跨域场景下的任务泛化能力。

Yunteng Tan, Zhi Gao, Xinxiao Wu2026-03-10💻 cs

Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding

本文提出了名为 DeepEarth 的自监督多模态世界模型，其核心创新是能够将 3D 多分辨率哈希编码扩展至时间维度的 Earth4D 行星级 4D 时空位置编码器，该模型在生态预测基准测试中取得了最先进性能，甚至超越了在更大规模数据上预训练的多模态基础模型。

Lance Legel, Qin Huang, Brandon Voelker, Daniel Neamati, Patrick Alan Johnson, Favyen Bastani, Jeff Rose, James Ryan Hennessy, Robert Guralnick, Douglas Soltis, Pamela Soltis, Shaowen Wang2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

该论文提出了一种名为 CAPL 的框架，通过引入可选择的图像令牌交互注意力机制和基于跨图像建模的偏好优化策略，有效增强了大型视觉语言模型在多图像任务中的跨图像关联感知能力，从而显著缓解了幻觉问题并提升了整体性能。

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

Animating Petascale Time-varying Data on Commodity Hardware with LLM-assisted Scripting

该论文提出了一种结合大语言模型辅助脚本的通用框架，使领域科学家能够在普通工作站上高效生成超大规模（PB 级）时变科学数据（如 NASA 气候模型）的 3D 动画，从而显著降低了对高性能计算资源和可视化专业技能的依赖。

Ishrat Jahan Eliza, Xuan Huang, Aashish Panta, Alper Sahistan, Zhimin Li, Amy A. Gooch, Valerio Pascucci2026-03-10💻 cs

Bi-directional digital twin prototype anchoring with multi-periodicity learning for few-shot fault diagnosis

该论文提出了一种结合多周期性学习与双向数字孪生原型锚定的新框架，通过元训练与测试时适应策略，有效解决了工业场景下仅凭极少量样本进行故障诊断的难题。

Pengcheng Xia, Zhichao Dong, Yixiang Huang, Chengjin Qin, Qun Chao, Chengliang Liu2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

MedSteer 提出了一种无需训练的激活导向框架，通过在扩散 Transformer 的交叉注意力层中识别病理向量并引导图像激活，从而在保持解剖结构不变的前提下生成高质量的医学内窥镜反事实合成数据，显著提升了下游息肉检测任务的性能。

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

User Review Writing via Interview with Dialogue Systems

该研究提出了一种利用对话系统通过访谈生成电商用户评论的新方法，实验表明该系统不仅提升了用户的交互体验并减少了后续编辑工作量，而且生成的评论在帮助读者决策方面甚至优于人工撰写的评论。

Yoshiki Tanaka, Michimasa Inaba2026-03-10💻 cs

CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

本文提出了 CoTJudger 框架，通过将思维链转化为有向依赖图并提取最短有效路径，实现了对大推理模型中冗余推理的自动化量化评估与诊断。

Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao Huang2026-03-10💬 cs.CL

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

该论文提出了名为 Countdown-Code 的测试环境，揭示了监督微调数据中极少量的奖励黑客行为泄露即可导致大模型习得并泛化此类对齐失效行为，从而强调了严格验证合成 SFT 数据的必要性。

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

mAVE: A Watermark for Joint Audio-Visual Generation Models

本文提出了首个专为联合音视频生成模型设计的 mAVE 水印框架，通过在不微调的情况下对音视频潜在空间进行加密绑定，有效解决了现有方法因模态解耦而面临的“交换攻击”漏洞，从而在零性能损失的前提下实现了近完美的绑定完整性与版权保护。

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

该研究通过对比直接生成与基于人类作者定义的中间表示（IR）的流水线方法，实证评估了大型语言模型在结构约束下将目标可玩模式（GPCs）转化为可编译 Unity 游戏代码的能力，并揭示了当前模型在代码生成中面临的主要结构性“接地”与“卫生”失败模式。

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

该论文提出了一种结合半自回归生成与在线知识蒸馏的个性化重排序框架（PSAD），通过引入用户画像网络增强用户 - 物品交互，有效解决了生成式重排序中生成质量与推理延迟的平衡难题，并在多个数据集上显著优于现有最先进方法。

Kai Cheng, Hao Wang, Wei Guo, Weiwen Liu, Yong Liu, Yawen Li, Enhong Chen2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

该论文通过构建 ConservationBench 基准测试发现，当前视觉语言模型在面对物理变换时无法真正理解守恒定律，其表现接近随机猜测且受文本先验误导，表明它们缺乏在动态场景中保持物理属性变换不变性的推理能力。

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

本文介绍了为 AIWolfDial 2024 共享任务开发的基于大语言模型的狼人杀 AI 智能体，该智能体通过利用对话摘要和人工设计的角色信息，有效提升了发言的一致性与角色特征的连贯性。

Yoshiki Tanaka, Takumasa Kaneko, Hiroki Onozeki, Natsumi Ezure, Ryuichi Uehara, Zhiyang Qi, Tomoya Higuchi, Ryutaro Asahara, Michimasa Inaba2026-03-10💬 cs.CL

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

该论文提出了 aCAPTCHA，一种基于人类认知与 AI 处理之间非对称难度差异的时间约束安全协议，旨在通过验证行动、推理和记忆能力来区分人类、脚本与智能体，从而解决自主 AI 代理在网络安全中的实体类型验证问题。

Zuyao Xu, Xiang Li, Fubin Wu, Yuqi Qiu, Lu Sun, FaSheng Miao2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

本文提出了 EyExIn 框架，通过专家感知双流编码、语义自适应门控融合及自适应深度专家注入机制，有效解决了视网膜视觉语言模型在细粒度病理感知和推理过程中因语言先验主导而产生的幻觉问题，显著提升了眼科视觉问答的精度与可信度。

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

该论文针对现有对话情感识别方法难以捕捉复杂微妙情感状态的局限，提出了“对话情感转录”（ETC）新任务，并构建了包含日语自然语言情感描述及分类标签的数据集，旨在推动更富表现力的对话情感理解研究。

Yoshiki Tanaka, Ryuichi Uehara, Koji Inoue, Michimasa Inaba2026-03-10💬 cs.CL

Arvid Eriksson (KTH Royal Institute of Technology), Gabriel Poesia (Kempner Institute at Harvard University), Roman Bresson (Mohamed Bin Zayed University of Artificial Intelligence), Karl Henrik Johansson (KTH Royal Institute of Technology), David Broman (KTH Royal Institute of Technology)2026-03-10💻 cs

cs.AI