Vid2World: Crafting Video Diffusion Models to Interactive World Models

本文提出了 Vid2World 框架,通过系统性地重塑预训练视频扩散模型的架构与训练目标并引入因果动作引导机制,成功将其转化为能够生成高保真、可交互且具备动作可控性的通用世界模型,从而在机器人操作、3D 游戏模拟及开放世界导航等多个领域实现了高效应用。

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

该论文提出了首个将硬件描述语言(HDL)固有图特征(如抽象语法树和数据流图)与检索增强生成(RAG)相结合的 HDLxGraph 框架,并发布了基于真实项目的 HDLSearch 基准数据集,有效解决了现有 RAG 在处理复杂 HDL 项目时面临的结构性与词汇性不匹配问题,显著提升了搜索、调试和代码补全的准确率。

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), Zhao2026-03-10🤖 cs.LG

The Cell Must Go On: Agar.io for Continual Reinforcement Learning

本文提出了基于非回合制游戏 Agar.io 的持续强化学习研究平台 AgarCL,该平台通过高维、随机且动态演化的环境为智能体提供了渐进式行为发展的测试场,并通过对多种算法的评估揭示了 AgarCL 所面临的挑战超越了传统的稳定性 - 可塑性困境。

Mohamed A. Mohamed, Kateryna Nekhomiazh, Vedant Vyas, Marcos M. Jose, Andrew Patterson, Marlos C. Machado2026-03-10🤖 cs.LG

X-MethaneWet: A Cross-scale Global Wetland Methane Emission Benchmark Dataset for Advancing Science Discovery with AI

本文提出了首个跨尺度全球湿地甲烷排放基准数据集 X-MethaneWet,该数据集融合了物理模型模拟与实地观测数据,并通过评估深度学习模型及迁移学习策略,为利用人工智能提升全球甲烷通量建模精度与科学发现提供了新途径。

Yiming Sun, Shuo Chen, Shengyu Chen, Chonghao Qiu, Licheng Liu, Youmi Oh, Sparkle L. Malone, Gavin McNicol, Qianlai Zhuang, Chris Smith, Yiqun Xie, Xiaowei Jia2026-03-10🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

本文提出了名为 ViTaPEs 的基于 Transformer 的架构,通过引入包含模态内局部编码与跨模态全局编码的两阶段位置注入机制,实现了任务无关的视触觉表征学习,在多项真实世界数据集的识别任务及机器人抓取场景中均展现出超越现有最先进方法的性能与零样本泛化能力。

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG