Mindstorms in Natural Language-Based Societies of Mind

本文提出并实验了基于自然语言的大规模多模态神经网络“社会”(NLSOMs),通过让多个智能体以自然语言进行“头脑风暴”协作,有效解决了视觉问答、图像生成及具身 AI 等多种任务,并探讨了此类异构智能体社会的未来社会结构与治理机制。

Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Pi\k{e}kos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stanic, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, Jürgen SchmidhuberThu, 12 Ma💬 cs.CL

The Yokai Learning Environment: Tracking Beliefs Over Space and Time

本文针对零样本协调(ZSC)任务中现有基准 Hanabi 因算法表现趋近完美而难以区分进展的局限,提出了一个要求智能体在模糊线索下动态跟踪信念并推断共享知识的开源多智能体基准“妖怪学习环境”(YLE),并证明在该环境中主流 ZSC 方法存在显著的跨种子性能差距,表明单一基准的评估结果可能无法泛化。

Constantin Ruhdorfer, Matteo Bortoletto, Johannes Forkel, Jakob Foerster, Andreas BullingThu, 12 Ma🤖 cs.AI

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

本文提出了 ThunderAgent,一种简单、快速且具备程序感知能力的智能体推理系统,它通过将智能体工作流抽象为 LLM 程序来统一调度异构资源,从而显著提升了 KV 缓存命中率、缓解了内存不平衡问题,并在吞吐量、RL rollout 效率及磁盘内存节省方面大幅超越了现有最先进系统。

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran AroraThu, 12 Ma💻 cs

Multi-Agent Memory from a Computer Architecture Perspective: Visions and Challenges Ahead

这篇论文从计算机体系结构视角出发,将多智能体记忆建模为包含共享与分布式范式及三层分级的架构问题,并指出跨智能体缓存共享、结构化访问控制以及最关键的记忆一致性是当前构建可靠可扩展多智能体系统面临的核心挑战。

Zhongming Yu, Naicheng Yu, Hejia Zhang, Wentao Ni, Mingrui Yin, Jiaying Yang, Yujie Zhao, Jishen ZhaoThu, 12 Ma🤖 cs.AI

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

KernelSkill 是一个采用双层级记忆架构的多智能体框架,通过利用知识驱动且感知任务轨迹的专家优化技能替代传统大模型中的隐式启发式方法,显著提升了 GPU 内核的生成效率与可解释性,并在 KernelBench 基准测试中实现了远超现有基线的加速效果。

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang LiuThu, 12 Ma🤖 cs.LG

GRACE: A Unified 2D Multi-Robot Path Planning Simulator & Benchmark for Grid, Roadmap, And Continuous Environments

本文介绍了 GRACE,这是一个统一的二维多机器人路径规划模拟器与基准测试平台,它通过在网格、路线图和连续环境等多个抽象层级上实例化相同任务,实现了不同建模选择间的透明、可复现比较,从而推动了多机器人规划研究向实际应用的转化。

Chuanlong Zang, Anna Mannucci, Isabelle Barz, Philipp Schillinger, Florian Lier, Wolfgang HönigThu, 12 Ma🤖 cs.AI

OA-Bug: An Olfactory-Auditory Augmented Bug Algorithm for Swarm Robots in a Denied Environment

本文提出了一种名为 OA-Bug 的嗅觉 - 听觉增强型 Bug 算法,旨在解决 denied 环境下群机器人无法依赖 GNSS、建图及数据共享的难题,通过模拟动物利用嗅觉和听觉信号进行协作,显著提升了搜索覆盖率并经由仿真与实物实验验证了其有效性。

Siqi Tan, Xiaoya Zhang, Jingyao Li, Ruitao Jing, Mufan Zhao, Yang Liu, Quan QuanMon, 09 Ma💻 cs

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

本文提出了 KramaBench,一个包含 104 个真实数据湖挑战的基准测试,旨在评估 AI 系统在端到端数据洞察流程中的能力,研究发现尽管现有大模型能识别部分任务,但在生成可运行的完整端到端管道方面表现仍十分有限。

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim KraskaMon, 09 Ma🤖 cs.AI

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

本文提出了一种基于多模态大语言模型的多智能体系统,通过协同专用工具与网络服务,显著提升了从化学文献中提取复杂多模态反应信息的准确率与通用性,为构建高质量化学数据库及推动 AI 驱动的化学研究奠定了坚实基础。

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu GaoMon, 09 Ma🤖 cs.AI