Mindstorms in Natural Language-Based Societies of Mind

Dit paper introduceert natuurlijke taal-gebaseerde samenlevingen van geest (NLSOMs), waarin diverse neurale netwerken via een gemeenschappelijke taalinterface samenwerken in een 'mindstorm' om complexe multimodale taken op te lossen en de sociale structuur van toekomstige AI-samenlevingen te onderzoeken.

Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Pi\k{e}kos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stanic, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, Jürgen SchmidhuberThu, 12 Ma💬 cs.CL

The Yokai Learning Environment: Tracking Beliefs Over Space and Time

Dit paper introduceert het Yokai Learning Environment (YLE), een uitdagende nieuwe benchmark voor zero-shot coördinatie die de beperkingen van de bestaande Hanabi-benchmark blootlegt door te vereisen dat agenten geloofsoverdracht, ambiguïteit en spelbeëindiging beheren, waardoor wordt aangetoond dat huidige toonaangevende methoden in YLE falen terwijl ze in Hanabi uitstekend presteren.

Constantin Ruhdorfer, Matteo Bortoletto, Johannes Forkel, Jakob Foerster, Andreas BullingThu, 12 Ma🤖 cs.AI

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

ThunderAgent is een snelle en programabewuste agentic-inferentiesysteem dat agentic-workflows abstracteert als LLM-programma's om middelen zoals KV-cache en tool-omgevingen geïntegreerd te beheren, wat resulteert in aanzienlijke verbeteringen in doorvoersnelheid en geheugenefficiëntie ten opzichte van bestaande systemen.

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran AroraThu, 12 Ma💻 cs

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

Het paper introduceert KernelSkill, een multi-agent framework dat de efficiëntie van GPU-kernels verbetert door impliciete heuristieken te vervangen door kennisgedreven vaardigheden en een dubbel niveau van geheugen, wat resulteert in aanzienlijke snelheidswinsten en een hogere succesratio ten opzichte van eerdere methoden.

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang LiuThu, 12 Ma🤖 cs.LG

GRACE: A Unified 2D Multi-Robot Path Planning Simulator & Benchmark for Grid, Roadmap, And Continuous Environments

Het paper introduceert GRACE, een geünificeerde 2D-simulatie- en benchmarkomgeving die multi-robot padplanningstaken op verschillende abstractieniveaus (raster, routekaart en continu) mogelijk maakt om transparante en reproduceerbare vergelijkingen tussen verschillende modellen en planners te faciliteren.

Chuanlong Zang, Anna Mannucci, Isabelle Barz, Philipp Schillinger, Florian Lier, Wolfgang HönigThu, 12 Ma🤖 cs.AI

Aligning Compound AI Systems via System-level DPO

Dit paper introduceert SysDPO, een raamwerk dat Direct Preference Optimization uitbreidt naar Compound AI-systemen door deze als gerichte acyclische grafen te modelleren, waardoor effectieve systeemgerichte uitlijning mogelijk wordt ondanks niet-differentieerbare interacties en de complexiteit van het vertalen van systeemvoorkeuren naar componentniveau.

Xiangwen Wang, Yibo Jacky Zhang, Zhoujie Ding, Katherine Tsai, Haolun Wu, Sanmi KoyejoMon, 09 Ma🤖 cs.AI

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

Dit paper introduceert KramaBench, een benchmark met 104 handmatig samengestelde uitdagingen die aantoont dat huidige AI-systemen, ondanks hun vaardigheden in geïsoleerde taken, moeite hebben om volledige, werkende data-naar-inzicht-pijplijnen over complexe data lakes te ontwerpen en uit te voeren.

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim KraskaMon, 09 Ma🤖 cs.AI