Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

Het artikel introduceert Traversal-as-Policy, een methode die OpenHands-uitvoeringslogs distilleert tot een uitvoerbaar, verifieerbaar Gated Behavior Tree-beleid dat autonome agents veiliger, robuuster en efficiënter maakt door het onbeperkte genereren te vervangen door gestructureerde boomtraversie met deterministische veiligheidscontroles.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

Dit paper introduceert EigenData, een zelfevoluerend multi-agentplatform dat de volledige levenscyclus van function-calling data automatiseert en gebruikt om de Berkeley Function-Calling Leaderboard te auditeren en te repareren, wat resulteert in een betrouwbaardere evaluatie die beter correleert met menselijke oordelen over functionele correctheid.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

Dit paper introduceert Tool-Genesis, een diagnostisch benchmark dat de capaciteit van taalagenten evalueert om tools volledig autonoom te creëren op basis van abstracte eisen, waarbij wordt aangetoond dat zelfs geavanceerde modellen moeite hebben met het genereren van precieze interfaces en uitvoerbare logica, wat leidt tot significante prestatiedalingen in downstream taken.

Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping LuoMon, 09 Ma🤖 cs.AI

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

ReflexiCoder is een nieuw reinforcement learning-framework dat grote taalmodellen leert om code autonoom te genereren, te reflecteren op fouten en zichzelf te corrigeren zonder externe hulp, wat leidt tot state-of-the-art prestaties en een aanzienlijke vermindering van de inferentie-overhead.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

Dit paper introduceert APIDiffer, het eerste specificatie-gestuurde differentiatietestframework dat automatisch API-inconsistenties in de Ethereum-klantenecosysteem detecteert en zo 72 bugs heeft blootgelegd met een aanzienlijk hogere codecoverage en een lagere rate van vals-positieven dan bestaande methoden.

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs