Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

Die Arbeit stellt „Traversal-as-Policy" vor, eine Methode, bei der aus erfolgreichen OpenHands-Executions-Logs ein ausführbarer, gate-gesteuerter Verhaltensbaum abgeleitet wird, der als externe, überprüfbare Richtlinie dient und damit die Erfolgsrate von LLM-Agenten signifikant steigert, während Sicherheitsverletzungen nahezu eliminiert und die Kosten gesenkt werden.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

Die Arbeit stellt EigenData vor, eine selbstentwickelnde Multi-Agenten-Plattform, die den gesamten Lebenszyklus von Daten für Funktionsaufrufe automatisiert und durch die Korrektur des BFCL-V3-Tests sowie die Einführung einer ergebnisorientierten Evaluierung die Übereinstimmung zwischen Modellrankings und menschlichen Bewertungen der funktionalen Korrektheit signifikant verbessert.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

Das Paper stellt Tool-Genesis vor, ein diagnostisches Benchmark, das die Fähigkeit von Sprachagenten bewertet, aus abstrakten Anforderungen eigenständig Werkzeuge zu erstellen, und zeigt dabei, dass selbst fortschrittliche Modelle in einer One-Shot-Situation oft durch kleine Fehler in Schnittstellen und Logik scheitern, die sich im gesamten Prozesskette zu einem starken Leistungsabfall verstärken.

Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping LuoMon, 09 Ma🤖 cs.AI

CodeScout: Contextual Problem Statement Enhancement for Software Agents

Das Paper stellt CodeScout vor, einen Ansatz zur kontextuellen Verfeinerung von Problemstellungen durch eine leichte Vorab-Analyse des Codebases, der die Erfolgsrate von Software-Agenten auf der SWEBench-Verified-Benchmark um 20 % steigert, indem er unpräzise Anfragen in umfassende, handlungsorientierte Aufgaben umwandelt.

Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun KumarMon, 09 Ma💬 cs.CL

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Die Arbeit stellt ReflexiCoder vor, ein Reinforcement-Learning-Framework, das Large Language Models befähigt, Code autonom durch internalisierte Selbstreflexion und Selbstkorrektur zu verbessern, wodurch sie bei algorithmischen Aufgaben neue State-of-the-Art-Ergebnisse erzielen und dabei deutlich token-effizienter sind als herkömmliche Ansätze.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Diese Arbeit stellt einen systematischen XAI-Ansatz vor, der Roh-Ausführungsprotokolle von LLM-Coding-Agenten durch eine domänenspezifische Fehler-Taxonomie, automatische Annotation und hybride Erklärungen in verständliche, visuelle und handlungsorientierte Insights umwandelt, wodurch die Fehleranalyse und -behebung für Entwickler signifikant beschleunigt und präzisiert wird.

Arun JoshiMon, 09 Ma🤖 cs.AI

Balancing Latency and Accuracy of Code Completion via Local-Cloud Model Cascading

Die Arbeit stellt MCCom vor, ein Framework, das durch die Kaskadierung eines lokalen kleinen Sprachmodells mit einem Cloud-basierten großen Sprachmodell, ausgelöst durch Benutzeraktionen, sowie durch spekulatives Decoding und Retrieval die Latenz bei der Code-Vervollständigung um bis zu 47,9 % senkt und gleichzeitig die Genauigkeit verbessert.

Hanzhen Lu, Lishui Fan, Jiachi Chen, Qiuyuan Chen, Zhao Wei, Zhongxin LiuMon, 09 Ma💻 cs

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

Die Studie stellt APIDiffer vor, ein spezifikationsgestütztes Framework zur automatisierten Erkennung von API-Inkonsistenzen in der Ethereum-Infrastruktur, das durch innovative Testgenerierung und KI-gestützte Filterung 72 Fehler in allen 11 wichtigsten Clients aufdeckte und dabei die Codeabdeckung sowie die Zuverlässigkeit bestehender Tools signifikant verbesserte.

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs

A LINDDUN-based Privacy Threat Modeling Framework for GenAI

Diese Arbeit stellt ein auf LINDDUN basierendes, domänenspezifisches Framework zur Privatsphären-Bedrohungsmodellierung für Generative KI vor, das durch eine systematische Literaturrecherche und eine Fallstudie erweitert wurde, um spezifische Risiken von GenAI-Systemen besser zu identifizieren und zu analysieren.

Qianying Liao, Jonah Bellemans, Laurens Sion, Xue Jiang, Dmitrii Usynin, Xuebing Zhou, Dimitri Van Landuyt, Lieven Desmet, Wouter JoosenMon, 09 Ma💻 cs

Real-World Fault Detection for C-Extended Python Projects with Automated Unit Test Generation

Die Autoren stellen einen Ansatz vor, der das Testwerkzeug Pynguin durch die Ausführung von Tests in isolierten Subprozessen anpasst, um Abstürze in C-Erweiterungen von Python-Bibliotheken zu erkennen und reproduzierbare Testfälle zu generieren, was in einer Evaluation mit 1648 Modulen zu 32 neu entdeckten Fehlern führte.

Lucas Berg, Lukas Krodinger, Stephan Lukasczyk, Annibale Panichella, Gordon Fraser, Wim Vanhoof, Xavier DevroeyMon, 09 Ma💻 cs

Story Point Estimation Using Large Language Models

Diese Studie zeigt, dass Large Language Models Story-Point-Schätzungen in Softwareprojekten ohne oder mit nur wenigen Trainingsdaten genauer vorhersagen können als überwachtes Deep Learning, wobei vergleichende Urteile als Few-Shot-Beispiele die Leistung weiter verbessern, obwohl ihre direkte Vorhersage nicht einfacher ist als die der Story Points selbst.

Pranam Prakash Shetty, Adarsh Balakrishnan, Mengqiao Xu, Xiaoyin Xi, Zhe YuMon, 09 Ma💻 cs