Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

Ce papier propose Traversal-as-Policy, une méthode qui transforme les logs d'exécution OpenHands en arbres de comportement à portes (GBT) exécutables pour remplacer la génération de politique implicite par une navigation contrôlée et vérifiable, améliorant ainsi considérablement le taux de réussite, la sécurité et l'efficacité des agents LLM sur des tâches complexes.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

Le papier présente EigenData, une plateforme multi-agents auto-évolutive qui automatise la synthèse, l'audit et la réparation des données d'appel de fonctions, permettant de corriger le benchmark BFCL-V3 et d'établir une évaluation axée sur le succès des tâches qui correspond mieux aux jugements humains.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

Le papier présente Tool-Genesis, une nouvelle norme d'évaluation diagnostique conçue pour mesurer la capacité des agents linguistiques à créer et utiliser des outils autonomes à partir d'exigences abstraites, révélant ainsi que les modèles actuels échouent souvent à générer des interfaces précises dès la première tentative, ce qui entraîne une dégradation significative de leurs performances en aval.

Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping LuoMon, 09 Ma🤖 cs.AI

CodeScout: Contextual Problem Statement Enhancement for Software Agents

Le papier présente CodeScout, une approche de raffinement de requêtes qui améliore les performances des agents de codage en transformant les demandes mal définies en problèmes contextuels complets grâce à une pré-exploration structurée du code, permettant une augmentation de 20 % du taux de résolution sur le benchmark SWEBench-Verified.

Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun KumarMon, 09 Ma💬 cs.CL

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Le papier présente ReflexiCoder, un cadre d'apprentissage par renforcement qui intègre des capacités intrinsèques d'autoréflexion et d'autocorrection dans les poids des modèles de langage, leur permettant d'atteindre des performances de pointe sur des tâches de codage complexes sans dépendre de retours externes ou d'exécution de code lors de l'inférence.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

Balancing Latency and Accuracy of Code Completion via Local-Cloud Model Cascading

Ce papier présente MCCom, un cadre de complétion de code qui équilibre latence et précision en cascade un petit modèle local avec un grand modèle cloud, déclenché par les actions de l'utilisateur et optimisé par un décodage spéculatif et une récupération itérative, réduisant ainsi la latence et l'utilisation du cloud tout en améliorant la précision.

Hanzhen Lu, Lishui Fan, Jiachi Chen, Qiuyuan Chen, Zhao Wei, Zhongxin LiuMon, 09 Ma💻 cs

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

L'article présente APIDiffer, un cadre de test différentiel guidé par les spécifications qui détecte automatiquement les incohérences d'API dans l'écosystème Ethereum, ayant permis d'identifier et de faire confirmer 72 bogues tout en réduisant significativement les faux positifs par rapport aux méthodes existantes.

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs

A LINDDUN-based Privacy Threat Modeling Framework for GenAI

Cet article présente un nouveau cadre de modélisation des menaces pour la vie privée, basé sur LINDDUN et spécifiquement conçu pour les applications d'intelligence artificielle générative, qui élargit la base de connaissances existante en y intégrant 100 nouveaux exemples de menaces et en validant son efficacité sur un système d'agent IA.

Qianying Liao, Jonah Bellemans, Laurens Sion, Xue Jiang, Dmitrii Usynin, Xuebing Zhou, Dimitri Van Landuyt, Lieven Desmet, Wouter JoosenMon, 09 Ma💻 cs

Real-World Fault Detection for C-Extended Python Projects with Automated Unit Test Generation

Cet article présente une adaptation de l'outil Pynguin utilisant l'exécution en sous-processus pour isoler les plantages des extensions C dans les projets Python, permettant ainsi de générer des tests automatisés, de détecter et de reproduire des fautes critiques, et d'augmenter significativement la couverture de test sur des bibliothèques populaires.

Lucas Berg, Lukas Krodinger, Stephan Lukasczyk, Annibale Panichella, Gordon Fraser, Wim Vanhoof, Xavier DevroeyMon, 09 Ma💻 cs

Can Adjusting Hyperparameters Lead to Green Deep Learning: An Empirical Study on Correlations between Hyperparameters and Energy Consumption of Deep Learning Models

Cette étude empirique démontre que l'ajustement approprié des hyperparamètres permet de réduire la consommation énergétique des modèles d'apprentissage profond sans compromettre leurs performances, contribuant ainsi au développement d'une intelligence artificielle plus durable.

Taoran Wang, Yanhui Li, Mingliang Ma, Lin Chen, Yuming ZhouMon, 09 Ma💻 cs

Story Point Estimation Using Large Language Models

Cette étude démontre que les grands modèles de langage peuvent estimer les points de complexité des tâches logicielles avec une précision supérieure aux modèles d'apprentissage profond traditionnels, et ce, sans données d'entraînement ou avec très peu d'exemples, tout en montrant que l'utilisation de jugements comparatifs comme exemples peu nombreux améliore encore ces performances.

Pranam Prakash Shetty, Adarsh Balakrishnan, Mengqiao Xu, Xiaoyin Xi, Zhe YuMon, 09 Ma💻 cs

A Scalable Benchmark for Repository-Oriented Long-Horizon Conversational Context Management

Ce papier présente LoCoEval, le premier benchmark conçu pour évaluer la gestion du contexte conversationnel à long terme dans le développement de dépôts de code, et propose une méthode améliorée intégrant les informations conversationnelles et du dépôt dans une mémoire unifiée pour surmonter les limitations des approches existantes.

Yang Liu, Li Zhang, Fang Liu, Ping Lin, Xinyi LiMon, 09 Ma💻 cs