cs.SE articles | Gist.Science

Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

Ce papier propose Traversal-as-Policy, une méthode qui transforme les logs d'exécution OpenHands en arbres de comportement à portes (GBT) exécutables pour remplacer la génération de politique implicite par une navigation contrôlée et vérifiable, améliorant ainsi considérablement le taux de réussite, la sécurité et l'efficacité des agents LLM sur des tâches complexes.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

Le papier présente EigenData, une plateforme multi-agents auto-évolutive qui automatise la synthèse, l'audit et la réparation des données d'appel de fonctions, permettant de corriger le benchmark BFCL-V3 et d'établir une évaluation axée sur le succès des tâches qui correspond mieux aux jugements humains.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

Le papier présente Tool-Genesis, une nouvelle norme d'évaluation diagnostique conçue pour mesurer la capacité des agents linguistiques à créer et utiliser des outils autonomes à partir d'exigences abstraites, révélant ainsi que les modèles actuels échouent souvent à générer des interfaces précises dès la première tentative, ce qui entraîne une dégradation significative de leurs performances en aval.

Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping LuoMon, 09 Ma🤖 cs.AI

Real Faults in Model Context Protocol (MCP) Software: a Comprehensive Taxonomy

Cet article présente la première taxonomie à grande échelle des défaillances dans les serveurs du Protocole de Contexte de Modèle (MCP), validée par une enquête auprès de praticiens, afin d'identifier les catégories d'erreurs spécifiques et d'améliorer la fiabilité des systèmes logiciels intégrant des modèles de fondation.

Mina Taraghi, Mohammad Mehdi Morovati, Foutse KhomhMon, 09 Ma💻 cs

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

LTLGuard est un outil modulaire qui combine la génération contrainte et la vérification formelle pour permettre aux modèles de langage compacts (4B–14B paramètres) de transformer des exigences informelles en spécifications LTL correctes et cohérentes.

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros TripakisMon, 09 Ma🤖 cs.AI

CodeScout: Contextual Problem Statement Enhancement for Software Agents

Le papier présente CodeScout, une approche de raffinement de requêtes qui améliore les performances des agents de codage en transformant les demandes mal définies en problèmes contextuels complets grâce à une pré-exploration structurée du code, permettant une augmentation de 20 % du taux de résolution sur le benchmark SWEBench-Verified.

Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun KumarMon, 09 Ma💬 cs.CL

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Le papier présente ReflexiCoder, un cadre d'apprentissage par renforcement qui intègre des capacités intrinsèques d'autoréflexion et d'autocorrection dans les poids des modèles de langage, leur permettant d'atteindre des performances de pointe sur des tâches de codage complexes sans dépendre de retours externes ou d'exécution de code lors de l'inférence.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Cet article présente une approche d'IA explicable qui transforme les traces d'exécution brutes d'agents de codage en explications structurées et visuelles, permettant aux utilisateurs d'identifier plus rapidement les causes d'échec et de proposer des corrections plus précises que les méthodes actuelles.

Arun JoshiMon, 09 Ma🤖 cs.AI

Balancing Latency and Accuracy of Code Completion via Local-Cloud Model Cascading

Ce papier présente MCCom, un cadre de complétion de code qui équilibre latence et précision en cascade un petit modèle local avec un grand modèle cloud, déclenché par les actions de l'utilisateur et optimisé par un décodage spéculatif et une récupération itérative, réduisant ainsi la latence et l'utilisation du cloud tout en améliorant la précision.

Hanzhen Lu, Lishui Fan, Jiachi Chen, Qiuyuan Chen, Zhao Wei, Zhongxin LiuMon, 09 Ma💻 cs

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

L'article présente APIDiffer, un cadre de test différentiel guidé par les spécifications qui détecte automatiquement les incohérences d'API dans l'écosystème Ethereum, ayant permis d'identifier et de faire confirmer 72 bogues tout en réduisant significativement les faux positifs par rapport aux méthodes existantes.

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs

Detecting Semantic Alignments between Textual Specifications and Domain Models

Cet article présente une approche utilisant le traitement du langage naturel et les grands modèles de langage pour détecter automatiquement les alignements et les incohérences entre les spécifications textuelles et les modèles de domaine, offrant ainsi un outil fiable pour la validation et l'assistance à la modélisation.

Shwetali Shimangaud, Lola Burgueño, Rijul Saini, Jörg KienzleMon, 09 Ma💻 cs

Pre-AI Baseline: Developer IDE Satisfaction and Tool Autonomy in 2022

Cette étude établit une ligne de base pré-IA en 2022 montrant que l'autonomie dans le choix des outils est le principal déterminant de la satisfaction des développeurs, malgré une adoption négligeable des IDE cloud et une rétention variable des environnements de développement.

Nikola BalicMon, 09 Ma💻 cs

A LINDDUN-based Privacy Threat Modeling Framework for GenAI

Cet article présente un nouveau cadre de modélisation des menaces pour la vie privée, basé sur LINDDUN et spécifiquement conçu pour les applications d'intelligence artificielle générative, qui élargit la base de connaissances existante en y intégrant 100 nouveaux exemples de menaces et en validant son efficacité sur un système d'agent IA.

Qianying Liao, Jonah Bellemans, Laurens Sion, Xue Jiang, Dmitrii Usynin, Xuebing Zhou, Dimitri Van Landuyt, Lieven Desmet, Wouter JoosenMon, 09 Ma💻 cs

Real-World Fault Detection for C-Extended Python Projects with Automated Unit Test Generation

Cet article présente une adaptation de l'outil Pynguin utilisant l'exécution en sous-processus pour isoler les plantages des extensions C dans les projets Python, permettant ainsi de générer des tests automatisés, de détecter et de reproduire des fautes critiques, et d'augmenter significativement la couverture de test sur des bibliothèques populaires.

Lucas Berg, Lukas Krodinger, Stephan Lukasczyk, Annibale Panichella, Gordon Fraser, Wim Vanhoof, Xavier DevroeyMon, 09 Ma💻 cs

Can Adjusting Hyperparameters Lead to Green Deep Learning: An Empirical Study on Correlations between Hyperparameters and Energy Consumption of Deep Learning Models

Cette étude empirique démontre que l'ajustement approprié des hyperparamètres permet de réduire la consommation énergétique des modèles d'apprentissage profond sans compromettre leurs performances, contribuant ainsi au développement d'une intelligence artificielle plus durable.

Taoran Wang, Yanhui Li, Mingliang Ma, Lin Chen, Yuming ZhouMon, 09 Ma💻 cs

Story Point Estimation Using Large Language Models

Cette étude démontre que les grands modèles de langage peuvent estimer les points de complexité des tâches logicielles avec une précision supérieure aux modèles d'apprentissage profond traditionnels, et ce, sans données d'entraînement ou avec très peu d'exemples, tout en montrant que l'utilisation de jugements comparatifs comme exemples peu nombreux améliore encore ces performances.

Pranam Prakash Shetty, Adarsh Balakrishnan, Mengqiao Xu, Xiaoyin Xi, Zhe YuMon, 09 Ma💻 cs

A Generalized Feature Model for Digital Twins

Cet article propose un modèle de fonctionnalités généralisé pour les jumeaux numériques, élaboré à partir d'une étude systématique de la littérature et validé par trois cas d'usage, afin de combler l'absence d'un modèle complet et de faciliter la conception, le développement et la validation de ces technologies.

Philipp Zech, Yanis Mair, Michael Vierhauser, Pablo Oliveira Antonino, Frank Schnicke, Tony ClarkMon, 09 Ma💻 cs

A Scalable Benchmark for Repository-Oriented Long-Horizon Conversational Context Management

Ce papier présente LoCoEval, le premier benchmark conçu pour évaluer la gestion du contexte conversationnel à long terme dans le développement de dépôts de code, et propose une méthode améliorée intégrant les informations conversationnelles et du dépôt dans une mémoire unifiée pour surmonter les limitations des approches existantes.

Yang Liu, Li Zhang, Fang Liu, Ping Lin, Xinyi LiMon, 09 Ma💻 cs

A Reference Architecture of Reinforcement Learning Frameworks

Cet article propose une architecture de référence pour les cadres de l'apprentissage par renforcement, élaborée à partir de l'analyse de 18 frameworks de pointe afin d'établir une base commune pour leur comparaison, leur évaluation et leur intégration.

Xiaoran Liu, Istvan DavidMon, 09 Ma🤖 cs.AI

Understanding and Finding JIT Compiler Performance Bugs

Cet article présente la première étude empirique des bugs de performance des compilateurs JIT, aboutissant à la conception de Jittery, un outil de test différentiel qui a permis de découvrir et de faire corriger plusieurs bugs inédits dans les compilateurs Oracle HotSpot et Graal.

Zijian Yi, Cheng Ding, August Shi, Milos GligoricMon, 09 Ma💻 cs

← Précédent Suivant →