cs.SE articoli | Gist.Science

Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

Il paper propone "Traversal-as-Policy", un metodo che distilla i log di esecuzione in un Gated Behavior Tree eseguibile per trasformare la navigazione dell'albero in una politica di controllo verificabile, migliorando significativamente il successo, la sicurezza e l'efficienza degli agenti LLM autonomi su benchmark complessi.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

Il paper presenta EigenData, una piattaforma multi-agente auto-evolutiva che automatizza la sintesi, l'audit e la riparazione dei dati per il function calling, migliorando significativamente la correlazione tra le valutazioni dei modelli e il giudizio umano sulla correttezza funzionale attraverso la correzione del benchmark BFCL-V3 e l'introduzione di metriche basate sullo stato del database.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

Il paper presenta Tool-Genesis, un benchmark diagnostico che valuta la capacità degli agenti linguistici di creare e utilizzare strumenti autonomamente da requisiti astratti, rivelando come le imperfezioni iniziali nei modelli più avanzati compromettano drasticamente le prestazioni a valle.

Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping LuoMon, 09 Ma🤖 cs.AI

Real Faults in Model Context Protocol (MCP) Software: a Comprehensive Taxonomy

Questo studio presenta la prima tassonomia su larga scala dei guasti nei server MCP, identificando cinque categorie principali attraverso evidenze empiriche e un sondaggio tra professionisti, al fine di fornire indicazioni pratiche per migliorare l'affidabilità e la sicurezza dei sistemi software basati su modelli fondazionali.

Mina Taraghi, Mohammad Mehdi Morovati, Foutse KhomhMon, 09 Ma💻 cs

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

Il paper presenta LTLGuard, un approccio modulare che combina la generazione di modelli linguistici compatti con la verifica simbolica formale per tradurre in modo efficiente e affidabile requisiti informali in specifiche corrette in logica temporale lineare (LTL).

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros TripakisMon, 09 Ma🤖 cs.AI

CodeScout: Contextual Problem Statement Enhancement for Software Agents

Il paper presenta CodeScout, un approccio di raffinamento contestuale delle query che analizza preventivamente il codice sorgente per trasformare richieste utente ambigue in istruzioni dettagliate, migliorando significativamente le prestazioni degli agenti software nello sviluppo di codice.

Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun KumarMon, 09 Ma💬 cs.CL

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Il paper introduce ReflexiCoder, un nuovo framework di apprendimento per rinforzo che addestra i modelli linguistici a internalizzare capacità autonome di auto-riflessione e auto-correzione del codice, ottenendo risultati all'avanguardia su diversi benchmark senza dipendere da oracoli esterni o feedback di esecuzione durante l'inferenza.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Questo lavoro presenta un approccio sistematico di XAI che trasforma le tracce di esecuzione grezze degli agenti di codifica basati su LLM in spiegazioni strutturate e visuali, migliorando significativamente la velocità e l'accuratezza con cui gli utenti identificano le cause degli errori e propongono soluzioni rispetto all'uso di tracce non elaborate o spiegazioni ad hoc.

Arun JoshiMon, 09 Ma🤖 cs.AI

Balancing Latency and Accuracy of Code Completion via Local-Cloud Model Cascading

Il paper presenta MCCom, un framework che bilancia latenza e accuratezza nel completamento del codice orchestrando un modello linguistico locale leggero con uno cloud tramite un meccanismo di cascata attivato dalle azioni dell'utente, riducendo significativamente i tempi di inferenza e l'uso del cloud senza compromettere la qualità.

Hanzhen Lu, Lishui Fan, Jiachi Chen, Qiuyuan Chen, Zhao Wei, Zhongxin LiuMon, 09 Ma💻 cs

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

Il paper presenta APIDiffer, il primo framework di testing differenziale guidato da specifiche che, trasformando le API di Ethereum in suite di test automatizzate e filtrando i falsi positivi tramite modelli linguistici, ha identificato 72 bug nei client principali, migliorando significativamente la copertura del codice e riducendo i falsi positivi rispetto agli strumenti esistenti.

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs

Detecting Semantic Alignments between Textual Specifications and Domain Models

Il paper propone un approccio basato sull'elaborazione del linguaggio naturale e sui modelli linguistici di grandi dimensioni per rilevare e classificare le allineamenti, i disallineamenti e le incertezze tra specifiche testuali e modelli di dominio, dimostrando un'elevata precisione e un buon richiamo che lo rendono adatto all'integrazione in strumenti di modellazione per il feedback e la validazione della qualità.

Shwetali Shimangaud, Lola Burgueño, Rijul Saini, Jörg KienzleMon, 09 Ma💻 cs

Pre-AI Baseline: Developer IDE Satisfaction and Tool Autonomy in 2022

Questo studio del 2022 stabilisce una linea di base pre-intelligenza artificiale analizzando i dati di 1.155 sviluppatori, rivelando che l'autonomia nella scelta degli strumenti è il principale predittore di soddisfazione e fornendo un punto di riferimento quantitativo per valutare l'impatto futuro degli strumenti di generazione AI.

Nikola BalicMon, 09 Ma💻 cs

A LINDDUN-based Privacy Threat Modeling Framework for GenAI

Il paper presenta un nuovo framework di modellazione delle minacce alla privacy specifico per le applicazioni di GenAI, basato su LINDDUN e sviluppato attraverso una revisione sistematica della letteratura e un caso studio, che estende la tassonomia esistente con nuove categorie di minacce e 100 esempi specifici per validare la sua efficacia nell'analisi di sistemi come gli AI Agent.

Qianying Liao, Jonah Bellemans, Laurens Sion, Xue Jiang, Dmitrii Usynin, Xuebing Zhou, Dimitri Van Landuyt, Lieven Desmet, Wouter JoosenMon, 09 Ma💻 cs

Real-World Fault Detection for C-Extended Python Projects with Automated Unit Test Generation

Questo articolo presenta un adattamento dello strumento di generazione automatica di test Pynguin che utilizza l'esecuzione in sottoprocessi isolati per rilevare e riprodurre guasti nei progetti Python con estensioni C, permettendo così di scoprire nuove vulnerabilità senza bloccare l'intero processo di test.

Lucas Berg, Lukas Krodinger, Stephan Lukasczyk, Annibale Panichella, Gordon Fraser, Wim Vanhoof, Xavier DevroeyMon, 09 Ma💻 cs

Can Adjusting Hyperparameters Lead to Green Deep Learning: An Empirical Study on Correlations between Hyperparameters and Energy Consumption of Deep Learning Models

Questo studio empirico dimostra che la regolazione appropriata degli iperparametri nei modelli di deep learning può ridurre il consumo energetico senza comprometterne le prestazioni, contribuendo così allo sviluppo di modelli più sostenibili, specialmente in ambienti di addestramento parallelo.

Taoran Wang, Yanhui Li, Mingliang Ma, Lin Chen, Yuming ZhouMon, 09 Ma💻 cs

Story Point Estimation Using Large Language Models

Questo studio dimostra che i grandi modelli linguistici (LLM) possono stimare i punti storia nei progetti software con prestazioni superiori ai modelli di apprendimento profondo supervisionati anche senza dati di addestramento, migliorando ulteriormente con esempi pochi-shot e giudizi comparativi.

Pranam Prakash Shetty, Adarsh Balakrishnan, Mengqiao Xu, Xiaoyin Xi, Zhe YuMon, 09 Ma💻 cs

A Generalized Feature Model for Digital Twins

Questo articolo presenta un modello di funzionalità generalizzato per Digital Models, Shadows e Twins, sviluppato attraverso uno studio sistematico della letteratura e validato su tre casi d'uso, con l'obiettivo di supportare la progettazione, lo sviluppo e la verifica di queste tecnologie.

Philipp Zech, Yanis Mair, Michael Vierhauser, Pablo Oliveira Antonino, Frank Schnicke, Tony ClarkMon, 09 Ma💻 cs

A Scalable Benchmark for Repository-Oriented Long-Horizon Conversational Context Management

Il paper introduce LoCoEval, il primo benchmark per la gestione del contesto conversazionale a lungo termine nello sviluppo di repository, evidenziando le limitazioni delle attuali soluzioni e proponendo un metodo migliorato che integra informazioni conversazionali e di repository in una memoria unificata per superare tali sfide.

Yang Liu, Li Zhang, Fang Liu, Ping Lin, Xinyi LiMon, 09 Ma💻 cs

A Reference Architecture of Reinforcement Learning Frameworks

Questo articolo propone un'architettura di riferimento per i framework di apprendimento per rinforzo, derivata dall'analisi di 18 sistemi all'avanguardia tramite l'approccio della teoria fondata, al fine di stabilire una base comune per il confronto, la valutazione e l'integrazione di tali tecnologie.

Xiaoran Liu, Istvan DavidMon, 09 Ma🤖 cs.AI

Understanding and Finding JIT Compiler Performance Bugs

Questo lavoro presenta il primo studio empirico sui bug delle prestazioni dei compilatori JIT, proponendo una tecnica di testing differenziale a più livelli implementata nello strumento Jittery che ha permesso di scoprire e far correggere diversi bug precedentemente sconosciuti nei compilatori Oracle HotSpot e Graal.

Zijian Yi, Cheng Ding, August Shi, Milos GligoricMon, 09 Ma💻 cs

← Precedente Successivo →