Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

Il paper propone "Traversal-as-Policy", un metodo che distilla i log di esecuzione in un Gated Behavior Tree eseguibile per trasformare la navigazione dell'albero in una politica di controllo verificabile, migliorando significativamente il successo, la sicurezza e l'efficienza degli agenti LLM autonomi su benchmark complessi.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

Il paper presenta EigenData, una piattaforma multi-agente auto-evolutiva che automatizza la sintesi, l'audit e la riparazione dei dati per il function calling, migliorando significativamente la correlazione tra le valutazioni dei modelli e il giudizio umano sulla correttezza funzionale attraverso la correzione del benchmark BFCL-V3 e l'introduzione di metriche basate sullo stato del database.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Il paper introduce ReflexiCoder, un nuovo framework di apprendimento per rinforzo che addestra i modelli linguistici a internalizzare capacità autonome di auto-riflessione e auto-correzione del codice, ottenendo risultati all'avanguardia su diversi benchmark senza dipendere da oracoli esterni o feedback di esecuzione durante l'inferenza.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

Balancing Latency and Accuracy of Code Completion via Local-Cloud Model Cascading

Il paper presenta MCCom, un framework che bilancia latenza e accuratezza nel completamento del codice orchestrando un modello linguistico locale leggero con uno cloud tramite un meccanismo di cascata attivato dalle azioni dell'utente, riducendo significativamente i tempi di inferenza e l'uso del cloud senza compromettere la qualità.

Hanzhen Lu, Lishui Fan, Jiachi Chen, Qiuyuan Chen, Zhao Wei, Zhongxin LiuMon, 09 Ma💻 cs

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

Il paper presenta APIDiffer, il primo framework di testing differenziale guidato da specifiche che, trasformando le API di Ethereum in suite di test automatizzate e filtrando i falsi positivi tramite modelli linguistici, ha identificato 72 bug nei client principali, migliorando significativamente la copertura del codice e riducendo i falsi positivi rispetto agli strumenti esistenti.

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs

Detecting Semantic Alignments between Textual Specifications and Domain Models

Il paper propone un approccio basato sull'elaborazione del linguaggio naturale e sui modelli linguistici di grandi dimensioni per rilevare e classificare le allineamenti, i disallineamenti e le incertezze tra specifiche testuali e modelli di dominio, dimostrando un'elevata precisione e un buon richiamo che lo rendono adatto all'integrazione in strumenti di modellazione per il feedback e la validazione della qualità.

Shwetali Shimangaud, Lola Burgueño, Rijul Saini, Jörg KienzleMon, 09 Ma💻 cs

A LINDDUN-based Privacy Threat Modeling Framework for GenAI

Il paper presenta un nuovo framework di modellazione delle minacce alla privacy specifico per le applicazioni di GenAI, basato su LINDDUN e sviluppato attraverso una revisione sistematica della letteratura e un caso studio, che estende la tassonomia esistente con nuove categorie di minacce e 100 esempi specifici per validare la sua efficacia nell'analisi di sistemi come gli AI Agent.

Qianying Liao, Jonah Bellemans, Laurens Sion, Xue Jiang, Dmitrii Usynin, Xuebing Zhou, Dimitri Van Landuyt, Lieven Desmet, Wouter JoosenMon, 09 Ma💻 cs

Real-World Fault Detection for C-Extended Python Projects with Automated Unit Test Generation

Questo articolo presenta un adattamento dello strumento di generazione automatica di test Pynguin che utilizza l'esecuzione in sottoprocessi isolati per rilevare e riprodurre guasti nei progetti Python con estensioni C, permettendo così di scoprire nuove vulnerabilità senza bloccare l'intero processo di test.

Lucas Berg, Lukas Krodinger, Stephan Lukasczyk, Annibale Panichella, Gordon Fraser, Wim Vanhoof, Xavier DevroeyMon, 09 Ma💻 cs

Can Adjusting Hyperparameters Lead to Green Deep Learning: An Empirical Study on Correlations between Hyperparameters and Energy Consumption of Deep Learning Models

Questo studio empirico dimostra che la regolazione appropriata degli iperparametri nei modelli di deep learning può ridurre il consumo energetico senza comprometterne le prestazioni, contribuendo così allo sviluppo di modelli più sostenibili, specialmente in ambienti di addestramento parallelo.

Taoran Wang, Yanhui Li, Mingliang Ma, Lin Chen, Yuming ZhouMon, 09 Ma💻 cs