Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

O artigo propõe o "Traversal-as-Policy", um método que distila logs de execução em Árvores de Comportamento Portãoizadas (GBTs) executáveis para substituir a geração livre de LLMs por uma política de controle verificável e segura, demonstrando melhorias significativas em taxas de sucesso, redução de violações e eficiência de custos em benchmarks como SWE-bench Verified e WebArena.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

O artigo apresenta o EigenData, uma plataforma multiagente autônoma e autoevolutiva que automatiza a síntese, auditoria e reparo de dados para chamadas de função, demonstrando sua eficácia ao corrigir sistematicamente o benchmark BFCL-V3 e introduzir métricas de avaliação baseadas no estado do banco de dados que melhor se correlacionam com julgamentos humanos de correção funcional.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

O artigo apresenta o LTLGuard, uma ferramenta modular que combina geração com restrições e verificação formal leve para permitir que modelos de linguagem compactos (4B–14B parâmetros) traduzam requisitos informais em especificações de LTL corretas e consistentes, superando as limitações de modelos menores em lógica temporal.

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros TripakisMon, 09 Ma🤖 cs.AI

CodeScout: Contextual Problem Statement Enhancement for Software Agents

O artigo apresenta o CodeScout, uma abordagem de refinamento de consultas que melhora em 20% a taxa de resolução de tarefas de desenvolvimento de software em agentes de IA ao transformar solicitações mal definidas em problemas estruturados através de uma pré-análise contextual do código, sem exigir modificações nos scaffolds existentes.

Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun KumarMon, 09 Ma💬 cs.CL

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

O artigo apresenta o ReflexiCoder, um novo framework de aprendizado por reforço que internaliza a capacidade de autorreflexão e autocorreção em modelos de linguagem, permitindo que eles gerem, depurem e corrijam código de forma autônoma e eficiente sem depender de oráculos externos ou feedback de execução durante a inferência.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Este artigo apresenta uma abordagem sistemática de IA explicável (XAI) que transforma rastros de execução brutos de agentes de codificação em explicações estruturadas e acionáveis, demonstrando por meio de um estudo com usuários que essa metodologia acelera a identificação de falhas e aumenta a precisão das correções em comparação com explicações ad-hoc e rastros brutos.

Arun JoshiMon, 09 Ma🤖 cs.AI

Balancing Latency and Accuracy of Code Completion via Local-Cloud Model Cascading

O artigo apresenta o MCCom, um framework que equilibra latência e precisão na conclusão de código ao cascata um modelo de linguagem local leve com um modelo em nuvem, utilizando ações do usuário para acionar o modelo maior apenas quando necessário e técnicas como decodificação especulativa e recuperação iterativa para reduzir a latência e o uso de recursos em nuvem sem comprometer a qualidade.

Hanzhen Lu, Lishui Fan, Jiachi Chen, Qiuyuan Chen, Zhao Wei, Zhongxin LiuMon, 09 Ma💻 cs

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

O artigo apresenta o APIDiffer, o primeiro framework de teste diferencial guiado por especificações que automatiza a detecção de inconsistências em APIs da infraestrutura Ethereum, identificando 72 bugs em 11 clientes principais com maior cobertura de código e menor taxa de falsos positivos do que as abordagens existentes.

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs

Detecting Semantic Alignments between Textual Specifications and Domain Models

O artigo propõe uma abordagem baseada em Processamento de Linguagem Natural e Grandes Modelos de Linguagem para detectar alinhamentos semânticos entre especificações textuais e modelos de domínio, classificando os elementos do modelo como alinhados, desalinhados ou não classificados com alta precisão e recall, visando a integração em ferramentas de modelagem para validação e feedback.

Shwetali Shimangaud, Lola Burgueño, Rijul Saini, Jörg KienzleMon, 09 Ma💻 cs

Real-World Fault Detection for C-Extended Python Projects with Automated Unit Test Generation

Os autores adaptam a ferramenta de geração automática de testes Pynguin para executar casos de teste em subprocessos isolados, permitindo detectar e reproduzir falhas de travamento em extensões C de bibliotecas Python que normalmente interromperiam o processo de teste, o que resultou na descoberta de 32 falhas previamente desconhecidas em um conjunto de dados de 21 bibliotecas populares.

Lucas Berg, Lukas Krodinger, Stephan Lukasczyk, Annibale Panichella, Gordon Fraser, Wim Vanhoof, Xavier DevroeyMon, 09 Ma💻 cs

Can Adjusting Hyperparameters Lead to Green Deep Learning: An Empirical Study on Correlations between Hyperparameters and Energy Consumption of Deep Learning Models

Este estudo empírico demonstra que o ajuste adequado de hiperparâmetros em modelos de aprendizado profundo pode reduzir significativamente o consumo de energia sem prejudicar o desempenho, especialmente em ambientes de treinamento paralelo, promovendo assim o desenvolvimento de soluções de IA mais sustentáveis.

Taoran Wang, Yanhui Li, Mingliang Ma, Lin Chen, Yuming ZhouMon, 09 Ma💻 cs

Story Point Estimation Using Large Language Models

Este estudo demonstra que modelos de linguagem grandes (LLMs) superam modelos de aprendizado profundo supervisionados na estimativa de pontos de história sem dados de treinamento e que, embora a previsão de julgamentos comparativos não seja mais fácil, o uso desses julgamentos como exemplos em poucas amostras (few-shot) melhora significativamente a precisão das estimativas.

Pranam Prakash Shetty, Adarsh Balakrishnan, Mengqiao Xu, Xiaoyin Xi, Zhe YuMon, 09 Ma💻 cs