cs.SE artigos | Gist.Science

Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

O artigo propõe o "Traversal-as-Policy", um método que distila logs de execução em Árvores de Comportamento Portãoizadas (GBTs) executáveis para substituir a geração livre de LLMs por uma política de controle verificável e segura, demonstrando melhorias significativas em taxas de sucesso, redução de violações e eficiência de custos em benchmarks como SWE-bench Verified e WebArena.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

O artigo apresenta o EigenData, uma plataforma multiagente autônoma e autoevolutiva que automatiza a síntese, auditoria e reparo de dados para chamadas de função, demonstrando sua eficácia ao corrigir sistematicamente o benchmark BFCL-V3 e introduzir métricas de avaliação baseadas no estado do banco de dados que melhor se correlacionam com julgamentos humanos de correção funcional.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

O artigo apresenta o Tool-Genesis, um benchmark diagnóstico que avalia a capacidade de agentes de linguagem de criar e utilizar ferramentas a partir de requisitos abstratos, revelando que falhas iniciais em modelos de ponta se amplificam e degradam o desempenho em tarefas downstream.

Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping LuoMon, 09 Ma🤖 cs.AI

Real Faults in Model Context Protocol (MCP) Software: a Comprehensive Taxonomy

Este artigo apresenta a primeira taxonomia em larga escala de falhas em servidores MCP, baseada em evidências empíricas e validada por uma pesquisa com praticantes, visando identificar componentes críticos e fornecer insights para o desenvolvimento de sistemas de software com IA mais robustos e seguros.

Mina Taraghi, Mohammad Mehdi Morovati, Foutse KhomhMon, 09 Ma💻 cs

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

O artigo apresenta o LTLGuard, uma ferramenta modular que combina geração com restrições e verificação formal leve para permitir que modelos de linguagem compactos (4B–14B parâmetros) traduzam requisitos informais em especificações de LTL corretas e consistentes, superando as limitações de modelos menores em lógica temporal.

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros TripakisMon, 09 Ma🤖 cs.AI

CodeScout: Contextual Problem Statement Enhancement for Software Agents

O artigo apresenta o CodeScout, uma abordagem de refinamento de consultas que melhora em 20% a taxa de resolução de tarefas de desenvolvimento de software em agentes de IA ao transformar solicitações mal definidas em problemas estruturados através de uma pré-análise contextual do código, sem exigir modificações nos scaffolds existentes.

Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun KumarMon, 09 Ma💬 cs.CL

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

O artigo apresenta o ReflexiCoder, um novo framework de aprendizado por reforço que internaliza a capacidade de autorreflexão e autocorreção em modelos de linguagem, permitindo que eles gerem, depurem e corrijam código de forma autônoma e eficiente sem depender de oráculos externos ou feedback de execução durante a inferência.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Este artigo apresenta uma abordagem sistemática de IA explicável (XAI) que transforma rastros de execução brutos de agentes de codificação em explicações estruturadas e acionáveis, demonstrando por meio de um estudo com usuários que essa metodologia acelera a identificação de falhas e aumenta a precisão das correções em comparação com explicações ad-hoc e rastros brutos.

Arun JoshiMon, 09 Ma🤖 cs.AI

Balancing Latency and Accuracy of Code Completion via Local-Cloud Model Cascading

O artigo apresenta o MCCom, um framework que equilibra latência e precisão na conclusão de código ao cascata um modelo de linguagem local leve com um modelo em nuvem, utilizando ações do usuário para acionar o modelo maior apenas quando necessário e técnicas como decodificação especulativa e recuperação iterativa para reduzir a latência e o uso de recursos em nuvem sem comprometer a qualidade.

Hanzhen Lu, Lishui Fan, Jiachi Chen, Qiuyuan Chen, Zhao Wei, Zhongxin LiuMon, 09 Ma💻 cs

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

O artigo apresenta o APIDiffer, o primeiro framework de teste diferencial guiado por especificações que automatiza a detecção de inconsistências em APIs da infraestrutura Ethereum, identificando 72 bugs em 11 clientes principais com maior cobertura de código e menor taxa de falsos positivos do que as abordagens existentes.

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs

Detecting Semantic Alignments between Textual Specifications and Domain Models

O artigo propõe uma abordagem baseada em Processamento de Linguagem Natural e Grandes Modelos de Linguagem para detectar alinhamentos semânticos entre especificações textuais e modelos de domínio, classificando os elementos do modelo como alinhados, desalinhados ou não classificados com alta precisão e recall, visando a integração em ferramentas de modelagem para validação e feedback.

Shwetali Shimangaud, Lola Burgueño, Rijul Saini, Jörg KienzleMon, 09 Ma💻 cs

Pre-AI Baseline: Developer IDE Satisfaction and Tool Autonomy in 2022

Este estudo estabelece uma linha de base quantitativa de julho de 2022 para a satisfação dos desenvolvedores com IDEs, revelando que a autonomia na escolha de ferramentas é o principal preditor de satisfação e destacando a baixa adoção de IDEs em nuvem e a alta rotatividade de ferramentas como fatores críticos antes da era da IA generativa.

Nikola BalicMon, 09 Ma💻 cs

A LINDDUN-based Privacy Threat Modeling Framework for GenAI

Este artigo apresenta um novo framework de modelagem de ameaças à privacidade baseado em LINDDUN, especificamente adaptado para sistemas de IA Generativa, que identifica novas ameaças e valida sua eficácia através de estudos de caso em chatbots e agentes de IA.

Qianying Liao, Jonah Bellemans, Laurens Sion, Xue Jiang, Dmitrii Usynin, Xuebing Zhou, Dimitri Van Landuyt, Lieven Desmet, Wouter JoosenMon, 09 Ma💻 cs

Real-World Fault Detection for C-Extended Python Projects with Automated Unit Test Generation

Os autores adaptam a ferramenta de geração automática de testes Pynguin para executar casos de teste em subprocessos isolados, permitindo detectar e reproduzir falhas de travamento em extensões C de bibliotecas Python que normalmente interromperiam o processo de teste, o que resultou na descoberta de 32 falhas previamente desconhecidas em um conjunto de dados de 21 bibliotecas populares.

Lucas Berg, Lukas Krodinger, Stephan Lukasczyk, Annibale Panichella, Gordon Fraser, Wim Vanhoof, Xavier DevroeyMon, 09 Ma💻 cs

Can Adjusting Hyperparameters Lead to Green Deep Learning: An Empirical Study on Correlations between Hyperparameters and Energy Consumption of Deep Learning Models

Este estudo empírico demonstra que o ajuste adequado de hiperparâmetros em modelos de aprendizado profundo pode reduzir significativamente o consumo de energia sem prejudicar o desempenho, especialmente em ambientes de treinamento paralelo, promovendo assim o desenvolvimento de soluções de IA mais sustentáveis.

Taoran Wang, Yanhui Li, Mingliang Ma, Lin Chen, Yuming ZhouMon, 09 Ma💻 cs

Story Point Estimation Using Large Language Models

Este estudo demonstra que modelos de linguagem grandes (LLMs) superam modelos de aprendizado profundo supervisionados na estimativa de pontos de história sem dados de treinamento e que, embora a previsão de julgamentos comparativos não seja mais fácil, o uso desses julgamentos como exemplos em poucas amostras (few-shot) melhora significativamente a precisão das estimativas.

Pranam Prakash Shetty, Adarsh Balakrishnan, Mengqiao Xu, Xiaoyin Xi, Zhe YuMon, 09 Ma💻 cs

A Generalized Feature Model for Digital Twins

Este artigo propõe um modelo de características generalizado para Modelos, Sombras e Gêmeos Digitais, desenvolvido a partir de um estudo de mapeamento sistemático e validado em três casos de uso, visando fundamentar a tomada de decisão, o desenvolvimento e a verificação dessas tecnologias.

Philipp Zech, Yanis Mair, Michael Vierhauser, Pablo Oliveira Antonino, Frank Schnicke, Tony ClarkMon, 09 Ma💻 cs

A Scalable Benchmark for Repository-Oriented Long-Horizon Conversational Context Management

Este artigo apresenta o LoCoEval, o primeiro benchmark escalável para gerenciamento de contexto conversacional de longo prazo em desenvolvimento de repositórios, e propõe um método aprimorado que integra informações conversacionais e de repositório em uma memória unificada para superar as limitações das abordagens atuais.

Yang Liu, Li Zhang, Fang Liu, Ping Lin, Xinyi LiMon, 09 Ma💻 cs

A Reference Architecture of Reinforcement Learning Frameworks

Este artigo propõe uma arquitetura de referência para frameworks de aprendizado por reforço, identificando componentes e padrões recorrentes através da análise de 18 sistemas de ponta, a fim de estabelecer uma base comum para comparação, avaliação e integração.

Xiaoran Liu, Istvan DavidMon, 09 Ma🤖 cs.AI

Understanding and Finding JIT Compiler Performance Bugs

Este artigo apresenta o primeiro estudo sobre bugs de desempenho em compiladores JIT, realizando uma análise empírica de 191 relatórios para identificar padrões e causas, e propondo uma nova técnica de teste diferencial implementada na ferramenta Jittery, que descobriu e ajudou a corrigir múltiplos bugs desconhecidos em compiladores populares.

Zijian Yi, Cheng Ding, August Shi, Milos GligoricMon, 09 Ma💻 cs

← Anterior Próximo →