cs.SE artigos | Gist.Science

Once4All: Skeleton-Guided SMT Solver Fuzzing with LLM-Synthesized Generators

O artigo apresenta o Once4All, um novo framework de fuzzing assistido por LLMs que sintetiza geradores de termos reutilizáveis baseados em gramáticas extraídas de documentação para garantir a validade sintática e reduzir custos computacionais, tendo identificado 43 bugs confirmados nos solucionadores SMT Z3 e cvc5.

Maolin Sun, Yibiao Yang, Yuming ZhouFri, 13 Ma🤖 cs.AI

Quality Assurance of LLM-generated Code: Addressing Non-Functional Quality Characteristics

Este estudo identifica uma desconexão entre a pesquisa acadêmica, as prioridades da indústria e o comportamento observado dos modelos de linguagem, revelando que a otimização de características de qualidade não funcional em código gerado por IA é instável e exige a integração de mecanismos de garantia de qualidade para evitar o acúmulo de dívida técnica.

Xin Sun, Daniel Ståhl, Kristian Sandahl, Christoph KesslerFri, 13 Ma🤖 cs.AI

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

O artigo apresenta o DIVE, uma abordagem baseada em evidências que inverte a ordem de síntese de tarefas para gerar dados de treinamento diversos e executáveis, demonstrando que escalar a diversidade de ferramentas e padrões de uso é mais eficaz para a generalização em tarefas fora da distribuição do que simplesmente aumentar a quantidade de dados.

Aili Chen, Chi Zhang, Junteng Liu, Jiangjie Chen, Chengyu Du, Yunji Li, Ming Zhong, Qin Wang, Zhengmao Zhu, Jiayuan Song, Ke Ji, Junxian He, Pengyu Zhao, Yanghua XiaoFri, 13 Ma🤖 cs.AI

CR-Bench: Evaluating the Real-World Utility of AI Code Review Agents

O artigo apresenta o CR-Bench e o CR-Evaluator, uma nova infraestrutura de benchmark e avaliação granular para agentes de revisão de código, que revela o trade-off crítico entre a resolução de problemas reais e a geração de achados espúrios, fornecendo uma base essencial para o desenvolvimento de agentes de IA eficazes em fluxos de trabalho de engenharia de software do mundo real.

Kristen Pereira, Neelabh Sinha, Rajat Ghosh, Debojyoti DuttaFri, 13 Ma💬 cs.CL

Quality-Driven Agentic Reasoning for LLM-Assisted Software Design: Questions-of-Thoughts (QoT) as a Time-Series Self-QA Chain

O artigo apresenta o Questions-of-Thoughts (QoT), um método de raciocínio agênico que transforma objetivos de usuário em sequências de etapas de engenharia com autoquestionamento para verificar restrições, demonstrando melhorias consistentes na qualidade de designs de software assistidos por LLMs em domínios como APIs, comunicação de dados e sistemas de arquivos, especialmente em modelos maiores e tarefas complexas.

Yen-Ku Liu, Yun-Cheng TsaiFri, 13 Ma🤖 cs.AI

Resolving Java Code Repository Issues with iSWE Agent

O artigo apresenta o iSWE Agent, um sistema automatizado que combina técnicas baseadas em regras e modelos de linguagem para resolver problemas em repositórios de código Java, alcançando desempenho superior a métodos anteriores em benchmarks específicos.

Jatin Ganhotra, Sami Serhan, Antonio Abu Nassar, Avraham Shinnar, Ziv Nevo, Martin HirzelFri, 13 Ma🤖 cs.AI

Social, Legal, Ethical, Empathetic and Cultural Norm Operationalisation for AI Agents

Este artigo propõe um processo sistemático para operacionalizar normas sociais, legais, éticas, empáticas e culturais (SLEEC) em agentes de IA, preenchendo a lacuna entre princípios abstratos e requisitos concretos, além de apresentar um quadro de referência e uma agenda de pesquisa para garantir a alinhamento demonstrável desses sistemas com valores humanos.

Radu Calinescu, Ana Cavalcanti, Marsha Chechik, Lina Marsso, Beverley TownsendFri, 13 Ma🤖 cs.AI

Automatic Generation of High-Performance RL Environments

Este artigo apresenta um método reutilizável de baixo custo que utiliza prompts genéricos, verificação hierárquica e reparo iterativo assistido por agentes para traduzir automaticamente ambientes complexos de Aprendizado por Reforço em implementações de alto desempenho semanticamente equivalentes, alcançando ganhos de velocidade de até 22.320 vezes em relação a referências existentes.

Seth Karten, Rahul Dev Appapogu, Chi JinFri, 13 Ma🤖 cs.LG

Quantum Computing for All: Online Courses Built Around Interactive Visual Quantum Circuit Simulator

Este artigo descreve um curso online de computação quântica acessível a estudantes de diversas formações, fundamentado em um simulador de circuitos quânticos interativo que oferece feedback imediato e tarefas avaliadas automaticamente para reduzir a barreira de entrada a essa disciplina abstrata.

Juha Reinikainen, Vlad Stirbu, Teiko Heinosaari + 2 more2026-03-11⚛️ quant-ph

Dance of the ADS: Orchestrating Failures through Historically-Informed Scenario Fuzzing

Este artigo apresenta o ScenarioFuzz, uma metodologia pioneira de fuzzing baseada em cenários que utiliza redes viárias, mutações especializadas e um modelo de rede neural gráfica para otimizar a descoberta de falhas em sistemas de direção autônoma, reduzindo custos de tempo em 60,3% e identificando 58 bugs em seis sistemas testados.

Tong Wang, Taotao Gu, Huan Deng + 3 more2026-03-11🤖 cs.AI

LAMBDA: A Large Model Based Data Agent

O artigo apresenta o LAMBDA, um sistema de análise de dados baseado em agentes de linguagem natural de código aberto e sem necessidade de programação, que combina agentes programadores e inspetores com intervenção humana direta e integração de conhecimento externo para tornar a análise de dados mais acessível e eficiente.

Maojun Sun, Ruijian Han, Binyan Jiang + 4 more2026-03-10🤖 cs.AI

Exploration of Evolving Quantum Key Distribution Network Architecture Using Model-Based Systems Engineering

Este artigo propõe uma abordagem de engenharia de sistemas baseada em modelos, utilizando Linguagem de Modelagem de Sistemas e Modelagem de Variabilidade Ortogonal, para mapear e gerenciar a evolução de arquiteturas de redes de Distribuição Quântica de Chaves, visando criar soluções modulares e reutilizáveis que atendam às crescentes demandas por telecomunicações seguras contra ameaças quânticas.

Hayato Ishida, Amal Elsokary, Maria Aslam + 3 more2026-03-10⚛️ quant-ph

Real-Time BDI Agents: a model and its implementation

Este artigo redefine o ciclo de controle de agentes BDI para incorporar restrições temporais explícitas, propondo um modelo e sua implementação em um jogo de coleta de recursos que garante reações eficazes e o gerenciamento adequado de objetivos, planos e ações sob limitações de tempo e recursos.

Andrea Traldi, Francesco Bruschetti, Marco Robol + 3 more2026-03-06💻 cs

Automated TEE Adaptation with LLMs: Identifying, Transforming, and Porting Sensitive Functions in Programs

Este artigo apresenta o AUTOTEE, a primeira abordagem baseada em Grandes Modelos de Linguagem (LLMs) que automatiza a identificação, transformação e portabilidade de funções sensíveis para Ambientes de Execução Confiáveis (TEEs), alcançando altas taxas de sucesso na adaptação de código Java e Python com intervenção mínima do desenvolvedor.

Ruidong Han, Zhou Yang, Chengyan Ma, Ye Liu, Yuqing Niu, Siqi Ma, Debin Gao, David Lo2026-03-06🔒 cs.CR

Assessing the Impact of Code Changes on the Fault Localizability of Large Language Models

Este artigo apresenta uma investigação empírica em larga escala que revela que a capacidade de modelos de linguagem grandes (LLMs) de localizar falhas em código é altamente frágil a mutações semânticas, indicando que seu raciocínio depende excessivamente de pistas sintáticas irrelevantes em vez de compreender a lógica profunda do programa.

Sabaat Haroon, Ahmad Faraz Khan, Ahmad Humayun + 5 more2026-03-06💻 cs

MioHint: LLM-assisted Mutation for Whitebox API Testing

O artigo apresenta o MioHint, uma abordagem inovadora de teste de API em caixa branca que combina análise estática com modelos de linguagem de grande escala (LLMs) para superar os platôs de fitness e melhorar significativamente a cobertura de linhas e a precisão de mutação em serviços REST reais.

Jia Li, Jiacheng Shen, Yuxin Su + 1 more2026-03-06💻 cs

Vision Language Model-based Testing of Industrial Autonomous Mobile Robots

Este artigo apresenta o RVSG, uma abordagem baseada em Modelos de Linguagem Visual (VLM) desenvolvida em parceria com a PAL Robotics para testar robôs móveis autônomos industriais, gerando automaticamente cenários de comportamento humano que violam requisitos de segurança e funcionalidade em simulações, a fim de identificar falhas de forma mais segura, econômica e diversificada do que os testes tradicionais.

Jiahui Wu, Chengjie Lu, Aitor Arrieta + 2 more2026-03-06💻 cs

RefAgent: A Multi-agent LLM-based Framework for Automatic Software Refactoring

O artigo apresenta o RefAgent, um framework multiagente baseado em LLMs que supera abordagens de agente único e ferramentas tradicionais ao realizar refatoração de software automatizada e end-to-end, alcançando altas taxas de sucesso em testes, redução significativa de "code smells" e melhoria na qualidade do código.

Khouloud Oueslati, Maxime Lamothe, Foutse Khomh2026-03-06💻 cs

Toward architecting self-coding information systems

Este resumo estendido propõe o conceito de sistemas de informação auto-codificantes, uma nova área de pesquisa em IA autônoma que visa permitir que sistemas adaptem dinamicamente sua estrutura e comportamento, gerando e implantando seu próprio código em tempo de execução para reduzir o tempo de lançamento de novas funcionalidades.

Rodrigo Falcão, Frank Elberzhager, Karthik Vaidhyanathan2026-03-06💻 cs

Refactoring for Novices in Java: An Eye Tracking Study on the Extract vs. Inline Methods

Este estudo com rastreamento ocular em 32 novatos de Java revela que, embora a extração de métodos seja geralmente preferida para legibilidade, ela pode prejudicar o desempenho e aumentar o esforço cognitivo em tarefas simples, enquanto melhora significativamente a eficiência em tarefas mais complexas, sugerindo cautela na modularização prematura para iniciantes.

José Aldo Silva da Costa, Rohit Gheyi, José Júnior Silva da Costa + 5 more2026-03-06💻 cs

← Anterior Próximo →