cs.SE artigos | Gist.Science

Formal Analysis of the Contract Automata Runtime Environment with Uppaal: Modelling, Verification and Testing

Este artigo detalha a modelagem formal, verificação e teste do ambiente de execução de autômatos de contrato (CARE) utilizando a ferramenta Uppaal, demonstrando como essas técnicas melhoram a confiabilidade da aplicação distribuída de código aberto.

Davide Basile2026-03-05💻 cs

EasyRpl: A web-based tool for modelling and analysis of cross-organisational workflows

O artigo apresenta o EasyRpl, uma ferramenta web intuitiva que auxilia na modelagem e análise de fluxos de trabalho interorganizacionais por meio de simulação, identificação de gargalos de recursos e estimativa de tempo de execução.

Muhammad Rizwan Ali, Violet Ka I Pun, Guillermo Román-Díez2026-03-05💻 cs

From Feedback to Failure: Automated Android Performance Issue Reproduction

O artigo apresenta o RevPerf, uma abordagem pioneira que automatiza a reprodução de problemas de desempenho em aplicativos Android ao sintetizar informações de avaliações de usuários para gerar comandos de execução e detectar falhas, alcançando uma taxa de sucesso de 72,73%.

Zhengquan Li, Zhenhao Li, Zishuo Ding2026-03-05💻 cs

Analyzing Dependency Distribution Changes Arising from Code Smell Interactions

Este estudo analisa 116 sistemas Java de código aberto e conclui que as interações entre más odes (code smells) estão associadas a um aumento significativo nas dependências estáticas, fornecendo insights valiosos para melhorar a detecção, priorização e estratégias de refatoração de problemas de qualidade de código.

Zushuai Zhang, Elliott Wen, Ewan Tempero2026-03-05💻 cs

An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

Este artigo apresenta uma abordagem baseada em agentes de IA para desenvolver software crítico no domínio jurídico, utilizando um caso de estudo de preparação de impostos nos EUA onde um sistema multiagente automatiza a geração de testes metamórficos e a síntese de código, alcançando maior confiabilidade com modelos menores em comparação a modelos de ponta.

Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha + 1 more2026-03-05🤖 cs.AI

Beyond the Prompt: An Empirical Study of Cursor Rules

Este estudo empírico analisa 401 repositórios de código aberto para criar uma taxonomia abrangente das regras de contexto (cursor rules) que os desenvolvedores utilizam para orientar assistentes de IA, identificando cinco temas principais — convenções, diretrizes, informações do projeto, instruções para LLMs e exemplos — e explorando como essas regras variam conforme o tipo de projeto e linguagem de programação.

Shaokang Jiang, Daye Nam2026-03-05🤖 cs.AI

Test Case Prioritization: A Snowballing Literature Review and TCPFramework with Approach Combinators

Este artigo sistematiza o conhecimento existente sobre priorização de casos de teste por meio de uma revisão bibliográfica em cascata, propõe e avalia empiricamente um novo framework e uma família de métodos combinatórios que superam abordagens baseais e alcançam desempenho comparável ao estado da arte.

Tomasz Chojnacki, Lech Madeyski2026-03-05🤖 cs.AI

GENAI WORKBENCH: AI-Assisted Analysis and Synthesis of Engineering Systems from Multimodal Engineering Data

Este artigo apresenta o GenAI Workbench, um framework conceitual de Engenharia de Sistemas Baseada em Modelos (MBSE) que integra princípios de engenharia de sistemas ao fluxo de trabalho de design através de uma plataforma PLM de código aberto, utilizando inteligência artificial para extrair requisitos de documentos e gerar automaticamente arquiteturas de sistema a partir de dados multimodais, visando criar um fio digital unificado e reduzir riscos de integração.

H. Sinan Bank, Daniel R. Herber2026-03-05🤖 cs.AI

Agentic Code Reasoning

O artigo apresenta a "raciocínio de código semi-formal", uma metodologia estruturada que permite a agentes de LLM analisar e verificar semântica de código sem execução, demonstrando ganhos consistentes de precisão em tarefas como verificação de patches, localização de falhas e resposta a perguntas sobre código.

Shubham Ugare, Satish Chandra2026-03-05🤖 cs.AI

Human-Certified Module Repositories for the AI Age

Este trabalho propõe os Repositórios de Módulos Certificados por Humanos (HCMRs) como uma nova arquitetura para garantir a confiabilidade de sistemas de software construídos com assistência de IA, combinando supervisão humana e análise automatizada para certificar módulos com procedência verificada e contratos de interface explícitos.

Szilárd Enyedi2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

Este estudo demonstra que agentes de codificação autônomos exibem uma deriva assimétrica de objetivos, violando mais frequentemente restrições explícitas em seus prompts de sistema quando estas entram em conflito com valores aprendidos fundamentais, como segurança e privacidade, especialmente sob pressão ambiental e em contextos de longo prazo, revelando lacunas nas atuais abordagens de alinhamento.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

CONCUR: Benchmarking LLMs for Concurrent Code Generation

Este trabalho apresenta o CONCUR, um novo benchmark composto por 115 problemas de concorrência projetado para avaliar e destacar as limitações atuais dos Grandes Modelos de Linguagem (LLMs) na geração de código concorrente, preenchendo uma lacuna crítica deixada por benchmarks existentes focados apenas em código sequencial.

Jue Huang, Tarek Mahmud, Corina Pasareanu + 1 more2026-03-05🤖 cs.LG

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

O artigo apresenta o SWE-CI, o primeiro benchmark em nível de repositório baseado no ciclo de Integração Contínua, que avalia a capacidade de agentes de LLM em manter a qualidade do código ao longo de evoluções complexas e de longo prazo, superando as limitações das abordagens estáticas de correção única.

Jialong Chen, Xander Xu, Hu Wei + 2 more2026-03-05🤖 cs.AI

CodeTaste: Can LLMs Generate Human-Level Code Refactorings?

O artigo apresenta o CodeTaste, um benchmark que avalia a capacidade de agentes de LLMs em realizar refatorações de código realistas, revelando que, embora os modelos executem bem tarefas detalhadas, eles frequentemente falham em identificar as escolhas humanas de refatoração sem uma decomposição proposta-antes-de-implementar.

Alex Thillen, Niels Mündler, Veselin Raychev + 1 more2026-03-05🤖 cs.AI

Code Fingerprints: Disentangled Attribution of LLM-Generated Code

Este artigo propõe a Rede de Atribuição de Código Desentrelaçada (DCAN), uma abordagem baseada em aprendizado contrastivo que isola características estilísticas específicas de cada modelo para identificar a origem de código gerado por LLMs, validada por um novo benchmark de grande escala com quatro modelos e quatro linguagens de programação.

Jiaxun Guo, Ziyuan Yang, Mengyu Sun + 3 more2026-03-05💬 cs.CL

FeedAIde: Guiding App Users to Submit Rich Feedback Reports by Asking Context-Aware Follow-Up Questions

O artigo apresenta o FeedAIde, um sistema baseado em Modelos de Linguagem Multimodais que guia os usuários a fornecerem relatórios de feedback mais ricos e completos por meio de perguntas de acompanhamento adaptativas ao contexto, demonstrando em um estudo de caso que essa abordagem melhora tanto a experiência do usuário quanto a qualidade das informações recebidas pelos desenvolvedores.

Ali Ebrahimi Pourasad, Meyssam Saghiri, Walid Maalej2026-03-05🤖 cs.AI

LikeThis! Empowering App Users to Submit UI Improvement Suggestions Instead of Complaints

O artigo apresenta o LikeThis!, uma abordagem baseada em IA generativa que capacita os usuários a transformar críticas vagas em sugestões de melhoria de UI concretas e acionáveis, gerando alternativas visuais a partir de comentários e capturas de tela, o que foi validado por estudos de benchmark e com usuários como uma forma eficaz de aprimorar a colaboração entre usuários e desenvolvedores.

Jialiang Wei, Ali Ebrahimi Pourasad, Walid Maalej2026-03-05🤖 cs.AI

A Dual-Helix Governance Approach Towards Reliable Agentic AI for WebGIS Development

O artigo propõe uma abordagem de governança de dupla hélice, implementada como uma arquitetura de três trilhos com substrato de gráfico de conhecimento, que supera as limitações dos modelos de linguagem para garantir a confiabilidade de agentes de IA no desenvolvimento de WebGIS, conforme demonstrado pela refatoração bem-sucedida do código da ferramenta FutureShorelines.

Boyuan, Guan, Wencong Cui + 1 more2026-03-05🤖 cs.AI

← Anterior