cs.SE artigos | Gist.Science

Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

Este estudo apresenta a primeira auditoria sistemática que revela como as "shadow APIs" enganam usuários e pesquisadores ao fornecerem respostas inconsistentes e inseguras em comparação com as APIs oficiais de modelos de linguagem, comprometendo a reprodutibilidade científica e a confiança nas ferramentas de IA.

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang2026-03-06🔒 cs.CR

LoRA-MME: Multi-Model Ensemble of LoRA-Tuned Encoders for Code Comment Classification

O artigo apresenta o LoRA-MME, uma solução de ensemble multi-modelo que combina quatro codificadores transformadores ajustados com LoRA para classificação de comentários de código, alcançando alta precisão semântica mas enfrentando penalidades de pontuação devido ao alto custo computacional na competição NLBSE'26.

Md Akib Haider, Ahsan Bulbul, Nafis Fuad Shahid + 2 more2026-03-06💻 cs

MPBMC: Multi-Property Bounded Model Checking with GNN-guided Clustering

Este artigo apresenta o MPBMC, uma abordagem híbrida que utiliza embeddings de redes neurais gráficas e estatísticas de tempo de execução para agrupar funcionalmente propriedades de hardware, acelerando significativamente a verificação formal por meio de Model Checking Limitado (BMC) em benchmarks do HWMCC.

Soumik Guha Roy, Sumana Ghosh, Ansuman Banerjee + 2 more2026-03-06💻 cs

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Este artigo apresenta a primeira avaliação multidimensional da influência acadêmica e da qualidade do código em 31 benchmarks de segurança de LLM, revelando que, embora os benchmarks não superem artigos não-benchmark em citações, existe uma desconexão crítica entre a proeminência dos autores e a qualidade do código, evidenciando a necessidade urgente de melhorar a reprodutibilidade e as considerações éticas nos repositórios.

Junjie Chu, Xinyue Shen, Ye Leng, Michael Backes, Yun Shen, Yang Zhang2026-03-06🔒 cs.CR

iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation

O artigo apresenta o iScript, um modelo de linguagem adaptado ao domínio de design físico e um benchmark correspondente, que superam os modelos de linguagem gerais na geração de scripts Tcl para o EDA ao utilizar um pipeline de síntese de dados multiestágio e uma estratégia de treinamento em duas etapas para mitigar a escassez de dados e garantir alta confiabilidade.

Ning Xu, Zhaoyang Zhang, Senlin Shu + 10 more2026-03-06💻 cs

CLARC: C/C++ Benchmark for Robust Code Search

O artigo apresenta o CLARC, um novo benchmark automatizado em C/C++ derivado de repositórios reais do GitHub, que avalia a robustez de modelos de busca de código sob condições desafiadoras como anonimização de identificadores e compilação para Assembly, revelando a dependência excessiva das tecnologias atuais em características lexicais em vez de compreensão semântica.

Kaicheng Wang, Liyan Huang, Weike Fang + 1 more2026-03-06💻 cs

Industrial Survey on Robustness Testing In Cyber Physical Systems

Este artigo apresenta os resultados de uma pesquisa industrial realizada na Valônia que avalia o estado atual das práticas de teste de robustez em Sistemas Ciber-Físicos, identificando desafios, lacunas em relação às metodologias de ponta e comparando os achados com estudos similares na literatura.

Christophe Ponsard, Abiola Paterne Chokki, Jean-François Daune2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Este artigo apresenta o "Vibe Code Bench", um novo benchmark que avalia a capacidade de 16 modelos de IA de desenvolver aplicações web completas do zero, revelando que, apesar dos avanços, a geração confiável de software end-to-end ainda é um desafio significativo e depende criticamente de estratégias como auto-teste e de protocolos rigorosos de avaliação humana.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Behaviour Driven Development Scenario Generation with Large Language Models

Este artigo avalia o desempenho de três modelos de linguagem (GPT-4, Claude 3 e Gemini) na geração automática de cenários de Desenvolvimento Orientado a Comportamento (BDD) a partir de um conjunto de dados de 500 histórias de usuário, revelando que, embora o GPT-4 apresente maior similaridade textual, o Claude 3 produz cenários de maior qualidade segundo especialistas humanos e avaliadores de IA, além de identificar que a qualidade da entrada, técnicas de *prompting* específicas e configurações de temperatura zero são determinantes para o sucesso da geração.

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei2026-03-06💻 cs

MOOSEnger -- a Domain-Specific AI Agent for the MOOSE Ecosystem

O MOOSEnger é um agente de IA especializado no ecossistema MOOSE que combina geração aumentada por recuperação com ferramentas de validação e execução determinísticas para converter intenções em linguagem natural em arquivos de entrada executáveis, alcançando uma taxa de sucesso de 93% em comparação com 8% em abordagens baseadas apenas em LLM.

Mengnan Li, Jason Miller, Zachary Prince + 2 more2026-03-06💻 cs

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

O artigo apresenta o FireBench, um novo benchmark de código aberto com mais de 2.400 amostras que avalia a capacidade de modelos de linguagem seguirem instruções em cenários empresariais e de API, preenchendo a lacuna deixada por benchmarks existentes focados apenas em assistentes de chat.

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Public Sector Open Source Program Offices - Archetypes for how to Grow (Common) Institutional Capabilities

Este estudo qualitativo analisa 16 casos de Escritórios de Programas de Código Aberto (OSPOs) no setor público europeu para identificar seis arquétipos organizacionais e oferecer diretrizes práticas sobre como desenvolver capacidades institucionais que promovam a adoção estratégica de software de código aberto, a soberania digital e a interoperabilidade dos serviços públicos.

Johan Linåker, Astor Nummelin Carlberg, Ciaran O'Riordan2026-03-06💻 cs

Auto-Generating Personas from User Reviews in VR App Stores

Este estudo apresenta um sistema de geração automática de personas a partir de avaliações de usuários em lojas de aplicativos de VR, demonstrando que essa abordagem facilita a elicitação de requisitos de acessibilidade latentes e promove uma maior empatia entre os estudantes durante o desenvolvimento de projetos de VR.

Yi Wang, Kexin Cheng, Xiao Liu + 4 more2026-03-06💻 cs

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

O artigo apresenta o RepoLaunch, o primeiro agente capaz de automatizar a resolução de dependências, compilação e extração de resultados de testes em repositórios de código de qualquer linguagem e plataforma, permitindo a criação escalável de conjuntos de dados para treinamento e avaliação de agentes de engenharia de software.

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Why Do You Contribute to Stack Overflow? Understanding Cross-Cultural Motivations and Usage Patterns before the Age of LLMs

Este estudo investiga as motivações e padrões de uso dos contribuidores do Stack Overflow antes da era dos LLMs, revelando diferenças culturais significativas entre os Estados Unidos, China e Rússia, onde os norte-americanos tendem a focar na autopromoção enquanto os chineses priorizam o aprendizado, com implicações para estratégias de participação cruzada na engenharia de software.

Sherlock A. Licorish, Elijah Zolduoarrati, Tony Savarimuthu + 3 more2026-03-06💻 cs

A Benchmarking Framework for Model Datasets

Este artigo propõe um framework de benchmarking e uma plataforma unificada para avaliar sistematicamente a qualidade, representatividade e adequação de conjuntos de dados de modelos de software, visando superar a falta de padronização e garantir a reprodutibilidade e comparabilidade em pesquisas de engenharia de modelos orientada a dados.

Philipp-Lorenz Glaser, Lola Burgueño, Dominik Bork2026-03-06💻 cs

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models

Este artigo propõe um framework genérico para avaliar a capacidade de modelos de linguagem em gerar código de linguagens de domínio específico (DSLs) baseadas em restrições, como OCL e Alloy, demonstrando que, embora seu desempenho seja inferior ao de linguagens gerais como Python, técnicas como reparo de código e múltiplas tentativas podem melhorar significativamente a qualidade dos resultados.

David Delgado, Lola Burgueño, Robert Clarisó2026-03-06💻 cs

Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation

Este estudo apresenta a primeira avaliação empírica em larga escala da geração de testes unitários por modelos de linguagem (LLMs), demonstrando que, embora técnicas de raciocínio como GToT melhorem a confiabilidade e a legibilidade em comparação com métodos baseados em busca, as altas taxas de falhas de compilação e defeitos de manutenção exigem abordagens híbridas para resultados prontos para produção.

Wendkûuni C. Ouédraogo, Kader Kaboré, Yinghua Li + 5 more2026-03-05💻 cs

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

Este trabalho apresenta o TrashFuzz, um algoritmo de fuzzing que identifica cenários realistas de adversários ao manipular a posição de objetos comuns na estrada, violando diretrizes de design viário e induzindo o sistema de direção autônoma Apollo a cometer erros de percepção e infringir leis de trânsito.

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs

Formal Analysis of the Contract Automata Runtime Environment with Uppaal: Modelling, Verification and Testing

Este artigo detalha a modelagem formal, verificação e teste do ambiente de execução de autômatos de contrato (CARE) utilizando a ferramenta Uppaal, demonstrando como essas técnicas melhoram a confiabilidade da aplicação distribuída de código aberto.

Davide Basile2026-03-05💻 cs

← Anterior Próximo →