cs.SE artigos | Gist.Science

SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments

O artigo apresenta o SpecOps, um novo framework de teste totalmente automatizado que utiliza agentes especializados baseados em LLMs para avaliar e identificar falhas em agentes de IA operando em ambientes de interface gráfica do mundo real, demonstrando superioridade em precisão, eficácia na detecção de bugs e viabilidade prática em comparação com abordagens existentes.

Syed Yusuf Ahmed, Shiwei Feng, Chanwoo Bae, Calix Barrus Xiangyu ZhangThu, 12 Ma💻 cs

From Verification to Herding: Exploiting Software's Sparsity of Influence

O artigo propõe uma mudança da verificação tradicional para a "herding" (direcionamento), explorando a "Esparsidade de Influência" em sistemas complexos por meio do EZR, um aprendiz estocástico que alcança 90% dos resultados máximos com apenas 32 amostras, substituindo solucionadores pesados por amostragem leve.

Tim Menzies, Kishan Kumar GangulyThu, 12 Ma💻 cs

FP-Predictor - False Positive Prediction for Static Analysis Reports

Este trabalho apresenta o FP-Predictor, um modelo de Rede Neural Convolucional em Grafos (GCN) que utiliza Grafos de Propriedade de Código (CPGs) para prever com alta precisão falsos positivos em relatórios de Análise Estática de Segurança (SAST), alcançando 100% de acurácia no CamBenchCAP e 96,6% no CryptoAPI-Bench.

Tom Ohlmer, Michael Schlichtig, Eric BoddenThu, 12 Ma💻 cs

QuantumX: an experience for the consolidation of Quantum Computing and Quantum Software Engineering as an emerging discipline

Este artigo sintetiza a primeira edição do track QuantumX, realizada no JISBD 2025, que consolidou a comunidade de pesquisa espanhola e ibero-americana ao explorar a interseção entre Computação Quântica e Engenharia de Software, definindo desafios futuros e posicionando a Espanha como um contribuinte emergente no ecossistema global de software quântico.

Juan M. Murillo, Ignacio García Rodríguez de Guzmán, Enrique Moguel, Javier Romero-Álvarez, Jaime Alvarado-Valiente, Álvaro M. Aparicio-Morales, Jose Garcia-Alonso, Ana Díaz Muñoz, Eduardo Fernández-Medina, Francisco Chicano, Carlos Canal, José Daniel Viqueira, Sebastián Villarroya, Eduardo Gutiérrez, Adrián Romero-Flores, Alfonso E. Márquez-Chamorro, Antonio Ruiz-Cortes, Cyrille YetuYetu Kesiku, Pedro Sánchez, Diego Alonso Cáceres, Lidia Sánchez-González, Fernando PlouThu, 12 Ma💻 cs

ESG Reporting Lifecycle Management with Large Language Models and AI Agents

Este artigo propõe um novo framework de ciclo de vida agênico para relatórios ESG que integra agentes de IA para automatizar e transformar o processo de relatórios de sustentabilidade, tornando-o dinâmico, adaptável e baseado em feedback contínuo.

Thong Hoang, Mykhailo Klymenko, Xiwei Xu, Shidong Pan, Yi Ding, Xushuo Tang, Zhengyi Yang, Jieke Shi, David LoThu, 12 Ma💻 cs

From Education to Evidence: A Collaborative Practice Research Platform for AI-Integrated Agile Development

Este artigo apresenta uma plataforma educacional baseada em projetos e integrada à IA, que funciona como um ambiente de pesquisa colaborativa para gerar evidências práticas e reutilizáveis sobre o desenvolvimento ágil, preenchendo a lacuna entre estudos controlados e a indústria real.

Tobias Geger, Andreas Rausch, Ina Schiering, Frauke Stenzel, Stefan WittekThu, 12 Ma💻 cs

Packaging Jupyter notebooks as installable desktop apps using LabConstrictor

O artigo apresenta o LabConstrictor, uma ferramenta que automatiza a conversão de notebooks Jupyter em aplicativos de desktop instaláveis, superando barreiras de distribuição e reprodutibilidade para facilitar a adoção de software acadêmico nas ciências da vida.

Iván Hidalgo-Cenalmor, Marcela Xiomara Rivera Pineda, Bruno M. Saraiva, Ricardo Henriques, Guillaume JacquemetThu, 12 Ma🧬 q-bio

Nurture-First Agent Development: Building Domain-Expert AI Agents Through Conversational Knowledge Crystallization

O artigo propõe o Desenvolvimento Primeiro do Cuidado (NFD), um novo paradigma que substitui as abordagens tradicionais de codificação ou prompts estáticos pelo crescimento progressivo de agentes de IA especializados através de interações conversacionais estruturadas com praticantes do domínio, utilizando um Ciclo de Cristalização do Conhecimento para transformar o conhecimento tácito e fragmentado em ativos reutilizáveis.

Linghao ZhangThu, 12 Ma🤖 cs.AI

Exploring Indicators of Developers' Sentiment Perceptions in Student Software Projects

Este estudo investigou como traços de humor, circunstâncias de vida e dinâmicas de grupo influenciam a percepção de sentimentos em mensagens de desenvolvimento de software por estudantes, revelando que essa percepção é moderadamente estável, altamente dependente do conteúdo da mensagem e pouco afetada por fases do projeto, o que sugere cautela ao interpretar análises de sentimento automatizadas.

Martin Obaidi, Marc Herrmann, Jendrik Martensen, Jil Klünder, Kurt SchneiderThu, 12 Ma💻 cs

STADA: Specification-based Testing for Autonomous Driving Agents

O artigo apresenta o STADA, um framework baseado em especificações que gera automaticamente cenários de teste diversificados para agentes de direção autônoma a partir de especificações formais em lógica temporal, demonstrando superioridade em cobertura e eficiência em comparação com métodos existentes.

Joy Saha, Trey Woodlief, Sebastian Elbaum, Matthew B. DwyerThu, 12 Ma💻 cs

TOSSS: a CVE-based Software Security Benchmark for Large Language Models

O artigo apresenta o TOSSS, um novo benchmark baseado no banco de dados CVE que avalia a capacidade de Grandes Modelos de Linguagem (LLMs) de distinguir entre trechos de código seguros e vulneráveis, atribuindo uma pontuação de segurança que varia de 0 a 1.

Marc Damie, Murat Bilgehan Ertan, Domenico Essoussi, Angela Makhanu, Gaëtan Peter, Roos WensveenThu, 12 Ma🤖 cs.LG

Artificial Intelligence as a Catalyst for Innovation in Software Engineering

Este artigo investiga como a Inteligência Artificial atua como catalisador para a inovação na Engenharia de Software, demonstrando através de revisão bibliográfica e estudo empírico que a integração de ferramentas de ML e NLP otimiza práticas ágeis ao automatizar tarefas repetitivas e melhorar a gestão de requisitos, geração de código e testes.

Carlos Alberto Fernández-y-Fernández, Jorge R. Aguilar-CisnerosThu, 12 Ma🤖 cs.AI

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

Este artigo apresenta uma análise sistemática de 178 benchmarks para modelos de linguagem e agentes de código, revelando um desequilíbrio significativo que prioriza excessivamente a fase de implementação em detrimento do planejamento e design, além de apontar a falta de estratégias contra contaminação de dados e propor direções futuras para alinhar as capacidades teóricas dessas ferramentas com sua eficácia prática no ciclo de vida de desenvolvimento de software.

Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Aishan Liu, Xianglong Liu, Chao Shen, Bin ShiMon, 09 Ma🤖 cs.AI

Systems of Twinned Systems: A Systematic Literature Review

Este artigo apresenta uma revisão sistemática da literatura sobre "sistemas de sistemas gêmeos", analisando 80 estudos selecionados de uma amostra inicial de mais de 2.500 para derivar um quadro de classificação que integra os paradigmas de sistemas de sistemas e gêmeos digitais.

Feyi Adesanya, Kanan Castro Silva, Valdemar V. Graciano Neto, Istvan DavidMon, 09 Ma💻 cs

ROS-related Robotic Systems Development with V-model-based Application of MeROS Metamodel

Este artigo propõe uma metodologia estruturada baseada no metamodelo MeROS e adaptada ao modelo em V para integrar a Engenharia de Sistemas Baseada em Modelos (MBSE) com o Robot Operating System (ROS), visando garantir coerência semântica e rastreabilidade no desenvolvimento de sistemas robóticos heterogêneos complexos.

Tomasz Winiarski, Jan Kaniuka, Daniel Giełdowski, Jakub Ostrysz, Krystian Radlak, Dmytro KushnirMon, 09 Ma💻 cs

UniCoR: Modality Collaboration for Robust Cross-Language Hybrid Code Retrieval

O artigo apresenta o UniCoR, um novo framework auto-supervisionado que supera os desafios de recuperação híbrida de código em cenários multilíngues ao alinhar representações de múltiplas perspectivas e distribuições, resultando em desempenho superior e generalização robusta.

Yang Yang, Li Kuang, Jiakun Liu, Zhongxin Liu, Yingjie Xia, David LoMon, 09 Ma💻 cs

A Structured Approach to Safety Case Construction for AI Systems

Este artigo propõe uma abordagem estruturada e reutilizável para a construção de casos de segurança em sistemas de IA, introduzindo taxonomias específicas e modelos adaptados para lidar com as dinâmicas imprevisíveis e evolutivas da IA generativa e agêntica, superando as limitações dos métodos tradicionais de engenharia.

Sung Une Lee, Liming Zhu, Md Shamsujjoha, Liming Dong, Qinghua Lu, Jieshan Chen, Lionel BriandMon, 09 Ma💻 cs

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

O artigo apresenta o SWE-MiniSandbox, uma abordagem leve e sem containers que utiliza mecanismos isolados no nível do kernel e técnicas de pré-armazenamento para reduzir drasticamente a sobrecarga de disco e o tempo de configuração no treinamento de agentes de engenharia de software por aprendizado por reforço, mantendo desempenho comparável ao dos pipelines baseados em containers.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan ZhaoMon, 09 Ma🤖 cs.AI

The Limits of Long-Context Reasoning in Automated Bug Fixing

Este estudo demonstra que, apesar do desempenho promissor de modelos de linguagem em fluxos de trabalho agênicos para correção de bugs, a capacidade de raciocínio em contextos longos é limitada, pois o sucesso depende da decomposição de tarefas em etapas de contexto curto, enquanto a geração de patches em contextos genuinamente longos (64k tokens) resulta em degradação severa de desempenho devido a falhas sistemáticas.

Ravi Raju, Mengmeng Ji, Shubhangi Upasani, Bo Li, Urmish ThakkerMon, 09 Ma🤖 cs.LG

Theory of Code Space: Do Code Agents Understand Software Architecture?

O artigo apresenta o "Theory of Code Space" (ToCS), um benchmark que avalia a capacidade de agentes de IA de construir e manter crenças arquiteturais coerentes em bases de código, revelando que a eficácia da exploração ativa, o uso de mapas de crenças estruturados e a estabilidade da memória variam significativamente entre diferentes modelos de linguagem.

Grigory SapunovMon, 09 Ma🤖 cs.AI

← Anterior Próximo →