cs.SE artigos | Gist.Science

Process-Centric Analysis of Agentic Software Systems

Este artigo apresenta o Graphectory, uma abordagem centrada em processos para analisar e monitorar em tempo real sistemas de software agênticos, permitindo a identificação e correção de trajetórias ineficientes, o que resulta em taxas de resolução significativamente maiores e trajetórias mais curtas.

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan JabbarvandTue, 10 Ma💬 cs.CL

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

O artigo apresenta o DevBench, um benchmark baseado em dados reais de desenvolvedores que avalia modelos de linguagem em tarefas de geração de código com alta validade ecológica, oferecendo diagnósticos detalhados sobre precisão sintática, raciocínio semântico e utilidade prática para orientar a seleção e o aprimoramento de modelos.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie NallipoguTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

Este estudo demonstra que métricas espectrais extraídas de redes estruturais de requisitos, utilizando integração molecular como proxy controlado, preveem o esforço de integração com correlações superiores a 0,95, preenchendo uma lacuna crítica na quantificação da complexidade em engenharia de requisitos.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

O artigo apresenta o GraphSkill, um framework de codificação com recuperação aumentada hierárquica guiada por documentação e agente de autodepuração, que supera as limitações de métodos existentes ao explorar a estrutura hierárquica de documentos técnicos e corrigir erros lógicos, validado por meio de um novo dataset e experimentos que demonstram maior precisão e menor custo de inferência em raciocínio complexo sobre grafos.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang WangTue, 10 Ma🤖 cs.LG

ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution

O artigo apresenta o ResearchEnvBench, um novo benchmark que avalia a capacidade de agentes autônomos de sintetizar ambientes de execução para código de pesquisa, revelando lacunas significativas nas soluções atuais quanto à resolução de dependências e compatibilidade de versões.

Yubang Wang, Chenxi Zhang, Bowen Chen, Zezheng Huai, Zihao Dai, Xinchi Chen, Yuxin Wang, Yining Zheng, Jingjing Gong, Xipeng QiuTue, 10 Ma💻 cs

Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes

Este estudo empírico analisa 13.602 problemas em sistemas de IA agêntica para desenvolver uma taxonomia validada de falhas, sintomas e causas raízes, revelando padrões de propagação e a origem comum de erros em mismatches entre artefatos probabilísticos e restrições determinísticas.

Mehil B Shah, Mohammad Mehdi Morovati, Mohammad Masudur Rahman, Foutse KhomhTue, 10 Ma💻 cs

Patch Validation in Automated Vulnerability Repair

O artigo apresenta o PVBench, um novo benchmark que revela que mais de 40% dos patches gerados por sistemas automáticos de reparo de vulnerabilidades, embora aprovados por testes básicos, falham em testes avançados ( $\text{PoC}^+$ ), evidenciando a necessidade de melhorar a análise de causas raízes, a aderência a especificações e a captura da intenção dos desenvolvedores.

Zheng Yu, Wenxuan Shi, Xinqian Sun, Zheyun Feng, Meng Xu, Xinyu XingTue, 10 Ma💻 cs

A Declarative Framework for Hand-Crafted Mutation Analysis and Management

O artigo apresenta um framework declarativo chamado Marauder que unifica a análise e gestão de mutações manuais através de cinco representações, uma álgebra de mutação e um pipeline de conversão sem perdas, visando superar as limitações atuais de ferramentas de teste ao equilibrar legibilidade, preservação de mutações e custo de execução.

Alperen KelesTue, 10 Ma💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

Este estudo estabelece um quadro de avaliação multidimensional para modelos de linguagem pequenos (SLMs) na arquitetura de software, revelando que modelos acima de 3B parâmetros possuem capacidades robustas em zero-shot, enquanto os menores beneficiam-se mais do ajuste fino, e que a alta diversidade semântica em modelos prontos muitas vezes indica alucinação em vez de exploração produtiva.

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son HaTue, 10 Ma💻 cs

A Hybrid LTR-based System via Social Context Embedding for Recommending Solutions of Software Bugs in Developer Communities

Este artigo propõe um sistema híbrido de recomendação baseado em *Learning-to-Rank* e incorporação de contexto social, que utiliza técnicas de mineração de texto e aprendizado profundo em dados do Stack Overflow para auxiliar desenvolvedores a encontrar soluções para bugs de software, alcançando uma precisão de aproximadamente 78% ao sugerir as 10 melhores respostas.

Fouzi Harrag, Mokdad KhemlicheTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Este estudo empírico demonstra que, sob diversas restrições de implantação, quatro modelos de linguagem de grande porte (LLMs) apresentam altas taxas de alucinação de citações bibliográficas, com taxas de existência verificável inferiores a 47,5%, o que reforça a necessidade imperativa de validação pós-geração antes de seu uso em síntese de evidências de engenharia de software.

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

Echo: Graph-Enhanced Retrieval and Execution Feedback for Issue Reproduction Test Generation

O artigo apresenta o Echo, um agente inovador que utiliza recuperação aprimorada por grafos de código e feedback de execução automática para gerar casos de teste de reprodução de bugs com alta eficiência, estabelecendo um novo estado da arte com uma taxa de sucesso de 66,28% no conjunto de dados SWT-Bench Verified.

Zhiwei Fei, Yue Pan, Federica Sarro, Jidong Ge, Marc Liu, Vincent Ng, He YeTue, 10 Ma💻 cs

Regression Testing in Remote and Hybrid Software Teams: An Exploratory Study of Processes, Tools, and Practices

Este estudo qualitativo com vinte profissionais de software revela que, em ambientes remotos e híbridos, a execução do teste de regressão mantém-se estável em sua essência, mas depende crescentemente de documentação robusta, automação e integração de ferramentas para superar os desafios de coordenação e comunicação, transformando-se em uma prática socio-técnica moldada pela infraestrutura digital.

Juliane Pascoal, Cleytton Magalhaes, Ronnie de Souza SantosTue, 10 Ma💻 cs

Empathy in Software Engineering Education: Evidence, Practices, and Opportunities

Este estudo de revisão sistemática analisa como a empatia é ensinada e aplicada na educação em engenharia de software, concluindo que, embora atualmente fragmentada, sua integração estruturada e mensurável nos currículos é essencial para desenvolver profissionais mais colaborativos, éticos e centrados no usuário.

Matheus de Morais Leca, Kim Johnston, Ronnie de Souza SantosTue, 10 Ma💻 cs

On the Effectiveness of Code Representation in Deep Learning-Based Automated Patch Correctness Assessment

Este estudo realiza a primeira avaliação extensiva da eficácia de diferentes representações de código na previsão da correção de patches, demonstrando que representações baseadas em grafos superam consistentemente outras abordagens e que a integração de representações sequenciais a heurísticas melhora significativamente a detecção de patches com sobreajuste.

Quanjun Zhang, Chunrong Fang, Haichuan Hu, Yuan Zhao, Weisong Sun, Yun Yang, Tao Zheng, Zhenyu ChenTue, 10 Ma💻 cs

AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

O artigo apresenta o AgentRaft, um novo framework automatizado que combina análise de código e raciocínio semântico para detectar e mitigar o risco de "Data Over-Exposure" (exposição excessiva de dados) em agentes de LLM, demonstrando alta eficácia na identificação de violações de privacidade em ferramentas reais.

Yixi Lin (Sun Yat-sen University, Zhuhai, Guangdong, China), Jiangrong Wu (Sun Yat-sen University, Zhuhai, Guangdong, China), Yuhong Nan (Sun Yat-sen University, Zhuhai, Guangdong, China), Xueqiang Wang (University of Central Florida, Orlando, Florida, USA), Xinyuan Zhang (Sun Yat-sen University, Zhuhai, Guangdong, China), Zibin Zheng (Sun Yat-sen University, Zhuhai, Guangdong, China)Tue, 10 Ma💻 cs

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

O artigo apresenta o KCoEvo, um framework aprimorado por grafos de conhecimento que divide a migração de código em recuperação de caminhos evolutivos e geração informada, superando as limitações dos modelos de linguagem padrão ao lidar com mudanças em APIs de terceiros.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin QiTue, 10 Ma💬 cs.CL

The Effect of Code Obfuscation on Human Program Comprehension

Este estudo investiga como a ofuscação de código afeta a compreensão humana em Python e JavaScript, revelando que, embora a ofuscação geralmente aumente o tempo de análise e reduza a precisão, a relação não é estritamente monotônica e varia conforme a linguagem, com a experiência do programador influenciando principalmente a familiaridade com a sintaxe específica e não a capacidade geral de programação.

Anh H. N. Nguyen, Jack Le, Ilse Lahnstein Coronado, Tien N. NguyenTue, 10 Ma💻 cs

The role of team diversity in AI systems development

Este estudo, baseado em entrevistas com profissionais de quatro equipes de IA em uma grande empresa de software no Brasil e em Portugal, revela que a diversidade de equipes desempenha um papel fundamental no desenvolvimento de sistemas de IA ao identificar vieses, promover empatia, combater discriminação sistêmica e fomentar decisões mais inclusivas e criativas.

Ronnie de Souza Santos, Maria Teresa Baldassarre, Cleyton MagalhaesTue, 10 Ma💻 cs

IOTEL: A Tool for Generating IoT-enriched Object-Centric Event Logs

O artigo apresenta o IOTEL, uma ferramenta que permite a geração sistemática de logs de eventos centrados em objetos (OCEL) enriquecidos com dados de IoT, facilitando a integração estruturada de informações de sensores em logs de processos existentes para análise por meio de mineração de processos.

Jia Wei, Xin Su, Chun OuyangTue, 10 Ma💻 cs

← Anterior Próximo →