cs.SE artigos | Gist.Science

"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

Este estudo investiga os desafios da integração de assistentes de IA no fluxo de trabalho de engenharia de software, identificando nove tipos de falhas que levaram a maioria dos participantes a abandonar a ferramenta devido a respostas incorretas, sobrecarga cognitiva e perda de contexto, embora a persistência no uso de prompts tenha reduzido significativamente a probabilidade de abandono.

Jiessie Tie, Bingsheng Yao, Tianshi Li, Hongbo Fang, Syed Ishtiaque Ahmed, Dakuo Wang, Shurui ZhouWed, 11 Ma💻 cs

Towards a Taxonomy of Software Log Smells

Este estudo propõe uma taxonomia de nove "maus odores" (smells) de logs, derivada de uma revisão sistemática da literatura e mapeada para ferramentas existentes, com o objetivo de auxiliar desenvolvedores a escreverem código de log de maior qualidade e identificar lacunas na pesquisa atual.

Nyyti Saarimäki, Donghwan Shin, Domenico BianculliWed, 11 Ma💻 cs

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

O artigo apresenta o GateLens, um agente baseado em LLM que utiliza Álgebra Relacional como representação intermediária formal para traduzir consultas em linguagem natural em código Python otimizado, superando sistemas existentes em precisão e velocidade para análise de dados tabulares complexos no setor automotivo.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Evaluating Large Language Models for Multilingual Vulnerability Detection at Dual Granularities

Este estudo realiza uma avaliação empírica abrangente de modelos de linguagem pré-treinados e grandes modelos de linguagem (LLMs) para detecção de vulnerabilidades em múltiplas linguagens e granularidades, demonstrando que o GPT-4o, otimizado com ajuste de instrução e *few-shot prompting*, supera significativamente outras abordagens na identificação de vulnerabilidades críticas em diversos contextos.

Honglin Shu, Michael Fu, Junji Yu, Dong Wang, Chakkrit Tantithamthavorn, Junjie Chen, Yasutaka KameiWed, 11 Ma💻 cs

Floating-Point Usage on GitHub: A Large-Scale Study of Statically Typed Languages

Este artigo apresenta o primeiro estudo em grande escala sobre o uso de aritmética de ponto flutuante em repositórios públicos do GitHub para linguagens estaticamente tipadas, analisando milhões de funções para validar benchmarks existentes e fornecer um novo conjunto de dados de 10 milhões de funções para orientar o desenvolvimento e a avaliação de futuras técnicas de raciocínio automatizado.

Andrea Gilot, Tobias Wrigstad, Eva DarulovaWed, 11 Ma💻 cs

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

O artigo apresenta o SEER, um quadro de trabalho adaptativo que otimiza a eficiência do raciocínio em cadeia de pensamento (CoT) em modelos de linguagem, comprimindo a verborragia desnecessária e reduzindo custos computacionais sem comprometer a precisão em tarefas de engenharia de software e matemática.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

Este artigo apresenta o Preguss, um framework modular que combina análise estática e modelos de linguagem para automatizar a geração e refinamento de especificações formais, permitindo a verificação de programas de grande escala com mais de 1000 linhas de código e reduzindo o esforço humano em até 88,9%.

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei YinWed, 11 Ma💻 cs

Towards a Goal-Centric Assessment of Requirements Engineering Methods for Privacy by Design

Este artigo propõe uma abordagem centrada em objetivos para avaliar métodos de engenharia de requisitos voltados à Privacidade desde a Concepção (PbD), sugerindo que a adequação desses métodos deve ser medida com base nas metas organizacionais em vez de apenas nas características do processo.

Oleksandr Kosenkov, Ehsan Zabardast, Jannik Fischbach, Tony Gorschek, Daniel MendezWed, 11 Ma💻 cs

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

O artigo apresenta o SkillCraft, um benchmark projetado para avaliar a capacidade de agentes LLM de abstrair e reutilizar composições de ferramentas como "habilidades" persistentes, demonstrando que essa competência não apenas melhora significativamente a eficiência (reduzindo o uso de tokens em até 80%), mas também se correlaciona fortemente com o sucesso em tarefas complexas.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

O artigo apresenta o SiliconMind-V1, um framework multi-agente que utiliza geração de dados orientada a raciocínio e verificação baseada em testbenches para permitir que modelos de linguagem localmente ajustados gerem, testem e depurem designs RTL em Verilog com maior correção funcional e menor custo do que os métodos existentes.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

O artigo apresenta o KernelCraft, o primeiro benchmark que avalia a capacidade de agentes de IA de gerar e otimizar automaticamente kernels de baixo nível para aceleradores emergentes com instruções personalizadas, demonstrando que esses sistemas podem produzir código funcional e eficiente, reduzindo significativamente o tempo e o custo de desenvolvimento para novas arquiteturas de hardware.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

FormalRTL: Verified RTL Synthesis at Scale

O artigo apresenta o FormalRTL, um novo framework multiagente que integra modelos de referência de software como especificações formais para gerar e verificar código RTL de forma escalável e confiável, superando os desafios de síntese de hardware em escala industrial.

Kezhi Li, Min Li, Xiangyu Wen, Shibo Zhao, Jieying Wu, Junhua Huang, Qiang XuWed, 11 Ma💻 cs

Extension of ACETONE C code generator for multi-core architectures

Este artigo propõe a extensão do gerador de código C ACETONE, originalmente limitado a sequências, para arquiteturas multicore, definindo formalmente o problema de alocação de processadores e planejando a implementação de heurísticas de agendamento, mecanismos de sincronização e avaliação de tempo de execução no pior caso.

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

Turn: A Language for Agentic Computation

O artigo apresenta o Turn, uma linguagem de programação compilada e baseada em atores projetada para software autônomo, que introduz garantias de nível de linguagem para segurança de tipos em inferência de LLMs, controle de fluxo baseado em confiança, isolamento de contexto, gestão segura de credenciais e absorção de esquemas em tempo de compilação, superando as limitações das abordagens atuais que tratam esses invariáveis apenas como convenções de aplicação.

Muyukani KizitoWed, 11 Ma🤖 cs.AI

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

O artigo apresenta a TDAD, uma metodologia que trata prompts de agentes de IA como artefatos compilados, utilizando especificações comportamentais convertidas em testes executáveis e refinados iterativamente para garantir conformidade mensurável e prevenir regressões silenciosas em agentes que utilizam ferramentas.

Tzafrir RehanWed, 11 Ma🤖 cs.AI

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Este artigo apresenta o Protocolo de Delegação de LLM (LDP), um protocolo nativo de IA que introduz mecanismos de identidade e confiança para melhorar a eficiência, a governança e a segurança em sistemas multiagentes, demonstrando através de uma implementação experimental reduções significativas na latência e no consumo de tokens, embora alerte que metadados de confiança sem verificação podem prejudicar a qualidade.

Sunil PrakashWed, 11 Ma🤖 cs.AI

GenAI Is No Silver Bullet for Qualitative Research in Software Engineering

Este artigo argumenta que a Inteligência Artificial Generativa não é uma solução universal para a pesquisa qualitativa em Engenharia de Software, destacando a necessidade de adaptação cuidadosa às estratégias de pesquisa específicas e analisando suas promessas, limitações e implicações para a qualidade da pesquisa.

Neil A. Ernst, Christoph TreudeWed, 11 Ma💻 cs

Arbiter: Detecting Interference in LLM Agent System Prompts

O artigo apresenta o Arbiter, um framework que combina regras de avaliação formal e varredura com múltiplos modelos de linguagem para detectar padrões de interferência em prompts de sistema de agentes de codificação, revelando vulnerabilidades críticas em ferramentas de grandes empresas e demonstrando que a arquitetura do prompt influencia o tipo de falha, mas não sua gravidade.

Tony MasonWed, 11 Ma🤖 cs.AI

Can AI Agents Generate Microservices? How Far are We?

O estudo avalia a capacidade de agentes de IA de gerar microsserviços funcionais, concluindo que, embora consigam produzir código de qualidade e aderir a contratos de API, a geração totalmente autônoma ainda não é viável devido à inconsistência na correção e à necessidade de supervisão humana.

Bassam Adnan, Matteo Esposito, Davide Taibi, Karthik VaidhyanathanWed, 11 Ma💻 cs

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

O artigo apresenta o Pichay, um sistema de paginação sob demanda que trata o contexto de modelos de linguagem como uma hierarquia de memória virtual, reduzindo drasticamente o consumo de recursos ao evitarem conteúdo obsoleto e recuperando-o automaticamente quando necessário, demonstrando que problemas como limites de contexto e degradação de atenção são essencialmente questões de gerenciamento de memória.

Tony MasonWed, 11 Ma🤖 cs.AI