"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

Este estudo investiga os desafios da integração de assistentes de IA no fluxo de trabalho de engenharia de software, identificando nove tipos de falhas que levaram a maioria dos participantes a abandonar a ferramenta devido a respostas incorretas, sobrecarga cognitiva e perda de contexto, embora a persistência no uso de prompts tenha reduzido significativamente a probabilidade de abandono.

Jiessie Tie, Bingsheng Yao, Tianshi Li, Hongbo Fang, Syed Ishtiaque Ahmed, Dakuo Wang, Shurui ZhouWed, 11 Ma💻 cs

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

O artigo apresenta o GateLens, um agente baseado em LLM que utiliza Álgebra Relacional como representação intermediária formal para traduzir consultas em linguagem natural em código Python otimizado, superando sistemas existentes em precisão e velocidade para análise de dados tabulares complexos no setor automotivo.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Evaluating Large Language Models for Multilingual Vulnerability Detection at Dual Granularities

Este estudo realiza uma avaliação empírica abrangente de modelos de linguagem pré-treinados e grandes modelos de linguagem (LLMs) para detecção de vulnerabilidades em múltiplas linguagens e granularidades, demonstrando que o GPT-4o, otimizado com ajuste de instrução e *few-shot prompting*, supera significativamente outras abordagens na identificação de vulnerabilidades críticas em diversos contextos.

Honglin Shu, Michael Fu, Junji Yu, Dong Wang, Chakkrit Tantithamthavorn, Junjie Chen, Yasutaka KameiWed, 11 Ma💻 cs

Floating-Point Usage on GitHub: A Large-Scale Study of Statically Typed Languages

Este artigo apresenta o primeiro estudo em grande escala sobre o uso de aritmética de ponto flutuante em repositórios públicos do GitHub para linguagens estaticamente tipadas, analisando milhões de funções para validar benchmarks existentes e fornecer um novo conjunto de dados de 10 milhões de funções para orientar o desenvolvimento e a avaliação de futuras técnicas de raciocínio automatizado.

Andrea Gilot, Tobias Wrigstad, Eva DarulovaWed, 11 Ma💻 cs

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

Este artigo apresenta o Preguss, um framework modular que combina análise estática e modelos de linguagem para automatizar a geração e refinamento de especificações formais, permitindo a verificação de programas de grande escala com mais de 1000 linhas de código e reduzindo o esforço humano em até 88,9%.

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei YinWed, 11 Ma💻 cs

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

O artigo apresenta o SkillCraft, um benchmark projetado para avaliar a capacidade de agentes LLM de abstrair e reutilizar composições de ferramentas como "habilidades" persistentes, demonstrando que essa competência não apenas melhora significativamente a eficiência (reduzindo o uso de tokens em até 80%), mas também se correlaciona fortemente com o sucesso em tarefas complexas.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

O artigo apresenta o SiliconMind-V1, um framework multi-agente que utiliza geração de dados orientada a raciocínio e verificação baseada em testbenches para permitir que modelos de linguagem localmente ajustados gerem, testem e depurem designs RTL em Verilog com maior correção funcional e menor custo do que os métodos existentes.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

O artigo apresenta o KernelCraft, o primeiro benchmark que avalia a capacidade de agentes de IA de gerar e otimizar automaticamente kernels de baixo nível para aceleradores emergentes com instruções personalizadas, demonstrando que esses sistemas podem produzir código funcional e eficiente, reduzindo significativamente o tempo e o custo de desenvolvimento para novas arquiteturas de hardware.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

Extension of ACETONE C code generator for multi-core architectures

Este artigo propõe a extensão do gerador de código C ACETONE, originalmente limitado a sequências, para arquiteturas multicore, definindo formalmente o problema de alocação de processadores e planejando a implementação de heurísticas de agendamento, mecanismos de sincronização e avaliação de tempo de execução no pior caso.

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

Turn: A Language for Agentic Computation

O artigo apresenta o Turn, uma linguagem de programação compilada e baseada em atores projetada para software autônomo, que introduz garantias de nível de linguagem para segurança de tipos em inferência de LLMs, controle de fluxo baseado em confiança, isolamento de contexto, gestão segura de credenciais e absorção de esquemas em tempo de compilação, superando as limitações das abordagens atuais que tratam esses invariáveis apenas como convenções de aplicação.

Muyukani KizitoWed, 11 Ma🤖 cs.AI

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Este artigo apresenta o Protocolo de Delegação de LLM (LDP), um protocolo nativo de IA que introduz mecanismos de identidade e confiança para melhorar a eficiência, a governança e a segurança em sistemas multiagentes, demonstrando através de uma implementação experimental reduções significativas na latência e no consumo de tokens, embora alerte que metadados de confiança sem verificação podem prejudicar a qualidade.

Sunil PrakashWed, 11 Ma🤖 cs.AI

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

O artigo apresenta o Pichay, um sistema de paginação sob demanda que trata o contexto de modelos de linguagem como uma hierarquia de memória virtual, reduzindo drasticamente o consumo de recursos ao evitarem conteúdo obsoleto e recuperando-o automaticamente quando necessário, demonstrando que problemas como limites de contexto e degradação de atenção são essencialmente questões de gerenciamento de memória.

Tony MasonWed, 11 Ma🤖 cs.AI