cs.SE articles | Gist.Science

"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

Cette étude révèle que, malgré des stratégies d'atténuation, les réponses inexactes et la surcharge cognitive des assistants IA conduisent souvent les ingénieurs logiciels à abandonner leur utilisation, soulignant la nécessité d'une meilleure intégration de ces outils dans les flux de travail.

Jiessie Tie, Bingsheng Yao, Tianshi Li, Hongbo Fang, Syed Ishtiaque Ahmed, Dakuo Wang, Shurui ZhouWed, 11 Ma💻 cs

Towards a Taxonomy of Software Log Smells

Cette étude propose une taxonomie de neuf « odeurs » de journalisation (log smells) dérivées d'une revue de littérature, en les reliant aux outils existants pour identifier les lacunes actuelles et orienter les futures recherches vers l'amélioration de la qualité du code de journalisation.

Nyyti Saarimäki, Donghwan Shin, Domenico BianculliWed, 11 Ma💻 cs

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

Le papier présente GateLens, un agent LLM innovant qui utilise l'algèbre relationnelle comme représentation intermédiaire formelle pour améliorer la fiabilité et l'efficacité de l'analyse de données tabulaires complexes dans le secteur automobile, surpassant les approches traditionnelles tout en réduisant considérablement le temps d'analyse.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Evaluating Large Language Models for Multilingual Vulnerability Detection at Dual Granularities

Cette étude empirique démontre que les grands modèles de langage (LLM), notamment GPT-4o optimisé par ajustement d'instructions et quelques exemples, surpassent les modèles de langage préentraînés (PLM) pour la détection de vulnérabilités multilingues à la fois au niveau des fonctions et des lignes de code.

Honglin Shu, Michael Fu, Junji Yu, Dong Wang, Chakkrit Tantithamthavorn, Junjie Chen, Yasutaka KameiWed, 11 Ma💻 cs

Floating-Point Usage on GitHub: A Large-Scale Study of Statically Typed Languages

Cette étude empirique à grande échelle analyse l'utilisation de l'arithmétique à virgule flottante dans des millions de dépôts GitHub de langages typés statiquement, révélant que les benchmarks existants ne reflètent que partiellement la réalité du code et publiant un jeu de données de 10 millions de fonctions pour guider les futures recherches.

Andrea Gilot, Tobias Wrigstad, Eva DarulovaWed, 11 Ma💻 cs

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

Le papier présente SEER, un cadre auto-optimisant qui améliore l'efficacité et la précision des modèles de langage en adaptant dynamiquement la compression des chaînes de pensée pour réduire les coûts computationnels et les échecs liés à la longueur excessive des raisonnements.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

Ce papier présente Preguss, un cadre modulaire qui combine l'analyse statique et les grands modèles de langage pour générer automatiquement des spécifications formules et vérifier l'absence d'erreurs d'exécution dans de grands programmes, réduisant ainsi l'effort de vérification humaine de 80,6 % à 88,9 %.

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei YinWed, 11 Ma💻 cs

Towards a Goal-Centric Assessment of Requirements Engineering Methods for Privacy by Design

Cet article propose une approche centrée sur les objectifs pour évaluer les méthodes d'ingénierie des exigences en matière de protection de la vie privée dès la conception, afin de mieux les adapter aux besoins spécifiques des organisations plutôt que de se limiter à leurs caractéristiques de processus.

Oleksandr Kosenkov, Ehsan Zabardast, Jannik Fischbach, Tony Gorschek, Daniel MendezWed, 11 Ma💻 cs

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Le papier présente SkillCraft, une nouvelle norme d'évaluation conçue pour tester la capacité des agents LLM à acquérir et réutiliser des compétences composées (des « Skills ») dans des flux de travail complexes, démontrant que cette approche améliore considérablement l'efficacité et les taux de réussite.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

L'article présente SiliconMind-V1, un cadre multi-agents qui génère des données d'entraînement axées sur le raisonnement et intègre une vérification par banc d'essai pour permettre à des modèles de langage localement affinés de générer, tester et déboguer itérativement du code Verilog, surpassant ainsi les méthodes actuelles en matière de correction fonctionnelle avec moins de ressources.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

Le papier présente KernelCraft, le premier benchmark évaluant la capacité des agents LLM à générer et optimiser des noyaux bas niveau pour des accélérateurs émergents via un processus itératif guidé par des retours automatiques, démontrant ainsi leur potentiel pour réduire les coûts de développement sur de nouvelles architectures matérielles.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

FormalRTL: Verified RTL Synthesis at Scale

Ce papier présente FormalRTL, un cadre multi-agents novateur qui intègre des modèles de référence logiciels comme spécifications formelles pour générer et vérifier de manière fiable et évolutive du code RTL à l'échelle industrielle.

Kezhi Li, Min Li, Xiangyu Wen, Shibo Zhao, Jieying Wu, Junhua Huang, Qiang XuWed, 11 Ma💻 cs

Extension of ACETONE C code generator for multi-core architectures

Cet article présente une extension du générateur de code C ACETONE, initialement limité au séquentiel, afin de permettre la génération de code parallèle pour les architectures multi-cœurs, notamment pour les systèmes critiques intégrant l'apprentissage automatique.

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

Turn: A Language for Agentic Computation

Ce papier présente Turn, un langage de programmation compilé et basé sur des acteurs conçu pour les logiciels autonomes, qui intègre nativement la sécurité des types pour les inférences LLM, un modèle de processus isolé, un système d'identité basé sur les capacités et l'absorption de schémas à la compilation pour garantir la fiabilité et la sécurité des agents.

Muyukani KizitoWed, 11 Ma🤖 cs.AI

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

Ce papier présente TDAD, une méthodologie qui traite les prompts d'agents IA comme des artefacts compilés en générant des tests exécutables à partir de spécifications comportementales pour garantir la conformité et prévenir les régressions lors du déploiement d'agents utilisant des outils.

Tzafrir RehanWed, 11 Ma🤖 cs.AI

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Ce papier présente le LLM Delegate Protocol (LDP), un protocole de communication natif pour l'IA qui introduit des mécanismes d'identité et de gouvernance pour optimiser la délégation entre agents, démontrant par une implémentation et des évaluations des gains significatifs en latence et en efficacité des tokens, bien que la métadonnée de confiance sans vérification puisse nuire à la qualité.

Sunil PrakashWed, 11 Ma🤖 cs.AI

GenAI Is No Silver Bullet for Qualitative Research in Software Engineering

Cet article de recherche examine les promesses et les pièges de l'utilisation de l'IA générative dans la recherche qualitative en génie logiciel, en soulignant que cette technologie ne constitue pas une solution universelle et doit être adaptée avec précaution aux spécificités des stratégies de recherche et des données.

Neil A. Ernst, Christoph TreudeWed, 11 Ma💻 cs

Arbiter: Detecting Interference in LLM Agent System Prompts

Ce papier présente Arbiter, un cadre d'évaluation combinant des règles formelles et un balayage multi-modèles pour détecter des interférences dans les prompts système d'agents de codage LLM, révélant ainsi des vulnérabilités structurelles et des corrélations entre l'architecture des prompts et les types d'échecs.

Tony MasonWed, 11 Ma🤖 cs.AI

Can AI Agents Generate Microservices? How Far are We?

Cette étude démontre que, bien que les agents d'IA puissent générer des microservices fonctionnels avec un code de qualité et une bonne adhérence aux contrats d'API, leur incapacité à garantir une cohérence parfaite et leur dépendance à une supervision humaine signifient que la génération entièrement autonome n'est pas encore réalisable.

Bassam Adnan, Matteo Esposito, Davide Taibi, Karthik VaidhyanathanWed, 11 Ma💻 cs

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

Ce papier présente Pichay, un système de pagination à la demande transparent pour les fenêtres de contexte des LLM qui, en appliquant des principes de hiérarchie mémoire virtuel, réduit drastiquement la consommation de contexte en évitant le gaspillage de tokens et en gérant dynamiquement les données obsolètes.

Tony MasonWed, 11 Ma🤖 cs.AI