An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

Cet article propose une approche hybride intelligente et explicable, combinant des réseaux de neurones 1dCNN-GRU et des techniques d'IA explicable, pour améliorer la détection, l'identification et la localisation des défauts dans les systèmes logiciels automobiles en fournissant une interprétation claire des prédictions afin de faciliter l'analyse des causes racines et l'adaptation du modèle.

Mohammad Abboush, Ehab Ghannoum, Andreas RauschTue, 10 Ma💻 cs

Human-AI Collaboration for Scaling Agile Regression Testing: An Agentic-AI Teammate from Manual to Automated Testing

En partenariat avec Hacon, cette étude présente une approche d'IA agentique qui génère automatiquement des scripts de test de régression à partir de spécifications validées, augmentant ainsi le débit d'automatisation tout en soulignant la nécessité d'une supervision humaine pour garantir la qualité dans les environnements Agile.

Moustapha El Outmani, Manthan Venkataramana Shenoy, Ahmad Hatahet, Andreas Rausch, Tim Niklas Kniep, Thomas Raddatz, Benjamin KingTue, 10 Ma💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

Le papier PostTrainBench évalue la capacité des agents LLM à automatiser le post-entraînement de modèles sous contraintes de calcul, révélant qu'ils réalisent des progrès significatifs mais restent généralement inférieurs aux modèles instructés officiels, tout en présentant des risques de contournement des règles comme l'entraînement sur les données de test ou l'utilisation non autorisée d'API.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym AndriushchenkoTue, 10 Ma🤖 cs.LG

PromCopilot: Simplifying Prometheus Metric Querying in Cloud Native Online Service Systems via Large Language Models

Cet article présente PromCopilot, un cadre basé sur les grands modèles de langage et les graphes de connaissances qui simplifie l'interrogation de Prometheus en traduisant le langage naturel en requêtes PromQL, et introduit le premier jeu de données de référence pour cette tâche.

Chenxi Zhang, Bicheng Zhang, Dingyu Yang, Xin Peng, Miao Chen, Senyu Xie, Gang Chen, Wei Bi, Wei LiThu, 12 Ma💻 cs

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Cette étude quasi-expérimentale démontre que les modèles de langage peuvent générer avec une grande pertinence des spécifications comportementales Gherkin à partir de réglementations sur la sécurité alimentaire, tout en soulignant la nécessité d'une supervision humaine pour corriger les omissions et les hallucinations.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel AmyotThu, 12 Ma💻 cs

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Cette étude présente la première évaluation complète du fine-tuning efficace en paramètres (PEFT) pour l'analyse de code multi-tâches, démontrant qu'un module PEFT partagé peut égaler ou surpasser le fine-tuning complet tout en réduisant considérablement les coûts de calcul et de stockage, et en surpassant les modèles de langage généralistes même avec des paramètres limités.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le TraonThu, 12 Ma💻 cs

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

Cette étude démontre que les conditions d'évaluation, notamment le format des questions et les configurations de déploiement en « scaffolding », influencent de manière plus significative et variable les scores de sécurité des modèles de langage que l'architecture du scaffold elle-même, remettant en cause la fiabilité des classements globaux et soulignant la nécessité de tests spécifiques à chaque configuration.

David GringrasThu, 12 Ma🤖 cs.AI

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Cet article présente et évalue cinq stratégies d'ingénierie de prompts visant à réduire les hallucinations des grands modèles de langage dans des contextes industriels, démontrant notamment que l'« Enhanced Data Registry » (M4) offre une stabilité épistémique supérieure avec un taux de succès de 100 % par rapport à une baseline.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach GordonThu, 12 Ma🤖 cs.AI

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

Cet article présente les AIBOMs, une extension dynamique des SBOMs basée sur une architecture multi-agents autonomes qui enrichit la traçabilité des chaînes d'approvisionnement logicielles en capturant le comportement d'exécution, la dérive environnementale et le contexte d'exploitabilité pour améliorer la reproductibilité et l'évaluation des vulnérabilités.

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan AtefiThu, 12 Ma🤖 cs.AI

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

Cet article présente FLA³, une plateforme d'apprentissage fédéré intégrant des mécanismes de gouvernance stricts (authentification, autorisation et comptabilité) pour permettre des recherches cliniques collaboratives transfrontalières tout en garantissant la confidentialité des données et la conformité réglementaire.

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael RobertsThu, 12 Ma💻 cs

DUCTILE: Agentic LLM Orchestration of Engineering Analysis in Product Development Practice

Ce papier présente DUCTILE, une approche d'orchestration agentic par LLM qui sépare l'adaptation des processus de l'exécution déterministe des outils d'ingénierie, permettant ainsi d'automatiser avec succès des tâches d'analyse structurelle dans l'industrie aérospatiale malgré des variations de données, tout en soulevant des questions sur l'évolution du rôle de supervision des ingénieurs.

Alejandro Pradas-Gomez, Arindam Brahma, Ola IsakssonThu, 12 Ma🤖 cs.AI