Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

Cette étude présente la première audit systématique des « shadow APIs » qui prétendent offrir un accès aux modèles LLM de pointe, révélant des pratiques trompeuses majeures telles que des divergences de performance allant jusqu'à 47,21 % et des échecs de vérification d'identité, ce qui compromet gravement la fiabilité de la recherche scientifique et les intérêts des utilisateurs.

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang2026-03-06🔒 cs.CR

LoRA-MME: Multi-Model Ensemble of LoRA-Tuned Encoders for Code Comment Classification

Dans le cadre de la compétition NLBSE'26, l'outil LoRA-MME propose un ensemble de quatre encodeurs transformateurs adaptés via LoRA pour la classification multi-label de commentaires de code, obtenant de solides performances sémantiques mais révélant un compromis défavorable entre précision et efficacité d'inférence dû à son coût computationnel élevé.

Md Akib Haider, Ahsan Bulbul, Nafis Fuad Shahid + 2 more2026-03-06💻 cs

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Cette étude révèle que les benchmarks de sécurité pour les LLM n'offrent pas d'avantage significatif en termes d'influence académique par rapport aux articles non-benchmarks et souffrent d'une qualité de code insuffisante, mettant en évidence un décalage critique entre la notoriété des auteurs et la rigueur des ressources logicielles fournies.

Junjie Chu, Xinyue Shen, Ye Leng, Michael Backes, Yun Shen, Yang Zhang2026-03-06🔒 cs.CR

iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation

Cet article présente iScript, un modèle de langage adapté au domaine de la conception physique pour la génération de scripts Tcl Innovus, ainsi que la benchmark iScript-Bench, en surmontant le manque de données grâce à une pipeline de synthèse multi-étapes et en démontrant des performances supérieures aux modèles d'état de l'art grâce à une stratégie d'entraînement en deux étapes et un cadre de vérification rigoureux.

Ning Xu, Zhaoyang Zhang, Senlin Shu + 10 more2026-03-06💻 cs

Behaviour Driven Development Scenario Generation with Large Language Models

Cette étude évalue la capacité de GPT-4, Claude 3 et Gemini à générer des scénarios BDD automatisés, révélant que bien que GPT-4 excelle dans les métriques de similarité, Claude 3 produit les scénarios les plus pertinents selon les experts humains, avec des résultats optimaux obtenus via des techniques de prompt spécifiques à chaque modèle et des paramètres de température nulle.

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei2026-03-06💻 cs

MOOSEnger -- a Domain-Specific AI Agent for the MOOSE Ecosystem

MOOSEnger est un agent d'intelligence artificielle doté d'outils spécialisés qui combine la génération augmentée par récupération et des analyseurs déterministes pour transformer des intentions en langage naturel en fichiers d'entrée MOOSE exécutables, atteignant un taux de réussite de 93 % sur un benchmark de 125 prompts, contre seulement 8 % pour une approche basée uniquement sur un modèle de langage.

Mengnan Li, Jason Miller, Zachary Prince + 2 more2026-03-06💻 cs

Public Sector Open Source Program Offices - Archetypes for how to Grow (Common) Institutional Capabilities

Cette étude qualitative identifie six archétypes d'Open Source Programme Offices (OSPO) au sein des organisations publiques européennes et propose des recommandations stratégiques pour aider les décideurs à concevoir des structures adaptées favorisant l'adoption de l'open source, la souveraineté numérique et l'interopérabilité des services.

Johan Linåker, Astor Nummelin Carlberg, Ciaran O'Riordan2026-03-06💻 cs

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

Le papier présente RepoLaunch, le premier agent capable d'automatiser entièrement la compilation, la gestion des dépendances et l'exécution des tests pour des dépôts de code sur n'importe quelle langue et plateforme, permettant ainsi la création d'ensembles de données pour l'ingénierie logicielle avec une intervention humaine minimale.

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Why Do You Contribute to Stack Overflow? Understanding Cross-Cultural Motivations and Usage Patterns before the Age of LLMs

Cette étude examine les motivations des contributeurs de Stack Overflow à travers les cultures américaine, chinoise et russe avant l'ère des LLMs, révélant des différences clés entre l'auto-promotion aux États-Unis et l'orientation vers l'apprentissage en Chine, afin d'optimiser les stratégies de participation internationale.

Sherlock A. Licorish, Elijah Zolduoarrati, Tony Savarimuthu + 3 more2026-03-06💻 cs

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models

Cet article propose un cadre générique pour évaluer la capacité des modèles de langage à générer du code dans des langages de spécification de contraintes comme OCL et Alloy, démontrant que leur performance y est inférieure à celle observée avec Python, mais qu'elle peut être améliorée par des techniques telles que la réparation ou la génération multiple de candidats.

David Delgado, Lola Burgueño, Robert Clarisó2026-03-06💻 cs

Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation

Cette étude à grande échelle évalue pour la première fois la capacité de quatre modèles de langage à générer des tests unitaires complets, révélant que bien que les techniques de raisonnement comme GToT améliorent la fiabilité et la lisibilité par rapport aux méthodes traditionnelles, des taux d'échec de compilation élevés dus aux hallucinations et des défauts de maintenabilité persistent, justifiant ainsi le recours à des approches hybrides combinant génération par LLM et validation automatisée.

Wendkûuni C. Ouédraogo, Kader Kaboré, Yinghua Li + 5 more2026-03-05💻 cs