cs.SE articles | Gist.Science

Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

Cette étude présente la première audit systématique des « shadow APIs » qui prétendent offrir un accès aux modèles LLM de pointe, révélant des pratiques trompeuses majeures telles que des divergences de performance allant jusqu'à 47,21 % et des échecs de vérification d'identité, ce qui compromet gravement la fiabilité de la recherche scientifique et les intérêts des utilisateurs.

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang2026-03-06🔒 cs.CR

LoRA-MME: Multi-Model Ensemble of LoRA-Tuned Encoders for Code Comment Classification

Dans le cadre de la compétition NLBSE'26, l'outil LoRA-MME propose un ensemble de quatre encodeurs transformateurs adaptés via LoRA pour la classification multi-label de commentaires de code, obtenant de solides performances sémantiques mais révélant un compromis défavorable entre précision et efficacité d'inférence dû à son coût computationnel élevé.

Md Akib Haider, Ahsan Bulbul, Nafis Fuad Shahid + 2 more2026-03-06💻 cs

MPBMC: Multi-Property Bounded Model Checking with GNN-guided Clustering

Cet article présente MPBMC, une approche hybride combinant des représentations fonctionnelles de circuits matériels via des réseaux de neurones à graphes et des statistiques d'exécution pour regrouper intelligemment les propriétés et accélérer la vérification par model checking borné multi-propriétés.

Soumik Guha Roy, Sumana Ghosh, Ansuman Banerjee + 2 more2026-03-06💻 cs

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Cette étude révèle que les benchmarks de sécurité pour les LLM n'offrent pas d'avantage significatif en termes d'influence académique par rapport aux articles non-benchmarks et souffrent d'une qualité de code insuffisante, mettant en évidence un décalage critique entre la notoriété des auteurs et la rigueur des ressources logicielles fournies.

Junjie Chu, Xinyue Shen, Ye Leng, Michael Backes, Yun Shen, Yang Zhang2026-03-06🔒 cs.CR

iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation

Cet article présente iScript, un modèle de langage adapté au domaine de la conception physique pour la génération de scripts Tcl Innovus, ainsi que la benchmark iScript-Bench, en surmontant le manque de données grâce à une pipeline de synthèse multi-étapes et en démontrant des performances supérieures aux modèles d'état de l'art grâce à une stratégie d'entraînement en deux étapes et un cadre de vérification rigoureux.

Ning Xu, Zhaoyang Zhang, Senlin Shu + 10 more2026-03-06💻 cs

CLARC: C/C++ Benchmark for Robust Code Search

Ce papier présente CLARC, un benchmark automatisé et robuste en C/C++ issu de GitHub, conçu pour évaluer la capacité des modèles de recherche de code à comprendre la sémantique au-delà des indices lexicaux, en révélant leurs limites face à des défis tels que l'anonymisation des identifiants ou la compilation vers des langages bas niveau.

Kaicheng Wang, Liyan Huang, Weike Fang + 1 more2026-03-06💻 cs

Industrial Survey on Robustness Testing In Cyber Physical Systems

Cet article présente les résultats d'une enquête industrielle en Wallonie sur les pratiques actuelles, les défis et les lacunes concernant la robustesse des systèmes cyber-physiques, en les comparant aux méthodologies de l'état de l'art.

Christophe Ponsard, Abiola Paterne Chokki, Jean-François Daune2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Ce papier présente Vibe Code Bench, un nouveau benchmark évaluant la capacité des modèles d'IA à développer des applications web complètes de bout en bout, révélant que même les modèles les plus performants actuels n'atteignent qu'une précision de 58 % et soulignant l'importance cruciale de l'auto-test et de l'alignement des évaluateurs.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Behaviour Driven Development Scenario Generation with Large Language Models

Cette étude évalue la capacité de GPT-4, Claude 3 et Gemini à générer des scénarios BDD automatisés, révélant que bien que GPT-4 excelle dans les métriques de similarité, Claude 3 produit les scénarios les plus pertinents selon les experts humains, avec des résultats optimaux obtenus via des techniques de prompt spécifiques à chaque modèle et des paramètres de température nulle.

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei2026-03-06💻 cs

MOOSEnger -- a Domain-Specific AI Agent for the MOOSE Ecosystem

MOOSEnger est un agent d'intelligence artificielle doté d'outils spécialisés qui combine la génération augmentée par récupération et des analyseurs déterministes pour transformer des intentions en langage naturel en fichiers d'entrée MOOSE exécutables, atteignant un taux de réussite de 93 % sur un benchmark de 125 prompts, contre seulement 8 % pour une approche basée uniquement sur un modèle de langage.

Mengnan Li, Jason Miller, Zachary Prince + 2 more2026-03-06💻 cs

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

Ce papier présente FireBench, un nouveau benchmark open-source conçu pour évaluer la capacité des grands modèles de langage à suivre des instructions dans des contextes d'entreprise et d'API, en comblant le fossé entre les évaluations actuelles axées sur le chat et les besoins réels des applications professionnelles.

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Public Sector Open Source Program Offices - Archetypes for how to Grow (Common) Institutional Capabilities

Cette étude qualitative identifie six archétypes d'Open Source Programme Offices (OSPO) au sein des organisations publiques européennes et propose des recommandations stratégiques pour aider les décideurs à concevoir des structures adaptées favorisant l'adoption de l'open source, la souveraineté numérique et l'interopérabilité des services.

Johan Linåker, Astor Nummelin Carlberg, Ciaran O'Riordan2026-03-06💻 cs

Auto-Generating Personas from User Reviews in VR App Stores

Cette étude présente un système de personas générés automatiquement à partir d'avis d'utilisateurs dans les magasins d'applications VR, démontrant son efficacité pour faciliter l'empathie et l'identification des exigences d'accessibilité dans les cours de conception VR.

Yi Wang, Kexin Cheng, Xiao Liu + 4 more2026-03-06💻 cs

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

Le papier présente RepoLaunch, le premier agent capable d'automatiser entièrement la compilation, la gestion des dépendances et l'exécution des tests pour des dépôts de code sur n'importe quelle langue et plateforme, permettant ainsi la création d'ensembles de données pour l'ingénierie logicielle avec une intervention humaine minimale.

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Why Do You Contribute to Stack Overflow? Understanding Cross-Cultural Motivations and Usage Patterns before the Age of LLMs

Cette étude examine les motivations des contributeurs de Stack Overflow à travers les cultures américaine, chinoise et russe avant l'ère des LLMs, révélant des différences clés entre l'auto-promotion aux États-Unis et l'orientation vers l'apprentissage en Chine, afin d'optimiser les stratégies de participation internationale.

Sherlock A. Licorish, Elijah Zolduoarrati, Tony Savarimuthu + 3 more2026-03-06💻 cs

A Benchmarking Framework for Model Datasets

Cet article propose un cadre de référence et une plateforme unifiée pour évaluer systématiquement la qualité, la représentativité et l'adéquation des jeux de données de modèles logiciels, afin d'améliorer la reproductibilité et la comparabilité des recherches en ingénierie dirigée par les modèles.

Philipp-Lorenz Glaser, Lola Burgueño, Dominik Bork2026-03-06💻 cs

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models

Cet article propose un cadre générique pour évaluer la capacité des modèles de langage à générer du code dans des langages de spécification de contraintes comme OCL et Alloy, démontrant que leur performance y est inférieure à celle observée avec Python, mais qu'elle peut être améliorée par des techniques telles que la réparation ou la génération multiple de candidats.

David Delgado, Lola Burgueño, Robert Clarisó2026-03-06💻 cs

Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation

Cette étude à grande échelle évalue pour la première fois la capacité de quatre modèles de langage à générer des tests unitaires complets, révélant que bien que les techniques de raisonnement comme GToT améliorent la fiabilité et la lisibilité par rapport aux méthodes traditionnelles, des taux d'échec de compilation élevés dus aux hallucinations et des défauts de maintenabilité persistent, justifiant ainsi le recours à des approches hybrides combinant génération par LLM et validation automatisée.

Wendkûuni C. Ouédraogo, Kader Kaboré, Yinghua Li + 5 more2026-03-05💻 cs

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

Cette présentation introduit TrashFuzz, un algorithme de fuzzing en boîte noire qui teste la résilience des véhicules autonomes en manipulant de manière réaliste la position d'objets routiers courants pour induire des erreurs de perception et des violations du code de la route, tout en respectant les normes de conception routière.

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs

Formal Analysis of the Contract Automata Runtime Environment with Uppaal: Modelling, Verification and Testing

Cet article présente la modélisation formelle, la vérification et le test de l'environnement d'exécution des automates de contrat (CARE) à l'aide de l'outil Uppaal, démontrant ainsi comment ces processus formels améliorent la fiabilité d'une application distribuée open source.

Davide Basile2026-03-05💻 cs

← Précédent Suivant →