cs.SE papers | Gist.Science

Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

Deze studie onthult dat 'shadow APIs', die toegang bieden tot grote taalmodellen, vaak bedriegerijen zijn met aanzienlijke prestatieverschillen en veiligheidsrisico's die de reproduceerbaarheid van wetenschappelijk onderzoek ondermijnen.

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang2026-03-06🔒 cs.CR

LoRA-MME: Multi-Model Ensemble of LoRA-Tuned Encoders for Code Comment Classification

In het kader van de NLBSE'26 Tool Competition presenteert LoRA-MME een ensemble van vier met LoRA fijnge tuneerde transformer-modellen voor multi-label classificatie van codecommentaren, waarbij een hoge semantische nauwkeurigheid wordt bereikt ten koste van de inferentie-efficiëntie.

Md Akib Haider, Ahsan Bulbul, Nafis Fuad Shahid + 2 more2026-03-06💻 cs

MPBMC: Multi-Property Bounded Model Checking with GNN-guided Clustering

Dit paper introduceert MPBMC, een hybride benadering die Graph Neural Networks en runtime-statistieken combineert om eigenschappen te clusteren en zo de prestaties van Bounded Model Checking bij multi-eigenschapverificatie aanzienlijk te verbeteren.

Soumik Guha Roy, Sumana Ghosh, Ansuman Banerjee + 2 more2026-03-06💻 cs

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Deze studie onthult dat LLM-veiligheidsbenchmarks geen significant hoger academisch impact hebben dan niet-benchmarkpapers en dat er een fundamentele misalignatie bestaat tussen de invloed van auteurs of papers en de vaak ontoereikende kwaliteit van de bijbehorende code.

Junjie Chu, Xinyue Shen, Ye Leng, Michael Backes, Yun Shen, Yang Zhang2026-03-06🔒 cs.CR

iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation

Dit paper introduceert iScript, een domein-aangepast LLM en bijbehorende benchmark die via een multi-stap data-synthesepijplijn en een tweestaps-verificatieframework effectief Tcl-scripts voor fysiek ontwerp genereert, waardoor de prestaties van bestaande modellen op dit gebied aanzienlijk worden verbeterd.

Ning Xu, Zhaoyang Zhang, Senlin Shu + 10 more2026-03-06💻 cs

CLARC: C/C++ Benchmark for Robust Code Search

Dit paper introduceert CLARC, een robuust C/C++ benchmark voor codezoekopdrachten dat is opgebouwd uit een geautomatiseerde pipeline en real-world GitHub-repositories, en waaruit blijkt dat bestaande modellen sterk afhankelijk zijn van lexicale kenmerken in plaats van semantisch begrip.

Kaicheng Wang, Liyan Huang, Weike Fang + 1 more2026-03-06💻 cs

Industrial Survey on Robustness Testing In Cyber Physical Systems

Dit artikel presenteert de resultaten van een industriële enquête in Wallonië die de huidige praktijk, uitdagingen en kennislacunes rondom robuustheidstesten van Cyberfysieke Systemen (CPS) in kaart brengt en vergelijkt met de staat van de techniek.

Christophe Ponsard, Abiola Paterne Chokki, Jean-François Daune2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Dit paper introduceert Vibe Code Bench, een nieuw benchmark voor het evalueren van AI-modellen op het volledige proces van het ontwikkelen van webapplicaties, en onthult dat zelfs de beste modellen nog slechts 58% nauwkeurigheid bereiken, waardoor betrouwbare end-to-end ontwikkeling een uitdaging blijft.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Behaviour Driven Development Scenario Generation with Large Language Models

Dit artikel presenteert een evaluatie van GPT-4, Claude 3 en Gemini voor het automatisch genereren van BDD-scenario's, waarbij wordt geconcludeerd dat Claude 3 de hoogste kwaliteit levert bij menselijke beoordeling, dat de effectiviteit van prompttechnieken modelafhankelijk is, en dat gedetailleerde requirements essentieel zijn voor succesvolle generatie.

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei2026-03-06💻 cs

MOOSEnger -- a Domain-Specific AI Agent for the MOOSE Ecosystem

MOOSEnger is een domeinspecifiek AI-agent die conversational workflows combineert met deterministische MOOSE-aware hulpmiddelen om natuurlijke taalintenties om te zetten in uitvoerbare simulatie-inputs, wat resulteert in een aanzienlijk hogere succesratio dan een LLM-only baseline.

Mengnan Li, Jason Miller, Zachary Prince + 2 more2026-03-06💻 cs

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

Dit paper introduceert FireBench, een nieuw open-source benchmark met meer dan 2.400 samples die specifiek is ontworpen om instructievolgende vaardigheden van grote taalmodellen te evalueren in zakelijke en API-gedreven scenario's, waarmee een gat wordt gedicht tussen bestaande benchmarks en de behoeften van enterprise-toepassingen.

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Public Sector Open Source Program Offices - Archetypes for how to Grow (Common) Institutional Capabilities

Deze studie identificeert zes archetypen van Open Source-programma's (OSPO's) in de Europese publieke sector om organisaties en beleidsmakers te helpen hun institutionele capaciteiten voor OSS-adaptie te ontwikkelen en zo digitale soevereiniteit en interoperabiliteit te bevorderen.

Johan Linåker, Astor Nummelin Carlberg, Ciaran O'Riordan2026-03-06💻 cs

Auto-Generating Personas from User Reviews in VR App Stores

Deze studie presenteert een systeem voor het automatisch genereren van persona's uit gebruikersbeoordelingen in VR-appwinkels, dat in een cursussetting effectief bleek om studenten empathie te laten ontwikkelen en verborgen toegankelijkheidseisen voor VR-design te achterhalen.

Yi Wang, Kexin Cheng, Xiao Liu + 4 more2026-03-06💻 cs

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

RepoLaunch is een agent die de build- en testpiplines van code-repositories volledig automatiseert voor elke programmeertaal en elk platform, waardoor schaalbare datasets voor software-engineering-taken kunnen worden gegenereerd met minimale menselijke tussenkomst.

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Why Do You Contribute to Stack Overflow? Understanding Cross-Cultural Motivations and Usage Patterns before the Age of LLMs

Deze studie onderzoekt de culturele verschillen in motivaties en gebruikspatronen van Stack Overflow-bijdragers uit de VS, China en Rusland voor de opkomst van LLM's, en identificeert dat Amerikanen meer gericht zijn op zelfpromotie terwijl Chinezen meer leergedrag vertonen.

Sherlock A. Licorish, Elijah Zolduoarrati, Tony Savarimuthu + 3 more2026-03-06💻 cs

A Benchmarking Framework for Model Datasets

Dit artikel introduceert een benchmarkkader en een bijbehorend platform voor het systematisch evalueren en vergelijken van kwaliteit, representativiteit en geschiktheid van datasets met softwaremodellen om de reproduceerbaarheid en vergelijkbaarheid van onderzoek in modelgestuurde engineering te verbeteren.

Philipp-Lorenz Glaser, Lola Burgueño, Dominik Bork2026-03-06💻 cs

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models

Dit artikel introduceert een generiek raamwerk om de prestaties van grote taalmodellen bij het genereren van code voor domeinspecifieke taalvarianten, zoals OCL en Alloy, te evalueren en vergelijkt deze met die voor Python, waarbij wordt geconcludeerd dat de prestaties lager zijn en dat strategieën zoals codeherstel en meerdere pogingen de kwaliteit kunnen verbeteren.

David Delgado, Lola Burgueño, Robert Clarisó2026-03-06💻 cs

Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation

Deze grootschalige studie concludeert dat hoewel reasoning-based prompting (zoals GToT) de betrouwbaarheid en leesbaarheid van door LLM's gegenereerde unit-tests verbetert, de hoge rate aan compilatiefouten en testgeurproblemen de noodzaak onderstreept voor hybride benaderingen die LLM-generatie combineren met automatische validatie.

Wendkûuni C. Ouédraogo, Kader Kaboré, Yinghua Li + 5 more2026-03-05💻 cs

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

Deze paper introduceert TrashFuzz, een black-box fuzzing-algoritme dat realistische verkeersschendingen veroorzaakt door de plaatsing van alledaagse objecten langs de weg te manipuleren binnen de kaders van wettelijke richtlijnen, zonder gebruik te maken van onnatuurlijke adversarial patches.

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs

Formal Analysis of the Contract Automata Runtime Environment with Uppaal: Modelling, Verification and Testing

Dit artikel beschrijft de formele modellering, verificatie met Uppaal en testgeneratie voor de Contract Automata Runtime Environment (CARE), waarmee de betrouwbaarheid van deze gedistribueerde applicatie wordt versterkt.

Davide Basile2026-03-05💻 cs

← Vorige Volgende →