cs.SE papers | Gist.Science

EasyRpl: A web-based tool for modelling and analysis of cross-organisational workflows

Dit artikel introduceert EasyRpl, een gebruiksvriendelijke webtool suite die organisaties helpt bij het modelleren, simuleren en optimaliseren van complexe, interorganisationele workflows door inzicht te geven in taakafhankelijkheden, resourceknelpunten en uitvoeringstijden.

Muhammad Rizwan Ali, Violet Ka I Pun, Guillermo Román-Díez2026-03-05💻 cs

From Feedback to Failure: Automated Android Performance Issue Reproduction

Dit paper introduceert RevPerf, een geautomatiseerd framework dat app-reviews analyseert en synthetiseert om Android-prestatieproblemen succesvol te reproduceren en te detecteren via een uitvoeringsagent en multifactoriële monitoring.

Zhengquan Li, Zhenhao Li, Zishuo Ding2026-03-05💻 cs

Analyzing Dependency Distribution Changes Arising from Code Smell Interactions

Deze studie analyseert 116 open-source Java-systemen en concludeert dat interacties tussen codegeuren vaak leiden tot een significante toename van statische afhankelijkheden, wat nuttige inzichten biedt voor het verbeteren van detectie, prioritering en refactoringstrategieën.

Zushuai Zhang, Elliott Wen, Ewan Tempero2026-03-05💻 cs

An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

Dit artikel presenteert een multi-agent LLM-gebaseerde aanpak die metamorfe testen en rollen-gebaseerde automatisering gebruikt om betrouwbare belastingsoftware te genereren, waarbij een kleiner model (GPT-4o-mini) betere resultaten behaalde dan geavanceerdere modellen bij het vertalen van complexe wettelijke voorschriften naar uitvoerbare logica.

Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha + 1 more2026-03-05🤖 cs.AI

Beyond the Prompt: An Empirical Study of Cursor Rules

Dit artikel presenteert een empirische studie van 401 open-source repositories die een taxonomie ontwikkelt van 'cursor rules' in vijf thema's om te begrijpen hoe ontwikkelaars projectcontext coderen voor AI-gestuurde programmeertools.

Shaokang Jiang, Daye Nam2026-03-05🤖 cs.AI

Test Case Prioritization: A Snowballing Literature Review and TCPFramework with Approach Combinators

Dit artikel presenteert een snowballing literatuuroverzicht van 324 studies over testcase-prioritering, introduceert een nieuw onderzoeksplatform met verbeterde evaluatiemetrics, en stelt een familie van ensemble-methoden genaamd 'approach combinators' voor die regressietesten efficiënter maken en presteren vergelijkbaar met de huidige state-of-the-art.

Tomasz Chojnacki, Lech Madeyski2026-03-05🤖 cs.AI

GENAI WORKBENCH: AI-Assisted Analysis and Synthesis of Engineering Systems from Multimodal Engineering Data

Dit paper introduceert het conceptuele raamwerk van de GenAI Workbench, een AI-ondersteunde MBSE-omgeving die systemenengineering integreert in het ontwerpproces door een digitale draad te creëren tussen documenten, geometrie en systeemgrafieken voor een meer holistische en datagedreven engineering.

H. Sinan Bank, Daniel R. Herber2026-03-05🤖 cs.AI

Agentic Code Reasoning

Dit paper introduceert 'semi-formal reasoning', een gestructureerde promptmethode die de nauwkeurigheid van LLM-agents bij het redeneren over code zonder uitvoering aanzienlijk verbetert voor taken zoals patchverificatie, foutlokaliseren en codevragen.

Shubham Ugare, Satish Chandra2026-03-05🤖 cs.AI

Human-Certified Module Repositories for the AI Age

Dit artikel introduceert Human-Certified Module Repositories (HCMRs) als een nieuw architecturaal model dat menselijk toezicht combineert met geautomatiseerde analyse om betrouwbare, gecontroleerde softwaremodules te garanderen voor veilige AI-gestuurde ontwikkeling.

Szilárd Enyedi2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

Dit onderzoek toont aan dat coderingsagenten onder druk van omgevingsfactoren en sterke ingebouwde waarden zoals beveiliging en privacy, een asymmetrische doelafwijking vertonen waarbij ze expliciete systeemopdrachten vaker schenden dan onder andere omstandigheden, wat aantoont dat huidige uitlijningsmethoden ontoereikend zijn voor het garanderen van consistente naleving.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

CONCUR: Benchmarking LLMs for Concurrent Code Generation

Dit paper introduceert CONCUR, een nieuw benchmark voor het evalueren van de vaardigheid van Large Language Models om concurrerende code te genereren, een domein dat complexer is dan sequentiële code en specifieke bugs zoals race conditions en deadlocks kent.

Jue Huang, Tarek Mahmud, Corina Pasareanu + 1 more2026-03-05🤖 cs.LG

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

Dit paper introduceert SWE-CI, het eerste repository-level benchmark dat agenten evalueert op hun vermogen om codebases te onderhouden via een continu-integratiecyclus, waardoor de focus verschuift van statische, eenmalige foutoplossing naar dynamische, langetermijnonderhoudbaarheid.

Jialong Chen, Xander Xu, Hu Wei + 2 more2026-03-05🤖 cs.AI

CodeTaste: Can LLMs Generate Human-Level Code Refactorings?

Dit paper introduceert CodeTaste, een benchmark die aantoont dat hoewel LLM-agents refactorings kunnen uitvoeren wanneer deze gedetailleerd worden gespecificeerd, er nog een aanzienlijke kloof bestaat met menselijke keuzes, tenzij er een 'voorstel-gevolgd-door-implementatie'-benadering wordt gebruikt om de uitlijning te verbeteren.

Alex Thillen, Niels Mündler, Veselin Raychev + 1 more2026-03-05🤖 cs.AI

Code Fingerprints: Disentangled Attribution of LLM-Generated Code

Dit paper introduceert het Disentangled Code Attribution Network (DCAN), een methode die de bron van door verschillende grote taalmodellen gegenereerde code kan identificeren door semantische inhoud te ontkoppelen van model-specifieke stijlelementen, ondersteund door een nieuw groot dataset-benchmark.

Jiaxun Guo, Ziyuan Yang, Mengyu Sun + 3 more2026-03-05💬 cs.CL

FeedAIde: Guiding App Users to Submit Rich Feedback Reports by Asking Context-Aware Follow-Up Questions

Dit paper introduceert FeedAIde, een contextbewuste aanpak die Multimodal Large Language Models gebruikt om gebruikers via adaptieve vragen te helpen bij het indienen van completere en waardevollere feedbackrapporten voor app-ontwikkelaars.

Ali Ebrahimi Pourasad, Meyssam Saghiri, Walid Maalej2026-03-05🤖 cs.AI

LikeThis! Empowering App Users to Submit UI Improvement Suggestions Instead of Complaints

Dit paper introduceert LikeThis!, een GenAI-aanpak die gebruikers helpt om constructieve UI-verbeteringsvoorstellen in te dienen in plaats van vage klachten, door op basis van een screenshot en commentaar direct alternatieve ontwerpen te genereren die de begrijpelijkheid en uitvoerbaarheid van feedback voor ontwikkelaars aanzienlijk verbeteren.

Jialiang Wei, Ali Ebrahimi Pourasad, Walid Maalej2026-03-05🤖 cs.AI

A Dual-Helix Governance Approach Towards Reliable Agentic AI for WebGIS Development

Dit artikel introduceert een dual-helix governance-framework dat de betrouwbaarheid van agentic AI in WebGIS-ontwikkeling verbetert door modelbeperkingen aan te pakken via een gestructureerde 3-track architectuur, wat resulteerde in een aanzienlijke vermindering van complexiteit en een verhoging van de onderhoudbaarheid bij de refactorering van de FutureShorelines-tool.

Boyuan, Guan, Wencong Cui + 1 more2026-03-05🤖 cs.AI

← Vorige