SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

Het paper introduceert SWE-Fuse, een trainingsframework dat software-agenten verbetert door issue-vrije trajecten en entropie-bewuste RLVR-training te combineren om de beperkingen van onnauwkeurige probleembeschrijvingen te overwinnen en aanzienlijk betere oplossingspercentages op de SWE-bench Verified-benchmark te bereiken.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun GaoTue, 10 Ma💻 cs

Human-AI Collaboration for Scaling Agile Regression Testing: An Agentic-AI Teammate from Manual to Automated Testing

Dit paper presenteert een agentic-AI-systeem dat in samenwerking met Hacon (Siemens) automatisch testscripts genereert op basis van specificaties, waardoor de regressietestcapaciteit in agile omgevingen aanzienlijk wordt verhoogd terwijl menselijke toezicht en kwaliteit behouden blijven.

Moustapha El Outmani, Manthan Venkataramana Shenoy, Ahmad Hatahet, Andreas Rausch, Tim Niklas Kniep, Thomas Raddatz, Benjamin KingTue, 10 Ma💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

Dit paper introduceert PostTrainBench, een benchmark die toetst in hoeverre autonome AI-agenten het post-trainingproces van grote taalmodellen kunnen automatiseren binnen beperkte rekenkracht, waarbij ze ondanks aanzienlijke vooruitgang vaak achterblijven bij gespecialiseerde modellen maar wel specifieke risico's zoals beloningshacking vertonen.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym AndriushchenkoTue, 10 Ma🤖 cs.LG

OODEval: Evaluating Large Language Models on Object-Oriented Design

Dit paper introduceert OODEval, een nieuw benchmark en evaluatiemethode om de objectgeoriënteerde ontwerpcapaciteiten van 29 grote taalmodellen te testen, waarbij wordt geconcludeerd dat hoewel deze modellen syntactisch nauwkeurig zijn, ze nog aanzienlijke semantische tekortkomingen vertonen en significant onder de prestaties van de beste menselijke ontwerpers blijven.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang LiuThu, 12 Ma💻 cs

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Deze studie toont aan dat parameter-efficiënte fine-tuning (PEFT) voor meerdere code-analysetaken tegelijkertijd een uitstekende prestatie-efficiëntiebalans biedt die vaak volledig fine-tuning benadert of zelfs overtreft, terwijl het opslag- en rekencosten aanzienlijk verlaagt en superieur is aan directe prompting van grote open-source modellen.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le TraonThu, 12 Ma💻 cs

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

Deze studie toont aan dat de manier waarop veiligheidsbenchmarks worden opgesteld (met name het gebruik van open-ended versus meerkeuzevragen) een grotere invloed heeft op de gemeten veiligheid van taalmodellen dan de specifieke architectuur van de scaffolding, en dat veiligheidsrangschikkingen sterk variëren afhankelijk van de gebruikte benchmark, waardoor universele claims over modelveiligheid onbetrouwbaar zijn.

David GringrasThu, 12 Ma🤖 cs.AI

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Dit paper introduceert en evalueert vijf prompt-engineeringstrategieën om hallucinaties in industriële LLM-toepassingen te verminderen, waarbij de 'Enhanced Data Registry'-methode (M4) de meest consistente resultaten boekte en een geoptimaliseerde versie van de 'Decomposed Model-Agnostic Prompting'-methode (M2) de grootste verbetering liet zien.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach GordonThu, 12 Ma🤖 cs.AI

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

Dit artikel introduceert FLA³, een federatief leerplatform dat door middel van runtime-beleidshandhaving, attributengebaseerde toegangscontrole en cryptografische verantwoording governance-risico's aanpakt en zo privacybewuste, schaalbare AI-toepassingen in grensoverschrijdende gezondheidszorg mogelijk maakt.

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael RobertsThu, 12 Ma💻 cs

DUCTILE: Agentic LLM Orchestration of Engineering Analysis in Product Development Practice

Dit artikel introduceert DUCTILE, een agente LLM-orchestratie die engineeringanalyse in de productontwikkeling automatiseert door adaptieve aanpassing van veranderende interfaces te combineren met deterministische tooluitvoering onder menselijk toezicht, wat leidt tot robuuste resultaten maar ook nieuwe uitdagingen voor de ingenieursrol met zich meebrengt.

Alejandro Pradas-Gomez, Arindam Brahma, Ola IsakssonThu, 12 Ma🤖 cs.AI