SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

Das Paper stellt SWE-Fuse vor, ein Trainingsframework für Software-Agenten, das durch die Kombination von issue-freien Trajektorien und entropiebewusstem RLVR-Training die Probleme unzureichender Issue-Beschreibungen löst und auf dem SWE-bench Verified-Benchmark signifikante Verbesserungen bei der Fehlerbehebung erzielt.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun GaoTue, 10 Ma💻 cs

Human-AI Collaboration for Scaling Agile Regression Testing: An Agentic-AI Teammate from Manual to Automated Testing

Die Studie stellt einen agentic-KI-Ansatz vor, der in Zusammenarbeit mit Hacon (Siemens) systemweite Regressionstests direkt aus validierten Spezifikationen generiert und damit den manuellen Aufwand reduziert, während sie die Notwendigkeit menschlicher Aufsicht für Qualität und Wartbarkeit betont.

Moustapha El Outmani, Manthan Venkataramana Shenoy, Ahmad Hatahet, Andreas Rausch, Tim Niklas Kniep, Thomas Raddatz, Benjamin KingTue, 10 Ma💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

Die Arbeit stellt PostTrainBench vor, einen Benchmark, der zeigt, dass autonome KI-Agenten zwar Fortschritte beim automatisierten Nachtrainieren von Sprachmodellen erzielen und in spezifischen Szenarien sogar offizielle Modelle übertreffen können, jedoch im Durchschnitt hinter diesen zurückbleiben und dabei problematische Verhaltensweisen wie Reward-Hacking an den Tag legen.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym AndriushchenkoTue, 10 Ma🤖 cs.LG

PromCopilot: Simplifying Prometheus Metric Querying in Cloud Native Online Service Systems via Large Language Models

Die Arbeit stellt PromCopilot vor, ein Framework, das auf einem Wissensgraphen und einem großen Sprachmodell (LLM) basiert, um natürliche Sprache automatisch in PromQL-Abfragen für die Überwachung cloud-nativer Systeme zu übersetzen und dabei erstmals einen Benchmark für diese Aufgabe bereitstellt.

Chenxi Zhang, Bicheng Zhang, Dingyu Yang, Xin Peng, Miao Chen, Senyu Xie, Gang Chen, Wei Bi, Wei LiThu, 12 Ma💻 cs

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Die Studie zeigt, dass große Sprachmodelle zwar effektiv dabei helfen können, aus Lebensmittelsicherheitsvorschriften Gherkin-Spezifikationen abzuleiten, jedoch aufgrund von Auslassungen und Halluzinationen eine systematische menschliche Überprüfung in sicherheitskritischen Bereichen unerlässlich bleibt.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel AmyotThu, 12 Ma💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

Die Studie „OODEval" führt eine umfassende empirische Untersuchung von 29 großen Sprachmodellen in Bezug auf objektorientiertes Design durch, wobei sie einen neuen Benchmark und eine einheitliche Metrik einführt, um festzustellen, dass die Modelle zwar syntaktisch präzise sind, aber erhebliche semantische Mängel aufweisen und trotz starker Leistungen einzelner Modelle im Durchschnitt noch unter der Qualität menschlicher Designer bleiben.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang LiuThu, 12 Ma💻 cs

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Diese Studie zeigt, dass parameter-effizientes Feintuning (PEFT) für Code-Analyse-Aufgaben nicht nur die Speicherkosten und Rechenleistung im Vergleich zum vollständigen Feintuning drastisch reduziert, sondern auch durch geschicktes Multi-Task-Learning die Leistung von einzelnen spezialisierten Modellen und sogar von großen generischen LLMs übertreffen kann.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le TraonThu, 12 Ma💻 cs

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Die Studie stellt fünf Prompt-Engineering-Strategien vor, um Halluzinationen in industriellen LLM-Anwendungen zu reduzieren, und zeigt, dass insbesondere die „Enhanced Data Registry"-Methode (M4) über 100 Durchläufe hinweg konsistent die besten Ergebnisse liefert, während eine überarbeitete Version von M2 die größte relative Verbesserung aufweist.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach GordonThu, 12 Ma🤖 cs.AI

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

Diese Arbeit stellt einen agenten Rahmen für künstliche Intelligenz-Rechnungen (AIBOMs) vor, der statische Software-Bills-of-Materials durch autonome Multi-Agenten-Systeme in dynamische, kontextbewusste Nachweisartefakte erweitert, um Reproduzierbarkeit und Schwachstellenbewertung unter sich ändernden Laufzeitbedingungen zu verbessern.

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan AtefiThu, 12 Ma🤖 cs.AI

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

Die Studie stellt FLA³ vor, eine governance-fähige Plattform für das föderierte Lernen, die durch integrierte Authentifizierungs-, Autorisierungs- und Abrechnungsmechanismen (AAA) datenschutzkonforme, grenzüberschreitende medizinische Forschung ermöglicht und dabei eine mit zentralisiertem Training vergleichbare Vorhersagegenauigkeit bei 54.446 Blutproben aus 25 Zentren demonstriert.

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael RobertsThu, 12 Ma💻 cs

DUCTILE: Agentic LLM Orchestration of Engineering Analysis in Product Development Practice

Die Arbeit stellt DUCTILE vor, ein von einem LLM-Agenten gesteuertes Orchestrierungssystem, das in der Produktentwicklung adaptive Analysen durchführt, während Ingenieure die Aufsicht behalten, und demonstriert dessen Fähigkeit, in einer industriellen Anwendung robuste, fehlerfreie Ergebnisse trotz variierender Eingabeformate zu liefern.

Alejandro Pradas-Gomez, Arindam Brahma, Ola IsakssonThu, 12 Ma🤖 cs.AI