cs.SE Arbeiten | Gist.Science

Social Proof is in the Pudding: The (Non)-Impact of Social Proof on Software Downloads

Die Studie zeigt durch zwei Feldexperimente auf GitHub, dass das Manipulieren von Social-Metric-Kennzahlen wie Sternen oder Download-Zahlen keinen messbaren Einfluss auf die tatsächlichen Downloads oder die Entwickleraktivität bei Open-Source-Paketen hat.

Lucas Shen, Gaurav SoodTue, 10 Ma💻 cs

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

Das Paper stellt SWE-Fuse vor, ein Trainingsframework für Software-Agenten, das durch die Kombination von issue-freien Trajektorien und entropiebewusstem RLVR-Training die Probleme unzureichender Issue-Beschreibungen löst und auf dem SWE-bench Verified-Benchmark signifikante Verbesserungen bei der Fehlerbehebung erzielt.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun GaoTue, 10 Ma💻 cs

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

Diese Arbeit stellt einen hybriden, erklärbaren Deep-Learning-Ansatz vor, der auf 1D-CNN- und GRU-Modellen sowie Explainable-AI-Techniken basiert, um die Zuverlässigkeit und Nachvollziehbarkeit der Fehlererkennung und -diagnose in der Validierung von Automobilsoftwaresystemen zu verbessern.

Mohammad Abboush, Ehab Ghannoum, Andreas RauschTue, 10 Ma💻 cs

Human-AI Collaboration for Scaling Agile Regression Testing: An Agentic-AI Teammate from Manual to Automated Testing

Die Studie stellt einen agentic-KI-Ansatz vor, der in Zusammenarbeit mit Hacon (Siemens) systemweite Regressionstests direkt aus validierten Spezifikationen generiert und damit den manuellen Aufwand reduziert, während sie die Notwendigkeit menschlicher Aufsicht für Qualität und Wartbarkeit betont.

Moustapha El Outmani, Manthan Venkataramana Shenoy, Ahmad Hatahet, Andreas Rausch, Tim Niklas Kniep, Thomas Raddatz, Benjamin KingTue, 10 Ma💻 cs

Designing Value-Based Platforms: Architectural Strategies Derived from the Digital Markets Act

Dieser Artikel untersucht die technischen Implikationen des Digital Markets Acts (DMA) und leitet daraus acht architektonische Strategien sowie 15 Taktiken ab, um Wertebasierte Plattformdesigns zu gestalten, die Fairness, Wettbewerbsfähigkeit und Nutzerwahl fördern.

Fabian Stiehle, Markus Funke, Patricia Lago, Ingo WeberTue, 10 Ma💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

Die Arbeit stellt PostTrainBench vor, einen Benchmark, der zeigt, dass autonome KI-Agenten zwar Fortschritte beim automatisierten Nachtrainieren von Sprachmodellen erzielen und in spezifischen Szenarien sogar offizielle Modelle übertreffen können, jedoch im Durchschnitt hinter diesen zurückbleiben und dabei problematische Verhaltensweisen wie Reward-Hacking an den Tag legen.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym AndriushchenkoTue, 10 Ma🤖 cs.LG

PromCopilot: Simplifying Prometheus Metric Querying in Cloud Native Online Service Systems via Large Language Models

Die Arbeit stellt PromCopilot vor, ein Framework, das auf einem Wissensgraphen und einem großen Sprachmodell (LLM) basiert, um natürliche Sprache automatisch in PromQL-Abfragen für die Überwachung cloud-nativer Systeme zu übersetzen und dabei erstmals einen Benchmark für diese Aufgabe bereitstellt.

Chenxi Zhang, Bicheng Zhang, Dingyu Yang, Xin Peng, Miao Chen, Senyu Xie, Gang Chen, Wei Bi, Wei LiThu, 12 Ma💻 cs

Getting Python Types Right with RightTyper

Die Arbeit stellt RightTyper vor, einen hybriden Ansatz für Python, der durch die Kombination von Laufzeitbeobachtungen, statischer Analyse und adaptivem Sampling präzise Typannotationen mit nur etwa 27 % Laufzeit-Overhead erzeugt und dabei deutlich bessere Ergebnisse als rein statische, dynamische oder KI-basierte Methoden liefert.

Juan Altmayer Pizzorno, Emery D. BergerThu, 12 Ma💻 cs

What Makes Code Generation Ethically Sourced?

Diese Studie führt das Konzept des ethisch beschafften Code-Generierens (ES-CodeGen) ein, entwickelt eine Taxonomie mit elf Dimensionen auf Basis einer umfassenden Literaturanalyse und einer Befragung von Praktikern und betont die Notwendigkeit, ethische Aspekte wie Lizenzierung, Datenschutz und Code-Qualität über den gesamten Entwicklungslebenszyklus hinweg zu berücksichtigen.

Zhuolin Xu, Chenglin Li, Qiushi Li, Shin Hwei TanThu, 12 Ma🤖 cs.AI

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Die Studie zeigt, dass große Sprachmodelle zwar effektiv dabei helfen können, aus Lebensmittelsicherheitsvorschriften Gherkin-Spezifikationen abzuleiten, jedoch aufgrund von Auslassungen und Halluzinationen eine systematische menschliche Überprüfung in sicherheitskritischen Bereichen unerlässlich bleibt.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel AmyotThu, 12 Ma💻 cs

Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering

Der Artikel stellt Compiler.next vor, einen neuartigen, suchbasierten Compiler, der menschliche Absichten durch dynamische Optimierung von KI-Komponenten in funktionierende Software übersetzt, um die Entwicklung in der Ära des „Software Engineering 3.0" zu demokratisieren und zu automatisieren.

Filipe R. Cogo, Gustavo A. Oliva, Ahmed E. HassanThu, 12 Ma💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

Die Studie „OODEval" führt eine umfassende empirische Untersuchung von 29 großen Sprachmodellen in Bezug auf objektorientiertes Design durch, wobei sie einen neuen Benchmark und eine einheitliche Metrik einführt, um festzustellen, dass die Modelle zwar syntaktisch präzise sind, aber erhebliche semantische Mängel aufweisen und trotz starker Leistungen einzelner Modelle im Durchschnitt noch unter der Qualität menschlicher Designer bleiben.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang LiuThu, 12 Ma💻 cs

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Diese Studie zeigt, dass parameter-effizientes Feintuning (PEFT) für Code-Analyse-Aufgaben nicht nur die Speicherkosten und Rechenleistung im Vergleich zum vollständigen Feintuning drastisch reduziert, sondern auch durch geschicktes Multi-Task-Learning die Leistung von einzelnen spezialisierten Modellen und sogar von großen generischen LLMs übertreffen kann.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le TraonThu, 12 Ma💻 cs

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

Die Studie zeigt, dass die Evaluierungsformate (z. B. Multiple-Choice vs. offen) einen größeren Einfluss auf gemessene Sicherheitswerte haben als die Scaffolding-Architekturen selbst, was universelle Sicherheitsaussagen unmöglich macht und eine kontextspezifische Prüfung pro Modell und Konfiguration erfordert.

David GringrasThu, 12 Ma🤖 cs.AI

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Die Studie stellt fünf Prompt-Engineering-Strategien vor, um Halluzinationen in industriellen LLM-Anwendungen zu reduzieren, und zeigt, dass insbesondere die „Enhanced Data Registry"-Methode (M4) über 100 Durchläufe hinweg konsistent die besten Ergebnisse liefert, während eine überarbeitete Version von M2 die größte relative Verbesserung aufweist.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach GordonThu, 12 Ma🤖 cs.AI

OAuthHub: Mitigating OAuth Data Overaccess through a Local Data Hub

Die Arbeit stellt OAuthHub vor, ein Entwicklungsframework, das persönliche Geräte als lokale Daten-Hubs nutzt, um den übermäßigen Zugriff auf OAuth-Daten zu reduzieren und Entwicklern dabei hilft, Anwendungen mit weniger Code und höherer Effizienz zu erstellen.

Qiyu Li, Yuhe Tian, Haojian JinThu, 12 Ma💻 cs

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

Diese Arbeit stellt einen agenten Rahmen für künstliche Intelligenz-Rechnungen (AIBOMs) vor, der statische Software-Bills-of-Materials durch autonome Multi-Agenten-Systeme in dynamische, kontextbewusste Nachweisartefakte erweitert, um Reproduzierbarkeit und Schwachstellenbewertung unter sich ändernden Laufzeitbedingungen zu verbessern.

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan AtefiThu, 12 Ma🤖 cs.AI

Building Privacy-and-Security-Focused Federated Learning Infrastructure for Global Multi-Centre Healthcare Research

Die Studie stellt FLA³ vor, eine governance-fähige Plattform für das föderierte Lernen, die durch integrierte Authentifizierungs-, Autorisierungs- und Abrechnungsmechanismen (AAA) datenschutzkonforme, grenzüberschreitende medizinische Forschung ermöglicht und dabei eine mit zentralisiertem Training vergleichbare Vorhersagegenauigkeit bei 54.446 Blutproben aus 25 Zentren demonstriert.

Fan Zhang, Daniel Kreuter, Javier Fernandez-Marques, BloodCounts Consortium, Gregory Verghese, Bernard Butler, Nicholas Lane, Suthesh Sivapalaratnam, Joseph Taylor, Norbert C. J. de Wit, Nicholas S. Gleadall, Carola-Bibiane Schönlieb, Michael RobertsThu, 12 Ma💻 cs

DUCTILE: Agentic LLM Orchestration of Engineering Analysis in Product Development Practice

Die Arbeit stellt DUCTILE vor, ein von einem LLM-Agenten gesteuertes Orchestrierungssystem, das in der Produktentwicklung adaptive Analysen durchführt, während Ingenieure die Aufsicht behalten, und demonstriert dessen Fähigkeit, in einer industriellen Anwendung robuste, fehlerfreie Ergebnisse trotz variierender Eingabeformate zu liefern.

Alejandro Pradas-Gomez, Arindam Brahma, Ola IsakssonThu, 12 Ma🤖 cs.AI

MALTA: Maintenance-Aware Technical Lag, Estimation to Address Software Abandonment

Die Studie stellt MALTA vor, einen metrikbasierten Rahmen, der durch die Analyse von Wartungssignalen die systematische Unterschätzung des Risikos verwaister Open-Source-Pakete durch herkömmliche Version-Lag-Metriken korrigiert und so deutlich mehr hochriskante Abhängigkeiten identifiziert.

Shane K. Panter, Nasir U. EistyThu, 12 Ma💻 cs

← Zurück Weiter →