cs.SE Arbeiten | Gist.Science

Once4All: Skeleton-Guided SMT Solver Fuzzing with LLM-Synthesized Generators

Die Arbeit stellt Once4All vor, ein neuartiges, LLM-gestütztes Fuzzing-Framework, das durch die einmalige Synthese von Generatoren für wiederverwendbare Terme statt direkter Formelgenerierung syntaktisch korrekte SMT-Testformeln effizient erstellt und damit 43 bestätigte Fehler in den führenden Solvern Z3 und cvc5 aufgedeckt hat.

Maolin Sun, Yibiao Yang, Yuming ZhouFri, 13 Ma🤖 cs.AI

Quality Assurance of LLM-generated Code: Addressing Non-Functional Quality Characteristics

Diese Studie identifiziert eine Diskrepanz zwischen akademischem Fokus, industriellen Prioritäten und dem tatsächlichen Verhalten von LLMs hinsichtlich nicht-funktionaler Code-Qualität und fordert die Integration von Qualitätssicherungsmechanismen in Generierungs-Pipelines, um technische Schulden zu vermeiden.

Xin Sun, Daniel Ståhl, Kristian Sandahl, Christoph KesslerFri, 13 Ma🤖 cs.AI

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

Die Arbeit stellt DIVE vor, einen evidenzbasierten Ansatz, der durch die Umkehrung des Syntheseprozesses – beginnend mit der Ausführung realer Tools zur Ableitung von Aufgaben – die strukturelle Vielfalt in der Datengenerierung für Agenten-LLMs maximiert und so eine überlegene Generalisierungsfähigkeit bei Out-of-Distribution-Szenarien erreicht, die selbst mit deutlich weniger Daten als reine Mengenskaling übertrifft.

Aili Chen, Chi Zhang, Junteng Liu, Jiangjie Chen, Chengyu Du, Yunji Li, Ming Zhong, Qin Wang, Zhengmao Zhu, Jiayuan Song, Ke Ji, Junxian He, Pengyu Zhao, Yanghua XiaoFri, 13 Ma🤖 cs.AI

CR-Bench: Evaluating the Real-World Utility of AI Code Review Agents

Die Studie stellt mit CR-Bench und CR-Evaluator ein neues Benchmark-System und eine Evaluierungspipeline vor, um die reale Nutzbarkeit von KI-Code-Review-Agenten zu messen und dabei die kritische Abwägung zwischen der Entdeckung echter Fehler und der Vermeidung irreführender Fehlalarme aufzuzeigen.

Kristen Pereira, Neelabh Sinha, Rajat Ghosh, Debojyoti DuttaFri, 13 Ma💬 cs.CL

Quality-Driven Agentic Reasoning for LLM-Assisted Software Design: Questions-of-Thoughts (QoT) as a Time-Series Self-QA Chain

Die Arbeit stellt Questions-of-Thoughts (QoT) vor, einen qualitätsorientierten Inference-Scaffold, der durch schrittweise Selbstbefragung und strukturierte Planung die Zuverlässigkeit von LLM-generiertem Software-Design in Bereichen wie API-Design und Dateisystemen signifikant verbessert.

Yen-Ku Liu, Yun-Cheng TsaiFri, 13 Ma🤖 cs.AI

Resolving Java Code Repository Issues with iSWE Agent

Die Arbeit stellt iSWE Agent vor, ein auf Java spezialisiertes automatisiertes System zur Problemlösung in Code-Repositories, das durch die Kombination von regelbasierten statischen Analysewerkzeugen und Agenten-Techniken state-of-the-art-Ergebnisse auf Java-Datensätzen erzielt.

Jatin Ganhotra, Sami Serhan, Antonio Abu Nassar, Avraham Shinnar, Ziv Nevo, Martin HirzelFri, 13 Ma🤖 cs.AI

Social, Legal, Ethical, Empathetic and Cultural Norm Operationalisation for AI Agents

Die Arbeit schlägt einen systematischen Prozess zur Operationalisierung sozialer, rechtlicher, ethischer, empathischer und kultureller (SLEEC) Normen für KI-Agenten vor, um abstrakte Prinzipien in überprüfbare Anforderungen zu übersetzen und so eine Lücke zwischen theoretischen Rahmenwerken und der praktischen Implementierung in hochriskanten Domänen zu schließen.

Radu Calinescu, Ana Cavalcanti, Marsha Chechik, Lina Marsso, Beverley TownsendFri, 13 Ma🤖 cs.AI

Automatic Generation of High-Performance RL Environments

Diese Arbeit stellt eine wiederverwendbare Methode vor, die komplexe Reinforcement-Learning-Umgebungen mithilfe von KI-Agenten, hierarchischer Verifizierung und iterativer Reparatur automatisch in hochoptimierte Implementierungen übersetzt, wodurch die Entwicklungszeit drastisch verkürzt und die Trainingsgeschwindigkeit um Größenordnungen gesteigert wird.

Seth Karten, Rahul Dev Appapogu, Chi JinFri, 13 Ma🤖 cs.LG

Quantum Computing for All: Online Courses Built Around Interactive Visual Quantum Circuit Simulator

Die Autoren stellen einen Online-Kurs vor, der auf einem interaktiven Quantenschaltkreissimulator basiert, um durch sofortiges Feedback und automatisierte Aufgaben den Einstieg in die abstrakte Quanteninformatik für Studierende ohne Vorkenntnisse zu erleichtern.

Juha Reinikainen, Vlad Stirbu, Teiko Heinosaari + 2 more2026-03-11⚛️ quant-ph

Dance of the ADS: Orchestrating Failures through Historically-Informed Scenario Fuzzing

Diese Arbeit stellt ScenarioFuzz vor, eine neuartige, historisch informierte Fuzzing-Methode für autonome Fahrsysteme, die durch die Kombination von Graph-Neural-Networks und selbstüberwachtem Clustering die Effizienz der Fehlererkennung um 60,3 % steigert und dabei 58 neue Fehler in sechs verschiedenen Systemen aufdeckt.

Tong Wang, Taotao Gu, Huan Deng + 3 more2026-03-11🤖 cs.AI

LAMBDA: A Large Model Based Data Agent

LAMBDA ist ein neuartiges, quelloffenes und code-freies Multi-Agenten-System, das auf großen Sprachmodellen basiert und durch die Zusammenarbeit eines Programmier- und eines Prüfer-Agenten sowie die Möglichkeit zur menschlichen Eingriffnahme und Integration externer Algorithmen Datenanalysen für Nutzer unterschiedlicher Hintergründe zugänglicher und effizienter macht.

Maojun Sun, Ruijian Han, Binyan Jiang + 4 more2026-03-10🤖 cs.AI

Exploration of Evolving Quantum Key Distribution Network Architecture Using Model-Based Systems Engineering

Diese Studie nutzt modellbasierte Systems Engineering-Ansätze, insbesondere Orthogonal Variability Modelling und Systems Modelling Language, um die Evolution von Quantenschlüsselverteilungsnetzwerkarchitekturen zu modellieren und einen variabilitätsgetriebenen Rahmen für deren systematische Entwicklung zu schaffen.

Hayato Ishida, Amal Elsokary, Maria Aslam + 3 more2026-03-10⚛️ quant-ph

Real-Time BDI Agents: a model and its implementation

Dieser Artikel stellt ein neu definiertes Echtzeit-BDI-Agentenmodell vor, das durch die Integration expliziter Zeitkontrollen in den Entscheidungsprozess die Reaktionsfähigkeit und Zuverlässigkeit von autonomen Systemen unter Zeit- und Ressourcenbeschränkungen verbessert, was durch eine Implementierung und Validierung in einem Videospiel-Szenario demonstriert wird.

Andrea Traldi, Francesco Bruschetti, Marco Robol + 3 more2026-03-06💻 cs

Automated TEE Adaptation with LLMs: Identifying, Transforming, and Porting Sensitive Functions in Programs

Die Arbeit stellt AUTOTEE vor, einen auf Large Language Models basierenden Ansatz, der automatisch sensible Funktionen in Programmen identifiziert, transformiert und in Trusted Execution Environments (TEEs) portiert, wodurch die bisher manuelle und komplexe Anpassung erheblich vereinfacht wird.

Ruidong Han, Zhou Yang, Chengyan Ma, Ye Liu, Yuqing Niu, Siqi Ma, Debin Gao, David Lo2026-03-06🔒 cs.CR

Assessing the Impact of Code Changes on the Fault Localizability of Large Language Models

Diese Studie stellt ein neuartiges, skalierbares Evaluierungsframework vor, das zeigt, dass die Fähigkeit von Large Language Models zur Fehlerlokalisation durch semantisch erhaltende Mutationen stark beeinträchtigt wird, was auf eine übermäßige Abhängigkeit von syntaktischen Merkmalen anstelle eines tiefen semantischen Verständnisses hinweist.

Sabaat Haroon, Ahmad Faraz Khan, Ahmad Humayun + 5 more2026-03-06💻 cs

MioHint: LLM-assisted Mutation for Whitebox API Testing

Die Arbeit stellt MioHint vor, einen neuartigen Ansatz für das Whitebox-API-Testing, der durch die Synergie aus statischer Datenabhängigkeitsanalyse und den Code-Verständnisfähigkeiten von Large Language Models das Problem der Fitness-Plateaus überwindet und im Vergleich zu EvoMaster die Linienabdeckung sowie die Mutationsgenauigkeit signifikant steigert.

Jia Li, Jiacheng Shen, Yuxin Su + 1 more2026-03-06💻 cs

Vision Language Model-based Testing of Industrial Autonomous Mobile Robots

Die Autoren stellen einen von PAL Robotics entwickelten, auf Vision Language Models basierenden Testansatz namens RVSG vor, der automatisch diverse, sicherheitsrelevante menschliche Verhaltensweisen generiert, um autonome mobile Roboter in Simulationen effizient und sicher auf ihre Zuverlässigkeit unter unsicheren Bedingungen zu prüfen.

Jiahui Wu, Chengjie Lu, Aitor Arrieta + 2 more2026-03-06💻 cs

RefAgent: A Multi-agent LLM-based Framework for Automatic Software Refactoring

Die Studie stellt RefAgent vor, ein Multi-Agenten-Framework auf Basis von Large Language Models, das durch spezialisierte Agenten für Planung, Ausführung und Testen Software-Refaktorierungen automatisiert und dabei im Vergleich zu Einzelagenten sowie traditionellen Tools signifikant höhere Erfolgsquoten bei der Code-Qualität und der Beseitigung von Code-Smells erzielt.

Khouloud Oueslati, Maxime Lamothe, Foutse Khomh2026-03-06💻 cs

Toward architecting self-coding information systems

Dieser Extended Abstract stellt das neue Forschungsthema „selbstcodierende Informationssysteme" vor, die ihre Struktur und ihr Verhalten zur Laufzeit autonom durch Codegenerierung, -test und -bereitstellung anpassen können, um die Time-to-Market neuer Funktionen zu verkürzen.

Rodrigo Falcão, Frank Elberzhager, Karthik Vaidhyanathan2026-03-06💻 cs

Refactoring for Novices in Java: An Eye Tracking Study on the Extract vs. Inline Methods

Eine Eye-Tracking-Studie mit Java-Anfängern zeigt, dass die Extraktion von Methoden die Lesbarkeit und Leistung bei komplexen Aufgaben verbessert, bei einfachen Aufgaben jedoch durch erhöhten Navigationsaufwand und kognitive Last die Performance verschlechtert, was zu einer vorsichtigen Anwendung von Modularisierung im Anfängerunterricht raten lässt.

José Aldo Silva da Costa, Rohit Gheyi, José Júnior Silva da Costa + 5 more2026-03-06💻 cs

← Zurück Weiter →