cs.SE Arbeiten | Gist.Science

Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents

Die Arbeit stellt „Traversal-as-Policy" vor, eine Methode, bei der aus erfolgreichen OpenHands-Executions-Logs ein ausführbarer, gate-gesteuerter Verhaltensbaum abgeleitet wird, der als externe, überprüfbare Richtlinie dient und damit die Erfolgsrate von LLM-Agenten signifikant steigert, während Sicherheitsverletzungen nahezu eliminiert und die Kosten gesenkt werden.

Peiran Li, Jiashuo Sun, Fangzhou Lin, Shuo Xing, Tianfu Fu, Suofei Feng, Chaoqun Ni, Zhengzhong TuMon, 09 Ma🤖 cs.AI

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

Die Arbeit stellt EigenData vor, eine selbstentwickelnde Multi-Agenten-Plattform, die den gesamten Lebenszyklus von Daten für Funktionsaufrufe automatisiert und durch die Korrektur des BFCL-V3-Tests sowie die Einführung einer ergebnisorientierten Evaluierung die Übereinstimmung zwischen Modellrankings und menschlichen Bewertungen der funktionalen Korrektheit signifikant verbessert.

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di JinMon, 09 Ma🤖 cs.AI

Tool-Genesis: A Task-Driven Tool Creation Benchmark for Self-Evolving Language Agent

Das Paper stellt Tool-Genesis vor, ein diagnostisches Benchmark, das die Fähigkeit von Sprachagenten bewertet, aus abstrakten Anforderungen eigenständig Werkzeuge zu erstellen, und zeigt dabei, dass selbst fortschrittliche Modelle in einer One-Shot-Situation oft durch kleine Fehler in Schnittstellen und Logik scheitern, die sich im gesamten Prozesskette zu einem starken Leistungsabfall verstärken.

Bowei Xia, Mengkang Hu, Shijian Wang, Jiarui Jin, Wenxiang Jiao, Yuan Lu, Kexin Li, Ping LuoMon, 09 Ma🤖 cs.AI

Real Faults in Model Context Protocol (MCP) Software: a Comprehensive Taxonomy

Diese Studie präsentiert die erste umfassende, empirisch fundierte Taxonomie von Fehlern in MCP-Servern, die durch eine Praxisumfrage validiert wurde, um spezifische Schwachstellen zu identifizieren und die Entwicklung robusterer KI-gestützter Softwaresysteme zu unterstützen.

Mina Taraghi, Mohammad Mehdi Morovati, Foutse KhomhMon, 09 Ma💻 cs

LTLGuard: Formalizing LTL Specifications with Compact Language Models and Lightweight Symbolic Reasoning

Das Paper stellt LTLGuard vor, ein modulares Werkzeug, das kompakte Sprachmodelle mit formalen Konsistenzprüfungen kombiniert, um aus unpräzisen natürlichen Sprachanforderungen korrekte und widerspruchsfreie LTL-Spezifikationen zu generieren.

Medina Andresel, Cristinel Mateis, Dejan Nickovic, Spyridon Kounoupidis, Panagiotis Katsaros, Stavros TripakisMon, 09 Ma🤖 cs.AI

CodeScout: Contextual Problem Statement Enhancement for Software Agents

Das Paper stellt CodeScout vor, einen Ansatz zur kontextuellen Verfeinerung von Problemstellungen durch eine leichte Vorab-Analyse des Codebases, der die Erfolgsrate von Software-Agenten auf der SWEBench-Verified-Benchmark um 20 % steigert, indem er unpräzise Anfragen in umfassende, handlungsorientierte Aufgaben umwandelt.

Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun KumarMon, 09 Ma💬 cs.CL

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Die Arbeit stellt ReflexiCoder vor, ein Reinforcement-Learning-Framework, das Large Language Models befähigt, Code autonom durch internalisierte Selbstreflexion und Selbstkorrektur zu verbessern, wodurch sie bei algorithmischen Aufgaben neue State-of-the-Art-Ergebnisse erzielen und dabei deutlich token-effizienter sind als herkömmliche Ansätze.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju KimMon, 09 Ma🤖 cs.LG

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Diese Arbeit stellt einen systematischen XAI-Ansatz vor, der Roh-Ausführungsprotokolle von LLM-Coding-Agenten durch eine domänenspezifische Fehler-Taxonomie, automatische Annotation und hybride Erklärungen in verständliche, visuelle und handlungsorientierte Insights umwandelt, wodurch die Fehleranalyse und -behebung für Entwickler signifikant beschleunigt und präzisiert wird.

Arun JoshiMon, 09 Ma🤖 cs.AI

Balancing Latency and Accuracy of Code Completion via Local-Cloud Model Cascading

Die Arbeit stellt MCCom vor, ein Framework, das durch die Kaskadierung eines lokalen kleinen Sprachmodells mit einem Cloud-basierten großen Sprachmodell, ausgelöst durch Benutzeraktionen, sowie durch spekulatives Decoding und Retrieval die Latenz bei der Code-Vervollständigung um bis zu 47,9 % senkt und gleichzeitig die Genauigkeit verbessert.

Hanzhen Lu, Lishui Fan, Jiachi Chen, Qiuyuan Chen, Zhao Wei, Zhongxin LiuMon, 09 Ma💻 cs

When Specifications Meet Reality: Uncovering API Inconsistencies in Ethereum Infrastructure

Die Studie stellt APIDiffer vor, ein spezifikationsgestütztes Framework zur automatisierten Erkennung von API-Inkonsistenzen in der Ethereum-Infrastruktur, das durch innovative Testgenerierung und KI-gestützte Filterung 72 Fehler in allen 11 wichtigsten Clients aufdeckte und dabei die Codeabdeckung sowie die Zuverlässigkeit bestehender Tools signifikant verbesserte.

Jie Ma, Ningyu He, Jinwen Xi, Mingzhe Xing, Liangxin Liu, Jiushenzi Luo, Xiaopeng Fu, Chiachih Wu, Haoyu Wang, Ying Gao, Yinliang YueMon, 09 Ma💻 cs

Detecting Semantic Alignments between Textual Specifications and Domain Models

Die vorgestellte Studie nutzt Natural Language Processing und Large Language Models, um die semantische Übereinstimmung zwischen textuellen Spezifikationen und Domänenmodellen zu erkennen, wobei das Verfahren eine hohe Präzision bei der Identifizierung korrekter und fehlerhafter Modellelemente erreicht.

Shwetali Shimangaud, Lola Burgueño, Rijul Saini, Jörg KienzleMon, 09 Ma💻 cs

Pre-AI Baseline: Developer IDE Satisfaction and Tool Autonomy in 2022

Diese Studie liefert eine quantitative Baseline für die Zufriedenheit von Entwicklern mit ihren IDEs und die Bedeutung der Tool-Autonomie aus dem Jahr 2022, kurz vor der breiten Einführung von KI-Tools, indem sie Daten von 1.155 Entwicklern analysiert.

Nikola BalicMon, 09 Ma💻 cs

A LINDDUN-based Privacy Threat Modeling Framework for GenAI

Diese Arbeit stellt ein auf LINDDUN basierendes, domänenspezifisches Framework zur Privatsphären-Bedrohungsmodellierung für Generative KI vor, das durch eine systematische Literaturrecherche und eine Fallstudie erweitert wurde, um spezifische Risiken von GenAI-Systemen besser zu identifizieren und zu analysieren.

Qianying Liao, Jonah Bellemans, Laurens Sion, Xue Jiang, Dmitrii Usynin, Xuebing Zhou, Dimitri Van Landuyt, Lieven Desmet, Wouter JoosenMon, 09 Ma💻 cs

Real-World Fault Detection for C-Extended Python Projects with Automated Unit Test Generation

Die Autoren stellen einen Ansatz vor, der das Testwerkzeug Pynguin durch die Ausführung von Tests in isolierten Subprozessen anpasst, um Abstürze in C-Erweiterungen von Python-Bibliotheken zu erkennen und reproduzierbare Testfälle zu generieren, was in einer Evaluation mit 1648 Modulen zu 32 neu entdeckten Fehlern führte.

Lucas Berg, Lukas Krodinger, Stephan Lukasczyk, Annibale Panichella, Gordon Fraser, Wim Vanhoof, Xavier DevroeyMon, 09 Ma💻 cs

Can Adjusting Hyperparameters Lead to Green Deep Learning: An Empirical Study on Correlations between Hyperparameters and Energy Consumption of Deep Learning Models

Diese empirische Studie zeigt, dass eine gezielte Anpassung von Hyperparametern den Energieverbrauch von Deep-Learning-Modellen senken kann, ohne deren Leistung zu beeinträchtigen, und somit einen wichtigen Beitrag zu „grünem" Deep Learning leistet.

Taoran Wang, Yanhui Li, Mingliang Ma, Lin Chen, Yuming ZhouMon, 09 Ma💻 cs

Story Point Estimation Using Large Language Models

Diese Studie zeigt, dass Large Language Models Story-Point-Schätzungen in Softwareprojekten ohne oder mit nur wenigen Trainingsdaten genauer vorhersagen können als überwachtes Deep Learning, wobei vergleichende Urteile als Few-Shot-Beispiele die Leistung weiter verbessern, obwohl ihre direkte Vorhersage nicht einfacher ist als die der Story Points selbst.

Pranam Prakash Shetty, Adarsh Balakrishnan, Mengqiao Xu, Xiaoyin Xi, Zhe YuMon, 09 Ma💻 cs

A Generalized Feature Model for Digital Twins

Dieser Artikel stellt ein generalisiertes Feature-Modell für digitale Zwillinge vor, das auf einer systematischen Literaturstudie basiert und durch Anwendung auf drei Use-Cases validiert wurde, um die Entscheidungsfindung, die modellgetriebene Entwicklung sowie die Verifikation und Validierung von digitalen Zwillingen zu unterstützen.

Philipp Zech, Yanis Mair, Michael Vierhauser, Pablo Oliveira Antonino, Frank Schnicke, Tony ClarkMon, 09 Ma💻 cs

A Scalable Benchmark for Repository-Oriented Long-Horizon Conversational Context Management

Die Arbeit stellt LoCoEval vor, den ersten Benchmark für das Management von langfristigen Gesprächskontexten in Software-Repositorys, und zeigt die Grenzen bestehender Methoden auf, während sie gleichzeitig eine verbesserte, robuste Lösung vorschlägt.

Yang Liu, Li Zhang, Fang Liu, Ping Lin, Xinyi LiMon, 09 Ma💻 cs

A Reference Architecture of Reinforcement Learning Frameworks

Diese Arbeit schlägt eine Referenzarchitektur für Reinforcement-Learning-Frameworks vor, die durch eine Grounded-Theory-Analyse von 18 aktuellen Implementierungen entwickelt wurde, um eine gemeinsame Basis für Vergleich, Bewertung und Integration zu schaffen.

Xiaoran Liu, Istvan DavidMon, 09 Ma🤖 cs.AI

Understanding and Finding JIT Compiler Performance Bugs

Diese Arbeit führt die erste empirische Studie zu JIT-Compiler-Performance-Bugs durch und stellt mit Jittery eine neue, automatisierte Testmethode vor, die durch praktische Optimierungen effizient neue Fehler in HotSpot und Graal aufdeckt.

Zijian Yi, Cheng Ding, August Shi, Milos GligoricMon, 09 Ma💻 cs

← Zurück Weiter →