cs.SE Arbeiten | Gist.Science

"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

Die Studie zeigt, dass trotz verschiedener Strategien zur Fehlerbehebung die Häufigkeit unbrauchbarer Antworten von LLMs dazu führt, dass ein Großteil der Softwareingenieure die Nutzung von ChatGPT in komplexen Entwicklungsaufgaben aufgibt, was die Notwendigkeit verbesserter Werkzeugunterstützung und Forschung zur Mensch-KI-Interaktion unterstreicht.

Jiessie Tie, Bingsheng Yao, Tianshi Li, Hongbo Fang, Syed Ishtiaque Ahmed, Dakuo Wang, Shurui ZhouWed, 11 Ma💻 cs

Towards a Taxonomy of Software Log Smells

Diese Studie stellt eine Taxonomie von neun „Log Smells" vor, die auf einer Analyse von 51 wissenschaftlichen Artikeln basiert, und ordnet diese Fehlertypen bestehenden Werkzeugen zu, um Entwicklern zu helfen, qualitativ hochwertigere Protokollierungscode zu schreiben und Forschungsbedarf aufzuzeigen.

Nyyti Saarimäki, Donghwan Shin, Domenico BianculliWed, 11 Ma💻 cs

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

Das Paper stellt GateLens vor, ein LLM-basiertes System für die Automobilsoftware-Analyse, das durch die Verwendung relationaler Algebra als formale Zwischenrepräsentation zwischen natürlicher Sprache und ausführbarem Code die Zuverlässigkeit und Geschwindigkeit bei der Verarbeitung komplexer tabellarischer Daten im Vergleich zu herkömmlichen Ansätzen signifikant verbessert.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Evaluating Large Language Models for Multilingual Vulnerability Detection at Dual Granularities

Diese Studie zeigt, dass durch Instruction Tuning und Few-Shot-Prompting optimierte Large Language Models (LLMs) wie GPT-4o bei der Erkennung von Sicherheitslücken in mehreren Programmiersprachen und auf unterschiedlichen Granularitätsebenen (Funktion und Zeile) deutlich besser abschneiden als bisherige Pre-trained Language Models (PLMs).

Honglin Shu, Michael Fu, Junji Yu, Dong Wang, Chakkrit Tantithamthavorn, Junjie Chen, Yasutaka KameiWed, 11 Ma💻 cs

Floating-Point Usage on GitHub: A Large-Scale Study of Statically Typed Languages

Diese Studie analysiert erstmals in großem Maßstab die Verwendung von Gleitkommaarithmetik in öffentlich zugänglichen GitHub-Repositories statisch typisierter Sprachen, um durch die Veröffentlichung eines Datensatzes mit 10 Millionen Funktionen und den Vergleich mit bestehenden Benchmarks die Lücke zwischen theoretischen Forschungsansätzen und realer Praxis zu schließen.

Andrea Gilot, Tobias Wrigstad, Eva DarulovaWed, 11 Ma💻 cs

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

Die Studie stellt SEER vor, ein adaptives Framework, das durch intelligente Kompression von Chain-of-Thought-Verläufen die Effizienz und Genauigkeit von Large Language Models in Software-Engineering- und Mathematikaufgaben verbessert, indem es unnötige Ausführlichkeit reduziert und Latenzzeiten senkt.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

Das Paper stellt Preguss vor, ein modulares Framework, das durch die Kombination von statischer Analyse und LLM-gestützter Spezifikationssynthese die automatisierte Verifikation von Programmen mit über 1000 Zeilen Code ermöglicht und dabei den menschlichen Aufwand um 80,6 % bis 88,9 % reduziert.

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei YinWed, 11 Ma💻 cs

Towards a Goal-Centric Assessment of Requirements Engineering Methods for Privacy by Design

Die Studie schlägt einen zielorientierten Bewertungsansatz für Requirements-Engineering-Methoden im Rahmen von Privacy by Design vor, um Organisationen bei der Auswahl passender Methoden zur Umsetzung der DSGVO zu unterstützen.

Oleksandr Kosenkov, Ehsan Zabardast, Jannik Fischbach, Tony Gorschek, Daniel MendezWed, 11 Ma💻 cs

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Die Arbeit stellt SkillCraft vor, einen Benchmark und ein Evaluierungsprotokoll, das die Fähigkeit von LLM-Agenten testet, wiederverwendbare Werkzeugkombinationen („Skills") zu bilden und zu nutzen, was zu erheblichen Effizienzsteigerungen und einer starken Korrelation zwischen Erfolg und kompositorischer Fähigkeit führt.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

Die Arbeit stellt SiliconMind-V1 vor, ein einheitliches Multi-Agenten-Framework, das durch testgestützte Verifikation und Debugging-Workflows lokal feinabgestimmte Sprachmodelle befähigt, funktional korrekten Verilog-Code effizienter zu generieren als bisherige State-of-the-Art-Ansätze.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

Die Arbeit stellt KernelCraft vor, den ersten Benchmark, der nachweist, dass agentic LLM-Systeme durch einen feedbackgesteuerten Workflow effizient und korrekt optimierte Low-Level-Kernel für neuartige Hardware-Architekturen mit bisher unbekannten Instruktionssätzen generieren können.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG

FormalRTL: Verified RTL Synthesis at Scale

Das Paper stellt FormalRTL vor, ein verifiziertes Multi-Agenten-Framework, das Software-Referenzmodelle als formale Spezifikationen nutzt, um die zuverlässige und skalierbare Generierung von industrietauglichem RTL-Code mittels großer Sprachmodelle zu ermöglichen.

Kezhi Li, Min Li, Xiangyu Wen, Shibo Zhao, Jieying Wu, Junhua Huang, Qiang XuWed, 11 Ma💻 cs

Extension of ACETONE C code generator for multi-core architectures

Dieses Papier stellt eine Erweiterung des ACETONE-C-Codegenerators vor, die durch die formale Definition des Prozessorzuordnungsproblems und die Entwicklung von Scheduling-Heuristiken sowie Synchronisationsmechanismen die Generierung paralleler Code für Multi-Core-Architekturen ermöglicht.

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

Turn: A Language for Agentic Computation

Die Arbeit stellt Turn vor, eine kompilierte, actor-basierte Programmiersprache, die durch sprachintegrierte Konstrukte wie typsichere LLM-Inferenz, ein kapazitätsbasiertes Identitätssystem und einen isolierten Actor-Prozessmodell agente Software entwickelt, die autonom durch Large Language Models (LLMs) reasoning und Handeln kann.

Muyukani KizitoWed, 11 Ma🤖 cs.AI

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

Die Arbeit stellt TDAD vor, eine Methode zur zuverlässigen Entwicklung von KI-Agenten, die Verhaltensspezifikationen in ausführbare Tests umwandelt und durch iterative Prompt-Verfeinerung sowie Mechanismen wie versteckte Tests und semantische Mutationstests sicherstellt, dass die Agenten spezifizierte Anforderungen und Richtlinien einhalten.

Tzafrir RehanWed, 11 Ma🤖 cs.AI

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Die Arbeit stellt das LLM Delegate Protocol (LDP) vor, ein KI-natives Kommunikationsprotokoll für Multi-Agenten-Systeme, das durch Identitätsbewusstsein, strukturierte Provenienz und sichere Domänen die Effizienz, Token-Nutzung und Governance bei der Delegierung von Aufgaben verbessert, wie eine Implementierung in der JamJet-Laufzeitumgebung zeigt.

Sunil PrakashWed, 11 Ma🤖 cs.AI

GenAI Is No Silver Bullet for Qualitative Research in Software Engineering

Diese Arbeit argumentiert, dass generative KI kein Allheilmittel für qualitative Forschung in der Softwaretechnik ist, sondern deren Einsatz sorgfältig an die spezifischen Daten und Forschungsstrategien angepasst werden muss, um die damit verbundenen Chancen und Risiken zu verstehen.

Neil A. Ernst, Christoph TreudeWed, 11 Ma💻 cs

Arbiter: Detecting Interference in LLM Agent System Prompts

Die Arbeit stellt Arbiter vor, ein Framework zur Erkennung von Interferenzmustern in Systemprompts von LLM-Coding-Agenten, das durch formale Regeln und Multi-Modell-Analysen bei drei großen Anbietern zahlreiche Schwachstellen aufdeckt und zeigt, dass die Prompt-Architektur die Fehlerklassen, nicht aber deren Schweregrad bestimmt.

Tony MasonWed, 11 Ma🤖 cs.AI

Can AI Agents Generate Microservices? How Far are We?

Die Studie zeigt, dass KI-Agenten zwar funktionsfähige und wartbare Microservices mit guter API-Konformität generieren können, jedoch aufgrund inkonsistenter Korrektheit und des nach wie vor erforderlichen menschlichen Eingriffs eine vollständig autonome Erstellung noch nicht erreicht ist.

Bassam Adnan, Matteo Esposito, Davide Taibi, Karthik VaidhyanathanWed, 11 Ma💻 cs

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

Die Arbeit stellt Pichay vor, ein Demand-Paging-System für LLM-Kontextfenster, das durch transparente Interposition und Auslagerung veralteter Inhalte die Kontextnutzung um bis zu 93 % reduziert und damit etablierte Konzepte der virtuellen Speicherverwaltung auf die Skalierung von Sprachmodellen anwendet.

Tony MasonWed, 11 Ma🤖 cs.AI

Weiter →