"Should I Give Up Now?" Investigating LLM Pitfalls in Software Engineering

Die Studie zeigt, dass trotz verschiedener Strategien zur Fehlerbehebung die Häufigkeit unbrauchbarer Antworten von LLMs dazu führt, dass ein Großteil der Softwareingenieure die Nutzung von ChatGPT in komplexen Entwicklungsaufgaben aufgibt, was die Notwendigkeit verbesserter Werkzeugunterstützung und Forschung zur Mensch-KI-Interaktion unterstreicht.

Jiessie Tie, Bingsheng Yao, Tianshi Li, Hongbo Fang, Syed Ishtiaque Ahmed, Dakuo Wang, Shurui ZhouWed, 11 Ma💻 cs

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

Das Paper stellt GateLens vor, ein LLM-basiertes System für die Automobilsoftware-Analyse, das durch die Verwendung relationaler Algebra als formale Zwischenrepräsentation zwischen natürlicher Sprache und ausführbarem Code die Zuverlässigkeit und Geschwindigkeit bei der Verarbeitung komplexer tabellarischer Daten im Vergleich zu herkömmlichen Ansätzen signifikant verbessert.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Evaluating Large Language Models for Multilingual Vulnerability Detection at Dual Granularities

Diese Studie zeigt, dass durch Instruction Tuning und Few-Shot-Prompting optimierte Large Language Models (LLMs) wie GPT-4o bei der Erkennung von Sicherheitslücken in mehreren Programmiersprachen und auf unterschiedlichen Granularitätsebenen (Funktion und Zeile) deutlich besser abschneiden als bisherige Pre-trained Language Models (PLMs).

Honglin Shu, Michael Fu, Junji Yu, Dong Wang, Chakkrit Tantithamthavorn, Junjie Chen, Yasutaka KameiWed, 11 Ma💻 cs

Floating-Point Usage on GitHub: A Large-Scale Study of Statically Typed Languages

Diese Studie analysiert erstmals in großem Maßstab die Verwendung von Gleitkommaarithmetik in öffentlich zugänglichen GitHub-Repositories statisch typisierter Sprachen, um durch die Veröffentlichung eines Datensatzes mit 10 Millionen Funktionen und den Vergleich mit bestehenden Benchmarks die Lücke zwischen theoretischen Forschungsansätzen und realer Praxis zu schließen.

Andrea Gilot, Tobias Wrigstad, Eva DarulovaWed, 11 Ma💻 cs

A Tale of 1001 LoC: Potential Runtime Error-Guided Specification Synthesis for Verifying Large-Scale Programs

Das Paper stellt Preguss vor, ein modulares Framework, das durch die Kombination von statischer Analyse und LLM-gestützter Spezifikationssynthese die automatisierte Verifikation von Programmen mit über 1000 Zeilen Code ermöglicht und dabei den menschlichen Aufwand um 80,6 % bis 88,9 % reduziert.

Zhongyi Wang, Tengjie Lin, Mingshuai Chen, Haokun Li, Mingqi Yang, Xiao Yi, Shengchao Qin, Yixing Luo, Xiaofeng Li, Bin Gu, Liqiang Lu, Jianwei YinWed, 11 Ma💻 cs

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Die Arbeit stellt SkillCraft vor, einen Benchmark und ein Evaluierungsprotokoll, das die Fähigkeit von LLM-Agenten testet, wiederverwendbare Werkzeugkombinationen („Skills") zu bilden und zu nutzen, was zu erheblichen Effizienzsteigerungen und einer starken Korrelation zwischen Erfolg und kompositorischer Fähigkeit führt.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

Die Arbeit stellt SiliconMind-V1 vor, ein einheitliches Multi-Agenten-Framework, das durch testgestützte Verifikation und Debugging-Workflows lokal feinabgestimmte Sprachmodelle befähigt, funktional korrekten Verilog-Code effizienter zu generieren als bisherige State-of-the-Art-Ansätze.

Mu-Chi Chen, Yu-Hung Kao, Po-Hsuan Huang, Shao-Chun Ho, Hsiang-Yu Tsou, I-Ting Wu, En-Ming Huang, Yu-Kai Hung, Wei-Po Hsin, Cheng Liang, Chia-Heng Tu, Shih-Hao Hung, Hsiang-Tsung KungWed, 11 Ma🤖 cs.AI

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

Die Arbeit stellt KernelCraft vor, den ersten Benchmark, der nachweist, dass agentic LLM-Systeme durch einen feedbackgesteuerten Workflow effizient und korrekt optimierte Low-Level-Kernel für neuartige Hardware-Architekturen mit bisher unbekannten Instruktionssätzen generieren können.

Jiayi Nie, Haoran Wu, Yao Lai, Zeyu Cao, Cheng Zhang, Binglei Lou, Erwei Wang, Jianyi Cheng, Timothy M. Jones, Robert Mullins, Rika Antonova, Yiren ZhaoWed, 11 Ma🤖 cs.LG