DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

Der Artikel stellt DevBench vor, einen datengestützten Benchmark, der große Sprachmodelle anhand von 1.800 realistischen Code-Vervollständigungsaufgaben aus Entwickler-Telemetriedaten bewertet, um deren praktische Nützlichkeit und ökologische Validität über traditionelle Metriken hinaus zu analysieren.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie NallipoguTue, 10 Ma🤖 cs.LG

ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution

Das Paper stellt ResearchEnvBench vor, einen Benchmark, der die Fähigkeit autonomer Agenten bewertet, komplexe Ausführungsumgebungen für Forschungscode zu synthetisieren, und dabei erhebliche Defizite aktueller State-of-the-Art-Modelle bei der Abhängigkeitsauflösung und Versionskonfiguration aufzeigt.

Yubang Wang, Chenxi Zhang, Bowen Chen, Zezheng Huai, Zihao Dai, Xinchi Chen, Yuxin Wang, Yining Zheng, Jingjing Gong, Xipeng QiuTue, 10 Ma💻 cs

Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes

Diese Studie charakterisiert Fehler in agenter KI durch eine empirische Analyse von über 13.000 Issues aus Open-Source-Projekten, die zur Entwicklung einer validierten Taxonomie von 37 Fehlertypen, deren Symptomen und Ursachen führt und dabei häufige Fehlermuster wie die Diskrepanz zwischen probabilistischen LLM-Ausgaben und deterministischen Schnittstellen aufdeckt.

Mehil B Shah, Mohammad Mehdi Morovati, Mohammad Masudur Rahman, Foutse KhomhTue, 10 Ma💻 cs

Patch Validation in Automated Vulnerability Repair

Die Studie stellt mit PVBench einen neuen Benchmark vor und zeigt, dass über 40 % der von aktuellen automatischen Reparatur-Systemen als erfolgreich eingestuften Patches bei Berücksichtigung zusätzlicher Semantik-Tests (PoC⁺) versagen, was auf eine erhebliche Überschätzung der Erfolgsraten und Verbesserungsbedarf in der Ursachenanalyse sowie der Einhaltung von Spezifikationen hinweist.

Zheng Yu, Wenxuan Shi, Xinqian Sun, Zheyun Feng, Meng Xu, Xinyu XingTue, 10 Ma💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

Diese Studie stellt einen multidimensionalen Evaluierungsrahmen vor, der zeigt, dass zwar Small Language Models unter 3 Milliarden Parametern für die Generierung von Architekturentscheidungen stark von Fine-Tuning profitieren, jedoch erst Modelle oberhalb dieser Schwelle robuste Zero-Shot-Fähigkeiten aufweisen und eine hohe semantische Vielfalt oft mit Halluzinationen einhergeht.

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son HaTue, 10 Ma💻 cs

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Eine empirische Studie an vier Modellen und fünf Prompting-Regimen zeigt, dass deploymentbedingte Einschränkungen die Halluzination von Zitaten in geschlossenen Umgebungen nicht verhindern, sondern die Verifizierbarkeit von Referenzen drastisch senken, was eine nachträgliche Überprüfung vor der Nutzung in der Softwaretechnik zwingend erforderlich macht.

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

Echo: Graph-Enhanced Retrieval and Execution Feedback for Issue Reproduction Test Generation

Die Arbeit stellt Echo vor, einen Agenten zur automatischen Generierung von Issue-Reproduktions-Tests, der durch graphenbasierte Kontextrecherche, automatische Testausführung mit Rückmeldung sowie die Erzeugung von Patches einen neuen State-of-the-Art mit einer Erfolgsrate von 66,28 % auf dem SWT-Bench Verified erreicht.

Zhiwei Fei, Yue Pan, Federica Sarro, Jidong Ge, Marc Liu, Vincent Ng, He YeTue, 10 Ma💻 cs

Regression Testing in Remote and Hybrid Software Teams: An Exploratory Study of Processes, Tools, and Practices

Diese explorative Studie zeigt, dass sich Regressionstests in verteilten Teams durch eine verstärkte Abhängigkeit von Dokumentation, Automatisierung und Tool-Integration sowie standardisierten Kommunikationsmechanismen an die Anforderungen der asynchronen Zusammenarbeit anpassen, wobei die menschliche Kollaboration und die digitale Infrastruktur als prägende Faktoren für die Qualitätssicherung fungieren.

Juliane Pascoal, Cleytton Magalhaes, Ronnie de Souza SantosTue, 10 Ma💻 cs

Empathy in Software Engineering Education: Evidence, Practices, and Opportunities

Diese systematische Übersichtsarbeit untersucht, wie Empathie in der Softwaretechnik-Ausbildung gelehrt und integriert wird, und zeigt, dass sie sich von einer weichen Fähigkeit zu einem messbaren pädagogischen Konzept entwickelt, das durch strukturierte Lehrmethoden Zusammenarbeit, ethisches Bewusstsein und nutzerzentriertes Design fördert.

Matheus de Morais Leca, Kim Johnston, Ronnie de Souza SantosTue, 10 Ma💻 cs

On the Effectiveness of Code Representation in Deep Learning-Based Automated Patch Correctness Assessment

Diese Studie führt die erste umfassende Untersuchung durch, die zeigt, dass graphbasierte Code-Repräsentationen im Vergleich zu anderen Ansätzen die Genauigkeit bei der automatisierten Bewertung der Patch-Korrektheit signifikant verbessern und somit die Wirksamkeit von Programmkorrektur-Tools erhöhen.

Quanjun Zhang, Chunrong Fang, Haichuan Hu, Yuan Zhao, Weisong Sun, Yun Yang, Tao Zheng, Zhenyu ChenTue, 10 Ma💻 cs

AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

Die Arbeit stellt AgentRaft vor, ein automatisiertes Framework, das mithilfe von Programmanalyse, semantischer Reasoning und einem auf Datenschutzgesetzen basierenden Mehr-LLM-Voting-Komitee das neuartige Risiko der Datenüberexposition in LLM-Agenten effektiv erkennt und dabei eine hohe Genauigkeit sowie eine Abdeckung von 99 % mit nur 150 Prompts erreicht.

Yixi Lin (Sun Yat-sen University, Zhuhai, Guangdong, China), Jiangrong Wu (Sun Yat-sen University, Zhuhai, Guangdong, China), Yuhong Nan (Sun Yat-sen University, Zhuhai, Guangdong, China), Xueqiang Wang (University of Central Florida, Orlando, Florida, USA), Xinyuan Zhang (Sun Yat-sen University, Zhuhai, Guangdong, China), Zibin Zheng (Sun Yat-sen University, Zhuhai, Guangdong, China)Tue, 10 Ma💻 cs

The Effect of Code Obfuscation on Human Program Comprehension

Die Studie zeigt, dass Code-Obfuskation die menschliche Programmvorhersage im Allgemeinen verlangsamt und die Genauigkeit verringert, wobei der Einfluss auf die Leistung je nach Programmiersprache (Python vs. JavaScript) variiert und erfahrene Entwickler eher durch sprachspezifische Vertrautheit als durch allgemeine Programmierfähigkeiten beeinflusst werden.

Anh H. N. Nguyen, Jack Le, Ilse Lahnstein Coronado, Tien N. NguyenTue, 10 Ma💻 cs