Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

Diese Studie führt die erste systematische Überprüfung durch und deckt auf, dass Shadow-APIs, die in zahlreichen wissenschaftlichen Arbeiten genutzt werden, oft betrügerisch vorgehen, indem sie Zugang zu Frontier-LLMs vortäuschen, obwohl sie signifikante Leistungsunterschiede, Sicherheitsrisiken und Identitätsfälschungen aufweisen, was die Reproduzierbarkeit der Forschung und die Interessen der Nutzer gefährdet.

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang2026-03-06🔒 cs.CR

LoRA-MME: Multi-Model Ensemble of LoRA-Tuned Encoders for Code Comment Classification

Das Paper stellt LoRA-MME vor, einen Multi-Model-Ensemble-Ansatz, der vier mit LoRA feinabgestimmte Transformer-Encoder kombiniert, um die Klassifizierung von Code-Kommentaren in Java, Python und Pharo zu verbessern, wobei trotz hoher semantischer Genauigkeit (F1-Weighted 0,7906) der hohe Rechenaufwand zu einer niedrigeren Gesamtbewertung im Wettbewerb führte.

Md Akib Haider, Ahsan Bulbul, Nafis Fuad Shahid + 2 more2026-03-06💻 cs

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Diese Studie analysiert 31 LLM-Sicherheits-Benchmarks und stellt fest, dass diese trotz ihrer Bedeutung weder einen signifikanten Vorteil in der akademischen Wirkung aufweisen noch eine Korrelation zwischen Autorenprestige oder Einfluss und der Qualität des bereitgestellten Codes besteht, wobei nur ein kleiner Teil der Repositories einsatzbereit oder ethisch reflektiert ist.

Junjie Chu, Xinyue Shen, Ye Leng, Michael Backes, Yun Shen, Yang Zhang2026-03-06🔒 cs.CR

iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation

Die Arbeit stellt iScript vor, ein spezialisiertes Large Language Model und einen umfassenden Benchmark für die Generierung von Tcl-Skripten im physischen Chipdesign, die durch eine mehrstufige Daten-Synthesepipeline und eine zweistufige Validierung entwickelt wurden, um die Datenknappheit und hohen Zuverlässigkeitsanforderungen in EDA-Flows zu bewältigen.

Ning Xu, Zhaoyang Zhang, Senlin Shu + 10 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Die Studie stellt mit „Vibe Code Bench" einen neuen Benchmark für die End-to-End-Entwicklung von Webanwendungen vor, der zeigt, dass selbst die besten aktuellen KI-Modelle bei der vollständigen Erstellung funktionsfähiger Apps noch erhebliche Schwierigkeiten haben und dabei die Bedeutung von Selbsttests sowie die Auswirkungen der Evaluatoren-Auswahl auf die Ergebnisse aufdeckt.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Behaviour Driven Development Scenario Generation with Large Language Models

Diese Studie bewertet die Fähigkeit von GPT-4, Claude 3 und Gemini, BDD-Szenarien aus 500 User Stories zu generieren, und stellt fest, dass Claude 3 zwar von menschlichen Experten und LLM-Bewertern als beste Lösung eingestuft wird, während GPT-4 in textuellen Ähnlichkeitsmetriken führt, wobei die Qualität stark von der Eingabequalität, modellspezifischen Prompting-Techniken und deterministischen Parametereinstellungen abhängt.

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei2026-03-06💻 cs

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models

Die vorgestellte Arbeit stellt ein generisches Framework zur Bewertung der Fähigkeit von Large Language Models vor, Code für domänenspezifische Sprachen wie OCL und Alloy zu generieren, und zeigt, dass diese Modelle bei solchen Sprachen im Vergleich zu Python schwächere Leistungen erbringen, wobei Strategien wie Code-Reparatur und Mehrfachversuche die Qualität jedoch signifikant verbessern können.

David Delgado, Lola Burgueño, Robert Clarisó2026-03-06💻 cs

Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation

Diese umfassende Studie stellt die erste groß angelegte empirische Evaluation von LLM-generierten Unit-Tests auf Klassenebene dar und zeigt, dass zwar reasoning-basierte Prompting-Techniken wie GToT die Zuverlässigkeit und Lesbarkeit verbessern, jedoch hohe Kompilierungsfehlerquoten und Halluzinationen hybride Ansätze mit automatischer Validierung und Suchbasierten Methoden für den produktiven Einsatz notwendig machen.

Wendkûuni C. Ouédraogo, Kader Kaboré, Yinghua Li + 5 more2026-03-05💻 cs