cs.SE Arbeiten | Gist.Science

Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

Diese Studie führt die erste systematische Überprüfung durch und deckt auf, dass Shadow-APIs, die in zahlreichen wissenschaftlichen Arbeiten genutzt werden, oft betrügerisch vorgehen, indem sie Zugang zu Frontier-LLMs vortäuschen, obwohl sie signifikante Leistungsunterschiede, Sicherheitsrisiken und Identitätsfälschungen aufweisen, was die Reproduzierbarkeit der Forschung und die Interessen der Nutzer gefährdet.

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang2026-03-06🔒 cs.CR

LoRA-MME: Multi-Model Ensemble of LoRA-Tuned Encoders for Code Comment Classification

Das Paper stellt LoRA-MME vor, einen Multi-Model-Ensemble-Ansatz, der vier mit LoRA feinabgestimmte Transformer-Encoder kombiniert, um die Klassifizierung von Code-Kommentaren in Java, Python und Pharo zu verbessern, wobei trotz hoher semantischer Genauigkeit (F1-Weighted 0,7906) der hohe Rechenaufwand zu einer niedrigeren Gesamtbewertung im Wettbewerb führte.

Md Akib Haider, Ahsan Bulbul, Nafis Fuad Shahid + 2 more2026-03-06💻 cs

MPBMC: Multi-Property Bounded Model Checking with GNN-guided Clustering

Die vorgestellte Arbeit führt MPBMC ein, einen hybriden Ansatz zur effizienten Verifikation mehrerer Eigenschaften mittels GNN-gestützter Clustering, der funktionale Repräsentationen von Hardware-Schaltungen und Laufzeitstatistiken nutzt, um die Leistung von Bounded Model Checking signifikant zu steigern.

Soumik Guha Roy, Sumana Ghosh, Ansuman Banerjee + 2 more2026-03-06💻 cs

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Diese Studie analysiert 31 LLM-Sicherheits-Benchmarks und stellt fest, dass diese trotz ihrer Bedeutung weder einen signifikanten Vorteil in der akademischen Wirkung aufweisen noch eine Korrelation zwischen Autorenprestige oder Einfluss und der Qualität des bereitgestellten Codes besteht, wobei nur ein kleiner Teil der Repositories einsatzbereit oder ethisch reflektiert ist.

Junjie Chu, Xinyue Shen, Ye Leng, Michael Backes, Yun Shen, Yang Zhang2026-03-06🔒 cs.CR

iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation

Die Arbeit stellt iScript vor, ein spezialisiertes Large Language Model und einen umfassenden Benchmark für die Generierung von Tcl-Skripten im physischen Chipdesign, die durch eine mehrstufige Daten-Synthesepipeline und eine zweistufige Validierung entwickelt wurden, um die Datenknappheit und hohen Zuverlässigkeitsanforderungen in EDA-Flows zu bewältigen.

Ning Xu, Zhaoyang Zhang, Senlin Shu + 10 more2026-03-06💻 cs

CLARC: C/C++ Benchmark for Robust Code Search

Die Arbeit stellt CLARC vor, ein umfassendes C/C++-Benchmark-System mit automatisiert generierten und menschlich validierten Daten, das die mangelnde semantische Robustheit aktueller Code-Suchmodelle aufdeckt, indem es deren starke Abhängigkeit von lexikalischen Merkmalen unter erschwerten Bedingungen wie Anonymisierung und Kompilierung in Zwischensprachen testet.

Kaicheng Wang, Liyan Huang, Weike Fang + 1 more2026-03-06💻 cs

Industrial Survey on Robustness Testing In Cyber Physical Systems

Diese Studie präsentiert die Ergebnisse einer industriellen Umfrage in Wallonien, die den aktuellen Stand der Robustheitstests in Cyber-Physical Systems analysiert, Herausforderungen identifiziert und die Praxis mit dem neuesten Forschungsstand vergleicht.

Christophe Ponsard, Abiola Paterne Chokki, Jean-François Daune2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Die Studie stellt mit „Vibe Code Bench" einen neuen Benchmark für die End-to-End-Entwicklung von Webanwendungen vor, der zeigt, dass selbst die besten aktuellen KI-Modelle bei der vollständigen Erstellung funktionsfähiger Apps noch erhebliche Schwierigkeiten haben und dabei die Bedeutung von Selbsttests sowie die Auswirkungen der Evaluatoren-Auswahl auf die Ergebnisse aufdeckt.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Behaviour Driven Development Scenario Generation with Large Language Models

Diese Studie bewertet die Fähigkeit von GPT-4, Claude 3 und Gemini, BDD-Szenarien aus 500 User Stories zu generieren, und stellt fest, dass Claude 3 zwar von menschlichen Experten und LLM-Bewertern als beste Lösung eingestuft wird, während GPT-4 in textuellen Ähnlichkeitsmetriken führt, wobei die Qualität stark von der Eingabequalität, modellspezifischen Prompting-Techniken und deterministischen Parametereinstellungen abhängt.

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei2026-03-06💻 cs

MOOSEnger -- a Domain-Specific AI Agent for the MOOSE Ecosystem

MOOSEnger ist ein spezialisierter KI-Agent, der durch die Kombination von retrieval-augmentierter Generierung und deterministischen, domänenspezifischen Validierungs- und Ausführungstools natürliche Sprache in fehlerfreie MOOSE-Simulationseingaben umwandelt und dabei eine deutlich höhere Erfolgsquote als rein auf LLM basierende Ansätze erzielt.

Mengnan Li, Jason Miller, Zachary Prince + 2 more2026-03-06💻 cs

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

Das Paper stellt FireBench vor, einen neuen Benchmark mit über 2.400 realen Unternehmens- und API-Szenarien, der die Einhaltung von Anweisungen durch 11 große Sprachmodelle in sechs Kernbereichen bewertet, um die Lücke zwischen aktuellen Chat-Assistenten-Benchmarks und den Anforderungen von Unternehmensanwendungen zu schließen.

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Public Sector Open Source Program Offices - Archetypes for how to Grow (Common) Institutional Capabilities

Diese Studie identifiziert sechs Archetypen von Open-Source-Programmabteilungen (OSPOs) im europäischen öffentlichen Sektor, um Organisationen und politischen Entscheidungsträgern praxisnahe Leitlinien für den Aufbau institutioneller Kompetenzen und die strategische Förderung von Open-Source-Software zu bieten.

Johan Linåker, Astor Nummelin Carlberg, Ciaran O'Riordan2026-03-06💻 cs

Auto-Generating Personas from User Reviews in VR App Stores

Diese Studie stellt ein System zur automatischen Generierung von Personas aus VR-App-Store-Bewertungen vor, das im Rahmen eines VR-Kurses eingesetzt wurde, um die Empathieentwicklung zu fördern und latente Anforderungen an die Barrierefreiheit für VR-Design und -Entwicklung zu ermitteln.

Yi Wang, Kexin Cheng, Xiao Liu + 4 more2026-03-06💻 cs

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

Das Paper stellt RepoLaunch vor, einen autonomen Agenten, der Build- und Test-Pipelines für Code-Repositories in beliebigen Programmiersprachen und auf jeder Plattform automatisiert und damit eine vollständig automatisierte Pipeline zur Erstellung von Datensätzen für Software-Engineering-Forschung ermöglicht.

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Why Do You Contribute to Stack Overflow? Understanding Cross-Cultural Motivations and Usage Patterns before the Age of LLMs

Diese Studie untersucht die motivationsbedingten kulturellen Unterschiede bei Stack-Overflow-Beiträgen aus den USA, China und Russland und zeigt, dass amerikanische Nutzer stärker auf Selbstvermarktung ausgerichtet sind, während chinesische Nutzer eher lernorientiert agieren.

Sherlock A. Licorish, Elijah Zolduoarrati, Tony Savarimuthu + 3 more2026-03-06💻 cs

A Benchmarking Framework for Model Datasets

Dieser Beitrag stellt einen Benchmarking-Framework und eine zugehörige Plattform vor, um Datensätze von Softwaremodellen systematisch auf Qualität, Repräsentativität und Eignung für spezifische Aufgaben zu bewerten und so die Vergleichbarkeit sowie Reproduzierbarkeit in der modellgetriebenen Entwicklung zu verbessern.

Philipp-Lorenz Glaser, Lola Burgueño, Dominik Bork2026-03-06💻 cs

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models

Die vorgestellte Arbeit stellt ein generisches Framework zur Bewertung der Fähigkeit von Large Language Models vor, Code für domänenspezifische Sprachen wie OCL und Alloy zu generieren, und zeigt, dass diese Modelle bei solchen Sprachen im Vergleich zu Python schwächere Leistungen erbringen, wobei Strategien wie Code-Reparatur und Mehrfachversuche die Qualität jedoch signifikant verbessern können.

David Delgado, Lola Burgueño, Robert Clarisó2026-03-06💻 cs

Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation

Diese umfassende Studie stellt die erste groß angelegte empirische Evaluation von LLM-generierten Unit-Tests auf Klassenebene dar und zeigt, dass zwar reasoning-basierte Prompting-Techniken wie GToT die Zuverlässigkeit und Lesbarkeit verbessern, jedoch hohe Kompilierungsfehlerquoten und Halluzinationen hybride Ansätze mit automatischer Validierung und Suchbasierten Methoden für den produktiven Einsatz notwendig machen.

Wendkûuni C. Ouédraogo, Kader Kaboré, Yinghua Li + 5 more2026-03-05💻 cs

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

Die Arbeit stellt TrashFuzz vor, einen Black-Box-Fuzzing-Ansatz, der durch die realistische Manipulation der Positionen alltäglicher Straßenseitenobjekte gemäß regulatorischer Richtlinien gezielt Wahrnehmungsfehler autonomer Fahrzeuge erzeugt und damit Verkehrsverstöße im Apollo-System provoziert.

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs

Formal Analysis of the Contract Automata Runtime Environment with Uppaal: Modelling, Verification and Testing

Dieser Beitrag stellt eine formale Modellierung, Verifikation und Testung der verteilten Middleware „Contract Automata Runtime Environment" (CARE) mittels des Tools Uppaal vor, um durch die Generierung konkreter Tests aus abstrakten Modellen die Zuverlässigkeit der Anwendung zu erhöhen.

Davide Basile2026-03-05💻 cs

← Zurück Weiter →