Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Die Studie stellt mit „Vibe Code Bench" einen neuen Benchmark für die End-to-End-Entwicklung von Webanwendungen vor, der zeigt, dass selbst die besten aktuellen KI-Modelle bei der vollständigen Erstellung funktionsfähiger Apps noch erhebliche Schwierigkeiten haben und dabei die Bedeutung von Selbsttests sowie die Auswirkungen der Evaluatoren-Auswahl auf die Ergebnisse aufdeckt.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

Diese Arbeit stellt eine Methode für retrieval-augmentierte Generierung vor, die durch die koordinierte Modellierung semantischer Ausrichtung und expliziter Evidenzbeschränkungen die faktische Zuverlässigkeit und Verifizierbarkeit von Large Language Models verbessert, indem sie semantische Fehlausrichtungen und unzureichende Evidenznutzung überwindet.

Xin Chen, Saili Uday Gadgil, Jiarong Qiu2026-03-06💻 cs

Stan: An LLM-based thermodynamics course assistant

Die Arbeit stellt „Stan" vor, ein auf lokalen Open-Weight-Modellen basierendes Assistenzsystem für einen Thermodynamik-Kurs, das mittels Retrieval-Augmented Generation sowohl Studierenden kontextbezogene Antworten als auch Lehrenden strukturierte Kursanalysen aus denselben Transkripten bietet, wobei Datenschutz und Reproduzierbarkeit durch den Verzicht auf Cloud-APIs gewährleistet werden.

Eric M. Furst, Vasudevan Venkateshwaran2026-03-06🔬 physics

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Diese Studie untersucht die Wirksamkeit von Daten-Augmentierung und Feature-Enhancement-Techniken zur Hate-Speech-Erkennung und zeigt, dass das Open-Source-Modell gpt-oss-20b die besten Ergebnisse erzielt, während traditionelle Ansätze wie Delta TF-IDF durch Daten-Augmentierung ebenfalls hohe Genauigkeiten erreichen, wobei die Erkennung impliziter Hassrede weiterhin eine Herausforderung bleibt.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

Die Studie untersucht, wie KI-Modelle auf Basis von US-Supreme-Court-Transkripten Richterfragen für Moot-Court-Trainings simulieren können, und stellt ein zweistufiges Evaluierungsframework vor, das zwar Realismus und inhaltliche Relevanz bestätigt, aber auch signifikante Mängel wie mangelnde Diversität und Sycophancy aufdeckt, die bei herkömmlichen Evaluierungsmethoden oft unentdeckt bleiben.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs