How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Diese Studie auditiert die Zitationshalluzinationen von zehn kommerziellen LLMs über verschiedene Domänen hinweg, quantifiziert deren erhebliche Variation, identifiziert promptinduzierte Ursachen sowie effektive Detektionsfilter und stellt einen leichten Klassifikator vor, der gefälschte Zitate ohne externe Datenbankabfrage zuverlässig erkennt.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Diese Studie bewertet verschiedene KI-Tools für die juristische Recherche mittels des LaborBench-Benchmarks und zeigt, dass das maßgeschneiderte Tool STARA mit 83 % Genauigkeit deutlich besser abschneidet als kommerzielle Plattformen, wobei eine detaillierte Fehleranalyse zudem erhebliche Lücken in den ursprünglichen menschlichen Referenzdaten aufdeckt, die die tatsächliche Genauigkeit von STARA auf 92 % erhöhen.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

Developing an AI Assistant for Knowledge Management and Workforce Training in State DOTs

Diese Arbeit schlägt ein Multi-Agenten-RAG-Framework vor, das große Sprachmodelle, spezialisierte Agenten zur Qualitätskontrolle und visuelle Modelle zur Textumwandlung von Diagrammen integriert, um das Wissensmanagement und die Personalentwicklung in staatlichen Straßenbauämtern durch kontextbewusste, evidenzbasierte Antworten zu verbessern.

Divija Amaram, Lu Gao, Gowtham Reddy Gudla + 1 more2026-03-05🤖 cs.AI

Token-Oriented Object Notation vs JSON: A Benchmark of Plain and Constrained Decoding Generation

Die Studie stellt fest, dass das neue Format TOON zwar bei komplexen Aufgaben ein vielversprechendes Verhältnis von Genauigkeit zu Token-Verbrauch bietet, dessen Vorteil jedoch durch Prompt-Overhead bei kurzen Kontexten geschmälert wird, während herkömmliches JSON in der generierten Genauigkeit überlegen bleibt und eingeschränktes Decoding trotz geringstem Token-Verbrauch oft an Genauigkeit einbüßt.

Ivan Matveev2026-03-05🤖 cs.AI

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

Die Arbeit stellt SemKey vor, ein neuartiges Framework zur EEG-zu-Text-Decodierung, das durch die Entkopplung semantischer Ziele und eine signalgefundene Architektur die häufigen Probleme von Halluzinationen und der irreführenden BLEU-Metrik überwindet, um eine präzisere und diversere Sprachgenerierung aus neuronalen Signalen zu erreichen.

Yuchen Wang, Haonan Wang, Yu Guo + 2 more2026-03-05🤖 cs.AI

How does fine-tuning improve sensorimotor representations in large language models?

Die Studie zeigt, dass eine aufgabenspezifische Feinabstimmung die sensorischen und motorischen Repräsentationen in großen Sprachmodellen verbessern und die Lücke zu menschlichen Erfahrungen schließen kann, wobei diese Verbesserungen zwar sprachübergreifend generalisieren, aber stark vom Lernziel abhängen und nicht auf völlig unterschiedliche Aufgabenformate übertragbar sind.

Minghua Wu, Javier Conde, Pedro Reviriego + 1 more2026-03-05🤖 cs.AI