One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Das Paper stellt One-Eval vor, ein agentisches System, das natürliche Sprachanfragen in ausführbare, nachvollziehbare und anpassbare Evaluierungsworkflows für Large Language Models umwandelt, um manuelle Aufwände zu reduzieren und die Reproduzierbarkeit in industriellen Anwendungen zu verbessern.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang2026-03-11💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Diese Arbeit stellt eine Methode vor, die Chow-Liu-Bäume nutzt, um die Verarbeitungsreihenfolge von Textchunks in Chain-of-Agents-Frameworks zu optimieren, wodurch Informationsverluste reduziert und die Genauigkeit bei langen Kontexten im Vergleich zu herkömmlichen Ansätzen signifikant verbessert wird.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. C2026-03-11💬 cs.CL

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Die Arbeit stellt mit DoWhatISay (DOWIS) ein multilinguales Datenset aus gesprochener und geschriebener Sprache vor, um Sprach-große Sprachmodelle (SLLMs) realistischer zu evaluieren und zeigt, dass gesprochene Prompts im Vergleich zu Textprompts oft schlechter abschneiden, es sei denn, die Ausgabe ist ebenfalls sprachbasiert.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues2026-03-11💬 cs.CL

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Die Studie zeigt, dass das Aktivieren von Reasoning in LLMs auch bei einfachen Faktenfragen die Parametrische Wissensabrufleistung signifikant steigert, indem es einen rechnerischen Puffereffekt und einen semantischen Priming-Mechanismus nutzt, wobei jedoch Halluzinationen in den Zwischenschritten das Risiko von Fehlern im Endergebnis erhöhen.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig2026-03-11💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

Die Studie zeigt, dass im Gegensatz zum menschlichen Verhalten das Nachdenken bei großen Sprachmodellen die Ehrlichkeit erhöht, da der Prozess des moralischen Abwägens das Modell durch einen verzerrten Repräsentationsraum führt, in dem ehrliche Antworten stabiler sind als täuschende.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova2026-03-11🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

Das Paper stellt CREATE vor, einen Benchmark zur Bewertung der Fähigkeit von KI-Modellen, assoziatives kreatives Denken durch die Generierung spezifischer und vielfältiger Verbindungen zwischen Konzepten zu testen, wobei Ergebnisse zeigen, dass selbst fortschrittliche Modelle Schwierigkeiten haben, die Komplexität dieser Aufgabe vollständig zu meistern.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett2026-03-11💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

Dieser Übersichtsartikel stellt ein integratives Modell vor, das Sprach- und Sprecherverarbeitung durch das Zusammenspiel von wahrnehmungsbasierten Bottom-up-Prozessen und erwartungsbasierten Top-down-Prozessen erklärt, wobei sowohl individuelle Vertrautheit als auch soziale Demografie die Sprachwahrnehmung auf mehreren Ebenen modulieren und neue Forschungsrichtungen im Bereich der KI-Sprecher eröffnen.

Hanlin Wu, Zhenguang G. Cai2026-03-10💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Die vorgestellte Arbeit führt einen diskreten Key-Value-Bottleneck für Encoder-only-Sprachmodelle ein, der durch lokalisierte Updates und eine neue Initialisierungstechnik effizientes kontinuierliches Lernen ermöglicht, katastrophales Vergessen reduziert und auch in Szenarien ohne Task-ID wettbewerbsfähige Ergebnisse bei geringeren Rechenkosten erzielt.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar Scherp2026-03-10💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Die Arbeit stellt HarmonicEval vor, ein referenzfreies, umfassendes Evaluationsmaß für Vision-Language-Modelle, das in einem Bottom-up-Verfahren kriterienspezifische Scores aggregiert, und führt gleichzeitig den MMHE-Benchmark mit 18.000 menschlichen Urteilen über vier multimodale Aufgaben ein, um die Generalisierbarkeit automatischer Metriken in Multi-Task-Szenarien zu verbessern.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

Die vorgestellte Arbeit stellt ein neues Ensemble-Framework für neuronale maschinelle Übersetzung vor, das mithilfe von Pivot-Übersetzungen und einer nachträglichen Aggregation mit nur einem einzigen Modell die Übersetzungsqualität für ressourcenarme Sprachpaare verbessert, ohne die hohen Trainingskosten herkömmlicher Mehrfachmodelle zu verursachen.

Seokjin Oh, Keonwoong Noh, Woohwan Jung2026-03-10💬 cs.CL