ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

Die Studie stellt ESGenius vor, den ersten umfassenden Benchmark zur Evaluierung von Large Language Models im Bereich ESG und Nachhaltigkeit, der aus einem von Experten validierten Fragenkatalog und einer Kuratierung autoritativer Quellen besteht und zeigt, dass Retrieval-Augmented Generation (RAG) die Leistung dieser Modelle in diesem spezialisierten Fachgebiet signifikant verbessert.

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

Die Arbeit stellt Sysformer vor, ein trainierbares Transformer-Modell, das durch die adaptive Anpassung von Systemprompts in Eingabe-Embedding-Räumen die Sicherheit und Robustheit von eingefrorenen Large Language Models gegenüber schädlichen Eingaben und Jailbreak-Angriffen signifikant verbessert, ohne die Modellparameter selbst nachtrainieren zu müssen.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

Die Arbeit stellt VLMQ vor, einen post-training-Quantisierungsrahmen für Vision-Sprach-Modelle, der durch die Identifizierung und Berücksichtigung von visueller Überrepräsentation sowie einer Modality-Gap und die selektive Priorisierung salienter Token mittels eines gradientenbasierten Wichtigkeitsfaktors die Quantisierungsleistung insbesondere bei niedrigen Bitbreiten signifikant verbessert.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering

Die Studie „Agri-Query" zeigt, dass eine hybride Retrieval-Augmented-Generation (RAG)-Strategie bei der cross-lingualen technischen Fragebeantwortung auf Basis eines landwirtschaftlichen Handbuchs konsistent besser abschneidet als direkte Long-Context-Prompting-Verfahren, wobei Modelle wie Gemini 2.5 Flash und Qwen 2.5 7B mit RAG eine Genauigkeit von über 85 % erreichen.

Julius Gun, Timo Oksanen2026-03-09💬 cs.CL

CMRAG: Co-modality-based visual document retrieval and question answering

Die Arbeit stellt CMRAG vor, ein Framework für die visuelle Dokumentenabfrage, das durch die gleichzeitige Nutzung von Text- und Bildinformationen sowie ein einheitliches Kodierungsmodell und eine abgestimmte Retrieval-Methode die Leistung von Retrieval-Augmented-Generation-Systemen verbessert und dabei einen großen tripletbasierten Datensatz bereitstellt.

Wang Chen, Wenhan Yu, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang2026-03-09💬 cs.CL

MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

Die Arbeit stellt MERLIN vor, ein zweistufiges Framework, das durch Curriculum-Learning und eine effiziente Anpassung mittels DoRA-Gewichten die Leistung von Encoder-LLM-Integrationen beim multilingualen logischen Schlussfolgern, insbesondere in ressourcenarmen Sprachen, signifikant verbessert.

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

Die Arbeit stellt eine umfassende Meta-Evaluation von Latenzmetriken für simultane Sprach-zu-Text-Übersetzung vor, identifiziert strukturelle Verzerrungen durch Segmentierung und führt mit YAAL, LongYAAL sowie dem SoftSegmenter-Tool verbesserte Lösungen und das OmniSTEval-Toolkit ein, um zuverlässigere Bewertungen zu ermöglichen.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

Diese Studie zeigt, dass Decoder-only-Modelle bei der Anpassung an partielle Differentialgleichungen ohne Modifikation deutlich schlechter abschneiden als Encoder-only-Modelle, und stellt zwei neue Methoden (Parallel Flipping und Sequence Doubling) vor, die durch Nachahmung der Bidirektionalität diese Leistungslücke schließen.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

Die Studie zeigt, dass die internen Zustände von LLMs primär den Abruf parametrischen Wissens widerspiegeln und nicht die Wahrheit der Ausgabe, wodurch Halluzinationen, die auf statistischen Assoziationen basieren, von faktisch korrekten Aussagen kaum unterscheidbar sind, während nur nicht-assoziierte Halluzinationen zuverlässig detektierbar bleiben.

Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng2026-03-09💬 cs.CL

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

Die Arbeit stellt einen Ansatz vor, bei dem durch passives Beobachten des Nutzerverhaltens sofortige, spezifische Ziele abgeleitet werden, um große Sprachmodelle dynamisch auf individuelle Aufgaben zu spezialisieren und dadurch qualitativ überlegene, maßgeschneiderte Tools sowie Antworten zu generieren.

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

Die Studie stellt fest, dass Sprachmodelle in strategischen Informationsbeschaffungsaufgaben oft hinter menschlichen Fähigkeiten zurückbleiben, und entwickelt darauf aufbauend Monte-Carlo-Inferenzstrategien, die inspiriert von der bayesschen experimentellen Designtheorie die Entscheidungsfindung und Genauigkeit von Agenten signifikant verbessern und sogar schwächere Modelle in der Lage versetzen, menschliche und fortschrittliche KI-Modelle zu übertreffen.

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

DETECT: Determining Ease and Textual Clarity of German Text Simplifications

Die Arbeit stellt DETECT vor, die erste spezifisch für die deutsche Sprache entwickelte Metrik zur ganzheitlichen Bewertung von Textvereinfachungen, die mithilfe von synthetischen LLM-Daten trainiert wurde und in Bezug auf Einfachheit, Bedeutungsbewahrung und Flüssigkeit deutlich stärkere Korrelationen mit menschlichen Urteilen aufweist als bestehende allgemeine Metriken.

Maria Korobeynikova, Alessia Battisti, Lukas Fischer, Yingqiang Gao2026-03-09💬 cs.CL

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

Die Arbeit stellt ein neues Verfahren vor, das mithilfe von Big-Five-Persönlichkeitsmerkmalen und einer hybriden Schichtauswahl in den Aktivierungsräumen von Large Language Models stabile und präzise Verhaltenssteuerungen ermöglicht, ohne dabei die Sprachflüssigkeit oder allgemeinen Fähigkeiten des Modells zu beeinträchtigen.

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL