cs.CL Arbeiten | Gist.Science

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

Die Studie stellt ESGenius vor, den ersten umfassenden Benchmark zur Evaluierung von Large Language Models im Bereich ESG und Nachhaltigkeit, der aus einem von Experten validierten Fragenkatalog und einer Kuratierung autoritativer Quellen besteht und zeigt, dass Retrieval-Augmented Generation (RAG) die Leistung dieser Modelle in diesem spezialisierten Fachgebiet signifikant verbessert.

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise

Diese Arbeit stellt eine deterministische Pipeline vor, die Rohdaten aus spezifischen Domänen automatisch in unvoreingenommene, LLM-unabhängige Benchmarks für die Bewertung von Fachwissen in Sprachmodellen umwandelt und dabei Kontaminationsprobleme sowie hohe Kosten für manuelle Annotation vermeidet.

Nitin Sharma, Thomas Wolfers, Ça\u{g}atay Yıldız2026-03-09💬 cs.CL

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

Die Arbeit stellt Sysformer vor, ein trainierbares Transformer-Modell, das durch die adaptive Anpassung von Systemprompts in Eingabe-Embedding-Räumen die Sicherheit und Robustheit von eingefrorenen Large Language Models gegenüber schädlichen Eingaben und Jailbreak-Angriffen signifikant verbessert, ohne die Modellparameter selbst nachtrainieren zu müssen.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

Die Arbeit stellt VLMQ vor, einen post-training-Quantisierungsrahmen für Vision-Sprach-Modelle, der durch die Identifizierung und Berücksichtigung von visueller Überrepräsentation sowie einer Modality-Gap und die selektive Priorisierung salienter Token mittels eines gradientenbasierten Wichtigkeitsfaktors die Quantisierungsleistung insbesondere bei niedrigen Bitbreiten signifikant verbessert.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering

Die Studie „Agri-Query" zeigt, dass eine hybride Retrieval-Augmented-Generation (RAG)-Strategie bei der cross-lingualen technischen Fragebeantwortung auf Basis eines landwirtschaftlichen Handbuchs konsistent besser abschneidet als direkte Long-Context-Prompting-Verfahren, wobei Modelle wie Gemini 2.5 Flash und Qwen 2.5 7B mit RAG eine Genauigkeit von über 85 % erreichen.

Julius Gun, Timo Oksanen2026-03-09💬 cs.CL

CMRAG: Co-modality-based visual document retrieval and question answering

Die Arbeit stellt CMRAG vor, ein Framework für die visuelle Dokumentenabfrage, das durch die gleichzeitige Nutzung von Text- und Bildinformationen sowie ein einheitliches Kodierungsmodell und eine abgestimmte Retrieval-Methode die Leistung von Retrieval-Augmented-Generation-Systemen verbessert und dabei einen großen tripletbasierten Datensatz bereitstellt.

Wang Chen, Wenhan Yu, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang2026-03-09💬 cs.CL

MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

Die Arbeit stellt MERLIN vor, ein zweistufiges Framework, das durch Curriculum-Learning und eine effiziente Anpassung mittels DoRA-Gewichten die Leistung von Encoder-LLM-Integrationen beim multilingualen logischen Schlussfolgern, insbesondere in ressourcenarmen Sprachen, signifikant verbessert.

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

Die Arbeit stellt eine umfassende Meta-Evaluation von Latenzmetriken für simultane Sprach-zu-Text-Übersetzung vor, identifiziert strukturelle Verzerrungen durch Segmentierung und führt mit YAAL, LongYAAL sowie dem SoftSegmenter-Tool verbesserte Lösungen und das OmniSTEval-Toolkit ein, um zuverlässigere Bewertungen zu ermöglichen.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

Diese Studie zeigt, dass Decoder-only-Modelle bei der Anpassung an partielle Differentialgleichungen ohne Modifikation deutlich schlechter abschneiden als Encoder-only-Modelle, und stellt zwei neue Methoden (Parallel Flipping und Sequence Doubling) vor, die durch Nachahmung der Bidirektionalität diese Leistungslücke schließen.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

Die Studie stellt fest, dass Mikro-Benchmarks für Sprachmodelle oft nicht zuverlässig genug sind, um Modelle mit ähnlicher Leistung korrekt zu rangieren, und zeigt auf, dass für konsistente Ergebnisse häufig so viele Testbeispiele benötigt werden, dass eine zufällige Stichprobe ebenso effektiv ist wie bestehende Mikro-Benchmarking-Methoden.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

Die Studie zeigt, dass die internen Zustände von LLMs primär den Abruf parametrischen Wissens widerspiegeln und nicht die Wahrheit der Ausgabe, wodurch Halluzinationen, die auf statistischen Assoziationen basieren, von faktisch korrekten Aussagen kaum unterscheidbar sind, während nur nicht-assoziierte Halluzinationen zuverlässig detektierbar bleiben.

Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng2026-03-09💬 cs.CL

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

Die Arbeit stellt einen Ansatz vor, bei dem durch passives Beobachten des Nutzerverhaltens sofortige, spezifische Ziele abgeleitet werden, um große Sprachmodelle dynamisch auf individuelle Aufgaben zu spezialisieren und dadurch qualitativ überlegene, maßgeschneiderte Tools sowie Antworten zu generieren.

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

Chain-of-Thought Reasoning Improves Context-Aware Translation with Large Language Models

Die Studie zeigt, dass Chain-of-Thought-Reasoning die kontextbewusste Übersetzung durch große Sprachmodelle erheblich verbessert, wobei leistungsstärkere Modelle wie GPT-4 und Phi durch diesen Ansatz noch größere Fortschritte erzielen.

Shabnam Ataee, Hugo Huart, Andrei Popescu-Belis2026-03-09💬 cs.CL

Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

Die Studie zeigt, dass ChatGPT bei der automatisierten Kodierung von Kommunikationsdaten in Bezug auf Geschlecht und ethnische Zugehörigkeit eine mit menschlichen Bewertern vergleichbare Konsistenz aufweist, was seinen Einsatz in groß angelegten Bewertungen von Zusammenarbeit und Kommunikation ermöglicht.

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi2026-03-09🤖 cs.AI

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

Die Studie stellt fest, dass Sprachmodelle in strategischen Informationsbeschaffungsaufgaben oft hinter menschlichen Fähigkeiten zurückbleiben, und entwickelt darauf aufbauend Monte-Carlo-Inferenzstrategien, die inspiriert von der bayesschen experimentellen Designtheorie die Entscheidungsfindung und Genauigkeit von Agenten signifikant verbessern und sogar schwächere Modelle in der Lage versetzen, menschliche und fortschrittliche KI-Modelle zu übertreffen.

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

DETECT: Determining Ease and Textual Clarity of German Text Simplifications

Die Arbeit stellt DETECT vor, die erste spezifisch für die deutsche Sprache entwickelte Metrik zur ganzheitlichen Bewertung von Textvereinfachungen, die mithilfe von synthetischen LLM-Daten trainiert wurde und in Bezug auf Einfachheit, Bedeutungsbewahrung und Flüssigkeit deutlich stärkere Korrelationen mit menschlichen Urteilen aufweist als bestehende allgemeine Metriken.

Maria Korobeynikova, Alessia Battisti, Lukas Fischer, Yingqiang Gao2026-03-09💬 cs.CL

AfriMTEB and AfriE5: Benchmarking and Adapting Text Embedding Models for African Languages

Die Arbeit stellt mit AfriMTEB ein umfassendes Benchmark für 59 afrikanische Sprachen vor und präsentiert AfriE5, ein durch cross-linguale kontrastive Distillation angepasstes Embedding-Modell, das den aktuellen State-of-the-Art bei der Texteinbettung für afrikanische Sprachen erreicht.

Kosei Uemura, Miaoran Zhang, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

Die Arbeit stellt ein neues Verfahren vor, das mithilfe von Big-Five-Persönlichkeitsmerkmalen und einer hybriden Schichtauswahl in den Aktivierungsräumen von Large Language Models stabile und präzise Verhaltenssteuerungen ermöglicht, ohne dabei die Sprachflüssigkeit oder allgemeinen Fähigkeiten des Modells zu beeinträchtigen.

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL

Critical Confabulation: Can LLMs Hallucinate for Social Good?

Die Studie „Critical Confabulation" untersucht, wie LLMs durch kontrollierte Halluzinationen historische Lücken zugunsten marginalisierter Gruppen füllen können, ohne dabei die historische Genauigkeit zu opfern.

Peiqi Sui, Eamon Duede, Hoyt Long, Richard Jean So2026-03-09💬 cs.CL

Co-Layout: LLM-driven Co-optimization for Interior Layout

Die Arbeit stellt Co-Layout vor, ein neuartiges Framework, das Large Language Models mit gitterbasiertem ganzzahligem Programmieren kombiniert, um die Innenraumgestaltung und Möbelplatzierung durch eine effiziente grob-zu-fein-Optimierungsstrategie gemeinsam zu verbessern.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

← Zurück Weiter →