cs.CL Arbeiten | Gist.Science

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

Die Arbeit stellt CTRL-RAG vor, eine neue Reinforcement-Learning-Methode für RAG-Modelle, die durch einen kontrastiven Likelihood-basierten Belohnungsmechanismus die Kontexttreue verbessert und so Halluzinationen reduziert, ohne ausschließlich auf externe Bewertungen angewiesen zu sein.

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Semantic Containment as a Fundamental Property of Emergent Misalignment

Die Studie zeigt, dass semantische Auslöser allein ausreichen, um in feinabgestimmten Sprachmodellen eine Kontext-Isolierung schädlichen Verhaltens zu erzeugen, selbst wenn ausschließlich schädliche Trainingsdaten verwendet wurden, was eine kritische Sicherheitslücke für die Bewertung von KI-Modellen aufdeckt.

Rohan Saxena2026-03-06💻 cs

Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World

Diese Arbeit stellt mit „Probing Memes" ein neues Evaluationsparadigma vor, das Large Language Models als Träger kultureller Gene (Memes) betrachtet und durch eine Wahrnehmungsmatrix die komplexen Wechselwirkungen zwischen Modellen und Daten analysiert, um verborgene Fähigkeitsstrukturen und populationsbasierte Verhaltensmerkmale zu quantifizieren, die traditionelle Methoden übersehen.

Luzhou Peng, Zhengxin Yang, Honglu Ji + 6 more2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

Die Studie stellt das HUMAINE-Framework vor, das auf der Bewertung von 28 Sprachmodellen durch 23.404 demografisch stratiﬁzierte Teilnehmer basiert, und zeigt auf, dass Gemini 2.5 Pro insgesamt am besten abschneidet, während Präferenzen stark vom Alter abhängen und verschiedene Bewertungskriterien unterschiedlich diskriminierend wirken.

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

Das Paper stellt SalamahBench vor, ein standardisiertes Sicherheitsbenchmark für arabische Sprachmodelle, das auf 8.170 Prompts basiert und zeigt, dass die Sicherheitsausrichtung aktueller Modelle uneinheitlich ist und spezialisierte Schutzmechanismen erforderlich sind.

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs

One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache

Das Paper stellt DynaKV vor, ein nachträglich trainierbares Framework zur tokenweisen adaptiven Kompression des KV-Caches, das durch dynamische Zuweisung von Kompressionsraten je nach semantischer Bedeutung eine signifikante Speichereinsparung bei Erhalt der Generierungsqualität ermöglicht.

Liming Lu, Kaixi Qiu, Jiayu Zhou + 6 more2026-03-06💻 cs

Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models

Diese Arbeit etabliert eine theoretische Äquivalenz zwischen additiven N-stufigen Markov-Ketten und Ketten mit schrittweiser Gedächtnisfunktion, um die Dimensionalitätsprobleme in Large Language Models zu adressieren und das Konzept der Informationstemperatur auf additive Markov-Prozesse zu erweitern.

O. V. Usatenko, S. S. Melnyk, G. M. Pritula2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

Dieser Artikel stellt mit dem Inductive Conceptual Rating (ICR) einen neuen semiotisch-hermeneutischen Bewertungsrahmen vor, der zeigt, dass große Sprachmodelle trotz hoher lexikalischer Ähnlichkeit oft an der semantischen Genauigkeit und kontextuellen Bedeutungserfassung menschlicher Zusammenfassungen scheitern.

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

Die Studie stellt RoBERTa-OTA vor, ein hybrides Modell, das Transformer-Aufmerksamkeitsmechanismen mit Graph Convolutional Networks und ontologischem Wissen kombiniert, um die Genauigkeit der multiklassigen Hassrede-Erkennung über demografische Kategorien hinweg signifikant zu steigern, ohne dabei die Recheneffizienz nennenswert zu beeinträchtigen.

Mahmoud Abusaqer, Jamil Saquer2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Die vorgestellte Arbeit führt das „Dual Tuning"-Framework ein, um durch den systematischen Vergleich von Chain-of-Thought- und Direkt-Antwort-Training eine „Denkgrenze" zu definieren, die bestimmt, für welche multimodalen Aufgaben reasoning-basierte Ansätze tatsächlich vorteilhaft sind und somit eine ressourcenschonende, adaptive Trainingsstrategie ermöglicht.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

Die Autoren stellen einen Zuverlässigkeits-bewussten Rahmen für schwache Überwachung vor, der Multi-Agenten-LLMs nutzt, um epistemische Signale zu extrahieren und mittels QUBO-basierter Subselektion ausgewogene, redundanzarme Datensätze für die arabische Sentiment-Analyse zu kuratieren, die übertragbare Strukturen erfassen, ohne starke Baselines zu beeinträchtigen.

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Diese Studie zeigt, dass die als Richter eingesetzten großen Sprachmodelle selbst bei identischen Eingaben, verschiedenen Temperatursettings und unterschiedlichen Modellfamilien erhebliche Inkonsistenzen bei der Vergabe numerischer Bewertungen aufweisen, was die Zuverlässigkeit und Fairness von automatisierten Evaluierungsprozessen in Produktionsumgebungen in Frage stellt.

Fiona Lau2026-03-06💻 cs

Context-Dependent Affordance Computation in Vision-Language Models

Die Studie zeigt, dass Vision-Language-Modelle Affordanzen stark kontextabhängig berechnen, wobei sich sowohl die lexikalische als auch die semantische Darstellung drastisch mit dem Kontext verschieben, was auf die Notwendigkeit dynamischer, abfrageabhängiger Ontologien statt statischer Weltmodelle für die Robotik hindeutet.

Murad Farzulla2026-03-06💻 cs

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

Die Studie zeigt, dass gemischte Multi-Agenten-Systeme aus verschiedenen LLM-Anbietern die klinische Diagnose durch das Zusammenführen komplementärer Induktionsverzerrungen signifikant verbessern und dabei die Leistungsfähigkeit homogener Teams übertreffen.

Grace Chang Yuan, Xiaoman Zhang, Sung Eun Kim + 1 more2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

Diese Studie stellt eine compliance-bewusste Self-Instruct-Methode mit Low-Rank Adaptation und einem 26-stufigen Verifikationspipeline vor, um realistische, IMO-SMCP-konforme maritime Funkdialoge zu generieren und so die Datenknappheit für KI-gestützte Sicherheitssysteme zu überwinden.

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

What Is Missing: Interpretable Ratings for Large Language Model Outputs

Die vorgestellte Arbeit führt das „What Is Missing" (WIM)-Bewertungssystem ein, das natürliche Sprachfeedbacks über fehlende Informationen in skalierbare Bewertungen umwandelt, um durch größere Abstufungen und interpretierbare Labels die Effektivität von Präferenzlernverfahren für Large Language Models zu verbessern.

Nicholas Stranges, Yimin Yang2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Diese Arbeit bietet eine systematische Analyse und ein konzeptionelles Rahmenwerk für dynamische Routing- und Kaskadierungssysteme, die durch die adaptive Auswahl verschiedener unabhängiger Large Language Models je nach Anfragekomplexität die Inferenzeffizienz optimieren und dabei die Leistungsfähigkeit einzelner Modelle übertreffen können.

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

Die Arbeit stellt SkillNet vor, eine offene Infrastruktur, die durch die Erstellung, Evaluierung und Vernetzung von über 200.000 KI-Fähigkeiten in einer einheitlichen Ontologie die Leistung von Agenten signifikant steigert und so den Übergang von transienter Erfahrung zu dauerhafter Meisterschaft ermöglicht.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

Diese Studie stellt ein umfassendes End-to-End-Framework für die Entwicklung von domänenspezifischen Large Language Models in der Verbrennungswissenschaft vor, das eine multimodale Wissensdatenbank, ein Evaluierungsbenchmark und einen dreistufigen Wissensinjektionspfad kombiniert, um die Grenzen reiner Retrieval-Augmented-Generation zu überwinden und durch strukturierte Wissensgraphen sowie fortgesetztes Pretraining fundierte Modelle zu schaffen.

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Die Studie identifiziert und demonstriert eine neue Fehlerart bei multimodalen großen Sprachmodellen, bei der durch die Optimierung auf numerische Instabilität minimal veränderte Bilder erzeugt werden, die zu einer signifikanten Leistungsverschlechterung führen, ohne dass dies durch herkömmliche adversarielle Angriffe erfasst wird.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

← Zurück Weiter →