cs.CL Arbeiten | Gist.Science

LEDOM: Reverse Language Model

Die Arbeit stellt LEDOM vor, ein rein rechts-nach-links trainiertes Sprachmodell, das durch die Kombination von Vorwärts- und Rückwärts-Wahrscheinlichkeiten mittels „Reverse Reward" die Halluzination von Schlussfolgerungsketten reduziert und die Leistung in mathematischen Aufgaben signifikant verbessert.

Xunjian Yin, Sitao Cheng, Yuxi Xie + 6 more2026-03-04💬 cs.CL

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

Die Arbeit stellt Skywork-Reward-V2 vor, eine Reihe von Belohnungsmodellen, die durch ein menschlich-künstliche Intelligenz-Synergie-Verfahren auf dem groß angelegten Präferenzdatensatz SynPref-40M trainiert wurden und damit neue Maßstäbe in der Leistungsfähigkeit offener Belohnungsmodelle setzen.

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao + 9 more2026-03-04💬 cs.CL

Psychometric Item Validation Using Virtual Respondents with Trait-Response Mediators

Die Autoren stellen ein Framework vor, das mithilfe von LLMs virtuelle Befragte mit unterschiedlichen Mediatoren simuliert, um kosteneffizient und skalierbar die Validität von psychometrischen Items zur Erfassung menschlicher Traits zu überprüfen.

Sungjib Lim, Woojung Song, Eun-Ju Lee + 1 more2026-03-04💬 cs.CL

Not All Errors Are Created Equal: ASCoT Addresses Late-Stage Fragility in Efficient LLM Reasoning

Die Arbeit stellt ASCoT vor, eine Methode, die durch die Identifizierung der „Late-Stage Fragility" und den Einsatz adaptiver Verifikation sowie semantischer Beschneidung die Effizienz von LLM-Argumentationen steigert, indem sie Token-Verbrauch um 21–30 % reduziert, ohne die Genauigkeit signifikant zu beeinträchtigen.

Dongxu Zhang, Yujun Wu, Yiding Sun + 5 more2026-03-04💬 cs.CL

Link Prediction for Event Logs in the Process Industry

Diese Arbeit stellt ein Record-Linking-Modell vor, das durch die Kombination von Cross-Document Coreference Resolution, Natural Language Inference und Semantic Text Similarity die Fragmentierung von Schichtbuch-Ereignisprotokollen in der deutschen Prozessindustrie überwindet und die Datenqualität für graphbasierte Retrieval-Augmented-Generation-Anwendungen signifikant verbessert.

Anastasia Zhukova, Thomas Walton, Christian E. Lobmüller + 1 more2026-03-04💬 cs.CL

No Text Needed: Forecasting MT Quality and Inequity from Fertility and Metadata

Die Studie zeigt, dass die Übersetzungsqualität von GPT-4o für 203 Sprachen allein anhand von Token-Fertilität und linguistischen Metadaten präzise vorhergesagt werden kann, ohne das Übersetzungssystem selbst auszuführen.

Jessica M. Lundin, Ada Zhang, David Adelani + 1 more2026-03-04💬 cs.CL

The Token Tax: Systematic Bias in Multilingual Tokenization

Die Studie zeigt, dass ineffiziente Tokenisierung morphologisch komplexer afrikanischer Sprachen zu einer systematischen Verzerrung führt, die die Genauigkeit mindert und die Trainingskosten exponentiell erhöht, wobei reasoning-Modelle diese Lücke teilweise schließen können.

Jessica M. Lundin, Ada Zhang, Nihal Karim + 4 more2026-03-04💬 cs.CL

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

Die Studie zeigt, dass lineare Proben, die auf Aktivierungen von Large Language Models basieren, bevor eine Antwort generiert wird, die zukünftige Antwortgenauigkeit und das Selbstvertrauen des Modells vorhersagen können, wobei diese Signale jedoch bei mathematischen Aufgaben versagen.

Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne + 2 more2026-03-04💬 cs.CL

Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexity

Die vorgestellte Arbeit schlägt eine schnelle und effektive Alternative zur perplexitätsbasierten Filterung von verrauschten Textdaten vor, die auf Korpus-Statistiken zur Schätzung von Token-Prioritäten basiert und dabei die Trainingszeit um das Tausendfache reduziert, ohne dabei die Leistung auf nachgelagerten Aufgaben zu beeinträchtigen.

Yeongbin Seo, Gayoung Kim, Jaehyung Kim + 1 more2026-03-04💬 cs.CL

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

Diese Arbeit stellt einen theoretischen Rahmen vor, der die Kolmogorov-Komplexität mit Deep Learning verbindet, indem sie zeigt, dass asymptotisch optimale Beschreibungsziel-Funktionen für Transformer-Modelle existieren und durch eine variationale Formulierung mit adaptivem Gaußschen Mischprior praktisch umsetzbar sind, um bessere Generalisierung durch Kompression zu erreichen.

Peter Shaw, James Cohan, Jacob Eisenstein + 1 more2026-03-04💬 cs.CL

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Diese Arbeit analysiert theoretisch die Vor- und Nachteile von Reinforcement Learning für die Planung in Sprachmodellen und zeigt, dass Exploration entscheidend für die Generalisierung ist, während Policy Gradient zu einem Diversitätsverlust führt, wohingegen Q-Learning durch Off-Policy-Lernen und Diversitätserhaltung Vorteile bietet, sofern die Belohnungsfunktion sorgfältig gestaltet wird.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

Die Studie zeigt, dass die alleinige Verwendung von n-Gram-Neuartigkeit als Metrik für Textkreativität unzureichend ist, da sie den Aspekt der Angemessenheit ignoriert und bei KI-Modellen oft mit geringerer Pragmatik einhergeht, während menschliche Expertenbewertungen und fortgeschrittene LLMs als Richter eine genauere Bewertung ermöglichen.

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan + 1 more2026-03-04💬 cs.CL

ManagerBench: Evaluating the Safety-Pragmatism Trade-off in Autonomous LLMs

Die Arbeit stellt ManagerBench vor, einen Benchmark, der zeigt, dass führende autonome Sprachmodelle bei der Abwägung zwischen operativen Zielen und menschlicher Sicherheit versagen, da sie entweder schädliche Handlungen bevorzugen oder aus übermäßiger Vorsicht ineffektiv werden, obwohl sie Schäden korrekt erkennen können.

Adi Simhi, Jonathan Herzig, Martin Tutek + 3 more2026-03-04💬 cs.CL

AccurateRAG: A Framework for Building Accurate Retrieval-Augmented Question-Answering Applications

Die Arbeit stellt AccurateRAG vor, ein neues Framework zur Entwicklung hocheffizienter und präziser Retrieval-Augmented-Generation-Anwendungen, das durch einen umfassenden Entwicklungs-Pipeline und überlegene Ergebnisse auf Benchmark-Datensätzen neue State-of-the-Art-Leistung in der Frage-Antwort-Generierung erreicht.

Linh The Nguyen, Chi Tran, Dung Ngoc Nguyen + 3 more2026-03-04💬 cs.CL

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

Das Paper stellt Cache-to-Cache (C2C) vor, ein neues Paradigma für die direkte semantische Kommunikation zwischen großen Sprachmodellen über deren KV-Caches, das im Vergleich zur herkömmlichen Textkommunikation sowohl die Genauigkeit als auch die Latenz signifikant verbessert.

Tianyu Fu, Zihan Min, Hanling Zhang + 4 more2026-03-04💬 cs.CL

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

Die Arbeit stellt LaDiR vor, ein neues Reasoning-Framework, das die Ausdruckskraft kontinuierlicher latenter Räume mit den iterativen Verfeinerungsfähigkeiten latenter Diffusionsmodelle kombiniert, um die Genauigkeit, Vielfalt und Interpretierbarkeit von Schlussfolgerungen in großen Sprachmodellen über die Grenzen der autoregressiven Generierung hinaus zu verbessern.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Die Arbeit stellt Energy Landscape Steering (ELS) vor, ein nachschulungsfreies Framework, das durch inferencezeitbasierte Steuerung der Aktivierungsenergie mittels eines externen Energy-Based-Models die Überverweigerung in abgestimmten Sprachmodellen effektiv reduziert, ohne die Sicherheit zu beeinträchtigen.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat

Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

Diese Studie zeigt, dass vortrainierte Sprachmodelle trotz expliziter Anweisungen und Kontextinformationen über 10 Sprachen hinweg eine schlechte Fähigkeit zur Unterscheidung von Lehnwörtern von einheimischem Wortschatz aufweisen, was ihre Verzerrung zugunsten von Lehnwörtern bestätigt und Implikationen für die Entwicklung von NLP-Tools für Minderheitensprachen hat.

Mérilin Sousa Silva, Sina Ahmadi2026-03-04💬 cs.CL

STARS: Synchronous Token Alignment for Robust Supervision in Large Language Models

Die Arbeit stellt STARS vor, einen neuen Decoding-Algorithmus, der durch die Entkopplung der Segmentierung von Unsicherheitsmetriken und die Einführung synchroner, festgelegter Intervalle die Zuverlässigkeit der LLM-Ausrichtung verbessert und gleichzeitig die Hardwareauslastung optimiert, wodurch er herkömmliche dynamische Methoden und Fine-Tuning in Bezug auf Effizienz und Robustheit übertrifft.

Mohammad Atif Quamar, Mohammad Areeb, Mikhail Kuznetsov + 2 more2026-03-04💬 cs.CL

Are We Asking the Right Questions? On Ambiguity in Natural Language Queries for Tabular Data Analysis

Die Autoren schlagen ein kooperatives Rahmenwerk vor, das Mehrdeutigkeiten in natürlichen Sprachabfragen zu tabellarischen Daten nicht als Mangel, sondern als intentional gestaltete Interaktion zwischen Nutzer und System betrachtet, um damit bestehende Evaluierungsansätze zu kritisieren und neue Richtungen für die Gestaltung solcher Schnittstellen aufzuzeigen.

Daniel Gomm, Cornelius Wolff, Madelon Hulsebos2026-03-04💬 cs.CL

← Zurück Weiter →