cs.CL Arbeiten | Gist.Science

Recursive Think-Answer Process for LLMs and VLMs

Die Arbeit stellt den effizienten rekursiven Think-Answer-Prozess (R-TAP) vor, der durch einen Konfidenzgenerator und spezifische Belohnungssignale iterative Reasoning-Zyklen ermöglicht, um die Genauigkeit und Stabilität von LLMs und VLMs im Vergleich zu herkömmlichen Single-Pass-Methoden signifikant zu verbessern.

Byung-Kwan Lee, Youngchae Chee, Yong Man Ro2026-03-04💬 cs.CL

A Zipf-preserving, long-range correlated surrogate for written language and other symbolic sequences

Die Autoren stellen ein neues Surrogat-Modell vor, das sowohl die empirische Häufigkeitsverteilung (Zipf-Gesetz) als auch die langreichweitigen Korrelationen symbolischer Sequenzen wie Sprache und DNA gleichzeitig erhält, indem es fraktales Gaußsches Rauschen über eine frequenzerhaltende Zuordnung auf das empirische Histogramm abbildet.

Marcelo A. Montemurro, Mirko Degli Esposti2026-03-04🧬 q-bio

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

Die Studie zeigt, dass eine nachhaltige Selbstentwicklung von Sprachmodellen nur durch einen selbstsynthetischen Datenpipeline mit messbarem Informationsgewinn gelingt, der durch asymmetrische Ko-Evolution, Kapazitätswachstum und proaktive Informationssuche erreicht wird.

Wei Liu, Siya Qi, Yali Du + 1 more2026-03-04💬 cs.CL

Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat

Die Studie zeigt, dass End-to-End-Sparse-Attention-Modelle durch „Routing-Absorption" scheitern, da sich die gemeinsamen Q/K/V-Parameter so stark an beliebige Masken anpassen, dass gelernte Gating-Mechanismen kaum besser funktionieren als zufällige, weshalb post-hoc-Ansätze zur Entkopplung von Repräsentationslernen und Verdünnung überlegen sind.

Keston Aquino-Michaels2026-03-04💬 cs.CL

Safety Training Persists Through Helpfulness Optimization in LLM Agents

Die Studie zeigt, dass bei der Nachschulung von LLM-Agenten Sicherheits-Training auch nachfolgendes Hilfreichkeits-Training überdauert und alle Konfigurationen trotz potenzieller optimaler Strategien auf einer linearen Pareto-Grenze landen, was die Notwendigkeit eines besseren Verständnisses der Nachschulungsdynamik unterstreicht.

Benjamin Plaut2026-03-04💬 cs.CL

HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval

Das Paper stellt HELIOS vor, ein System, das die Stärken von früher und später Fusion mit LLM-Reasoning kombiniert, um durch subgraphbasierte Retrieval- und Verfeinerungstechniken die Genauigkeit bei der mehrgranularen Tabellen-Text-Retrieval für offene Fragen signifikant zu verbessern.

Sungho Park, Joohyung Yun, Jongwuk Lee + 1 more2026-03-04💬 cs.CL

Universal Conceptual Structure in Neural Translation: Probing NLLB-200's Multilingual Geometry

Die Studie zeigt, dass das NLLB-200-Modell durch die Analyse seiner Embedding-Geometrie sowohl die genealogische Struktur von Sprachen als auch universelle konzeptuelle Assoziationen und relationale Strukturen über 135 Sprachen hinweg implizit erlernt hat.

Kyle Elliott Mathewson2026-03-04💬 cs.CL

Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

Diese Arbeit charakterisiert das Auswendiglernen in Diffusions-Sprachmodellen durch ein verallgemeinertes probabilistisches Extraktionsframework, das theoretisch zeigt, dass die Wahrscheinlichkeit einer exakten Datenwiedergabe mit der Sampling-Auflösung steigt, und empirisch belegt, dass Diffusionsmodelle unter prefix-bedingten Bedingungen weniger personenbezogene Informationen offenlegen als autoregressive Modelle.

Xiaoyu Luo, Wenrui Yu, Qiongxiu Li + 1 more2026-03-04💬 cs.CL

RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

Die Studie stellt RO-N3WS vor, ein vielfältiges rumänisches Sprachkorpus aus über 126 Stunden transkribierten Aufnahmen, das nachweislich die Generalisierungsfähigkeit von ASR-Modellen in ressourcenarmen Szenarien verbessert und als offene Ressource für die Forschung bereitgestellt wird.

Alexandra Diaconu, Mădălina Vînaga, Bogdan Alexe2026-03-04💬 cs.CL

A Directed Graph Model and Experimental Framework for Design and Study of Time-Dependent Text Visualisation

Die Studie entwickelt ein gerichteter Graph-basierter Modellrahmen und ein experimentelles Design mit synthetischen LLM-generierten Texten, um zu untersuchen, wie Nutzer Zeit-abhängige Textvisualisierungen interpretieren, und stellt dabei fest, dass die Identifizierung vordefinierter Muster herausfordernd ist und eine stärkere Benutzeranpassung erfordert.

Songhai Fan, Simon Angus, Tim Dwyer + 3 more2026-03-04💬 cs.CL

GLoRIA: Gated Low-Rank Interpretable Adaptation for Dialectal ASR

Das Paper stellt GLoRIA vor, einen effizienten und interpretierbaren Rahmen für die dialektale automatische Spracherkennung, der Metadaten nutzt, um niedrigrangige Anpassungen in einem vortrainierten Encoder zu steuern und dabei mit weniger als 10 % aktualisierter Parameter state-of-the-art Ergebnisse erzielt.

Pouya Mehralian, Melissa Farasyn, Anne Breitbarth + 2 more2026-03-04💬 cs.CL

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Die Arbeit stellt MUSE vor, eine Open-Source-Plattform zur multimodalen Sicherheitsevaluierung von großen Sprachmodellen, die durch den Einsatz von Multi-Turn-Angriffen mit Modality-Switching und einer differenzierten Erfolgsmetrik aufzeigt, dass bestehende Sicherheitsausrichtungen oft nicht auf Audio-, Bild- und Videoeingaben verallgemeinern.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

Die Arbeit stellt CoDAR vor, ein zweistufiges Framework, das durch die Entkopplung der kontinuierlichen Diffusion im Embedding-Raum von einem kontextabhängigen, autoregressiven Diskretisierer die Leistung von Diffusions-Sprachmodellen signifikant verbessert und sie mit starken diskreten Modellen konkurrenzfähig macht.

Junzhe Shen, Jieru Zhao, Ziwei He + 1 more2026-03-04💬 cs.CL

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

Das Paper stellt VC-STaR vor, ein neuartiges Selbstverbesserungs-Framework für Vision-Language-Modelle, das durch die Nutzung kontrastiver Bildpaare Halluzinationen in den Schlussfolgerungen reduziert und so mit dem daraus generierten VisCoR-55K-Datensatz die visuelle Reasoning-Fähigkeit von Modellen signifikant verbessert.

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

FlashEvaluator: Expanding Search Space with Parallel Evaluation

Die Arbeit stellt FlashEvaluator vor, ein effizientes Framework, das durch parallele Verarbeitung und sequenzübergreifenden Informationsaustausch die Genauigkeit und Leistung von Generator-Evaluator-Systemen in Empfehlungssystemen und NLP verbessert und erfolgreich in der Kuaishou-Produktion eingesetzt wird.

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Die Arbeit stellt SteerEval vor, ein hierarchisches Benchmark-System zur einheitlichen Evaluierung der Steuerbarkeit von Large Language Models über drei Domänen und Spezifikationsebenen hinweg, das zeigt, dass die Kontrolle bei feineren Granularitäten oft nachlässt.

Ziwen Xu, Kewei Xu, Haoming Xu + 8 more2026-03-04💬 cs.CL

ExpGuard: LLM Content Moderation in Specialized Domains

Das Paper stellt ExpGuard vor, ein spezialisiertes Sicherheitsmodell für Large Language Models in den Bereichen Finanzen, Medizin und Recht, das zusammen mit einem umfangreichen, expertenannotierten Datensatz entwickelt wurde und in Tests signifikant bessere Ergebnisse als bestehende State-of-the-Art-Modelle bei der Erkennung von domain-spezifischen Angriffen erzielt.

Minseok Choi, Dongjin Kim, Seungbin Yang + 5 more2026-03-04💬 cs.CL

GPUTOK: GPU Accelerated Byte Level BPE Tokenization

Die Arbeit stellt GPUTOK vor, einen GPU-beschleunigten Byte-Level-BPE-Tokenisierer, der auf WikiText103-Daten bei langen Eingaben bis zu 131.000 Token eine bis zu 7,6-fache Geschwindigkeitssteigerung gegenüber bestehenden CPU-basierten Lösungen wie HuggingFace und tiktoken bei gleichbleibender Token-Qualität erreicht.

Venu Gopal Kadamba, Kanishkha Jaisankar2026-03-04💬 cs.CL

Think, But Don't Overthink: Reproducing Recursive Language Models

Diese Studie zeigt, dass die Reproduktion von rekursiven Sprachmodellen (RLMs) zwar komplexe Aufgaben durch eine Rekursionstiefe von 1 verbessert, eine tiefere Rekursion (Tiefe 2) jedoch paradoxerweise die Leistung bei einfachen Aufgaben verschlechtert und die Ausführungszeit sowie die Kosten exponentiell erhöht, was auf ein „Überdenken" der Modelle hindeutet.

Daren Wang2026-03-04💬 cs.CL

StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning

StitchCUDA ist ein automatisiertes Multi-Agenten-Framework, das mittels rubrikbasierter agenter Verstärkungslernverfahren end-to-end GPU-Programme generiert und dabei eine nahezu 100-prozentige Erfolgsrate sowie signifikante Geschwindigkeitssteigerungen im Vergleich zu bestehenden Baselines erzielt.

Shiyang Li, Zijian Zhang, Winson Chen + 3 more2026-03-04💬 cs.CL

← Zurück Weiter →