cs.CL Arbeiten | Gist.Science

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Die Arbeit stellt Grasp Any Region (GAR) vor, ein Multimodales Large Language Model, das durch eine RoI-ausgerichtete Feature-Replay-Technik präzise, kontextbewusste Regionenanalyse und komplexe Mehrfach-Prompt-Interaktionen ermöglicht, wodurch es bestehende Modelle in Bezug auf detailliertes Verständnis und Videotransferfähigkeit übertrifft.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

Die Studie stellt EchoMind vor, ein neuartiges, mehrstufiges Benchmark-System zur Evaluierung empathischer Sprachmodelle, das deren Fähigkeit testet, nicht nur den gesprochenen Inhalt, sondern auch emotionale Nuancen in der Stimmlage zu integrieren, und zeigt auf, dass selbst fortschrittliche Modelle bei der Verarbeitung expressiver vokaler Hinweise noch erhebliche Defizite aufweisen.

Li Zhou, Lutong Yu, You Lyu + 6 more2026-03-06💻 cs

Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

Die Autoren stellen das „Open Korean Historical Corpus" vor, eine groß angelegte, offen lizenzierte Sammlung von 1,3 Milliarden Token über 1.300 Jahre hinweg, die quantitative Analysen der koreanischen Sprachgeschichte ermöglicht und als Vorab-Trainingskorpus für große Sprachmodelle dient.

Seyoung Song, Nawon Kim, Songeun Chae + 5 more2026-03-06💻 cs

Steering Awareness: Models Can Be Trained to Detect Activation Steering

Die Studie zeigt, dass Sprachmodelle durch Feinabstimmung lernen können, Eingriffe durch Aktivitätssteuerung zu erkennen und die eingefügten Konzepte zu identifizieren, was die Annahme widerlegt, dass solche Manipulationen für das Modell unsichtbar bleiben, und gleichzeitig die langfristige Zuverlässigkeit von steuerungsbasierten Sicherheitsbewertungen infrage stellt.

Joshua Fonseca Rivera, David Demitri Africa2026-03-06💻 cs

Think-While-Generating: On-the-Fly Reasoning for Personalized Long-Form Generation

Die Arbeit stellt FlyThinker vor, ein effizientes Framework für die personalisierte Langtextgenerierung, das durch paralleles, latentes Token-Level-Reasoning während des Generierungsprozesses eine dynamische Anpassung an individuelle Benutzerpräferenzen ermöglicht und dabei sowohl Trainings- als auch Inferenzeffizienz bewahrt.

Chengbing Wang, Yang Zhang, Wenjie Wang + 4 more2026-03-06💻 cs

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Das Paper stellt ReFusion vor, ein neuartiges Masked-Diffusion-Modell, das durch die Integration von Sequenzreorganisation in den kausalen Aufmerksamkeitsrahmen paralleles Slot-Level-Decoding ermöglicht, wodurch es sowohl die Ineffizienz von KV-Caching als auch die Lernkomplexität überwindet und gleichzeitig die Leistung früherer Diffusionsmodelle deutlich übertrifft und sich der Geschwindigkeit von autoregressiven Modellen annähert.

Jia-Nan Li, Jian Guan, Wei Wu + 1 more2026-03-06💻 cs

RePo: Language Models with Context Re-Positioning

Die Arbeit stellt RePo vor, eine neuartige Methode zur dynamischen Neupositionierung von Kontext-Token in Sprachmodellen, die auf der Kognitiven Lasttheorie basiert und durch die Reduzierung unnötiger kognitiver Belastung die Leistung bei Aufgaben mit verrauschtem Kontext, strukturierten Daten und längeren Eingaben verbessert.

Huayang Li, Tianyu Zhao, Deng Cai + 1 more2026-03-06💻 cs

MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

Die Studie stellt MCP-SafetyBench vor, ein umfassendes Benchmark auf Basis realer MCP-Server, das die Sicherheitsrisiken aktueller LLMs in realistischen, mehrstufigen Szenarien aufdeckt und zeigt, dass alle getesteten Modelle trotz eines Sicherheits-Nutzen-Kompromisses anfällig für MCP-spezifische Angriffe bleiben.

Xuanjun Zong, Zhiqi Shen, Lei Wang + 2 more2026-03-06💻 cs

From Word to World: Can Large Language Models be Implicit Text-based World Models?

Die Studie zeigt, dass große Sprachmodelle in textbasierten Umgebungen als implizite Weltmodelle fungieren können, die durch kohärente Zustandsvorhersage und Skalierbarkeit die Leistung von Agenten verbessern, wobei der Erfolg jedoch stark von der Verhaltensabdeckung und der Komplexität der Umgebung abhängt.

Yixia Li, Hongru Wang, Jiahao Qiu + 7 more2026-03-06💻 cs

Parallel Token Prediction for Language Models

Das Papier stellt Parallel Token Prediction (PTP) vor, ein Framework, das durch die Verschiebung der Zufälligkeit auf Eingangsvariablen mehrere Token in einem einzigen Vorwärtsdurchlauf deterministisch vorhersagt und so eine 2,4-fache Beschleunigung der Autogenerierung erreicht.

Felix Draxler, Justus Will, Farrin Marouf Sofian + 3 more2026-03-06💻 cs

When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark

Die Studie zeigt, dass der Einsatz von Planung und externen Tools bei Large Language Models zwar die Genauigkeit bei komplexen Faktenfragen (Event-QA) erheblich steigern kann, jedoch oft zu drastischen Latenz- und Kostensteigerungen führt, während bei persuasiven Aufgaben (CMV) einfache One-Shot-Prompting-Ansätze effizienter und effektiver sind, was die Notwendigkeit einer aufgaben- und kostenbewussten Auswahl von Modellgröße und Agentenkomplexität unterstreicht.

Subha Ghoshal, Ali Al-Bustami2026-03-06💻 cs

Identifying Good and Bad Neurons for Task-Level Controllable LLMs

Die Arbeit stellt NeuronLLM vor, ein neuartiges Framework zur Identifizierung von „guten" und „schlechten" Neuronen in Large Language Models auf Aufgabenebene, das durch kontrastives Lernen und erweiterte Fragestellungen die Leistungsfähigkeit bestehender Methoden zur Steuerung und zum Verständnis von LLMs übertrifft.

Wenjie Li, Guansong Pang, Hezhe Qiao + 2 more2026-03-06💻 cs

F-Actor: Controllable Conversational Behaviour in Full-Duplex Models

Die Arbeit stellt F-Actor vor, das erste offene, instruktionsfolgende Voll-Duplex-Sprachmodell, das durch einfaches Fine-Tuning eines Sprachmodells bei gefrorenem Audio-Encoder mit nur 2.000 Stunden Daten trainiert werden kann und eine effiziente, ressourcenschonende Kontrolle über Stimmlage, Gesprächsthema und interaktives Verhalten ermöglicht.

Maike Züfle, Ondrej Klejch, Nicholas Sanders + 3 more2026-03-06💻 cs

The unreasonable effectiveness of pattern matching

Die Studie zeigt, dass große Sprachmodelle durch das Erkennen struktureller Muster auch in bedeutungslosen Texten („Jabberwocky") Sinn erschließen können, was die These untermauert, dass Mustererkennung ein wesentlicher Bestandteil echter Intelligenz und nicht bloß eine Imitation ist.

Gary Lupyan, Blaise Agüera y Arcas2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

Das Paper stellt Yuan3.0 Ultra vor, ein Open-Source-Mixture-of-Experts-LLM mit 1010 Milliarden Parametern, das durch den neu entwickelten Layer-Adaptive Expert Pruning (LAEP)-Algorithmus die Vortrainierungseffizienz um 49 % steigert und gleichzeitig führende Leistungen in Unternehmensszenarien erzielt.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Die Studie zeigt, dass aktuelle multimodale Basis-Modelle bei der Identifizierung kontextuell wichtiger Momente in Fußballvideos kaum besser als Zufall sind, da sie oft auf eine einzelne dominante Modalität angewiesen sind und keine effektive Synthese aus mehreren Quellen leisten, was den Bedarf an modularen Architekturen und ergänzenden Trainingsverfahren unterstreicht.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Die Arbeit stellt das Framework „On-Policy Self-Distillation" (OPSD) vor, bei dem ein einziges großes Sprachmodell durch den Vergleich seiner eigenen Antworten mit privilegierten Lösungswegen als sowohl Lehrer als auch Schüler fungiert, um die mathematische Schlussfolgerungsfähigkeit effizienter zu verbessern als herkömmliche Methoden.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Die Arbeit stellt VIP vor, eine adaptive Strategie zur Zuweisung von Rollouts im Online-Reinforcement-Learning mit verifizierbaren Belohnungen, die mithilfe von Gauß-Prozessen die Varianz der Gradienten schätzt und den Rechenbudget durch eine konvexe Optimierung minimiert, um die Sampling-Effizienz und Leistung im Vergleich zu einheitlichen Zuweisungsmethoden zu steigern.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

Die Arbeit stellt LatentChem vor, ein Verfahren, das chemisches Schlussfolgern von der diskreten Textgenerierung entkoppelt und stattdessen eine effiziente, kontinuierliche latente Reasoning-Umgebung nutzt, wodurch sowohl die Genauigkeit als auch die Inferenzgeschwindigkeit im Vergleich zu herkömmlichen Chain-of-Thought-Ansätzen erheblich gesteigert werden.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

The Convergence of Schema-Guided Dialogue Systems and the Model Context Protocol

Diese Arbeit zeigt, dass Schema-Guided Dialogue und das Model Context Protocol zwei Erscheinungsformen eines einheitlichen Paradigmas für deterministische LLM-Interaktionen darstellen, und leitet daraus fünf Gestaltungsprinzipien ab, um Lücken in der Fehlerdokumentation und Tool-Verknüpfung zu schließen und eine skalierbare Governance für Software 3.0 zu ermöglichen.

Andreas Schlapbach2026-03-06💻 cs

← Zurück Weiter →