cs.CL Arbeiten | Gist.Science

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

Die Arbeit stellt MuRating vor, ein skalierbares Framework, das hochwertige englische Datenqualitätssignale nutzt, um einen einzigen multilingualen Bewertungsmechanismus für 17 Sprachen zu trainieren und dadurch die Leistung von 1,2-Milliarden-Parameter-LLMs sowohl in englischen als auch in multilingualen Benchmarks signifikant verbessert.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Eka-Eval: An Evaluation Framework for Low-Resource Multilingual Large Language Models

Die Autoren stellen EKA-EVAL vor, ein Open-Source-Evaluierungsframework, das über eine benutzerfreundliche Schnittstelle und eine modulare Architektur hinweg mehr als 55 multilinguale Benchmarks für ressourcenschwache Sprachen vereint und dabei sowohl in der Benutzerfreundlichkeit als auch in der Reproduzierbarkeit bestehende Lösungen signifikant übertrifft.

Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal + 1 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Die Arbeit stellt mit TreeBench ein neues Benchmark zur Evaluierung nachvollziehbarer visueller Begründungen vor und entwickelt TreeVGR, einen Trainingsansatz mit Bestärkendem Lernen, der die Genauigkeit und Erklärbarkeit von Modellen für visuelle Aufgaben signifikant verbessert.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

Die Arbeit stellt Vevo2 vor, ein einheitliches und steuerbares Framework für die Erzeugung von Sprache und Gesang, das durch zwei spezielle Audio-Tokenisierer und eine mehrstufige Modellierungsschritte die Herausforderungen der Datenknappheit und der flexiblen Kontrolle von Prosodie, Stil und Klangfarbe überwindet.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

How Quantization Shapes Bias in Large Language Models

Diese Studie zeigt, dass Quantisierung die Bias-Eigenschaften von Large Language Modellen differenziert beeinflusst, indem sie zwar die Toxizität verringert, aber bei aggressiver Komprimierung Stereotype und Ungerechtigkeiten in generativen Aufgaben tendenziell leicht verstärkt.

Federico Marcuzzi, Xuefei Ning, Roy Schwartz + 1 more2026-03-06💻 cs

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Diese Arbeit schlägt ein neuartiges, auf unbalanciertem Optimal-Transport basierendes Ausrichtungsmodell vor, das die strukturelle Asymmetrie zwischen akustischen und linguistischen Repräsentationen als Detektionsproblem behandelt, um durch präzises Matching und flexible Behandlung von Rauschen die Leistung von ASR-Systemen bei der Wissensübertragung zu verbessern.

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Die vorgestellte Arbeit stellt TSPC vor, eine zweistufige, phonemzentrierte Architektur, die durch die Verwendung eines erweiterten vietnamesischen Phonemsatzes als Zwischendarstellung die Wortfehlerrate bei der Code-Switching-Erkennung für Vietnamesisch-Englisch signifikant senkt und dabei ressourceneffizient bleibt.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Linguistic trajectories of bipolar disorder on social media

Die Studie zeigt, dass die Analyse von Social-Media-Sprachdaten longitudinale linguistische Veränderungen bei bipolaren Störungen erfasst, darunter diagnostikbegleitende Verschiebungen und saisonale Stimmungsschwankungen, und somit eine wertvolle Ergänzung zur traditionellen psychiatrischen Forschung darstellt.

Laurin Plank, Armin Zlomuzica2026-03-06💻 cs

Llama-Mimi: Exploring the Limits of Flattened Speech Language Modeling

Der Artikel stellt Llama-Mimi vor, ein Modell, das mehrstufige RVQ-Sprachtokens durch Abflachung zu einer einzigen Sequenz verarbeitet und mit einem einfachen Transformer-Decoder autoregressiv modelliert, wodurch es in den meisten Aufgaben und insbesondere bei der akustischen Konsistenz überlegene Ergebnisse im Vergleich zu hierarchischen Modellen erzielt.

Issa Sugiura, Shuhei Kurita, Yusuke Oda + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Die Studie zeigt, dass Sprachmodelle als Rückgrat von SpeechLLMs bei der Verarbeitung spontaner, unflüssiger Konversationen strukturelle Robustheitslücken aufweisen, wobei Reasoning-Modelle durch eine Tendenz zur semantischen Abstraktion flüssige Inhalte übermäßig löschen und Feinabstimmung zwar Spitzenleistungen erzielt, aber die Generalisierungsfähigkeit beeinträchtigt.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

Das Paper stellt BeyondBench vor, ein Kontaminations-resistentes Evaluierungsframework, das durch algorithmische Generierung mathematisch fundierter Probleme die echten reasoning-Fähigkeiten von Sprachmodellen unabhängig von Trainingsdaten bewertet und dabei signifikante Leistungseinbußen bei steigender Komplexität aufzeigt.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

Die Studie stellt eine stabile NVFP4-Pretraining-Methode für große Sprachmodelle vor, die durch Random Hadamard-Transformationen, ein zweidimensionales Quantisierungsschema und stochastisches Runden eine Effizienzsteigerung ermöglicht, ohne die Leistung im Vergleich zu FP8-Baselines zu beeinträchtigen.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

Die Arbeit stellt PrefDisco vor, ein Benchmark-Verfahren zur Evaluierung proaktiver personalisierter Reasoning-Prozesse in großen Sprachmodellen, das zeigt, dass eine gezielte Entwicklung für die Anpassung an individuelle Nutzerpräferenzen notwendig ist, da weder naive Personalisierung noch generische Antworten in Just-in-Time-Szenarien zuverlässig funktionieren.

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Das Paper stellt Graph2Eval vor, ein auf Wissensgraphen basierendes Framework zur automatischen Generierung semantisch konsistenter und lösbarer multimodaler Agentenaufgaben, das durch die Einführung des Graph2Eval-Bench-Datensatzes die Evaluierung von Agenten in Dokumentenverständnis- und Web-Interaktionsszenarien verbessert.

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

Die Arbeit stellt GMT (Graph-as-Memory Tuning) vor, einen neuen Ansatz, der lokale Graphstrukturen als expliziten Speicher in große Sprachmodelle integriert, um durch tiefgreifende, tokenweise Cross-Attention eine überlegene Wissensgraphen-Vervollständigung zu ermöglichen, die herkömmliche Prefix-Methoden in Bezug auf evidenzbasiertes Schlussfolgern deutlich übertrifft.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

Detecting Hallucinations in Authentic LLM-Human Interactions

Die Studie stellt AuthenHallu vor, das erste Halluzinations-Erkennungs-Benchmark, das ausschließlich auf authentischen LLM-Mensch-Interaktionen basiert und zeigt, dass Halluzinationen in realen Szenarien häufiger auftreten als in künstlich erzeugten Datensätzen, während die Fähigkeit von Standard-LLMs, diese zuverlässig zu erkennen, derzeit noch unzureichend ist.

Yujie Ren, Niklas Gruhlke, Anne Lauscher2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

Die Studie zeigt, dass eine enge Feinabstimmung von Sprachmodellen deutliche, analysierbare Spuren in den Aktivierungen hinterlässt, die nicht nur zur Rekonstruktion des Trainingsdatensatzes genutzt werden können, sondern auch vor der Gefahr warnen, solche Modelle als realistische Proxy-Modelle für breitere Sicherheits- und Interpretierbarkeitsforschung zu verwenden.

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Die Arbeit stellt Grasp Any Region (GAR) vor, ein Multimodales Large Language Model, das durch eine RoI-ausgerichtete Feature-Replay-Technik präzise, kontextbewusste Regionenanalyse und komplexe Mehrfach-Prompt-Interaktionen ermöglicht, wodurch es bestehende Modelle in Bezug auf detailliertes Verständnis und Videotransferfähigkeit übertrifft.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

Die Studie stellt EchoMind vor, ein neuartiges, mehrstufiges Benchmark-System zur Evaluierung empathischer Sprachmodelle, das deren Fähigkeit testet, nicht nur den gesprochenen Inhalt, sondern auch emotionale Nuancen in der Stimmlage zu integrieren, und zeigt auf, dass selbst fortschrittliche Modelle bei der Verarbeitung expressiver vokaler Hinweise noch erhebliche Defizite aufweisen.

Li Zhou, Lutong Yu, You Lyu + 6 more2026-03-06💻 cs

Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

Die Autoren stellen das „Open Korean Historical Corpus" vor, eine groß angelegte, offen lizenzierte Sammlung von 1,3 Milliarden Token über 1.300 Jahre hinweg, die quantitative Analysen der koreanischen Sprachgeschichte ermöglicht und als Vorab-Trainingskorpus für große Sprachmodelle dient.

Seyoung Song, Nawon Kim, Songeun Chae + 5 more2026-03-06💻 cs

← Zurück Weiter →