How Much Noise Can BERT Handle? Insights from Multilingual Sentence Difficulty Detection

Diese Studie untersucht den Einfluss verschiedener Rauschfilterungsmethoden auf die Leistung von BERT-Modellen bei der multilingualen Erkennung von Satzschwierigkeiten und zeigt, dass explizite Rauscherkennung insbesondere bei kleineren Datensätzen die Vorhersagequalität erheblich steigern kann, während vortrainierte Sprachmodelle bei größeren Datensätzen bereits eine robuste Basisleistung bieten.

Nouran Khallaf, Serge Sharoff2026-03-10💬 cs.CL

Position: LLMs Must Use Functor-Based and RAG-Driven Bias Mitigation for Fairness

Diese Positionspapier plädiert für einen kombinierten Ansatz zur Bekämpfung von Verzerrungen in großen Sprachmodellen, der kategorientheoretische Funktoren zur strukturellen Entschärfung von Vorurteilen mit retrievalgestützter Generierung (RAG) zur dynamischen Kontextualisierung durch externe Wissensquellen verbindet, um faire und gerechte Ausgaben zu gewährleisten.

Ravi Ranjan, Utkarsh Grover, Agorista Polyzou2026-03-10💬 cs.CL

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

Diese Studie untersucht die domänenspezifische Qualitätsschätzung für die maschinelle Übersetzung in ressourcenarmen Szenarien zwischen Englisch und indischen Sprachen und zeigt, dass die Anpassung von Transformer-Zwischenschichten mittels Low-Rank-Methoden die Robustheit und Genauigkeit von Open-Weight-Modellen signifikant verbessert.

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh Kanojia2026-03-10🤖 cs.LG

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Diese Systematisierung des Wissens (SoK) stellt das erste einheitliche Rahmenwerk für autonome Retrieval-Augmented-Generation-Systeme vor, indem sie diese als sequenzielle Entscheidungsprozesse formalisiert, eine umfassende Taxonomie und Architekturdekomposition entwickelt, kritische Evaluierungslücken und systemische Risiken analysiert sowie einen Fahrplan für zukünftige Forschungsrichtungen zur Steigerung von Zuverlässigkeit und Skalierbarkeit aufzeigt.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva Gaire2026-03-10💬 cs.CL

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Die Studie stellt mit OAKS einen neuen Benchmark vor, um die Fähigkeit von Large Language Models zur Online-Anpassung an kontinuierlich strömende Wissensdaten zu bewerten, und zeigt dabei erhebliche Defizite aktueller Modelle und Gedächtnissysteme bei der Verfolgung dynamischer Faktenänderungen auf.

Jiyeon Kim, Hyunji Lee, Dylan Zhou, Sue Hyun Park, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Sungmin Cha, Minjoon Seo2026-03-10💬 cs.CL

Generalization in Online Reinforcement Learning for Mobile Agents

Diese Arbeit stellt mit AndroidWorld-Generalization einen neuen Benchmark und ein skalierbares Reinforcement-Learning-System vor, das zeigt, dass RL-basierte VLM-Agenten auf mobilen Geräten zwar signifikant besser auf unbekannte Aufgabeninstanzen generalisieren als überwachte Feinabstimmung, jedoch weiterhin vor erheblichen Herausforderungen bei der Generalisierung auf unbekannte Vorlagen und Anwendungen stehen.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

Die Arbeit stellt PACT vor, einen Feinabstimmungsansatz, der die Sicherheitsausrichtung von großen Sprachmodellen bewahrt, indem er gezielt nur die Konfidenz auf sicherheitsrelevanten Tokens während des Trainings an ein Referenzmodell angepasst wird, um so einen Abgleichsverlust zu verhindern, ohne die Leistung bei downstream-Aufgaben zu beeinträchtigen.

Guoli Wang, Haonan Shi, Tu Ouyang, An Wang2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Die Arbeit stellt Dial vor, ein wissensbasiertes Framework für dialektspezifische NL2SQL-Übersetzungen, das durch eine dialektsensible logische Abfrageplanung, eine hierarchische Wissensdatenbank und einen ausführungsbasierten Debugging-Prozess die Genauigkeit und Abdeckung von Datenbankdialekten im Vergleich zu bestehenden Methoden signifikant verbessert.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

Die Studie zeigt, dass Diffusions-Sprachmodelle im Vergleich zu autoregressiven Modellen redundantere, hierarchischere Repräsentationen aufweisen, die eine effiziente Inferenz durch statisches Layer-Skipping ohne Architekturänderungen ermöglichen, während autoregressive Modelle unter ähnlichen Bedingungen stark an Leistung verlieren.

Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli2026-03-10💬 cs.CL

Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech

Die Arbeit stellt Bolbosh vor, das erste Open-Source-Neural-TTS-System für die Kaschmiri-Sprache, das durch eine script-bewusste, überwachte Anpassung mittels Optimal Transport Conditional Flow Matching und einer dreistufigen akustischen Verbesserungspipeline deutlich bessere Ergebnisse als mehrsprachige Baseline-Modelle erzielt.

Tajamul Ashraf, Burhaan Rasheed Zargar, Saeed Abdul Muizz, Ifrah Mushtaq, Nazima Mehdi, Iqra Altaf Gillani, Aadil Amin Kak, Janibul Bashir2026-03-10💬 cs.CL

TableMind++: An Uncertainty-Aware Programmatic Agent for Tool-Augmented Table Reasoning

Der Artikel stellt TableMind++ vor, einen unsicherheitsbewussten, programmatischen Agenten, der durch speicherbasierte Planbereinigung, vertrauensbasierte Aktionsverfeinerung und eine dual-gewichtete Trajektorienaggregation Halluzinationen reduziert und die Tabellenreasoning-Fähigkeiten von Sprachmodellen im Vergleich zu vorherigen Ansätzen signifikant verbessert.

Mingyue Cheng, Shuo Yu, Chuang Jiang, Xiaoyu Tao, Qingyang Mao, Jie Ouyang, Qi Liu, Enhong Chen2026-03-10💬 cs.CL