MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

Die Arbeit stellt MAWARITH vor, einen umfassenden arabischen Datensatz und Benchmark mit 12.500 annotierten Erbfällen, der große Sprachmodelle durch detaillierte Schritt-für-Schritt-Lösungen und eine neue Evaluierungsmetrik (MIR-E) in der komplexen reasoning-Aufgabe des islamischen Erbrechts testet.

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad Mohamed2026-03-10💬 cs.CL

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Diese Arbeit stellt das neu kuratierte Devanagari-Sprachkorpus „Nwāchā Munā" für Nepal Bhasha vor und zeigt, dass ein feinabgestimmtes nepalesisches Conformer-Modell durch proximale Transferlernen die Leistung großer multilingualer Modelle bei der Spracherkennung erreicht und dabei eine rechen-effiziente Alternative für diese unterrepräsentierte Sprache bietet.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control

Die Arbeit stellt StyleBench vor, ein mehrstufiges Dialog-Benchmark, das die Fähigkeit von Sprachmodellen zur kontrollierten Steuerung von Sprechstil-Intensität in den Dimensionen Emotion, Geschwindigkeit, Lautstärke und Tonhöhe systematisch bewertet und dabei Leistungslücken zwischen führenden Sprachmodellen und Omni-Sprachmodellen aufzeigt.

Haishu Zhao, Aokai Hao, Yuan Ge, Zhenqiang Hong, Tong Xiao, Jingbo Zhu2026-03-10💬 cs.CL

Scalable Training of Mixture-of-Experts Models with Megatron Core

Dieser Bericht stellt das Megatron Core-Framework vor, das durch integrierte Optimierungen in den Bereichen Speicher, Kommunikation und Berechnung sowie Unterstützung für parallele Verfahren und niedrige Präzision das skalierbare Training von Mixture-of-Experts-Modellen auf Tausenden von GPUs ermöglicht und dabei hohe Rechenleistung auf NVIDIA-Hardware erreicht.

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)2026-03-10🤖 cs.LG

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

Diese Studie untersucht die Leistungsfähigkeit verschiedener Large Language Models bei der Lösung diskreter Optimierungsproblemen anhand umfangreicher, erweiterter Datensätze und stellt fest, dass zwar leistungsfähigere Modelle generell besser abschneiden, die Chain-of-Thought-Methode jedoch nicht immer vorteilhaft ist und augmentierte Daten die Ergebnisse bei verständlichen Problemen trotz hoher Varianz verbessern können.

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

Die Arbeit stellt 3ViewSense vor, ein Framework, das die räumliche Intelligenz von Vision-Language-Modellen durch eine auf orthografischen Ansichten basierende „Simulieren-und-Schließen"-Methode schließt, um die Lücke bei der Konstruktion kohärenter 3D-Mentalmodelle aus 2D-Beobachtungen zu überwinden.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

Das Paper stellt ein Ensemble-System für die SemEval-2026-Aufgabe 3 vor, das einen hybriden RoBERTa-Encoder mit Large Language Models kombiniert, um durch Regressions- und Klassifikationsköpfe sowie Stacking die Genauigkeit der dimensional-aspektbasierten Sentiment-Analyse zu verbessern.

A. J. W. de Vink, Filippos Karolos Ventirozos, Natalia Amat-Lefort, Lifeng Han2026-03-10💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Die Arbeit stellt MicroCoder-GRPO vor, einen verbesserten Reinforcement-Learning-Ansatz mit drei Innovationen zur Überwindung von Trainingsengpässen bei Code-Modellen, der in Kombination mit einem neuen Datensatz und einem optimierten Evaluierungsframework signifikante Leistungssteigerungen auf LiveCodeBench v6 erzielt und dabei zeigt, dass sorgfältig trainierte Modelle mit größeren Modellen konkurrieren können.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Die Studie stellt das MicroCoder-Dataset vor, das durch einen systematischen vierstufigen Verarbeitungsprozess und eine KI-gestützte Schwierigkeitsfilterung aus aktuellen Wettbewerbsaufgaben besteht und nachweislich die Leistung von Code-Generierungsmodellen bei komplexen Aufgaben im Vergleich zu herkömmlichen Datensätzen signifikant verbessert.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

Diese Studie stellt mit AEPC-QA einen neuen Benchmark für die Versicherungsbranche Québecs vor und zeigt, dass zwar RAG und Schlussfolgerungstechniken die Genauigkeit von Sprachmodellen erheblich steigern können, jedoch eine instabile Kontextverarbeitung und die Überlegenheit großer Generalisten gegenüber spezialisierten Modellen eine sorgfältige Robustheitskalibrierung vor dem autonomen Einsatz erfordern.

David Beauchemin, Richard Khoury2026-03-10💬 cs.CL

AI Steerability 360: A Toolkit for Steering Large Language Models

Das Paper stellt „AI Steerability 360" vor, eine erweiterbare, quelloffene Python-Bibliothek von IBM, die ein einheitliches Interface für die Steuerung von Large Language Models über vier Kontrollflächen (Eingabe, Struktur, Zustand und Ausgabe) sowie Werkzeuge zur einfachen Entwicklung, Komposition und umfassenden Evaluierung von Steuerungsstrategien bietet.

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Die Arbeit stellt SynPlanResearch-R1 vor, ein Framework, das durch synthetisierte Tool-Nutzungspfade die Exploration von Forschungsagenten während des kalten Start-Trainings verbessert und so die Leistung auf mehreren Benchmarks im Vergleich zu bestehenden Methoden signifikant steigert.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL