MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

Il paper introduce MAWARITH, un dataset su larga scala di 12.500 casi di eredità islamica in arabo e una nuova metrica di valutazione MIR-E per testare la capacità di ragionamento strutturato dei modelli linguistici, dimostrando che mentre Gemini-2.5-flash raggiunge prestazioni elevate, altri modelli faticano a gestire la complessità delle regole giuridiche.

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad Mohamed2026-03-10💬 cs.CL

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Questo lavoro introduce "Nwāchā Munā", un nuovo corpus di parlato in Devanagari di 5,39 ore per la lingua Nepal Bhasha, e dimostra che il trasferimento prossimale da una lingua adiacente come il Nepalese può raggiungere prestazioni di riconoscimento vocale paragonabili a modelli multilingue su larga scala, offrendo una soluzione efficiente per le risorse limitate.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

Il paper presenta KCoEvo, un framework potenziato da grafi della conoscenza che migliora l'accuratezza e l'esecuzione del codice evolutivo suddividendo il task di migrazione in recupero di percorsi evolutivi e generazione di codice informato, superando i limiti dei modelli linguistici di grandi dimensioni nel gestire le modifiche alle API di terze parti.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin Qi2026-03-10💬 cs.CL

Scalable Training of Mixture-of-Experts Models with Megatron Core

Questo documento presenta Megatron Core, un framework open-source che risolve le sfide del training scalabile dei modelli Mixture-of-Experts attraverso ottimizzazioni integrate per memoria, comunicazione e calcolo, consentendo addestramenti ad alte prestazioni su cluster di migliaia di GPU.

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)2026-03-10🤖 cs.LG

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

Questo studio valuta le capacità dei modelli linguistici di grandi dimensioni (LLM) nel risolvere problemi di ottimizzazione discreta su larga scala, rivelando che le prestazioni migliori dipendono dalla forza del modello e che tecniche come il ragionamento passo-passo (CoT) non sono sempre efficaci, fornendo così linee guida e benchmark per ricerche future.

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

Il paper introduce 3ViewSense, un nuovo framework che colma il divario di intelligenza spaziale nei modelli visione-linguaggio permettendo loro di costruire rappresentazioni mentali 3D coerenti da viste ortografiche attraverso un meccanismo di "simulazione e ragionamento" ispirato alla cognizione ingegneristica.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

Il paper presenta QuadAI, un sistema per l'analisi del sentiment basato su aspetti multidimensionale che combina un encoder RoBERTa ibrido con modelli linguistici di grandi dimensioni (LLM) tramite apprendimento d'insieme, ottenendo risultati significativamente migliori rispetto ai modelli individuali.

A. J. W. de Vink, Filippos Karolos Ventirozos, Natalia Amat-Lefort, Lifeng Han2026-03-10💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Il paper presenta MicroCoder-GRPO, un approccio ottimizzato di Reinforcement Learning che risolve i colli di bottiglia nell'addestramento dei modelli di generazione del codice attraverso innovazioni tecniche e nuovi dataset, ottenendo significativi miglioramenti delle prestazioni e fornendo approfondimenti chiave per l'addestramento stabile ed efficace.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Il paper presenta MicroCoder, un dataset curato di problemi di programmazione competitiva recenti e difficili, ottenuto tramite un framework di elaborazione dati in quattro fasi con filtraggio automatico della difficoltà, che dimostra miglioramenti significativi nelle prestazioni dei modelli di generazione del codice su compiti complessi rispetto ai dataset esistenti.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

Questo studio valuta i pregiudizi sociali in sette modelli linguistici di grandi dimensioni all'interno del contesto culturale nepalese, rivelando che le metriche di accordo esplicito non catturano adeguatamente i bias generativi impliciti e sottolineando la necessità di dataset culturalmente fondati per le società sottorappresentate.

Ashish Pandey, Tek Raj Chhetri2026-03-10💬 cs.CL

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

Questo studio presenta il benchmark AEPC-QA per valutare 51 modelli linguistici nel contesto assicurativo del Québec, rivelando che il ragionamento durante l'inferenza e la generazione aumentata dal recupero (RAG) sono fondamentali per l'accuratezza, sebbene quest'ultima possa causare distorsioni contestuali e che i modelli generalisti superino quelli specializzati di nicchia.

David Beauchemin, Richard Khoury2026-03-10💬 cs.CL

AI Steerability 360: A Toolkit for Steering Large Language Models

Il paper presenta AI Steerability 360, una libreria Python open-source e nativa di Hugging Face che offre un'interfaccia unificata per controllare, comporre e valutare in modo sistematico i metodi di steering dei grandi modelli linguistici attraverso quattro superfici di controllo: input, struttura, stato e output.

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Il paper presenta SynPlanResearch-R1, un framework che migliora le prestazioni degli agenti di ricerca web sintetizzando traiettorie di utilizzo degli strumenti che incoraggiano un'esplorazione più profonda durante il fine-tuning supervisionato, ottenendo risultati superiori rispetto alle tecniche attuali su diversi benchmark.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL