TableMind++: An Uncertainty-Aware Programmatic Agent for Tool-Augmented Table Reasoning

Dit paper introduceert TableMind++, een onzekerheidsbewuste programmatische agent die hallucinaties in tabelredenering aanpakt door geheugengestuurde planverfijning, op vertrouwen gebaseerde actieverbetering en dual-gewogen trajectaggregatie te integreren, waardoor het de prestaties van eerdere modellen en propriëtaire systemen overtreft.

Mingyue Cheng, Shuo Yu, Chuang Jiang, Xiaoyu Tao, Qingyang Mao, Jie Ouyang, Qi Liu, Enhong Chen2026-03-10💬 cs.CL

MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

Deze paper introduceert MAWARITH, een groot Arabisch dataset en benchmark voor het evalueren van de redeneercapaciteiten van grote taalmodellen op het gebied van complexe islamitische erfrechtelijke berekeningen, vergezeld van een nieuwe evaluatiemethode (MIR-E) die de nauwkeurigheid van het volledige redeneerproces meet in plaats van alleen het eindantwoord.

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad Mohamed2026-03-10💬 cs.CL

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

De auteurs presenteren Nwāchā Munā, een nieuw spraakcorpus en benchmark voor de bedreigde Nepal Bhasha-taal, en tonen aan dat effectieve spraakherkenning mogelijk is door middel van computerefficiënte, taalkundig nabije transfer van het Nepalees, in plaats van zware meertalige modellen.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

Dit paper introduceert KCoEvo, een raamwerk dat kennisgrafieken gebruikt om de migratie van verouderde code naar nieuwe API's te verbeteren door het taak te splitsen in het ophalen van evolutiepaden en daarop gebaseerde codegeneratie, wat leidt tot een aanzienlijke stijging in nauwkeurigheid en uitvoeringssucces vergeleken met standaard LLM-baselines.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin Qi2026-03-10💬 cs.CL

Scalable Training of Mixture-of-Experts Models with Megatron Core

Dit paper introduceert Megatron Core, een schaalbaar en productieklaar open-source framework dat geïntegreerde optimalisaties voor geheugen, communicatie en berekening combineert om de training van Mixture-of-Experts-modellen tot triljoenen parameters op duizenden GPU's efficiënt te maken.

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)2026-03-10🤖 cs.LG

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

Dit onderzoek evalueert de prestaties van verschillende grote taalmodellen bij het oplossen van discrete optimalisatieproblemen met uitgebreide datasets en concludeert dat sterkere modellen beter presteren, terwijl de Chain-of-Thought-techniek niet altijd effectief is en verstoord data soms de prestaties op eenvoudige problemen kan verbeteren.

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

Dit paper introduceert 3ViewSense, een raamwerk dat het ruimtelijke intelligentie-gat in Vision-Language Models dicht door ruimtelijk redeneren te grondvesten in orthografische weergaven via een 'Simuleer-en-Redeneer'-mechanisme, wat leidt tot aanzienlijk betere prestaties in complexe ruimtelijke taken zoals het tellen van blokken en het hanteren van verduistering.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Dit paper introduceert MicroCoder-GRPO, een verbeterde RL-methode met innovaties zoals conditionele truncatie en diversiteitsgestuurde temperatuurkeuze, samen met een uitdagender dataset en robuustere evaluatie, die trainingsbottlenecks voor coderingsmodellen effectief oplost en aanzienlijke prestatieverbeteringen op LiveCodeBench v6 oplevert.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Dit paper introduceert MicroCoder, een zorgvuldig samengesteld dataset van recente en uitdagende programmeerproblemen die via een geautomatiseerd vierstapsverwerkingsframework is gefilterd op moeilijkheidsgraad, en waaruit blijkt dat het trainen van coderingsmodellen hierop leidt tot aanzienlijk betere prestaties op complexe taken vergeleken met bestaande datasets.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

Deze studie toont aan dat grote taalmodellen in de Nepalese context aanzienlijke sociale vooroordelen vertonen, waarbij impliciete generatieve bias sterk verschilt van expliciete instemming en een niet-lineair verband vertoont met de temperatuurinstelling, wat de noodzaak benadrukt van cultureel onderbouwde evaluatie- en debiasingstrategieën.

Ashish Pandey, Tek Raj Chhetri2026-03-10💬 cs.CL

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

Deze studie introduceert de AEPC-QA-benchmark om de prestaties van 51 grote taalmodellen te evalueren voor de verzekeringssector in Quebec, waarbij wordt vastgesteld dat redeneervermogen en RAG de nauwkeurigheid aanzienlijk kunnen verbeteren, maar dat contextafleiding en een verrassende superioriteit van algemene modellen boven gespecialiseerde Franse varianten nog steeds een uitdaging vormen voor de autonome inzet.

David Beauchemin, Richard Khoury2026-03-10💬 cs.CL

AI Steerability 360: A Toolkit for Steering Large Language Models

Dit paper introduceert AI Steerability 360, een open-source Python-bibliotheek van IBM die een gestandaardiseerde interface biedt om grote taalmodellen via vier controleoppervlakken (invoer, structuur, staat en uitvoer) te sturen en verschillende stuurmethoden eenvoudig te combineren en evalueren.

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL