MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

O artigo apresenta o MAWARITH, um grande conjunto de dados e benchmark em árabe com 12.500 casos de herança islâmica projetado para treinar e avaliar a capacidade de raciocínio estruturado de modelos de linguagem, introduzindo também a métrica MIR-E para uma avaliação detalhada das etapas de inferência jurídica.

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad Mohamed2026-03-10💬 cs.CL

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Este trabalho apresenta o corpus de fala Devanagari "Nwāchā Munā" e demonstra que o ajuste fino de um modelo de reconhecimento de fala treinado em nepali (uma língua vizinha) supera a escassez de recursos para a língua Nepal Bhasha, alcançando desempenho comparável a modelos multilíngues massivos com maior eficiência computacional.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

KohakuRAG: A simple RAG framework with hierarchical document indexing

O artigo apresenta o KohakuRAG, um framework RAG hierárquico que preserva a estrutura documental através de uma representação em árvore de quatro níveis, utiliza um planejador de consultas baseado em LLM e inferência em conjunto para melhorar a precisão e a estabilidade, alcançando o primeiro lugar no Desafio WattBot 2025 com pontuação de 0,861.

Shih-Ying Yeh, Yueh-Feng Ku, Ko-Wei Huang, Buu-Khang Tu2026-03-10💬 cs.CL

Scalable Training of Mixture-of-Experts Models with Megatron Core

Este artigo apresenta o Megatron Core, uma solução de código aberto que otimiza o treinamento escalável de modelos Mixture-of-Experts (MoE) através de técnicas integradas de memória, comunicação e computação, alcançando alto desempenho em clusters de milhares de GPUs para modelos de bilhões a trilhões de parâmetros.

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)2026-03-10🤖 cs.LG

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

Este trabalho avalia a capacidade de diferentes modelos de linguagem, como a série Llama-3 e o ChatGPT, na resolução de problemas de otimização discreta em larga escala, demonstrando que modelos mais robustos tendem a ter melhor desempenho e que técnicas como o raciocínio passo a passo (CoT) nem sempre são eficazes, oferecendo assim diretrizes e benchmarks para pesquisas futuras e aplicações automáticas.

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

O artigo apresenta o 3ViewSense, um novo framework que supera a lacuna de inteligência espacial em Modelos Visão-Linguagem ao utilizar um mecanismo de "Simular e Raciocinar" baseado em vistas ortográficas para construir representações mentais 3D coerentes a partir de observações 2D.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

Whitening Reveals Cluster Commitment as the Geometric Separator of Hallucination Types

O artigo demonstra que a normalização (whitening) em espaços de embeddings revela o compromisso do cluster como o separador geométrico correto entre tipos de alucinação, distinguindo a convergência para o "poço errado" (Tipo 2) das lacunas de cobertura (Tipo 3) e indicando que a dificuldade em separar os tipos 1 e 2 é uma limitação de capacidade dos modelos em vez de um artefato de medição.

Matic Korun2026-03-10💬 cs.CL

QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

O artigo apresenta o sistema QuadAI para a tarefa SemEval-2026, que utiliza aprendizado de conjunto para combinar um codificador híbrido RoBERTa com grandes modelos de linguagem (LLMs), alcançando melhor desempenho na análise de sentimento dimensional baseada em aspectos através da integração de representações contínuas e discretas.

A. J. W. de Vink, Filippos Karolos Ventirozos, Natalia Amat-Lefort, Lifeng Han2026-03-10💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

O artigo apresenta o MicroCoder-GRPO, uma abordagem aprimorada de Otimização de Política Relativa de Grupo que supera os gargalos de treinamento em modelos de geração de código por meio de três inovações técnicas, resultando em ganhos significativos de desempenho no LiveCodeBench v6 e no fornecimento de um novo conjunto de dados desafiador e de um avaliador mais robusto.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

O artigo apresenta o MicroCoder, um conjunto de dados curado de problemas de programação competitiva recentes e desafiadores, que, ao empregar um framework de processamento de dados com filtragem automática de dificuldade baseada em IA, demonstrou melhorar significativamente o desempenho de modelos de geração de código em tarefas complexas em comparação com conjuntos de dados existentes.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

Este estudo avalia sistematicamente os vieses sociais em sete modelos de linguagem de última geração no contexto cultural nepalês, revelando que métricas de concordância explícita falham em capturar a tendência de geração implícita, a qual apresenta uma relação não linear com a temperatura e varia significativamente entre domínios como raça e gênero.

Ashish Pandey, Tek Raj Chhetri2026-03-10💬 cs.CL

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

Este artigo apresenta o benchmark AEPC-QA para avaliar 51 modelos de linguagem no contexto do seguro no Quebec, revelando que a inferência por raciocínio encadeado e a recuperação aumentada (RAG) melhoram significativamente a precisão, embora a RAG possa causar distração contextual e modelos generalistas superem versões especializadas em francês.

David Beauchemin, Richard Khoury2026-03-10💬 cs.CL

AI Steerability 360: A Toolkit for Steering Large Language Models

O artigo apresenta o AI Steerability 360, uma biblioteca Python de código aberto e nativa do Hugging Face que oferece uma interface unificada para controlar, compor e avaliar métodos de direcionamento de Grandes Modelos de Linguagem (LLMs) através de quatro superfícies de controle: entrada, estrutura, estado e saída.

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

O artigo apresenta o SynPlanResearch-R1, um framework que melhora o desempenho de agentes de pesquisa ao sintetizar trajetórias de uso de ferramentas que incentivam uma exploração mais profunda durante o ajuste fino supervisionado inicial, superando as limitações de exploração do aprendizado por reforço tradicional e alcançando resultados superiores em diversos benchmarks.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL