MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

El artículo presenta MAWARITH, un conjunto de datos y marco de evaluación en árabe diseñado para entrenar y medir la capacidad de razonamiento legal de los modelos de lenguaje en la compleja ley de herencia islámica, destacando que, aunque Gemini-2.5-flash alcanza un rendimiento superior, la mayoría de los modelos actuales aún cometen errores significativos en la identificación de herederos y el cálculo de cuotas.

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad Mohamed2026-03-10💬 cs.CL

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Este trabajo presenta Nwāchā Munā, un corpus de voz en devanagari de 5,39 horas para el nepalí (Newari), y demuestra que la transferencia proximal desde el nepalí es una alternativa computacionalmente eficiente a los modelos multilingües masivos para el reconocimiento automático de voz en esta lengua en peligro.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

KCoEvo es un marco de trabajo aumentado con grafos de conocimiento que mejora la generación evolutiva de código mediante la recuperación de rutas de migración y la generación informada por estas, superando a los modelos de lenguaje estándar en precisión y éxito de ejecución al abordar la obsolescencia de APIs.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin Qi2026-03-10💬 cs.CL

StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control

Este artículo presenta StyleBench, un nuevo benchmark de diálogos múltiples para evaluar sistemáticamente la capacidad de los modelos de lenguaje de voz para controlar la intensidad de estilos conversacionales como la emoción, la velocidad, el volumen y el tono, revelando brechas de rendimiento entre los modelos actuales.

Haishu Zhao, Aokai Hao, Yuan Ge, Zhenqiang Hong, Tong Xiao, Jingbo Zhu2026-03-10💬 cs.CL

KohakuRAG: A simple RAG framework with hierarchical document indexing

KohakuRAG es un marco de generación aumentada por recuperación (RAG) jerárquico que preserva la estructura de los documentos mediante un árbol de cuatro niveles, mejora la cobertura de recuperación con un planificador de consultas impulsado por LLM y estabiliza las respuestas mediante inferencia de conjunto, logrando el primer lugar en el Desafío WattBot 2025 al superar los desafíos de precisión numérica y atribución de fuentes.

Shih-Ying Yeh, Yueh-Feng Ku, Ko-Wei Huang, Buu-Khang Tu2026-03-10💬 cs.CL

Scalable Training of Mixture-of-Experts Models with Megatron Core

Este informe presenta Megatron Core, un marco de código abierto que aborda los desafíos de escalabilidad en el entrenamiento de modelos de expertos mezclados (MoE) mediante optimizaciones integradas en memoria, comunicación y computación, logrando un alto rendimiento en hardware NVIDIA GB300/GB200 para modelos desde miles de millones hasta billones de parámetros.

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)2026-03-10🤖 cs.LG

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

Este trabajo evalúa las capacidades de diversos modelos de lenguaje grande, como Llama-3 y ChatGPT, en la resolución de problemas de optimización discreta mediante un conjunto de datos natural y ampliado, concluyendo que aunque los modelos más potentes rinden mejor, la técnica de razonamiento paso a paso (CoT) no siempre es efectiva y los datos desordenados pueden mejorar el rendimiento en problemas sencillos a pesar de la inestabilidad.

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

El artículo presenta 3ViewSense, un marco que cierra la brecha de inteligencia espacial en los modelos de visión y lenguaje al utilizar proyecciones ortográficas y un mecanismo de "simulación y razonamiento" para construir representaciones mentales 3D coherentes a partir de vistas 2D, mejorando significativamente tareas como el conteo de bloques y el razonamiento espacial.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

Whitening Reveals Cluster Commitment as the Geometric Separator of Hallucination Types

Este artículo demuestra que la blanqueación por PCA revela el compromiso del clúster como el separador geométrico que distingue los tipos de alucinación en modelos de lenguaje, confirmando que la dificultad para separar los tipos 1 y 2 es una limitación de capacidad del modelo y no un artefacto de medición, al tiempo que destaca la fragilidad de las señales microscópicas ante cambios en la diversidad de los prompts.

Matic Korun2026-03-10💬 cs.CL

QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

El sistema QuadAI para SemEval-2026 Task 3 mejora el análisis de sentimientos basado en aspectos multidimensionales mediante un aprendizaje por conjuntos que combina un codificador híbrido RoBERTa con modelos de lenguaje grandes (LLMs), logrando una reducción significativa del error cuadrático medio y una mayor correlación al aprovechar las fortalezas complementarias de ambos enfoques.

A. J. W. de Vink, Filippos Karolos Ventirozos, Natalia Amat-Lefort, Lifeng Han2026-03-10💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

El artículo presenta MicroCoder-GRPO, un enfoque optimizado de RL con innovaciones como enmascaramiento de truncamiento condicional y selección de temperatura basada en diversidad, junto con un nuevo corpus de entrenamiento y un evaluador más preciso, logrando mejoras significativas en modelos de generación de código y revelando 34 hallazgos clave para superar los cuellos de botella en el entrenamiento.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

El artículo presenta MicroCoder, un conjunto de datos de programación competitiva curado mediante un marco de procesamiento de cuatro etapas y filtrado automático de dificultad, que demuestra mejoras significativas en el rendimiento de modelos de código al entrenarse con problemas frescos y desafiantes.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

Este estudio evalúa sistemáticamente los sesgos sociales en siete modelos de lenguaje avanzados dentro del contexto cultural nepalí, revelando mediante una evaluación de doble métrica que, aunque existe un acuerdo explícito medible con estereotipos, el sesgo implícito en la generación de texto es más prevalente, no lineal respecto a la temperatura y pobremente capturado por las métricas de acuerdo tradicionales.

Ashish Pandey, Tek Raj Chhetri2026-03-10💬 cs.CL

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

Este artículo presenta el benchmark AEPC-QA para evaluar 51 modelos de lenguaje en el contexto de los seguros de Quebec, revelando que el razonamiento inferencial y la recuperación aumentada mejoran significativamente la precisión, aunque esta última puede causar distracción contextual, y que los modelos generalistas masivos superan a los especializados en francés.

David Beauchemin, Richard Khoury2026-03-10💬 cs.CL

AI Steerability 360: A Toolkit for Steering Large Language Models

El toolkit de código abierto "AI Steerability 360" es una biblioteca Python nativa de Hugging Face que facilita el desarrollo y la evaluación exhaustiva de métodos para controlar modelos de lenguaje mediante cuatro superficies de control (entrada, estructura, estado y salida) unificadas en una interfaz común de tubería de dirección.

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

El artículo presenta SynPlanResearch-R1, un marco que mejora el rendimiento de los agentes de investigación al sintetizar trayectorias de uso de herramientas que fomentan una exploración más profunda durante el ajuste fino inicial, logrando así superar a los métodos actuales en múltiples benchmarks.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL