cs.CL artigos | Gist.Science

MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

O artigo apresenta o MAWARITH, um grande conjunto de dados e benchmark em árabe com 12.500 casos de herança islâmica projetado para treinar e avaliar a capacidade de raciocínio estruturado de modelos de linguagem, introduzindo também a métrica MIR-E para uma avaliação detalhada das etapas de inferência jurídica.

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad Mohamed2026-03-10💬 cs.CL

Learning-free L2-Accented Speech Generation using Phonological Rules

Este artigo propõe um framework de geração de fala com sotaque que utiliza regras fonológicas aplicadas a sequências de fonemas em um modelo TTS multilíngue, permitindo a criação de sotaques (como espanhol e indiano) sem a necessidade de dados de treinamento específicos.

Thanathai Lertpetchpun, Yoonjeong Lee, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan2026-03-10💬 cs.CL

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Este trabalho apresenta o corpus de fala Devanagari "Nwāchā Munā" e demonstra que o ajuste fino de um modelo de reconhecimento de fala treinado em nepali (uma língua vizinha) supera a escassez de recursos para a língua Nepal Bhasha, alcançando desempenho comparável a modelos multilíngues massivos com maior eficiência computacional.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

O artigo apresenta o KCoEvo, um framework aprimorado por grafos de conhecimento que divide a migração de código em recuperação de caminhos evolutivos e geração informada, superando as limitações dos modelos de linguagem padrão ao lidar com mudanças em APIs de terceiros.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin Qi2026-03-10💬 cs.CL

StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control

Este artigo apresenta o StyleBench, um benchmark de diálogos múltiplos projetado para avaliar sistematicamente a capacidade de modelos de linguagem de fala em controlar a intensidade de estilos conversacionais em quatro dimensões: emoção, velocidade, volume e tom.

Haishu Zhao, Aokai Hao, Yuan Ge, Zhenqiang Hong, Tong Xiao, Jingbo Zhu2026-03-10💬 cs.CL

KohakuRAG: A simple RAG framework with hierarchical document indexing

O artigo apresenta o KohakuRAG, um framework RAG hierárquico que preserva a estrutura documental através de uma representação em árvore de quatro níveis, utiliza um planejador de consultas baseado em LLM e inferência em conjunto para melhorar a precisão e a estabilidade, alcançando o primeiro lugar no Desafio WattBot 2025 com pontuação de 0,861.

Shih-Ying Yeh, Yueh-Feng Ku, Ko-Wei Huang, Buu-Khang Tu2026-03-10💬 cs.CL

Scalable Training of Mixture-of-Experts Models with Megatron Core

Este artigo apresenta o Megatron Core, uma solução de código aberto que otimiza o treinamento escalável de modelos Mixture-of-Experts (MoE) através de técnicas integradas de memória, comunicação e computação, alcançando alto desempenho em clusters de milhares de GPUs para modelos de bilhões a trilhões de parâmetros.

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)2026-03-10🤖 cs.LG

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

Este trabalho avalia a capacidade de diferentes modelos de linguagem, como a série Llama-3 e o ChatGPT, na resolução de problemas de otimização discreta em larga escala, demonstrando que modelos mais robustos tendem a ter melhor desempenho e que técnicas como o raciocínio passo a passo (CoT) nem sempre são eficazes, oferecendo assim diretrizes e benchmarks para pesquisas futuras e aplicações automáticas.

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

O artigo apresenta o 3ViewSense, um novo framework que supera a lacuna de inteligência espacial em Modelos Visão-Linguagem ao utilizar um mecanismo de "Simular e Raciocinar" baseado em vistas ortográficas para construir representações mentais 3D coerentes a partir de observações 2D.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

Whitening Reveals Cluster Commitment as the Geometric Separator of Hallucination Types

O artigo demonstra que a normalização (whitening) em espaços de embeddings revela o compromisso do cluster como o separador geométrico correto entre tipos de alucinação, distinguindo a convergência para o "poço errado" (Tipo 2) das lacunas de cobertura (Tipo 3) e indicando que a dificuldade em separar os tipos 1 e 2 é uma limitação de capacidade dos modelos em vez de um artefato de medição.

Matic Korun2026-03-10💬 cs.CL

QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

O artigo apresenta o sistema QuadAI para a tarefa SemEval-2026, que utiliza aprendizado de conjunto para combinar um codificador híbrido RoBERTa com grandes modelos de linguagem (LLMs), alcançando melhor desempenho na análise de sentimento dimensional baseada em aspectos através da integração de representações contínuas e discretas.

A. J. W. de Vink, Filippos Karolos Ventirozos, Natalia Amat-Lefort, Lifeng Han2026-03-10💬 cs.CL

ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs

O ArcLight é uma arquitetura de inferência leve para LLMs projetada especificamente para CPUs many-core que otimiza o gerenciamento de memória e o agendamento de threads para mitigar os custos de acesso entre nós NUMA, alcançando um aumento de até 46% no rendimento de inferência em comparação com frameworks existentes.

Yuzhuang Xu, Xu Han, Yuxuan Li, Wanxiang Che2026-03-10💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

O artigo apresenta o MicroCoder-GRPO, uma abordagem aprimorada de Otimização de Política Relativa de Grupo que supera os gargalos de treinamento em modelos de geração de código por meio de três inovações técnicas, resultando em ganhos significativos de desempenho no LiveCodeBench v6 e no fornecimento de um novo conjunto de dados desafiador e de um avaliador mais robusto.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

O artigo apresenta o MicroCoder, um conjunto de dados curado de problemas de programação competitiva recentes e desafiadores, que, ao empregar um framework de processamento de dados com filtragem automática de dificuldade baseada em IA, demonstrou melhorar significativamente o desempenho de modelos de geração de código em tarefas complexas em comparação com conjuntos de dados existentes.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

Este estudo avalia sistematicamente os vieses sociais em sete modelos de linguagem de última geração no contexto cultural nepalês, revelando que métricas de concordância explícita falham em capturar a tendência de geração implícita, a qual apresenta uma relação não linear com a temperatura e varia significativamente entre domínios como raça e gênero.

Ashish Pandey, Tek Raj Chhetri2026-03-10💬 cs.CL

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

Este artigo apresenta o benchmark AEPC-QA para avaliar 51 modelos de linguagem no contexto do seguro no Quebec, revelando que a inferência por raciocínio encadeado e a recuperação aumentada (RAG) melhoram significativamente a precisão, embora a RAG possa causar distração contextual e modelos generalistas superem versões especializadas em francês.

David Beauchemin, Richard Khoury2026-03-10💬 cs.CL

DistillGuard: Evaluating Defenses Against LLM Knowledge Distillation

O artigo apresenta o DistillGuard, um framework que avalia sistematicamente defesas contra a distilação de conhecimento de LLMs e conclui que as abordagens atuais de nível de saída são amplamente ineficazes, pois a maioria das técnicas falha em degradar a qualidade do modelo estudante, exceto pela remoção de cadeias de pensamento, que afeta apenas o raciocínio matemático.

Bo Jiang2026-03-10💬 cs.CL

AI Steerability 360: A Toolkit for Steering Large Language Models

O artigo apresenta o AI Steerability 360, uma biblioteca Python de código aberto e nativa do Hugging Face que oferece uma interface unificada para controlar, compor e avaliar métodos de direcionamento de Grandes Modelos de Linguagem (LLMs) através de quatro superfícies de controle: entrada, estrutura, estado e saída.

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data

O artigo apresenta o FusionSQL, uma ferramenta eficiente que avalia a precisão de modelos Text2SQL em conjuntos de dados não vistos e sem rótulos, estimando a acurácia sem necessidade de respostas verificadas ao analisar padrões nas próprias saídas do sistema.

Trinh Pham, Thanh Tam Nguyen, Viet Huynh, Hongzhi Yin, Quoc Viet Hung Nguyen2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

O artigo apresenta o SynPlanResearch-R1, um framework que melhora o desempenho de agentes de pesquisa ao sintetizar trajetórias de uso de ferramentas que incentivam uma exploração mais profunda durante o ajuste fino supervisionado inicial, superando as limitações de exploração do aprendizado por reforço tradicional e alcançando resultados superiores em diversos benchmarks.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

← Anterior Próximo →