cs.CL artigos | Gist.Science

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

O artigo apresenta o MuRating, uma abordagem escalável que transfere sinais de qualidade de dados do inglês para treinar um avaliador multilíngue, permitindo a seleção de conjuntos de dados equilibrados que melhoram significativamente o desempenho de modelos de linguagem grandes em tarefas multilíngues e baseadas em conhecimento.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Eka-Eval: An Evaluation Framework for Low-Resource Multilingual Large Language Models

O artigo apresenta o EKA-EVAL, um framework de avaliação unificado, modular e de código aberto projetado para superar as limitações de ferramentas existentes ao oferecer suporte abrangente a modelos de linguagem multilíngues de recursos limitados através de uma interface acessível e de mais de 55 benchmarks.

Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal + 1 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Este trabalho apresenta o TreeBench, um benchmark diagnóstico para avaliar o raciocínio visual fundamentado em evidências rastreáveis, e o TreeVGR, um paradigma de treinamento que combina localização e raciocínio via aprendizado por reforço, demonstrando que a rastreabilidade é essencial para avançar nesse campo.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

O artigo apresenta o Vevo2, um framework unificado e controlável para geração de voz falada e cantada que supera desafios como a escassez de dados anotados e permite controle flexível de prosódia, estilo e timbre por meio de dois tokenizadores de áudio inovadores e estratégias de aprendizado conjuntas.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

How Quantization Shapes Bias in Large Language Models

Este trabalho avalia como a quantização de pesos e ativações afeta o viés em grandes modelos de linguagem, revelando que, embora possa reduzir a toxicidade e não impactar significativamente o sentimento, tende a aumentar ligeiramente estereótipos e injustiças em tarefas generativas sob compressão agressiva, destacando a necessidade de equilibrar eficiência e considerações éticas.

Federico Marcuzzi, Xuefei Ning, Roy Schwartz + 1 more2026-03-06💻 cs

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Este trabalho propõe um modelo de alinhamento baseado em transporte ótimo desequilibrado, que trata a correspondência entre representações acústicas e linguísticas como um problema de detecção para lidar com assimetrias estruturais e ruídos, melhorando assim a transferência de conhecimento em sistemas de reconhecimento automático de fala (ASR).

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Este artigo propõe a arquitetura TSPC, um modelo de reconhecimento de fala de código alternado vietnamita-inglês baseado em fonemas que, através de uma abordagem de duas etapas, supera os métodos existentes com menor taxa de erro de palavras e menor consumo de recursos computacionais.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Linguistic trajectories of bipolar disorder on social media

Este estudo demonstra que a análise de grandes volumes de dados de mídias sociais permite traçar as trajetórias linguísticas longitudinais do transtorno bipolar, revelando mudanças significativas no momento do diagnóstico e flutuações sazonais nos sintomas nos anos subsequentes.

Laurin Plank, Armin Zlomuzica2026-03-06💻 cs

Llama-Mimi: Exploring the Limits of Flattened Speech Language Modeling

O artigo apresenta o Llama-Mimi, um modelo de linguagem de fala que simplifica a arquitetura ao transformar tokens de áudio multinível do codec Mimi em uma única sequência processada por um Transformer, superando modelos hierárquicos anteriores em diversas tarefas e alcançando o melhor desempenho em consistência acústica.

Issa Sugiura, Shuhei Kurita, Yusuke Oda + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Este estudo revela que os modelos de linguagem fundamentais em sistemas de fala (SpeechLLMs) apresentam falhas de robustez estrutural ao processar conversas espontâneas, demonstrando que modelos de raciocínio tendem a suprimir indevidamente conteúdo fluente em favor da abstração semântica e que o ajuste fino, embora melhore resultados imediatos, prejudica a generalização.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

O artigo apresenta o BeyondBench, um novo framework de avaliação que utiliza geração algorítmica dinâmica para criar problemas matemáticos inéditos e não contaminados, permitindo uma medição precisa das capacidades de raciocínio de 101 modelos de linguagem e revelando deficiências significativas em tarefas complexas.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

Este artigo apresenta uma abordagem inovadora para o pré-treinamento estável e preciso de modelos de linguagem grandes no formato NVFP4, que combina transformadas de Hadamard aleatórias, esquemas de quantização bidimensionais e arredondamento estocástico para alcançar desempenho comparável ao FP8 em um modelo de 12 bilhões de parâmetros treinado com 10 trilhões de tokens.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

O artigo apresenta o PrefDisco, uma metodologia de avaliação que transforma benchmarks estáticos em tarefas interativas para medir a capacidade de modelos de linguagem de realizar "raciocínio personalizado" proativo, demonstrando que a adaptação às preferências individuais não surge naturalmente e requer desenvolvimento dedicado para aplicações críticas como educação e saúde.

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

O artigo apresenta o Graph2Eval, um framework baseado em grafos de conhecimento que gera automaticamente tarefas multimodais escaláveis e semanticamente consistentes para avaliar agentes de IA, superando as limitações de alucinação e inconsistência dos métodos tradicionais de geração via LLM.

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

O artigo propõe o Graph-as-Memory Tuning (GMT), uma nova abordagem que supera as limitações da concatenação de prefixos ao representar a estrutura local de grafos de conhecimento como memórias explícitas e integrá-las dinamicamente em Grandes Modelos de Linguagem via atenção cruzada token a token, resultando em desempenho superior para a conclusão de grafos de conhecimento.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

Detecting Hallucinations in Authentic LLM-Human Interactions

Este artigo apresenta o AuthenHallu, o primeiro benchmark de detecção de alucinações construído inteiramente a partir de interações genuínas entre humanos e LLMs, revelando uma taxa de alucinação de 31,4% (subindo para 60,0% em domínios desafiadores) e demonstrando que os próprios LLMs ainda não são suficientes para detectar tais erros em cenários do mundo real.

Yujie Ren, Niklas Gruhlke, Anne Lauscher2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

O artigo demonstra que o ajuste fino em domínios restritos deixa traços legíveis e fortes nos ativações de modelos de linguagem, que podem ser explorados para inferir o domínio de treinamento e que, embora a mistura de dados de pré-treinamento possa mitigar esses vieses, eles levantam preocupações sobre a segurança, a interpretabilidade e a validade do uso desses modelos como proxies para estudos de alinhamento mais amplos.

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

O artigo apresenta o Grasp Any Region (GAR), um modelo de linguagem multimodal que supera as limitações anteriores ao integrar contexto global e interações entre múltiplas regiões para permitir um entendimento visual preciso e raciocínio composicional avançado, validado pelo novo benchmark GAR-Bench e demonstrando capacidades superiores tanto em imagens quanto em vídeos.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

O artigo apresenta o EchoMind, o primeiro benchmark inter-relacionado e multinível que avalia a capacidade de modelos de linguagem falada de integrar pistas vocais não lexicais com o conteúdo linguístico para gerar respostas empáticas, revelando que mesmo os modelos mais avançados atuais têm dificuldades significativas em perceber e responder adequadamente a nuances emocionais na fala.

Li Zhou, Lutong Yu, You Lyu + 6 more2026-03-06💻 cs

Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

Este trabalho apresenta o Open Korean Historical Corpus, um conjunto de dados de domínio público e de grande escala que abrange 1.300 anos de evolução linguística coreana, permitindo análises quantitativas de mudanças diacrônicas e servindo como recurso para o pré-treinamento de modelos de linguagem.

Seyoung Song, Nawon Kim, Songeun Chae + 5 more2026-03-06💻 cs

← Anterior Próximo →