Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

O artigo apresenta o Skywork-Reward-V2, uma série de modelos de recompensa de código aberto que alcançam desempenho state-of-the-art em diversos benchmarks ao serem treinados no conjunto de dados SynPref-40M, criado por meio de um pipeline de curadoria em duas etapas que combina a qualidade da anotação humana com a escalabilidade da inteligência artificial.

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao + 9 more2026-03-04💬 cs.CL

Link Prediction for Event Logs in the Process Industry

Este artigo apresenta um modelo de ligação de registros que adapta a resolução de coreferência cruzada combinando inferência linguística natural e similaridade de texto semântico para superar a fragmentação em registros de turnos da indústria de processos alemã, melhorando significativamente a qualidade dos dados para aplicações de geração aumentada por recuperação.

Anastasia Zhukova, Thomas Walton, Christian E. Lobmüller + 1 more2026-03-04💬 cs.CL

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

O artigo demonstra que é possível prever a precisão de respostas de grandes modelos de linguagem (LLMs) e sua confiança apenas analisando as ativações internas antes da geração de qualquer token, revelando um sinal generalizável que, embora eficaz em conhecimento factual, falha em tarefas de raciocínio matemático.

Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne + 2 more2026-03-04💬 cs.CL

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

Este artigo propõe um quadro teórico baseado na complexidade de Kolmogorov para objetivos de comprimento de descrição assintoticamente ótimos em Transformers, demonstrando sua existência teórica e viabilidade prática através de um objetivo variacional que, embora promova a generalização e compressão, enfrenta desafios significativos de otimização.

Peter Shaw, James Cohan, Jacob Eisenstein + 1 more2026-03-04💬 cs.CL

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Este trabalho oferece uma perspectiva teórica sobre os benefícios e limitações do Aprendizado por Reforço no planejamento de Modelos de Linguagem, demonstrando que, embora o Aprendizado por Reforço supere o Ajuste Fino Supervisionado ao evitar soluções espúrias através da exploração, o Gradiente de Política sofre de colapso de diversidade, enquanto o Aprendizado Q oferece vantagens superiores como aprendizado off-policy e preservação da diversidade, desde que o design da recompensa seja cuidadoso.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

Este estudo demonstra que a novidade baseada em n-gramas é uma métrica insuficiente para avaliar a criatividade textual, pois ignora a adequação pragmática e falha em capturar a percepção de criatividade de escritores humanos, sugerindo que modelos de linguagem de ponta (LLMs) são mais eficazes ao julgar a criatividade quando atuam como avaliadores do que ao depender de métricas estatísticas tradicionais.

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan + 1 more2026-03-04💬 cs.CL

AccurateRAG: A Framework for Building Accurate Retrieval-Augmented Question-Answering Applications

O artigo apresenta o AccurateRAG, um novo framework que otimiza o desenvolvimento de aplicações de perguntas e respostas baseadas em geração aumentada por recuperação (RAG) através de um pipeline completo de ferramentas, demonstrando desempenho superior e estabelecendo novos estados da arte em conjuntos de dados de referência.

Linh The Nguyen, Chi Tran, Dung Ngoc Nguyen + 3 more2026-03-04💬 cs.CL

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

O artigo apresenta o LaDiR, um novo framework de raciocínio que aprimora os Grandes Modelos de Linguagem ao unificar representações latentes contínuas com modelos de difusão latente, permitindo a geração paralela e a refinamento iterativo holístico de trajetórias de raciocínio, o que resulta em maior precisão, diversidade e interpretabilidade em tarefas matemáticas e de planejamento.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

Este artigo avalia a capacidade de modelos de linguagem pré-treinados em identificar empréstimos linguísticos em 10 idiomas e conclui que, mesmo com instruções explícitas, eles falham em distinguir essas palavras do vocabulário nativo, demonstrando um viés em favor dos empréstimos e levantando preocupações para ferramentas de NLP em línguas minoritárias.

Mérilin Sousa Silva, Sina Ahmadi2026-03-04💬 cs.CL

Are We Asking the Right Questions? On Ambiguity in Natural Language Queries for Tabular Data Analysis

Este artigo propõe uma nova estrutura que reinterpreta a ambiguidade em consultas de linguagem natural para análise de dados tabulares como um recurso de interação cooperativa entre usuário e sistema, distinguindo consultas cooperativas de não cooperativas para orientar o design e a avaliação mais precisos de interfaces futuras.

Daniel Gomm, Cornelius Wolff, Madelon Hulsebos2026-03-04💬 cs.CL