Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

O artigo apresenta o Skywork-Reward-V2, uma série de modelos de recompensa de código aberto que alcançam desempenho state-of-the-art em diversos benchmarks ao serem treinados no conjunto de dados SynPref-40M, criado por meio de um pipeline de curadoria em duas etapas que combina a qualidade da anotação humana com a escalabilidade da inteligência artificial.

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao + 9 more2026-03-04💬 cs.CL

Improving Classifier-Free Guidance in Masked Diffusion: Low-Dim Theoretical Insights with High-Dim Impact

Este artigo analisa teoricamente o efeito da Orientação Livre de Classificador (CFG) em modelos de difusão mascarada, demonstrando que o agendamento atual causa desequilíbrios nas transições e propondo uma nova abordagem simples que suaviza o transporte entre distribuições para melhorar a qualidade da geração em imagens e texto.

Kevin Rojas, Ye He, Chieh-Hsin Lai + 3 more2026-03-04📊 stat

Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle

O artigo apresenta o Shuffle-R1, um framework eficiente de aprendizado por reforço para Modelos de Linguagem Multimodais que resolve problemas de colapso de vantagem e silenciamento de rolagens através de amostragem dinâmica de trajetórias e embaralhamento baseado em vantagem, resultando em um treinamento mais eficaz com sobrecarga mínima.

Linghao Zhu, Yiran Guan, Dingkang Liang + 6 more2026-03-04🤖 cs.AI

Using AI for User Representation: An Analysis of 83 Persona Prompts

Este estudo analisa 83 prompts de persona utilizados em pesquisas com modelos de linguagem de grande escala, revelando tendências como a geração de perfis individuais e concisos, o uso predominante de texto e dados demográficos, a exigência frequente de formatos estruturados e a escassez de comparações entre diferentes modelos, levantando implicações para a representação computacional de usuários.

Joni Salminen, Danial Amin, Bernard Jansen2026-03-04🤖 cs.AI

The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

O artigo propõe o DPH-RL, um novo quadro de aprendizado por reforço com recompensa verificável que utiliza divergências f-cobertoras de massa (como a KL direta) para preservar a diversidade do modelo e mitigar o colapso de soluções, resolvendo simultaneamente a degradação do Pass@k e o esquecimento catastrófico sem a necessidade de um modelo de referência online.

Long Li, Zhijian Zhou, Jiaran Hao + 9 more2026-03-04🤖 cs.AI

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

O artigo demonstra que é possível prever a precisão de respostas de grandes modelos de linguagem (LLMs) e sua confiança apenas analisando as ativações internas antes da geração de qualquer token, revelando um sinal generalizável que, embora eficaz em conhecimento factual, falha em tarefas de raciocínio matemático.

Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne + 2 more2026-03-04💬 cs.CL