Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle

O artigo apresenta o Shuffle-R1, um framework eficiente de aprendizado por reforço para Modelos de Linguagem Multimodais que resolve problemas de colapso de vantagem e silenciamento de rolagens através de amostragem dinâmica de trajetórias e embaralhamento baseado em vantagem, resultando em um treinamento mais eficaz com sobrecarga mínima.

Linghao Zhu, Yiran Guan, Dingkang Liang + 6 more2026-03-04🤖 cs.AI

Using AI for User Representation: An Analysis of 83 Persona Prompts

Este estudo analisa 83 prompts de persona utilizados em pesquisas com modelos de linguagem de grande escala, revelando tendências como a geração de perfis individuais e concisos, o uso predominante de texto e dados demográficos, a exigência frequente de formatos estruturados e a escassez de comparações entre diferentes modelos, levantando implicações para a representação computacional de usuários.

Joni Salminen, Danial Amin, Bernard Jansen2026-03-04🤖 cs.AI

The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

O artigo propõe o DPH-RL, um novo quadro de aprendizado por reforço com recompensa verificável que utiliza divergências f-cobertoras de massa (como a KL direta) para preservar a diversidade do modelo e mitigar o colapso de soluções, resolvendo simultaneamente a degradação do Pass@k e o esquecimento catastrófico sem a necessidade de um modelo de referência online.

Long Li, Zhijian Zhou, Jiaran Hao + 9 more2026-03-04🤖 cs.AI

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

O artigo demonstra que é possível prever a precisão de respostas de grandes modelos de linguagem (LLMs) e sua confiança apenas analisando as ativações internas antes da geração de qualquer token, revelando um sinal generalizável que, embora eficaz em conhecimento factual, falha em tarefas de raciocínio matemático.

Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne + 2 more2026-03-04💬 cs.CL

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

Este artigo propõe um quadro teórico baseado na complexidade de Kolmogorov para objetivos de comprimento de descrição assintoticamente ótimos em Transformers, demonstrando sua existência teórica e viabilidade prática através de um objetivo variacional que, embora promova a generalização e compressão, enfrenta desafios significativos de otimização.

Peter Shaw, James Cohan, Jacob Eisenstein + 1 more2026-03-04💬 cs.CL

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Este trabalho oferece uma perspectiva teórica sobre os benefícios e limitações do Aprendizado por Reforço no planejamento de Modelos de Linguagem, demonstrando que, embora o Aprendizado por Reforço supere o Ajuste Fino Supervisionado ao evitar soluções espúrias através da exploração, o Gradiente de Política sofre de colapso de diversidade, enquanto o Aprendizado Q oferece vantagens superiores como aprendizado off-policy e preservação da diversidade, desde que o design da recompensa seja cuidadoso.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

Este estudo demonstra que a novidade baseada em n-gramas é uma métrica insuficiente para avaliar a criatividade textual, pois ignora a adequação pragmática e falha em capturar a percepção de criatividade de escritores humanos, sugerindo que modelos de linguagem de ponta (LLMs) são mais eficazes ao julgar a criatividade quando atuam como avaliadores do que ao depender de métricas estatísticas tradicionais.

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan + 1 more2026-03-04💬 cs.CL

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

O artigo apresenta o LaDiR, um novo framework de raciocínio que aprimora os Grandes Modelos de Linguagem ao unificar representações latentes contínuas com modelos de difusão latente, permitindo a geração paralela e a refinamento iterativo holístico de trajetórias de raciocínio, o que resulta em maior precisão, diversidade e interpretabilidade em tarefas matemáticas e de planejamento.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL