Learning to Reason without External Rewards

O artigo apresenta o Intuitor, um método de Aprendizado por Reforço a partir de Feedback Interno (RLIF) que utiliza a autoconfiança do modelo como único sinal de recompensa, permitindo que grandes modelos de linguagem aprendam raciocínio complexo de forma totalmente não supervisionada, alcançando desempenho comparável a métodos com recompensas externas e melhor generalização em tarefas como geração de código.

Xuandong Zhao, Zhewei Kang, Aosong Feng + 2 more2026-03-03💬 cs.CL

RPM: Reasoning-Level Personalization for Black-Box Large Language Models

Este trabalho apresenta o RPM, um novo framework que supera as limitações da personalização em nível de resposta ao introduzir a personalização em nível de raciocínio, permitindo que modelos de linguagem de caixa-preta descubram automaticamente estruturas de raciocínio específicas do usuário a partir de dados comportamentais brutos para guiar inferências personalizadas e interpretáveis.

Jieyong Kim, Tongyoung Kim, Soojin Yoon + 2 more2026-03-03💬 cs.CL

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

Este trabalho apresenta o CityLens, um benchmark abrangente que avalia a capacidade de Modelos Grandes de Visão e Linguagem (LVLMs) em prever indicadores socioeconômicos urbanos a partir de imagens de satélite e de rua em 17 cidades globais, revelando tanto o potencial quanto as limitações atuais desses modelos para o planejamento urbano sustentável.

Tianhui Liu, Hetian Pang, Xin Zhang + 5 more2026-03-03💬 cs.CL

Equitable Electronic Health Record Prediction with FAME: Fairness-Aware Multimodal Embedding

Este trabalho apresenta o FAME, um framework de aprendizado multimodal que pondera as diferentes modalidades de Registros Eletrônicos de Saúde (EHR) com base em sua contribuição para a justiça, utilizando uma função de perda combinada e o Índice de Disparidade na Distribuição de Erros (EDDI) para otimizar simultaneamente o desempenho preditivo e a equidade entre subgrupos de pacientes.

Nikkie Hooman, Zhongjie Wu, Eric C. Larson + 1 more2026-03-03💬 cs.CL

Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning

Este artigo apresenta o LA-CDM, um agente de linguagem baseado em aprendizado por reforço e supervisionado que simula o processo cíclico de tomada de decisão clínica ao gerar hipóteses, estimar incertezas e solicitar testes relevantes para melhorar o diagnóstico e a eficiência, demonstrando resultados superiores em um conjunto de dados real de doenças abdominais.

David Bani-Harouni, Chantal Pellegrini, Ege Özsoy + 2 more2026-03-03💬 cs.CL

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

O artigo apresenta o GenRecal, um framework de distilação geral para modelos visão-linguagem que utiliza um recalibrador para alinhar representações entre arquiteturas heterogêneas, permitindo a transferência eficaz de conhecimento de modelos grandes para pequenos e superando o desempenho de sistemas de grande escala em diversos benchmarks.

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro + 2 more2026-03-03💬 cs.CL

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

Este artigo propõe um framework teórico de decomposição de ruído para analisar os modos de falha em tarefas de contexto longo com LLMs, demonstrando que estratégias de divisão e agregação (chunking) podem superar modelos mais avançados em processamento único ao gerenciar eficazmente a dependência entre partes, a confusão do modelo e a integração de resultados.

Zhen Xu, Shang Zhu, Jue Wang + 5 more2026-03-03💬 cs.CL

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Este trabalho apresenta o TTSDS2, uma métrica aprimorada que supera todas as outras 15 comparadas ao correlacionar-se consistentemente com avaliações subjetivas em diversos domínios e idiomas, além de disponibilizar recursos abrangentes, incluindo um conjunto de dados com mais de 11.000 avaliações, um pipeline para evitar vazamento de dados e um benchmark atualizado para 14 idiomas.

Christoph Minixhofer, Ondrej Klejch, Peter Bell2026-03-03⚡ eess