On-Policy Self-Distillation for Reasoning Compression

O artigo apresenta o OPSDC, um método de auto-distilação on-policy que ensina modelos de raciocínio a serem mais concisos ao minimizar a divergência KL reversa em relação às suas próprias saídas condicionadas a instruções de concisão, resultando em reduções significativas de tokens sem perda de precisão e até com ganhos de acurácia ao eliminar ruídos prejudiciais.

Hejian Sang, Yuanda Xu, Zhengze Zhou + 3 more2026-03-06🤖 cs.LG

Latent Wasserstein Adversarial Imitation Learning

O artigo propõe o Latent Wasserstein Adversarial Imitation Learning (LWAIL), uma nova estrutura de aprendizado por imitação adversarial que, ao utilizar uma função de valor condicionada à intenção para criar um espaço latente consciente da dinâmica, permite que agentes atinjam desempenho de nível especialista utilizando apenas um ou poucos episódios de demonstração contendo apenas estados.

Siqi Yang, Kai Yan, Alexander G. Schwing + 1 more2026-03-06🤖 cs.LG

Thermodynamic Response Functions in Singular Bayesian Models

Este artigo estabelece uma estrutura unificada de funções de resposta termodinâmica para modelos bayesianos singulares, demonstrando que o temperamento posterior revela uma hierarquia de observáveis que conecta geometricamente grandezas como o limiar log-canônico real, a flutuação singular e critérios como WAIC e WBIC, permitindo interpretar a complexidade e a reorganização estrutural nesses modelos através de analogias com transições de fase.

Sean Plummer2026-03-06🔢 math

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

O artigo apresenta evidências de "teatro de raciocínio" em modelos de IA, onde a confiança na resposta final é decodificável muito antes do modelo revelar sua crença interna, demonstrando que sondas de ativação podem identificar genuína incerteza e permitir uma saída antecipada que reduz significativamente o uso de tokens sem comprometer a precisão.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

Cheap Thrills: Effective Amortized Optimization Using Inexpensive Labels

O artigo propõe um novo framework de otimização amortizada que combina pré-treinamento supervisionado com rótulos imperfeitos e refinamento auto-supervisionado para alcançar maior precisão e redução de custos em problemas complexos, demonstrando que apenas um número modesto de rótulos aproximados é necessário para posicionar o modelo em uma bacia de atração viável.

Khai Nguyen, Petros Ellinas, Anvita Bhagavathula + 1 more2026-03-06🔢 math

GeoTop: Advancing Image Classification with Geometric-Topological Analysis

O artigo apresenta o GeoTop, um framework matematicamente fundamentado que unifica a Análise Topológica de Dados e as Curvaturas de Lipschitz-Killing para superar as limitações de modelos convencionais na classificação de imagens diagnósticas, oferecendo maior precisão, interpretabilidade intrínseca e eficiência computacional ao distinguir estruturas benignas e malignas que compartilham topologia global, mas diferem em detalhes geométricos.

Mariem Abaach, Ian Morilla2026-03-05🤖 cs.LG

Sample-Optimal Locally Private Hypothesis Selection and the Provable Benefits of Interactivity

Os autores propõem um algoritmo de seleção de hipóteses com privacidade diferencial local que, utilizando apenas O(loglogk)O(\log \log k) rodadas de interação, atinge uma complexidade de amostra ótima de Θ(k/(α2min{ε2,1}))\Theta(k/(\alpha^2 \min\{\varepsilon^2, 1\})), superando os limites inferiores conhecidos para métodos não interativos e eliminando o fator logarítmico adicional exigido por algoritmos anteriores.

Alireza F. Pour, Hassan Ashtiani, Shahab Asoodeh2026-03-05🤖 cs.LG

A Review of Reward Functions for Reinforcement Learning in the context of Autonomous Driving

Este artigo revisa as funções de recompensa para aprendizado por reforço no contexto de direção autônoma, categorizando objetivos como segurança, conforto, progresso e conformidade com regras de trânsito, identificando limitações como a falta de padronização e a incapacidade de lidar com contextos, e propondo futuras direções de pesquisa para criar recompensas estruturadas, conscientes do contexto e validadas.

Ahmed Abouelazm, Jonas Michel, J. Marius Zoellner2026-03-05🤖 cs.AI