cs.LG artigos | Gist.Science

Planner Aware Path Learning in Diffusion Language Models Training

Este artigo apresenta o Planner Aware Path Learning (PAPL), um novo esquema de treinamento que deriva uma nova evidência inferior planejada (P-ELBO) para alinhar o treinamento e a inferência em modelos de difusão de linguagem, corrigindo a incompatibilidade causada por estratégias de planejamento e resultando em melhorias significativas na geração de texto, código e sequências de proteínas.

Fred Zhangzhi Peng, Zachary Bezemek, Jarrid Rector-Brooks, Shuibai Zhang, Anru R. Zhang, Michael Bronstein, Alexander Tong, Avishek Joey Bose2026-03-09🤖 cs.LG

Diffusion Alignment as Variational Expectation-Maximization

O artigo apresenta o DAV, um novo framework que formula o alinhamento de modelos de difusão como um processo variacional de Expectation-Maximization, alternando entre busca no momento de teste para gerar amostras diversas e alinhadas a recompensas e a refinamento do modelo, superando assim problemas como a superotimização de recompensas e o colapso de modos em tarefas contínuas e discretas.

Jaewoo Lee, Minsu Kim, Sanghyeok Choi, Inhyuck Song, Sujin Yun, Hyeongyu Kang, Woocheol Shin, Taeyoung Yun, Kiyoung Om, Jinkyoo Park2026-03-09🤖 cs.LG

Online Minimization of Polarization and Disagreement via Low-Rank Matrix Bandits

Este artigo propõe um algoritmo de duas etapas baseado em bandits de matriz de baixo posto para minimizar a polarização e o desacordo no modelo de dinâmica de opiniões de Friedkin-Johnsen em um cenário online com informações incompletas, alcançando um limite de arrependimento cumulativo que supera abordagens lineares existentes.

Federico Cinus, Yuko Kuroki, Atsushi Miyauchi, Francesco Bonchi2026-03-09🤖 cs.LG

Self-Speculative Masked Diffusions

O artigo apresenta as "Self-Speculative Masked Diffusions", um novo modelo de difusão mascarada para dados discretos que utiliza amostragem especulativa integrada ao modelo para gerar previsões não fatorizadas em uma única passagem, reduzindo em cerca de duas vezes o número de avaliações de rede neural necessárias para a geração de amostras de alta qualidade em comparação com os modelos padrão.

Andrew Campbell, Valentin De Bortoli, Jiaxin Shi, Arnaud Doucet2026-03-09🤖 cs.LG

TCR-EML: Explainable Model Layers for TCR-pMHC Prediction

O artigo propõe o TCR-EML, um modelo de aprendizado de máquina com camadas explicáveis por design que integra mecanismos bioquímicos conhecidos de ligação para prever a interação entre receptores de células T e complexos peptídeo-MHC com alta precisão e interpretabilidade.

Jiarui Li, Zixiang Yin, Zhengming Ding, Samuel J. Landry, Ramgopal R. Mettu2026-03-09🤖 cs.LG

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

Este artigo demonstra que, embora os modelos de linguagem apenas decodificadores (decoder-only) performem pior que os baseados em codificadores (encoder-only) na adaptação para equações diferenciais parciais, o uso de duas novas técnicas que simulam bidirecionalidade, chamadas "Parallel Flipping" e "Sequence Doubling", permite que os modelos decoder-only alcancem desempenho comparável, fechando a lacuna de performance.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

O artigo conclui que o micro-benchmarking de linguagem frequentemente falha em classificar modelos de forma consistente em comparação com benchmarks completos ou até mesmo amostras aleatórias, exigindo tamanhos de amostra tão grandes que comprometem sua eficiência e utilidade prática.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

O artigo apresenta o CanvasMAR, um modelo autoregressivo inovador para previsão de vídeo que utiliza uma "tela" global desfocada e um currículo de amostragem do fácil ao difícil para gerar vídeos de alta fidelidade com menos etapas de amostragem, superando métodos anteriores e rivalizando com abordagens baseadas em difusão.

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Escaping Model Collapse via Synthetic Data Verification: Near-term Improvements and Long-term Convergence

Este artigo demonstra que a injeção de informações por meio de um verificador de dados sintéticos externo pode evitar o colapso de modelos durante o re-treinamento iterativo, proporcionando melhorias de curto prazo, embora a convergência de longo prazo seja limitada ao "centro de conhecimento" do próprio verificador.

Bingji Yi, Qiyuan Liu, Yuwei Cheng, Haifeng Xu2026-03-09🤖 cs.LG

Mixed Monotonicity Reachability Analysis of Neural ODE: A Trade-Off Between Tightness and Efficiency

Este artigo propõe um novo método de análise de alcançabilidade baseado em intervalos para Redes Neurais de Equações Diferenciais Ordinárias (Neural ODEs), que utiliza técnicas de monotonicidade mista para oferecer aproximações superiores computacionalmente eficientes e adequadas a aplicações de alta dimensão e tempo real, priorizando a eficiência em detrimento da precisão máxima.

Abdelrahman Sayed Sayed, Pierre-Jean Meyer, Mohamed Ghazel2026-03-09🤖 cs.LG

Real-Time Learning of Predictive Dynamic Obstacle Models for Robotic Motion Planning

Este artigo apresenta um framework online que utiliza a decomposição de modo dinâmico de Hankel (Hankel-DMD) com projeção de Cadzow e thresholding de valor singular para aprender em tempo real modelos preditivos não lineares de obstáculos dinâmicos, permitindo a remoção de ruído e a previsão de trajetórias para planejamento de movimento robótico seguro.

Stella Kombo, Masih Haseli, Skylar X. Wei, Joel W. Burdick2026-03-09🤖 cs.LG

KLASS: KL-Guided Fast Inference in Masked Diffusion Models

O artigo apresenta o KLASS, um método de amostragem adaptativa que acelera significativamente a inferência em modelos de difusão mascarada ao identificar e desmascarar múltiplos tokens estáveis em cada iteração, alcançando ganhos de velocidade de até 2,78 vezes e melhor desempenho sem necessidade de treinamento adicional.

Seo Hyun Kim, Sunwoo Hong, Hojung Jung, Youngrok Park, Se-Young Yun2026-03-09🤖 cs.LG

CADM: Cluster-customized Adaptive Distance Metric for Categorical Data Clustering

O artigo propõe o CADM, uma métrica de distância adaptativa e personalizada por cluster para agrupamento de dados categóricos e mistos, que considera as diferentes distribuições de atributos em cada cluster para superar limitações de medições tradicionais, demonstrando alto desempenho em experimentos com quatorze conjuntos de dados.

Taixi Chen, Yiu-ming Cheung, Yiqun Zhang2026-03-09🤖 cs.LG

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

O artigo apresenta o FireScope, um novo framework baseado em modelos de linguagem visual que utiliza raciocínio passo a passo para prever mapas de risco de incêndio com alta generalização entre continentes, apoiado pelo conjunto de dados e benchmark FireScope-Bench.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

EgoCogNav: Cognition-aware Human Egocentric Navigation

O artigo apresenta o EgoCogNav, um framework de navegação egocêntrica multimodal que prevê incerteza percebida como estado latente para antecipar trajetórias e movimentos da cabeça, apoiado pelo novo conjunto de dados CEN que captura comportamentos de navegação em cenários reais.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

O artigo apresenta o SPINE, um framework de aprendizado por reforço em tempo de teste que seleciona tokens decisivos para atualizações e aplica regularização por banda de entropia, melhorando a estabilidade e o desempenho de modelos de linguagem sem necessidade de rótulos ou modelos de recompensa.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

DAISI: Data Assimilation with Inverse Sampling using Stochastic Interpolants

O artigo apresenta o DAISI, um algoritmo de assimilação de dados escalável baseado em modelos generativos de fluxo que supera as limitações das aproximações gaussianas tradicionais ao utilizar uma amostragem inversa inovadora para integrar previsões de modelos dinâmicos complexos com observações esparsas e ruidosas.

Martin Andrae, Erik Larsson, So Takao, Tomas Landelius, Fredrik Lindsten2026-03-09🤖 cs.LG

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

O artigo apresenta o SQDF, um novo método de ajuste fino para modelos de difusão que utiliza um gradiente de política reparametrizado baseado na função Soft Q para mitigar a superotimização de recompensas, preservando a diversidade e a naturalidade das amostras geradas.

Hyeongyu Kang, Jaewoo Lee, Woocheol Shin, Kiyoung Om, Jinkyoo Park2026-03-09🤖 cs.AI

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Este trabalho propõe um método que utiliza a família de divergências $\alpha$ para aproximar uma distribuição-alvo filtrada, permitindo controlar o compromisso entre precisão e diversidade em modelos de linguagem e alcançando desempenho superior em provas de teoremas ao superar as limitações de perda de diversidade típicas do Aprendizado por Reforço.

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman2026-03-09🤖 cs.AI

A-3PO: Accelerating Asynchronous LLM Training with Staleness-aware Proximal Policy Approximation

O artigo apresenta o A-3PO, uma abordagem que acelera o treinamento assíncrono de modelos de linguagem grandes ao aproximar a política proximal necessária no PPO desacoplado via interpolação simples, eliminando a sobrecarga computacional de uma passagem extra e alcançando um aumento de velocidade de 1,8x sem comprometer o desempenho.

Xiaocan Li, Shiliang Wu, Zheng Shen2026-03-09🤖 cs.AI

← Anterior Próximo →