cs.LG artigos | Gist.Science

Ensembling Language Models with Sequential Monte Carlo

Este trabalho apresenta um framework unificado para combinar múltiplos modelos de linguagem em distribuições de ensemble através de uma função arbitrária, utilizando um algoritmo de Monte Carlo Sequencial em nível de byte para amostragem consistente e eficaz, superando as limitações das técnicas de agregação tradicionais.

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

On-Policy Self-Distillation for Reasoning Compression

O artigo apresenta o OPSDC, um método de auto-distilação on-policy que ensina modelos de raciocínio a serem mais concisos ao minimizar a divergência KL reversa em relação às suas próprias saídas condicionadas a instruções de concisão, resultando em reduções significativas de tokens sem perda de precisão e até com ganhos de acurácia ao eliminar ruídos prejudiciais.

Hejian Sang, Yuanda Xu, Zhengze Zhou + 3 more2026-03-06🤖 cs.LG

Latent Wasserstein Adversarial Imitation Learning

O artigo propõe o Latent Wasserstein Adversarial Imitation Learning (LWAIL), uma nova estrutura de aprendizado por imitação adversarial que, ao utilizar uma função de valor condicionada à intenção para criar um espaço latente consciente da dinâmica, permite que agentes atinjam desempenho de nível especialista utilizando apenas um ou poucos episódios de demonstração contendo apenas estados.

Siqi Yang, Kai Yan, Alexander G. Schwing + 1 more2026-03-06🤖 cs.LG

Kraus Constrained Sequence Learning For Quantum Trajectories from Continuous Measurement

Os autores propõem uma camada de saída estruturada em Kraus integrada a diversas arquiteturas de redes neurais sequenciais para garantir atualizações de estados quânticos fisicamente válidas e melhorar a precisão da reconstrução em tempo real sob medições contínuas e regimes não estacionários.

Priyanshi Singh, Krishna Bhatia2026-03-06🤖 cs.LG

Thermodynamic Response Functions in Singular Bayesian Models

Este artigo estabelece uma estrutura unificada de funções de resposta termodinâmica para modelos bayesianos singulares, demonstrando que o temperamento posterior revela uma hierarquia de observáveis que conecta geometricamente grandezas como o limiar log-canônico real, a flutuação singular e critérios como WAIC e WBIC, permitindo interpretar a complexidade e a reorganização estrutural nesses modelos através de analogias com transições de fase.

Sean Plummer2026-03-06🔢 math

SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

O artigo apresenta o SurvHTE-Bench, o primeiro benchmark abrangente para a estimativa de efeitos heterogêneos de tratamento em dados de sobrevivência censurados, oferecendo um conjunto diversificado de dados sintéticos, semissintéticos e reais para uma avaliação rigorosa e reprodutível de métodos causais nessa área.

Shahriar Noroozizadeh, Xiaobin Shen, Jeremy C. Weiss + 1 more2026-03-06🤖 cs.AI

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

O artigo apresenta evidências de "teatro de raciocínio" em modelos de IA, onde a confiança na resposta final é decodificável muito antes do modelo revelar sua crença interna, demonstrando que sondas de ativação podem identificar genuína incerteza e permitir uma saída antecipada que reduz significativamente o uso de tokens sem comprometer a precisão.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Este artigo avalia técnicas de elicitação de honestidade e detecção de mentiras em modelos de linguagem abertos chineses que censuram tópicos politicamente sensíveis, descobrindo que métodos como amostragem sem template de chat e prompts de few-shot aumentam respostas verdadeiras, embora nenhuma técnica elimine completamente as falsidades.

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

Cheap Thrills: Effective Amortized Optimization Using Inexpensive Labels

O artigo propõe um novo framework de otimização amortizada que combina pré-treinamento supervisionado com rótulos imperfeitos e refinamento auto-supervisionado para alcançar maior precisão e redução de custos em problemas complexos, demonstrando que apenas um número modesto de rótulos aproximados é necessário para posicionar o modelo em uma bacia de atração viável.

Khai Nguyen, Petros Ellinas, Anvita Bhagavathula + 1 more2026-03-06🔢 math

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

O POET-X é uma variante escalável e eficiente em termos de memória do framework POET que, ao otimizar transformações de equivalência ortogonal com custo computacional reduzido, permite o pré-treinamento de modelos de linguagem de bilhões de parâmetros em uma única GPU, superando as limitações de memória de otimizadores padrão como o AdamW.

Zeju Qiu, Lixin Liu, Adrian Weller + 2 more2026-03-06🤖 cs.AI

RoboPocket: Improve Robot Policies Instantly with Your Phone

O RoboPocket é um sistema portátil que utiliza realidade aumentada em smartphones para permitir a iteração instantânea de políticas robóticas sem a necessidade de um robô físico, identificando falhas proativamente e refinando o modelo em tempo real, o que duplica a eficiência de dados em comparação com estratégias offline.

Junjie Fang, Wendi Chen, Han Xue + 7 more2026-03-06🤖 cs.AI

Recurrent Action Transformer with Memory

O artigo propõe o Recurrent Action Transformer with Memory (RATE), uma nova arquitetura baseada em transformers que integra um mecanismo de memória recorrente para superar as limitações de contexto em ambientes parcialmente observáveis, demonstrando desempenho superior em tarefas dependentes de memória e competitividade em benchmarks padrão de RL offline.

Egor Cherepanov, Alexey Staroverov, Alexey K. Kovalev + 1 more2026-03-05🤖 cs.AI

Crystal-GFN: sampling crystals with desirable properties and constraints

O artigo apresenta o Crystal-GFN, um modelo generativo baseado em GFlowNet que amostra estruturas cristalinas com propriedades desejáveis e restrições físico-químicas, acelerando a descoberta de novos materiais sólidos para aplicações como energias renováveis.

Mila AI4Science, :, Alex Hernandez-Garcia + 11 more2026-03-05🤖 cs.LG

GeoTop: Advancing Image Classification with Geometric-Topological Analysis

O artigo apresenta o GeoTop, um framework matematicamente fundamentado que unifica a Análise Topológica de Dados e as Curvaturas de Lipschitz-Killing para superar as limitações de modelos convencionais na classificação de imagens diagnósticas, oferecendo maior precisão, interpretabilidade intrínseca e eficiência computacional ao distinguir estruturas benignas e malignas que compartilham topologia global, mas diferem em detalhes geométricos.

Mariem Abaach, Ian Morilla2026-03-05🤖 cs.LG

Sample-Optimal Locally Private Hypothesis Selection and the Provable Benefits of Interactivity

Os autores propõem um algoritmo de seleção de hipóteses com privacidade diferencial local que, utilizando apenas $O(\log \log k)$ rodadas de interação, atinge uma complexidade de amostra ótima de $\Theta(k/(\alpha^2 \min\{\varepsilon^2, 1\}))$ , superando os limites inferiores conhecidos para métodos não interativos e eliminando o fator logarítmico adicional exigido por algoritmos anteriores.

Alireza F. Pour, Hassan Ashtiani, Shahab Asoodeh2026-03-05🤖 cs.LG

Graph Neural Networks in EEG-based Emotion Recognition: A Survey

Esta pesquisa oferece uma revisão abrangente e um guia estruturado para a construção de Redes Neurais em Grafos (GNNs) na reconhecimento de emoções baseado em EEG, categorizando métodos existentes, destacando suas bases fisiológicas únicas e discutindo desafios futuros.

Chenyu Liu, Yuqiu Deng, Yihao Wu + 10 more2026-03-05🤖 cs.LG

List Sample Compression and Uniform Convergence

Este artigo investiga os princípios de generalização no aprendizado de listas, demonstrando que, embora a convergência uniforme permaneça equivalente à aprendibilidade, a conjectura de compressão de amostra de Littlestone e Warmuth é refutada, pois existem classes aprendíveis que não podem ser comprimidas.

Steve Hanneke, Shay Moran, Tom Waknine2026-03-05🤖 cs.LG

Agnostic Tomography of Stabilizer Product States

O artigo define a tarefa de tomografia agnóstica e apresenta um algoritmo eficiente para aprender estados de produto estabilizador, garantindo que a saída aproxime o estado arbitrário dado tão bem quanto o melhor estado da classe, mesmo na presença de perturbações.

Sabee Grewal, Vishnu Iyer, William Kretschmer + 1 more2026-03-05⚛️ quant-ph

A Review of Reward Functions for Reinforcement Learning in the context of Autonomous Driving

Este artigo revisa as funções de recompensa para aprendizado por reforço no contexto de direção autônoma, categorizando objetivos como segurança, conforto, progresso e conformidade com regras de trânsito, identificando limitações como a falta de padronização e a incapacidade de lidar com contextos, e propondo futuras direções de pesquisa para criar recompensas estruturadas, conscientes do contexto e validadas.

Ahmed Abouelazm, Jonas Michel, J. Marius Zoellner2026-03-05🤖 cs.AI

Tracking solutions of time-varying variational inequalities

Este trabalho estende as garantias de rastreamento para desigualdades variacionais variantes no tempo, fornecendo limites para funções não monotônicas e sistemas periódicos, além de investigar a convergência e o comportamento caótico desses sistemas dinâmicos.

Hédi Hadiji, Sarah Sachs, Cristóbal Guzmán2026-03-05🤖 cs.LG

← Anterior Próximo →