cs.LG artigos | Gist.Science

Some Super-approximation Rates of ReLU Neural Networks for Korobov Functions

Este artigo estabelece limites de erro de super-aproximação quase ótimos para redes neurais ReLU na aproximação de funções de Korobov, demonstrando que sua expressividade é praticamente imune à maldição da dimensionalidade ao utilizar elementos finitos em grades esparsas e a técnica de extração de bits.

Yuwen Li, Guozhi Zhang2026-03-06💻 cs

Kernel Based Maximum Entropy Inverse Reinforcement Learning for Mean-Field Games

Este artigo propõe um método de Aprendizado por Reforço Inverso baseado em Máxima Entropia e Espaços de Hilbert de Reprodutores de Kernel (RKHS) para Jogos de Campo Médio, permitindo a inferência de funções de recompensa não lineares e ricas em dados infinitos e finitos, com garantias teóricas de convergência e superioridade prática em cenários como roteamento de tráfego.

Berkay Anahtarci, Can Deha Kariksiz, Naci Saldi2026-03-06🔢 math

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

Este artigo apresenta o EDA, um novo quadro teórico que unifica e generaliza os modelos de difusão para lidar com ruídos arbitrários, superando as limitações do EDM ao preservar a modularidade sem sobrecarga computacional e demonstrando alta eficácia em tarefas de restauração de imagens médicas e naturais com apenas cinco etapas de amostragem.

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

Structured quantum learning via em algorithm for Boltzmann machines

Este artigo apresenta um algoritmo EM quântico para treinar máquinas de Boltzmann restritas semi-quânticas, superando o problema dos platôs estéreis e oferecendo uma alternativa escalável e estável aos métodos de otimização baseados em gradiente na aprendizagem de máquina quântica.

Takeshi Kimura, Kohtaro Kato, Masahito Hayashi2026-03-06⚛️ quant-ph

TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

Este artigo apresenta o TIC-GRPO, um algoritmo de otimização para aprendizado por reforço a partir de feedback humano que substitui a razão de importância em nível de token por uma em nível de trajetória para obter um gradiente de política atualizado sem crítico, garantindo convergência mais rápida e desempenho superior em tarefas de raciocínio matemático e codificação.

Lei Pang, Jun Luo, Ruinan Jin2026-03-06💻 cs

Honest and Reliable Evaluation and Expert Equivalence Testing of Automated Neonatal Seizure Detection

Este estudo propõe um quadro de avaliação rigoroso e honesto para a detec automatizada de convulsões neonatais, identificando métricas equilibradas e testes de equivalência com especialistas (como o teste de Turing multiavaliador com Fleiss kappa) como essenciais para garantir a confiabilidade clínica e a comparabilidade dos modelos de inteligência artificial.

Jovana Kljajic, John M. O'Toole, Robert Hogan + 1 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Este artigo apresenta o primeiro estudo sistemático de defesas durante o treinamento para mitigar o desalinhamento emergente em modelos de linguagem, demonstrando que intercalar dados de treinamento selecionados com base na lacuna de perplexidade entre modelos alinhados e desalinhados é a abordagem mais eficaz para prevenir comportamentos prejudiciais amplos sem comprometer o desempenho em tarefas benignas.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

O artigo propõe um método computacionalmente eficiente para avaliar a robustez dos rankings de LLMs, revelando que as classificações de modelos líderes em plataformas como o Chatbot Arena são extremamente sensíveis à remoção de uma fração mínima de preferências, ao passo que as avaliações baseadas em especialistas (MT-bench) demonstram maior estabilidade.

Jenny Y. Huang, Yunyi Shen, Dennis Wei + 1 more2026-03-06💻 cs

How Quantization Shapes Bias in Large Language Models

Este trabalho avalia como a quantização de pesos e ativações afeta o viés em grandes modelos de linguagem, revelando que, embora possa reduzir a toxicidade e não impactar significativamente o sentimento, tende a aumentar ligeiramente estereótipos e injustiças em tarefas generativas sob compressão agressiva, destacando a necessidade de equilibrar eficiência e considerações éticas.

Federico Marcuzzi, Xuefei Ning, Roy Schwartz + 1 more2026-03-06💻 cs

Multi-Agent Reinforcement Learning in Intelligent Transportation Systems: A Comprehensive Survey

Este artigo apresenta uma revisão abrangente das aplicações de Aprendizado por Reforço Multiagente (MARL) em Sistemas de Transporte Inteligentes, oferecendo uma taxonomia estruturada, analisando domínios-chave e plataformas de simulação, e identificando os principais desafios para a implementação no mundo real.

Rexcharles Donatus, Kumater Ter, Daniel Udekwe2026-03-06💻 cs

A Geometric Perspective on the Difficulties of Learning GNN-based SAT Solvers

Este artigo demonstra que a dificuldade de aprendizado de solucionadores de SAT baseados em Redes Neurais em Grafos (GNNs) é geometricamente explicada pela curvatura de Ricci negativa das grafos de fórmulas k-SAT, que gera o fenômeno de "oversquashing" e limita a capacidade do modelo de capturar dependências de longo alcance em instâncias complexas.

Geri Skenderi2026-03-06🔬 physics

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Este trabalho propõe um modelo de alinhamento baseado em transporte ótimo desequilibrado, que trata a correspondência entre representações acústicas e linguísticas como um problema de detecção para lidar com assimetrias estruturais e ruídos, melhorando assim a transferência de conhecimento em sistemas de reconhecimento automático de fala (ASR).

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

AttnBoost: Retail Supply Chain Sales Insights via Gradient Boosting Perspective

O artigo apresenta o AttnBoost, um framework de aprendizado interpretável que integra mecanismos de atenção ao processo de boosting para melhorar a precisão e a explicabilidade das previsões de demanda no varejo, superando modelos tradicionais ao focar dinamicamente nas variáveis mais impactantes.

Yadi Liu, Xiaoli Ma, Muxin Ge + 6 more2026-03-06💻 cs

Topology Structure Optimization of Reservoirs Using GLMY Homology

Este artigo propõe um método para otimizar a estrutura de reservatórios, utilizando a teoria da homologia GLMY persistente para identificar e modificar ciclos representativos unidimensionais, demonstrando experimentalmente que o desempenho é influenciado conjuntamente pela topologia da rede e pela periodicidade dos dados.

Yu Chen, Shengwei Wang, Hongwei Lin2026-03-06💻 cs

TabStruct: Measuring Structural Fidelity of Tabular Data

O artigo apresenta o TabStruct, um novo framework de avaliação e benchmark abrangente que introduz a métrica de utilidade global para medir a fidelidade estrutural de dados tabulares sintéticos sem depender de estruturas causais verdadeiras, permitindo uma análise holística do desempenho de 13 geradores em 29 conjuntos de dados reais.

Xiangjian Jiang, Nikola Simidjievski, Mateja Jamnik2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

O artigo apresenta o BabyHuBERT, um modelo de aprendizado auto-supervisionado multilíngue treinado em 13.000 horas de gravações infantis que supera os modelos existentes na segmentação de falantes em gravações longas e naturais de crianças, demonstrando eficácia particular em línguas sub-representadas.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

O artigo apresenta o "Diffusion-Based Impedance Learning", um framework que combina modelos generativos baseados em difusão com controle de impedância para permitir que robôs aprendam comportamentos de interação física ricos em contato, alcançando alta precisão e sucesso em tarefas complexas como inserção de pinos em furos através da adaptação online de rigidez e amortecimento.

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Complexity-Regularized Proximal Policy Optimization

O artigo propõe o CR-PPO, um método de otimização de política que substitui a regularização por entropia tradicional por um termo de complexidade autorregulável (produto de entropia e desequilíbrio), resultando em um algoritmo mais robusto a hiperparâmetros que equilibra estocasticidade e otimização de recompensa sem a necessidade de ajuste fino.

Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi + 1 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Este trabalho apresenta o Noise-to-Notes (N2N), um novo quadro de trabalho baseado em modelos de difusão que redefine a transcrição automática de bateria como uma tarefa generativa condicional, utilizando uma perda Pseudo-Huber anelada e recursos de modelos fundamentais de música para alcançar desempenho superior e maior robustez em benchmarks existentes.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

O artigo apresenta o BridgeDrive, uma nova política de planejamento de trajetória baseada em difusão que utiliza um "ponte de difusão" para transformar trajetórias de referência em planos refinados e seguros, alcançando desempenho superior em benchmarks de condução autônoma em malha fechada.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

← Anterior Próximo →