cs.LG artigos | Gist.Science

SPEED-RL: Faster Training of Reasoning Models via Online Curriculum Learning

O artigo apresenta o SPEED-RL, um método de aprendizado por reforço online que acelera o treinamento de modelos de raciocínio em até 6 vezes ao selecionar dinamicamente exemplos de dificuldade intermediária para maximizar a eficiência do aprendizado sem comprometer a precisão.

Ruiqi Zhang, Daman Arora, Song Mei + 1 more2026-03-06💻 cs

Bures-Wasserstein Flow Matching for Graph Generation

Este artigo apresenta o BWFlow, um novo framework de *Flow Matching* para geração de gráficos que supera as limitações dos métodos atuais ao modelar a evolução conjunta de nós e arestas através de campos aleatórios de Markov e transporte ótimo, garantindo caminhos de probabilidade suaves e melhorando a convergência no treinamento e amostragem.

Keyue Jiang, Jiahao Cui, Xiaowen Dong + 1 more2026-03-06💻 cs

From Bandit Regret to FDR Control: Online Selective Generation with Adversarial Feedback Unlocking

O artigo propõe o ExSUL, um novo framework de aprendizado online para geração seletiva que, ao lidar com feedback adversário parcial, utiliza conversão de arrependimento e "feedback unlocking" para garantir controle rigoroso da Taxa de Descoberta Falsa (FDR) em modelos de linguagem, mantendo alta cobertura de respostas mesmo em ambientes não estacionários.

Minjae Lee, Yoonjae Jung, Sangdon Park2026-03-06💻 cs

Structured Kolmogorov-Arnold Neural ODEs for Interpretable Learning and Symbolic Discovery of Nonlinear Dynamics

O artigo propõe as SKANODEs, uma estrutura que integra redes KAN a Neural ODEs para recuperar estados físicos latentes e descobrir equações simbólicas interpretáveis de sistemas dinâmicos não lineares, superando métodos de caixa preta e clássicos em precisão e robustez.

Wei Liu, Kiran Bacsa, Loon Ching Tang + 1 more2026-03-06🔬 physics

Learning Physical Systems: Symplectification via Gauge Fixing in Dirac Structures

Este trabalho apresenta as Redes de Presimplificação (PSNs), um novo framework que supera as limitações atuais do aprendizado de sistemas físicos ao restaurar a geometria simplética em sistemas com dissipação e restrições holonômicas, como robôs quadrúpedes, através da elevação para uma variedade de dimensão superior baseada em estruturas de Dirac.

Aristotelis Papatheodorou, Pranav Vaidhyanathan, Natalia Ares + 1 more2026-03-06💻 cs

Parameter Stress Analysis in Reinforcement Learning: Applying Synaptic Filtering to Policy Networks

Este artigo analisa a robustez de políticas de aprendizado por reforço aplicando filtros sinápticos como estresse interno e ataques adversariais como estresse externo para classificar parâmetros como frágeis, robustos ou antifrágeis, demonstrando que parâmetros antifrágeis podem melhorar o desempenho do agente sob condições adversas em ambientes de controle contínuo.

Zain ul Abdeen, Ming Jin2026-03-06💻 cs

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

O artigo apresenta o MuRating, uma abordagem escalável que transfere sinais de qualidade de dados do inglês para treinar um avaliador multilíngue, permitindo a seleção de conjuntos de dados equilibrados que melhoram significativamente o desempenho de modelos de linguagem grandes em tarefas multilíngues e baseadas em conhecimento.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Overtone: Cyclic Patch Modulation for Clean, Efficient, and Flexible Physics Emulators

O artigo apresenta o Overtone, um emulador de física baseado em transformadores que utiliza modulação cíclica dinâmica do tamanho dos patches durante a inferência para mitigar erros harmônicos sistemáticos e permitir um ajuste flexível entre precisão e custo computacional, superando os modelos de patches fixos em benchmarks de EDPs.

Payel Mukhopadhyay, Michael McCabe, Ruben Ohana + 1 more2026-03-06💻 cs

Some Super-approximation Rates of ReLU Neural Networks for Korobov Functions

Este artigo estabelece limites de erro de super-aproximação quase ótimos para redes neurais ReLU na aproximação de funções de Korobov, demonstrando que sua expressividade é praticamente imune à maldição da dimensionalidade ao utilizar elementos finitos em grades esparsas e a técnica de extração de bits.

Yuwen Li, Guozhi Zhang2026-03-06💻 cs

Kernel Based Maximum Entropy Inverse Reinforcement Learning for Mean-Field Games

Este artigo propõe um método de Aprendizado por Reforço Inverso baseado em Máxima Entropia e Espaços de Hilbert de Reprodutores de Kernel (RKHS) para Jogos de Campo Médio, permitindo a inferência de funções de recompensa não lineares e ricas em dados infinitos e finitos, com garantias teóricas de convergência e superioridade prática em cenários como roteamento de tráfego.

Berkay Anahtarci, Can Deha Kariksiz, Naci Saldi2026-03-06🔢 math

Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models

Este artigo apresenta o EDA, um novo quadro teórico que unifica e generaliza os modelos de difusão para lidar com ruídos arbitrários, superando as limitações do EDM ao preservar a modularidade sem sobrecarga computacional e demonstrando alta eficácia em tarefas de restauração de imagens médicas e naturais com apenas cinco etapas de amostragem.

Xingyu Qiu, Mengying Yang, Xinghua Ma + 6 more2026-03-06💻 cs

Structured quantum learning via em algorithm for Boltzmann machines

Este artigo apresenta um algoritmo EM quântico para treinar máquinas de Boltzmann restritas semi-quânticas, superando o problema dos platôs estéreis e oferecendo uma alternativa escalável e estável aos métodos de otimização baseados em gradiente na aprendizagem de máquina quântica.

Takeshi Kimura, Kohtaro Kato, Masahito Hayashi2026-03-06⚛️ quant-ph

TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

Este artigo apresenta o TIC-GRPO, um algoritmo de otimização para aprendizado por reforço a partir de feedback humano que substitui a razão de importância em nível de token por uma em nível de trajetória para obter um gradiente de política atualizado sem crítico, garantindo convergência mais rápida e desempenho superior em tarefas de raciocínio matemático e codificação.

Lei Pang, Jun Luo, Ruinan Jin2026-03-06💻 cs

Honest and Reliable Evaluation and Expert Equivalence Testing of Automated Neonatal Seizure Detection

Este estudo propõe um quadro de avaliação rigoroso e honesto para a detec automatizada de convulsões neonatais, identificando métricas equilibradas e testes de equivalência com especialistas (como o teste de Turing multiavaliador com Fleiss kappa) como essenciais para garantir a confiabilidade clínica e a comparabilidade dos modelos de inteligência artificial.

Jovana Kljajic, John M. O'Toole, Robert Hogan + 1 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Este artigo apresenta o primeiro estudo sistemático de defesas durante o treinamento para mitigar o desalinhamento emergente em modelos de linguagem, demonstrando que intercalar dados de treinamento selecionados com base na lacuna de perplexidade entre modelos alinhados e desalinhados é a abordagem mais eficaz para prevenir comportamentos prejudiciais amplos sem comprometer o desempenho em tarefas benignas.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

O artigo propõe um método computacionalmente eficiente para avaliar a robustez dos rankings de LLMs, revelando que as classificações de modelos líderes em plataformas como o Chatbot Arena são extremamente sensíveis à remoção de uma fração mínima de preferências, ao passo que as avaliações baseadas em especialistas (MT-bench) demonstram maior estabilidade.

Jenny Y. Huang, Yunyi Shen, Dennis Wei + 1 more2026-03-06💻 cs

How Quantization Shapes Bias in Large Language Models

Este trabalho avalia como a quantização de pesos e ativações afeta o viés em grandes modelos de linguagem, revelando que, embora possa reduzir a toxicidade e não impactar significativamente o sentimento, tende a aumentar ligeiramente estereótipos e injustiças em tarefas generativas sob compressão agressiva, destacando a necessidade de equilibrar eficiência e considerações éticas.

Federico Marcuzzi, Xuefei Ning, Roy Schwartz + 1 more2026-03-06💻 cs

Multi-Agent Reinforcement Learning in Intelligent Transportation Systems: A Comprehensive Survey

Este artigo apresenta uma revisão abrangente das aplicações de Aprendizado por Reforço Multiagente (MARL) em Sistemas de Transporte Inteligentes, oferecendo uma taxonomia estruturada, analisando domínios-chave e plataformas de simulação, e identificando os principais desafios para a implementação no mundo real.

Rexcharles Donatus, Kumater Ter, Daniel Udekwe2026-03-06💻 cs

A Geometric Perspective on the Difficulties of Learning GNN-based SAT Solvers

Este artigo demonstra que a dificuldade de aprendizado de solucionadores de SAT baseados em Redes Neurais em Grafos (GNNs) é geometricamente explicada pela curvatura de Ricci negativa das grafos de fórmulas k-SAT, que gera o fenômeno de "oversquashing" e limita a capacidade do modelo de capturar dependências de longo alcance em instâncias complexas.

Geri Skenderi2026-03-06🔬 physics

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Este trabalho propõe um modelo de alinhamento baseado em transporte ótimo desequilibrado, que trata a correspondência entre representações acústicas e linguísticas como um problema de detecção para lidar com assimetrias estruturais e ruídos, melhorando assim a transferência de conhecimento em sistemas de reconhecimento automático de fala (ASR).

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

← Anterior Próximo →