cs.LG artigos | Gist.Science

TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback

Este artigo apresenta o TIC-GRPO, um algoritmo de otimização para aprendizado por reforço a partir de feedback humano que substitui a razão de importância em nível de token por uma em nível de trajetória para obter um gradiente de política atualizado sem crítico, garantindo convergência mais rápida e desempenho superior em tarefas de raciocínio matemático e codificação.

Lei Pang, Jun Luo, Ruinan Jin2026-03-06💻 cs

Honest and Reliable Evaluation and Expert Equivalence Testing of Automated Neonatal Seizure Detection

Este estudo propõe um quadro de avaliação rigoroso e honesto para a detec automatizada de convulsões neonatais, identificando métricas equilibradas e testes de equivalência com especialistas (como o teste de Turing multiavaliador com Fleiss kappa) como essenciais para garantir a confiabilidade clínica e a comparabilidade dos modelos de inteligência artificial.

Jovana Kljajic, John M. O'Toole, Robert Hogan + 1 more2026-03-06💻 cs

In-Training Defenses against Emergent Misalignment in Language Models

Este artigo apresenta o primeiro estudo sistemático de defesas durante o treinamento para mitigar o desalinhamento emergente em modelos de linguagem, demonstrando que intercalar dados de treinamento selecionados com base na lacuna de perplexidade entre modelos alinhados e desalinhados é a abordagem mais eficaz para prevenir comportamentos prejudiciais amplos sem comprometer o desempenho em tarefas benignas.

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

O artigo propõe um método computacionalmente eficiente para avaliar a robustez dos rankings de LLMs, revelando que as classificações de modelos líderes em plataformas como o Chatbot Arena são extremamente sensíveis à remoção de uma fração mínima de preferências, ao passo que as avaliações baseadas em especialistas (MT-bench) demonstram maior estabilidade.

Jenny Y. Huang, Yunyi Shen, Dennis Wei + 1 more2026-03-06💻 cs

How Quantization Shapes Bias in Large Language Models

Este trabalho avalia como a quantização de pesos e ativações afeta o viés em grandes modelos de linguagem, revelando que, embora possa reduzir a toxicidade e não impactar significativamente o sentimento, tende a aumentar ligeiramente estereótipos e injustiças em tarefas generativas sob compressão agressiva, destacando a necessidade de equilibrar eficiência e considerações éticas.

Federico Marcuzzi, Xuefei Ning, Roy Schwartz + 1 more2026-03-06💻 cs

Multi-Agent Reinforcement Learning in Intelligent Transportation Systems: A Comprehensive Survey

Este artigo apresenta uma revisão abrangente das aplicações de Aprendizado por Reforço Multiagente (MARL) em Sistemas de Transporte Inteligentes, oferecendo uma taxonomia estruturada, analisando domínios-chave e plataformas de simulação, e identificando os principais desafios para a implementação no mundo real.

Rexcharles Donatus, Kumater Ter, Daniel Udekwe2026-03-06💻 cs

A Geometric Perspective on the Difficulties of Learning GNN-based SAT Solvers

Este artigo demonstra que a dificuldade de aprendizado de solucionadores de SAT baseados em Redes Neurais em Grafos (GNNs) é geometricamente explicada pela curvatura de Ricci negativa das grafos de fórmulas k-SAT, que gera o fenômeno de "oversquashing" e limita a capacidade do modelo de capturar dependências de longo alcance em instâncias complexas.

Geri Skenderi2026-03-06🔬 physics

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Este trabalho propõe um modelo de alinhamento baseado em transporte ótimo desequilibrado, que trata a correspondência entre representações acústicas e linguísticas como um problema de detecção para lidar com assimetrias estruturais e ruídos, melhorando assim a transferência de conhecimento em sistemas de reconhecimento automático de fala (ASR).

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

AttnBoost: Retail Supply Chain Sales Insights via Gradient Boosting Perspective

O artigo apresenta o AttnBoost, um framework de aprendizado interpretável que integra mecanismos de atenção ao processo de boosting para melhorar a precisão e a explicabilidade das previsões de demanda no varejo, superando modelos tradicionais ao focar dinamicamente nas variáveis mais impactantes.

Yadi Liu, Xiaoli Ma, Muxin Ge + 6 more2026-03-06💻 cs

Topology Structure Optimization of Reservoirs Using GLMY Homology

Este artigo propõe um método para otimizar a estrutura de reservatórios, utilizando a teoria da homologia GLMY persistente para identificar e modificar ciclos representativos unidimensionais, demonstrando experimentalmente que o desempenho é influenciado conjuntamente pela topologia da rede e pela periodicidade dos dados.

Yu Chen, Shengwei Wang, Hongwei Lin2026-03-06💻 cs

TabStruct: Measuring Structural Fidelity of Tabular Data

O artigo apresenta o TabStruct, um novo framework de avaliação e benchmark abrangente que introduz a métrica de utilidade global para medir a fidelidade estrutural de dados tabulares sintéticos sem depender de estruturas causais verdadeiras, permitindo uma análise holística do desempenho de 13 geradores em 29 conjuntos de dados reais.

Xiangjian Jiang, Nikola Simidjievski, Mateja Jamnik2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

O artigo apresenta o BabyHuBERT, um modelo de aprendizado auto-supervisionado multilíngue treinado em 13.000 horas de gravações infantis que supera os modelos existentes na segmentação de falantes em gravações longas e naturais de crianças, demonstrando eficácia particular em línguas sub-representadas.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

O artigo apresenta o "Diffusion-Based Impedance Learning", um framework que combina modelos generativos baseados em difusão com controle de impedância para permitir que robôs aprendam comportamentos de interação física ricos em contato, alcançando alta precisão e sucesso em tarefas complexas como inserção de pinos em furos através da adaptação online de rigidez e amortecimento.

Noah Geiger, Tamim Asfour, Neville Hogan + 1 more2026-03-06💻 cs

Complexity-Regularized Proximal Policy Optimization

O artigo propõe o CR-PPO, um método de otimização de política que substitui a regularização por entropia tradicional por um termo de complexidade autorregulável (produto de entropia e desequilíbrio), resultando em um algoritmo mais robusto a hiperparâmetros que equilibra estocasticidade e otimização de recompensa sem a necessidade de ajuste fino.

Luca Serfilippi, Giorgio Franceschelli, Antonio Corradi + 1 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Este trabalho apresenta o Noise-to-Notes (N2N), um novo quadro de trabalho baseado em modelos de difusão que redefine a transcrição automática de bateria como uma tarefa generativa condicional, utilizando uma perda Pseudo-Huber anelada e recursos de modelos fundamentais de música para alcançar desempenho superior e maior robustez em benchmarks existentes.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

O artigo apresenta o BridgeDrive, uma nova política de planejamento de trajetória baseada em difusão que utiliza um "ponte de difusão" para transformar trajetórias de referência em planos refinados e seguros, alcançando desempenho superior em benchmarks de condução autônoma em malha fechada.

Shu Liu, Wenlin Chen, Weihao Li + 7 more2026-03-06💻 cs

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

Este artigo investiga o fenômeno de aprendizado subliminar em modelos de linguagem, demonstrando que a transferência de vieses ocultos durante a destilação ocorre principalmente através de um pequeno conjunto de "tokens de divergência" em camadas iniciais, sendo um processo frágil que pode ser suprimido por pequenas alterações nos prompts.

Simon Schrodi, Elias Kempf, Fazl Barez + 1 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

O artigo apresenta o BeyondBench, um novo framework de avaliação que utiliza geração algorítmica dinâmica para criar problemas matemáticos inéditos e não contaminados, permitindo uma medição precisa das capacidades de raciocínio de 101 modelos de linguagem e revelando deficiências significativas em tarefas complexas.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

O artigo apresenta o SphereAR, um modelo de geração de imagens autoregressivo que utiliza latentes em hiperesfera para estabilizar a decodificação e eliminar o colapso de variância, alcançando desempenho superior ao estado da arte em modelos de difusão e geração mascarada com escalas de parâmetros comparáveis.

Guolin Ke, Hui Xue2026-03-06💻 cs

Quantitative convergence of trained single layer neural networks to Gaussian processes

Este artigo estabelece limites superiores explícitos para a distância de Wasserstein quadrática entre redes neurais de camada única treinadas por descida de gradiente e seus processos gaussianos associados no limite de largura infinita, demonstrando um decaimento polinomial do erro de aproximação em função da largura da rede e quantificando a influência dos parâmetros arquitetônicos e da dinâmica de treinamento.

Eloy Mosig, Andrea Agazzi, Dario Trevisan2026-03-06🔢 math

← Anterior Próximo →