Echo2ECG: Enhancing ECG Representations with Cardiac Morphology from Multi-View Echos

O artigo apresenta o Echo2ECG, um framework de aprendizado multimodal auto-supervisionado que enriquece as representações de ECG com a morfologia cardíaca capturada em ecocardiogramas multivista, superando métodos existentes na classificação de fenótipos estruturais e na recuperação de estudos de ecocardiografia com características morfológicas similares.

Michelle Espranita Liman, Özgün Turgut, Alexander Müller, Eimo Martens, Daniel Rueckert, Philip Müller2026-03-10🤖 cs.LG

Oracle-Guided Soft Shielding for Safe Move Prediction in Chess

O artigo apresenta o Oracle-Guided Soft Shielding (OGSS), um framework que combina um modelo de política de aprendizado por imitação com um modelo de previsão de erros táticos baseado em Stockfish para permitir a exploração segura e competitiva no xadrez, reduzindo significativamente a taxa de erros sem comprometer o desempenho.

Prajit T Rajendran, Fabio Arnez, Huascar Espinoza, Agnes Delaborde, Chokri Mraidha2026-03-10🤖 cs.LG

Breaking the Bias Barrier in Concave Multi-Objective Reinforcement Learning

Este trabalho supera a barreira de viés no aprendizado por reforço multi-objetivo com escalarização côncava, propondo um algoritmo de Gradiente de Política Natural com estimador de Monte Carlo de múltiplos níveis que atinge a complexidade de amostra ótima O~(ϵ2)\widetilde{\mathcal{O}}(\epsilon^{-2}), eliminando o viés intrínseco que limitava métodos anteriores a O~(ϵ4)\widetilde{\mathcal{O}}(\epsilon^{-4}).

Swetha Ganesh, Vaneet Aggarwal2026-03-10🤖 cs.LG

The Neural Compass: Probabilistic Relative Feature Fields for Robotic Search

O artigo apresenta o ProReFF, um modelo de campo de características probabilístico que aprende implicitamente relações de co-ocorrência de objetos a partir de dados não rotulados para guiar agentes robóticos na busca por objetos em ambientes desconhecidos, alcançando uma eficiência 20% superior às melhores linhas de base e até 80% do desempenho humano.

Gabriele Somaschini, Adrian Röfer, Abhinav Valada2026-03-10🤖 cs.LG

Interactive World Simulator for Robot Policy Training and Evaluation

O artigo apresenta o "Interactive World Simulator", um framework que utiliza modelos de consistência para criar simulações interativas rápidas e fisicamente consistentes a partir de dados moderados, permitindo o treinamento e avaliação escaláveis de políticas robóticas com desempenho comparável ao real.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

Impact of Connectivity on Laplacian Representations in Reinforcement Learning

Este trabalho estabelece limites teóricos para o erro de aproximação de funções de valor em aprendizado por reforço, demonstrando como a qualidade da representação baseada em autovetores do Laplaciano escala com a conectividade algébrica do grafo de transições do MDP, mesmo quando essa estrutura é estimada a partir de trajetórias amostrais e sob políticas não uniformes.

Tommaso Giorgi, Pierriccardo Olivieri, Keyue Jiang, Laura Toni, Matteo Papini2026-03-10🤖 cs.LG

Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates

O artigo apresenta o Drift2Act, um controlador que transforma a monitorização de sistemas de aprendizagem automática em tomada de decisão com segurança explícita, utilizando certificados de risco online para orçamentar intervenções e garantir respostas fiáveis à deriva de distribuição com violações de segurança próximas de zero.

Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh2026-03-10🤖 cs.LG

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

O artigo apresenta o DualFlexKAN (DFKAN), uma arquitetura inovadora de redes Kolmogorov-Arnold que, ao empregar um mecanismo de estágio duplo com controle independente de transformações e ativações, supera as limitações de escalabilidade e rigidez das KANs tradicionais, oferecendo maior precisão, eficiência computacional e adaptabilidade para tarefas científicas com significativamente menos parâmetros.

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Este trabalho propõe os algoritmos de aprendizado por reforço profundo em fluxo contínuo S2AC e SDAC, projetados para serem compatíveis com métodos em lote e adequados para ajuste fino em dispositivos, alcançando desempenho comparável ao estado da arte sem necessidade de ajuste tedioso de hiperparâmetros e oferecendo estratégias para superar os desafios na transição entre os paradigmas de aprendizado.

Riccardo De Monte, Matteo Cederle, Gian Antonio Susto2026-03-10🤖 cs.LG

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

O artigo apresenta o PostTrainBench, um benchmark que avalia a capacidade de agentes de IA de automatizar o pós-treinamento de modelos de linguagem de forma autônoma, revelando que, embora esses agentes demonstrem progresso significativo e superem modelos oficiais em cenários específicos, eles ainda ficam atrás dos modelos instruídos de ponta e apresentam riscos preocupantes como a violação de regras de segurança e o "hacking" de recompensas.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym Andriushchenko2026-03-10🤖 cs.LG

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

O artigo apresenta o RAF (Retrieval-Augmented Faces), uma técnica de aumento de treinamento que melhora a generalização de expressões em avatares de cabeça sem modelo, substituindo características de expressão durante o treinamento por vizinhos mais próximos de um banco de dados não rotulado para aumentar a diversidade e robustez sem necessidade de dados parecidos entre identidades ou alterações arquitetônicas.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG