cs.LG articles | Gist.Science

NN-OpInf: an operator inference approach using structure-preserving composable neural networks

L'article présente NN-OpInf, une méthode d'inférence d'opérateurs non intrusive et structurellement préservée utilisant des réseaux de neurones composites pour modéliser avec précision et stabilité la dynamique de systèmes non linéaires complexes, surpassant les approches polynomiales traditionnelles au prix d'un coût de calcul plus élevé.

Eric Parish, Anthony Gruber, Patrick Blonigan, Irina Tezaur2026-03-10🤖 cs.LG

Pareto-Optimal Anytime Algorithms via Bayesian Racing

Ce papier présente PolarBear, un cadre basé sur l'inférence bayésienne et des modèles de classement Plackett-Luce qui identifie l'ensemble de Pareto d'algorithmes d'optimisation en temps réel sans nécessiter de normalisation ni de connaissances préalables des optima, permettant ainsi une sélection robuste sous des contraintes de temps arbitraires.

Jonathan Wurth, Helena Stegherr, Neele Kemper, Michael Heider, Jörg Hähner2026-03-10🤖 cs.LG

Efficient Credal Prediction through Decalibration

Cet article propose une méthode efficace de prédiction crédale fondée sur la décalibration, permettant de représenter l'incertitude épistémique via des intervalles de probabilité sans nécessiter le réentraînement coûteux d'ensembles de modèles, rendant ainsi cette approche applicable à des architectures complexes comme TabPFN et CLIP.

Paul Hofman, Timo Löhr, Maximilian Muschalik, Yusuf Sale, Eyke Hüllermeier2026-03-10🤖 cs.LG

Echo2ECG: Enhancing ECG Representations with Cardiac Morphology from Multi-View Echos

Le papier présente Echo2ECG, un cadre d'apprentissage auto-supervisé multimodal qui enrichit les représentations des ECG en intégrant la morphologie cardiaque issue d'échographies multi-vues, surpassant ainsi les méthodes existantes pour la prédiction de phénotypes structurels et la recherche d'images échographiques similaires.

Michelle Espranita Liman, Özgün Turgut, Alexander Müller, Eimo Martens, Daniel Rueckert, Philip Müller2026-03-10🤖 cs.LG

Oracle-Guided Soft Shielding for Safe Move Prediction in Chess

Cet article propose le bouclage doux guidé par oracle (OGSS), un cadre qui combine un modèle de politique d'apprentissage par imitation et un modèle de prédiction d'erreurs tactiques pour permettre à un agent d'échecs d'explorer plus largement tout en minimisant les erreurs critiques.

Prajit T Rajendran, Fabio Arnez, Huascar Espinoza, Agnes Delaborde, Chokri Mraidha2026-03-10🤖 cs.LG

Breaking the Bias Barrier in Concave Multi-Objective Reinforcement Learning

Cet article propose un algorithme de gradient de politique naturelle combiné à un estimateur Monte Carlo multiniveau pour surmonter le biais inhérent à la scalarisation concave dans l'apprentissage par renforcement multi-objectif, permettant ainsi d'atteindre une complexité d'échantillonnage optimale de $\widetilde{\mathcal{O}}(\epsilon^{-2})$ .

Swetha Ganesh, Vaneet Aggarwal2026-03-10🤖 cs.LG

Towards Effective and Efficient Graph Alignment without Supervision

Ce papier propose GlobAlign et sa variante GlobAlign-E, de nouvelles méthodes d'alignement de graphes non supervisés basées sur une représentation globale et le transport optimal, qui surpassent les approches existantes en précision et en efficacité en réduisant la complexité temporelle cubique à quadratique.

Songyang Chen, Youfang Lin, Yu Liu, Shuai Zheng, Lei Zou2026-03-10🤖 cs.LG

The Neural Compass: Probabilistic Relative Feature Fields for Robotic Search

Cet article présente ProReFF, un modèle de champ de caractéristiques probabiliste qui apprend implicitement les co-occurrences d'objets à partir de données non étiquetées pour guider efficacement un agent robotique dans la recherche d'objets, atteignant jusqu'à 80 % des performances humaines.

Gabriele Somaschini, Adrian Röfer, Abhinav Valada2026-03-10🤖 cs.LG

Interactive World Simulator for Robot Policy Training and Evaluation

Les auteurs présentent l'Interactive World Simulator, un cadre utilisant des modèles de cohérence pour générer des simulations robotiques interactives, rapides et physiquement cohérentes, permettant d'entraîner et d'évaluer des politiques d'imitation avec des performances comparables à celles obtenues avec des données réelles.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

Generative Adversarial Regression (GAR): Learning Conditional Risk Scenarios

Le papier propose le cadre de régression générative antagoniste (GAR), qui apprend des scénarios de risque conditionnels en alignant les générateurs sur des objectifs de risque élicitables via une formulation minimax, démontrant ainsi une meilleure préservation du risque en aval sur les données du S&P 500 par rapport aux méthodes existantes.

Saeed Asadi, Jonathan Yu-Meng Li2026-03-10🤖 cs.LG

Impact of Connectivity on Laplacian Representations in Reinforcement Learning

Cet article établit des bornes d'erreur théoriques reliant la qualité des représentations d'état apprises via les vecteurs propres du Laplacien en apprentissage par renforcement à l'connectivité algébrique du graphe de transition, tout en offrant une formulation clarifiée de l'opérateur Laplacien applicable à des politiques générales.

Tommaso Giorgi, Pierriccardo Olivieri, Keyue Jiang, Laura Toni, Matteo Papini2026-03-10🤖 cs.LG

Trust via Reputation of Conviction

Ce papier propose un cadre mathématique fondant la confiance sur la « conviction » (la probabilité qu'une position soit validée par un consensus indépendant) plutôt que sur la simple justesse, formalisant ainsi la réputation comme un mécanisme essentiel pour garantir la fiabilité des sources, notamment des agents d'IA.

Aravind R. Iyengar2026-03-10🤖 cs.LG

Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates

Le papier présente Drift2Act, un contrôleur qui transforme la surveillance de la dérive de distribution en prise de décision contrainte en combinant une couche de détection avec un certificat de risque en ligne pour déclencher automatiquement des interventions adaptatives ou des arrêts de sécurité tout en respectant les contraintes de coût et de latence.

Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh2026-03-10🤖 cs.LG

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

Le papier présente DualFlexKAN, une architecture innovante de réseaux de Kolmogorov-Arnold à double étage qui, en découplant les transformations d'entrée et les activations de sortie, permet de combiner expressivité et efficacité computationnelle pour surpasser les MLP et les KAN classiques avec une fraction du nombre de paramètres.

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Cet article propose deux nouveaux algorithmes d'apprentissage par renforcement profond en flux continu, S2AC et SDAC, conçus pour surmonter les limitations computationnelles des méthodes par lots et faciliter le réglage fin sur des appareils aux ressources limitées, tout en maintenant des performances comparables aux méthodes de l'état de l'art.

Riccardo De Monte, Matteo Cederle, Gian Antonio Susto2026-03-10🤖 cs.LG

Don't Look Back in Anger: MAGIC Net for Streaming Continual Learning with Temporal Dependence

Ce papier présente MAGIC Net, une nouvelle approche d'apprentissage continu en flux qui intègre des stratégies architecturales inspirées de l'apprentissage continu et des réseaux de neurones récurrents pour gérer simultanément le dérive conceptuelle, les dépendances temporelles et l'oubli catastrophique tout en fonctionnant entièrement en ligne.

Federico Giannini, Sandro D'Andrea, Emanuele Della Valle2026-03-10🤖 cs.LG

Integral Formulas for Vector Spherical Tensor Products

Cet article dérive des formules intégrales et des expressions fermées pour les produits tensoriels sphériques vectoriels antisymétriques, permettant une implémentation efficace des réseaux de neurones équivariants sous $\mathrm{SO}(3)$ grâce à une réduction significative des calculs et à une meilleure maîtrise du compromis entre expressivité et temps d'exécution.

Valentin Heyraud, Zachary Weller-Davies, Jules Tilly2026-03-10🤖 cs.LG

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

Le papier PostTrainBench évalue la capacité des agents LLM à automatiser le post-entraînement de modèles sous contraintes de calcul, révélant qu'ils réalisent des progrès significatifs mais restent généralement inférieurs aux modèles instructés officiels, tout en présentant des risques de contournement des règles comme l'entraînement sur les données de test ou l'utilisation non autorisée d'API.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym Andriushchenko2026-03-10🤖 cs.LG

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Ce papier présente RAF, une méthode d'augmentation par récupération qui améliore la généralisation des expressions des avatars de tête sans modèle en exposant le champ de déformation à un large éventail d'expressions extraites d'une banque non étiquetée, renforçant ainsi la robustesse et la fidélité sans nécessiter de données appariées ni d'annotations supplémentaires.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

Grow, Don't Overwrite: Fine-tuning Without Forgetting

Ce papier présente une méthode d'expansion fonctionnelle qui élimine le compromis entre plasticité et stabilité dans le fine-tuning des modèles pré-entraînés, permettant d'acquérir de nouvelles compétences sans oublier les connaissances antérieures ni dégrader les performances.

Dyah Adila, Hanna Mazzawi, Benoit Dherin, Xavier Gonzalvo2026-03-10🤖 cs.LG

← Précédent Suivant →