cs.LG articles | Gist.Science

Even Faster Kernel Matrix Linear Algebra via Density Estimation

Ce papier propose des algorithmes plus rapides pour des tâches d'algèbre linéaire sur les matrices de noyau en utilisant l'estimation de densité par noyau, améliorant ainsi la dépendance en la taille des données et l'erreur par rapport aux méthodes existantes, tout en établissant des bornes inférieures sur la complexité de ces problèmes.

Rikhav Shah, Sandeep Silwal, Haike Xu2026-03-05🤖 cs.LG

FLOWR.root: A flow matching based foundation model for joint multi-purpose structure-aware 3D ligand generation and affinity prediction

Le modèle FLOWR.root est une architecture fondée sur l'appariement de flux et équivariante SE(3) qui génère de manière conjointe des ligands 3D structurellement adaptés et prédit leur affinité de liaison, offrant ainsi une solution performante et adaptable pour la conception de médicaments depuis l'identification de hits jusqu'à l'optimisation des leads.

Julian Cremer, Tuan Le, Mohammad M. Ghahremanpour + 3 more2026-03-05🤖 cs.LG

Learning Explicit Single-Cell Dynamics Using ODE Representations

Ce papier propose Cell-MNN, une architecture de réseaux de neurones mécanistes encodant-decodant qui modélise la dynamique de différenciation cellulaire via des équations différentielles ordinaires (ODE) pour apprendre de manière interprétable les interactions géniques tout en surpassant les méthodes actuelles en termes d'efficacité et d'évolutivité.

Jan-Philipp von Bassewitz, Adeel Pervez, Marco Fumero + 3 more2026-03-05🤖 cs.LG

ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL Problems

Le papier présente ELMUR, une architecture de transformateur dotée d'une mémoire externe structurée et mise à jour localement par couche, qui résout efficacement les problèmes d'apprentissage par renforcement à long horizon et sous observabilité partielle en surpassant significativement les méthodes de référence sur des tâches robotiques complexes.

Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov2026-03-05🤖 cs.AI

Value Flows

Le papier présente Value Flows, une nouvelle méthode d'apprentissage par renforcement distributionnel qui utilise des modèles de flux pour estimer les distributions complètes des retours futurs et identifier l'incertitude des états, permettant ainsi d'améliorer significativement les taux de réussite sur divers benchmarks.

Perry Dong, Chongyi Zheng, Chelsea Finn + 2 more2026-03-05🤖 cs.AI

The Geometry of Reasoning: Flowing Logics in Representation Space

Cet article propose un cadre géométrique novateur qui modélise le raisonnement des grands modèles de langage comme des flux lisses dans l'espace des représentations, démontrant que l'apprentissage par prédiction de token suffit à internaliser des invariants logiques sous forme de géométrie d'ordre supérieur, indépendamment de l'architecture ou des données d'entraînement.

Yufa Zhou, Yixiao Wang, Xunjian Yin + 2 more2026-03-05🤖 cs.AI

Topological Alignment of Shared Vision-Language Embedding Space

Ce papier présente ToMCLIP, un cadre d'apprentissage qui améliore l'alignement des modèles vision-langage multilingues en intégrant des contraintes topologiques via l'homologie persistante pour préserver la géométrie globale de l'espace d'embedding et renforcer les performances en zéro-shot et en récupération multilingue.

Junwon You, Dasol Kang, Jae-Hun Jung2026-03-05🤖 cs.AI

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

Cet article présente Gym-TORAX, un logiciel open-source en Python qui permet de créer des environnements d'apprentissage par renforcement compatibles avec les bibliothèques standard pour simuler et optimiser le contrôle des plasmas dans les tokamaks, en s'appuyant sur le simulateur TORAX et en offrant dès à présent un scénario de démarrage pour ITER.

Antoine Mouchamps, Arthur Malherbe, Adrien Bolland + 1 more2026-03-05🤖 cs.LG

Circuit Insights: Towards Interpretability Beyond Activations

Ce papier présente WeightLens et CircuitLens, deux méthodes complémentaires qui surpassent les approches d'interprétabilité basées sur les activations en analysant directement les poids et les interactions entre composants pour permettre une découverte de circuits mécaniques plus robuste, évolutive et indépendante des données.

Elena Golimblevskaia, Aakriti Jain, Bruno Puri + 3 more2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

Cet article présente COGS, un cadre de synthèse de données ancré sur la composition qui améliore les capacités de raisonnement des modèles de langage multimodaux préentraînés en décomposant et recomposant systématiquement des questions semences pour générer des données synthétiques, permettant ainsi des gains significatifs sur des tâches de raisonnement visuel complexes comme l'analyse de graphiques et de documents web.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

A Geometry-Based View of Mahalanobis OOD Detection

Cette étude révèle que la fiabilité de la détection hors distribution par Mahalanobis dépend fortement de la géométrie des représentations, et propose une normalisation radialement ajustée basée sur la dimensionnalité intrinsèque locale pour optimiser les performances.

Denis Janiak, Jakub Binkowski, Tomasz Kajdanowicz2026-03-05🤖 cs.LG

AMiD: Knowledge Distillation for LLMs with $α$ -mixture Assistant Distribution

Ce papier propose AMiD, un cadre unifié de distillation de connaissances pour les grands modèles de langage qui introduit une distribution d'assistant à mélange $\alpha$ généralisée et une famille de divergences optimisées, permettant ainsi de surmonter les limitations de stabilité et de performance des méthodes antérieures grâce à un espace de distributions plus vaste et théoriquement fondé.

Donghyeok Shin, Yeongmin Kim, Suhyeon Jo + 2 more2026-03-05🤖 cs.AI

Buzz, Choose, Forget: A Meta-Bandit Framework for Bee-Like Decision Making

Cette étude présente MAYA, un modèle d'apprentissage par imitation séquentiel basé sur les bandits manchots qui reproduit avec succès les décisions de butinage des abeilles en tenant compte de leur mémoire limitée, surpassant ainsi les modèles existants tout en offrant une interprétabilité précieuse pour les applications écologiques.

Emmanuelle Claeys, Elena Kerjean, Jean-Michel Loubes2026-03-05🤖 cs.LG

Key and Value Weights Are Probably All You Need: On the Necessity of the Query, Key, Value weight Triplet in Self-Attention Transformers

Cette étude démontre théoriquement et empiriquement que les poids de requête dans les mécanismes d'attention des transformateurs sont redondants et peuvent être remplacés par une matrice identité, réduisant ainsi les paramètres de 25 % tout en maintenant les performances et en offrant une régularisation implicite.

Marko Karbevski, Antonij Mijoski2026-03-05🤖 cs.AI

Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Cet article démontre que l'induction implicite de l'algorithme Adam en mode par échantillon sur des données séparables peut s'écarter de son comportement en lot complet pour converger vers un classifieur à marge maximale $\ell_2$ , contrairement à la tendance $\ell_\infty$ observée dans le régime par lot complet, tandis que l'optimiseur Signum conserve une convergence invariante vers la marge $\ell_\infty$ quelle que soit la taille du lot.

Beomhan Baek, Minhak Song, Chulhee Yun2026-03-05🤖 cs.AI

CNFP: Optimizing Cloud-Native Network Function Placement with Diffusion Models on the Cloud Continuum

Cette étude propose un cadre théorique et algorithmique basé sur les modèles de diffusion pour optimiser le placement des fonctions réseau natifs du cloud dans le continuum cloud-continuum, en reformulant le problème comme une tâche de génération conditionnelle de graphes qui surpasse les approches classiques en termes de scalabilité, de respect des contraintes et de rapidité d'inférence.

Álvaro Vázquez Rodríguez, Manuel Fernández-Veiga, Carlos Giraldo-Rodríguez2026-03-05🤖 cs.LG

NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization

Le papier présente NeuCLIP, un cadre d'optimisation novateur qui reformule la perte de contraste via l'analyse convexe et transforme l'estimation du terme de normalisation en l'apprentissage d'un réseau de neurones compact, permettant ainsi un entraînement CLIP plus efficace et performant à grande échelle sans dépendre de gros lots de données.

Xiyuan Wei, Chih-Jen Lin, Tianbao Yang2026-03-05🤖 cs.LG

Implicit Bias of the JKO Scheme

Cet article caractérise le biais implicite du schéma JKO au second ordre en montrant qu'il équivaut à un flot de gradient de Wasserstein sur une énergie modifiée qui inclut un terme de courbure métrique, expliquant ainsi des biais connus tels que l'information de Fisher pour l'entropie.

Peter Halmos, Boris Hanin2026-03-05🤖 cs.AI

Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks

Cette étude démontre que les modèles audio auto-supervisés performants dans des tâches de perception auditive développent des représentations internes plus proches de l'activité cérébrale humaine, suggérant que cette similarité biologique émerge naturellement de l'apprentissage de la reconstruction de données audio.

Leonardo Pepino, Pablo Riera, Juan Kamienkowski + 1 more2026-03-05🤖 cs.LG

EnECG: Efficient Ensemble Learning for Electrocardiogram Multi-task Foundation Model

EnECG est un cadre d'apprentissage ensembliste efficace qui combine plusieurs modèles fondation spécialisés via un mécanisme de mélange d'experts et une adaptation légère (LoRA) pour améliorer l'analyse multi-tâches des électrocardiogrammes tout en réduisant les coûts computationnels.

Yuhao Xu, Xiaoda Wang, Jiaying Lu + 6 more2026-03-05🤖 cs.AI

← Précédent Suivant →

cs.LG