FLOWR.root: A flow matching based foundation model for joint multi-purpose structure-aware 3D ligand generation and affinity prediction

Le modèle FLOWR.root est une architecture fondée sur l'appariement de flux et équivariante SE(3) qui génère de manière conjointe des ligands 3D structurellement adaptés et prédit leur affinité de liaison, offrant ainsi une solution performante et adaptable pour la conception de médicaments depuis l'identification de hits jusqu'à l'optimisation des leads.

Julian Cremer, Tuan Le, Mohammad M. Ghahremanpour + 3 more2026-03-05🤖 cs.LG

Learning Explicit Single-Cell Dynamics Using ODE Representations

Ce papier propose Cell-MNN, une architecture de réseaux de neurones mécanistes encodant-decodant qui modélise la dynamique de différenciation cellulaire via des équations différentielles ordinaires (ODE) pour apprendre de manière interprétable les interactions géniques tout en surpassant les méthodes actuelles en termes d'efficacité et d'évolutivité.

Jan-Philipp von Bassewitz, Adeel Pervez, Marco Fumero + 3 more2026-03-05🤖 cs.LG

ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL Problems

Le papier présente ELMUR, une architecture de transformateur dotée d'une mémoire externe structurée et mise à jour localement par couche, qui résout efficacement les problèmes d'apprentissage par renforcement à long horizon et sous observabilité partielle en surpassant significativement les méthodes de référence sur des tâches robotiques complexes.

Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov2026-03-05🤖 cs.AI

The Geometry of Reasoning: Flowing Logics in Representation Space

Cet article propose un cadre géométrique novateur qui modélise le raisonnement des grands modèles de langage comme des flux lisses dans l'espace des représentations, démontrant que l'apprentissage par prédiction de token suffit à internaliser des invariants logiques sous forme de géométrie d'ordre supérieur, indépendamment de l'architecture ou des données d'entraînement.

Yufa Zhou, Yixiao Wang, Xunjian Yin + 2 more2026-03-05🤖 cs.AI

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

Cet article présente Gym-TORAX, un logiciel open-source en Python qui permet de créer des environnements d'apprentissage par renforcement compatibles avec les bibliothèques standard pour simuler et optimiser le contrôle des plasmas dans les tokamaks, en s'appuyant sur le simulateur TORAX et en offrant dès à présent un scénario de démarrage pour ITER.

Antoine Mouchamps, Arthur Malherbe, Adrien Bolland + 1 more2026-03-05🤖 cs.LG

Composition-Grounded Data Synthesis for Visual Reasoning

Cet article présente COGS, un cadre de synthèse de données ancré sur la composition qui améliore les capacités de raisonnement des modèles de langage multimodaux préentraînés en décomposant et recomposant systématiquement des questions semences pour générer des données synthétiques, permettant ainsi des gains significatifs sur des tâches de raisonnement visuel complexes comme l'analyse de graphiques et de documents web.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

AMiD: Knowledge Distillation for LLMs with αα-mixture Assistant Distribution

Ce papier propose AMiD, un cadre unifié de distillation de connaissances pour les grands modèles de langage qui introduit une distribution d'assistant à mélange α\alpha généralisée et une famille de divergences optimisées, permettant ainsi de surmonter les limitations de stabilité et de performance des méthodes antérieures grâce à un espace de distributions plus vaste et théoriquement fondé.

Donghyeok Shin, Yeongmin Kim, Suhyeon Jo + 2 more2026-03-05🤖 cs.AI

Key and Value Weights Are Probably All You Need: On the Necessity of the Query, Key, Value weight Triplet in Self-Attention Transformers

Cette étude démontre théoriquement et empiriquement que les poids de requête dans les mécanismes d'attention des transformateurs sont redondants et peuvent être remplacés par une matrice identité, réduisant ainsi les paramètres de 25 % tout en maintenant les performances et en offrant une régularisation implicite.

Marko Karbevski, Antonij Mijoski2026-03-05🤖 cs.AI

Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Cet article démontre que l'induction implicite de l'algorithme Adam en mode par échantillon sur des données séparables peut s'écarter de son comportement en lot complet pour converger vers un classifieur à marge maximale 2\ell_2, contrairement à la tendance \ell_\infty observée dans le régime par lot complet, tandis que l'optimiseur Signum conserve une convergence invariante vers la marge \ell_\infty quelle que soit la taille du lot.

Beomhan Baek, Minhak Song, Chulhee Yun2026-03-05🤖 cs.AI

CNFP: Optimizing Cloud-Native Network Function Placement with Diffusion Models on the Cloud Continuum

Cette étude propose un cadre théorique et algorithmique basé sur les modèles de diffusion pour optimiser le placement des fonctions réseau natifs du cloud dans le continuum cloud-continuum, en reformulant le problème comme une tâche de génération conditionnelle de graphes qui surpasse les approches classiques en termes de scalabilité, de respect des contraintes et de rapidité d'inférence.

Álvaro Vázquez Rodríguez, Manuel Fernández-Veiga, Carlos Giraldo-Rodríguez2026-03-05🤖 cs.LG

Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks

Cette étude démontre que les modèles audio auto-supervisés performants dans des tâches de perception auditive développent des représentations internes plus proches de l'activité cérébrale humaine, suggérant que cette similarité biologique émerge naturellement de l'apprentissage de la reconstruction de données audio.

Leonardo Pepino, Pablo Riera, Juan Kamienkowski + 1 more2026-03-05🤖 cs.LG