cs.LG articles | Gist.Science

Latent Poincaré Shaping for Agentic Reinforcement Learning

L'article propose LaPha, une méthode entraînant des agents LLM de type AlphaZero dans un espace latent de Poincaré pour exploiter sa capacité exponentielle et guider la recherche par des récompenses basées sur la géodésique hyperbolique, permettant ainsi d'atteindre des performances exceptionnelles sur des benchmarks mathématiques comme MATH-500 et AIME.

Hanchen Xia, Baoyou Chen, Zelin Zang, Yutang Ge, Guojiang Zhao, Siyu Zhu2026-03-09🤖 cs.LG

Validating Interpretability in siRNA Efficacy Prediction: A Perturbation-Based, Dataset-Aware Protocol

Cet article propose un protocole de validation par perturbation pour s'assurer que les cartes de saillance utilisées dans la prédiction de l'efficacité des siRNA sont fidèles avant leur application thérapeutique, révélant ainsi des modes d'échec critiques et introduisant un régularisateur biologique (BioPrior) pour améliorer leur fiabilité.

Zahra Khodagholi, Niloofar Yousefi2026-03-09🤖 cs.LG

Towards Autonomous Mathematics Research

Ce travail présente Aletheia, un agent de recherche mathématique autonome capable de générer, vérifier et réviser des solutions de bout en bout, démontrant ainsi des avancées significatives allant de la résolution de problèmes olympiques à la production de résultats de recherche doctorale et à la collaboration humain-IA.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

Stochastic Parroting in Temporal Attention -- Regulating the Diagonal Sink

Cet article analyse le biais de « noyau diagonal » dans les mécanismes d'attention temporelle des modèles spatio-temporels, propose des bornes de sensibilité théoriques pour expliquer ce phénomène et démontre expérimentalement l'efficacité de méthodes de régularisation pour y remédier.

Victoria Hankemeier, Malte Schilling2026-03-09🤖 cs.LG

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Le papier présente SWE-MiniSandbox, une méthode légère sans conteneurs qui utilise des mécanismes au niveau du noyau et une mise en cache prédictive pour permettre un entraînement évolutif d'agents d'ingénierie logicielle par apprentissage par renforcement, réduisant ainsi considérablement l'utilisation du disque et le temps de préparation de l'environnement par rapport aux pipelines traditionnels basés sur des conteneurs.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

Ce papier présente MiDAS, un système open-source et agnostique de plateforme permettant l'acquisition multimodale non invasive et synchronisée de données pour la chirurgie robotique mini-invasive, validé sur des robots Raven-II et da Vinci Xi avec des jeux de données annotés incluant des tâches de suture de hernie.

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

Cette étude propose AHSIV, un cadre de sélection de modèles adaptatif qui intègre la dégradation des métriques selon l'horizon de prévision et la classification de la demande intermittente pour optimiser la prise de décision opérationnelle dans des environnements commerciaux hétérogènes.

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

GaiaFlow: Semantic-Guided Diffusion Tuning for Carbon-Frugal Search

Le papier présente GaiaFlow, un cadre innovant qui optimise l'équilibre entre la précision de la recherche et la durabilité environnementale en utilisant un réglage de diffusion guidé sémantiquement et des protocoles d'arrêt adaptatif pour réduire l'empreinte carbone des systèmes de recherche neuronaux.

Rong Fu, Jia Yee Tan, Chunlei Meng, Shuo Yin, Xiaowen Ma, Wangyu Wu, Muge Qi, Guangzhen Yao, Zhaolu Kang, Zeli Su, Simon Fong2026-03-09🤖 cs.LG

MolCrystalFlow: Molecular Crystal Structure Prediction via Flow Matching

Le papier présente MolCrystalFlow, un modèle génératif basé sur l'appariement de flux qui prédit les structures de cristaux moléculaires en traitant les molécules comme des corps rigides et en apprenant conjointement les paramètres du réseau cristallin, les orientations et les positions des centres de masse sur leurs variétés riemanniennes respectives.

Cheng Zeng, Harry W. Sullivan, Thomas Egg, Maya M. Martirossyan, Philipp Höllmer, Jirui Jin, Richard G. Hennig, Adrian Roitberg, Stefano Martiniani, Ellad B. Tadmor, Mingjie Liu2026-03-09🔬 cond-mat.mtrl-sci

The Limits of Long-Context Reasoning in Automated Bug Fixing

Cette étude révèle que, malgré des performances prometteuses dans des flux de travail agentiques, les modèles de langage actuels échouent à raisonner efficacement sur de longs contextes pour la correction de bugs, car leur succès repose davantage sur la décomposition des tâches en étapes à court contexte que sur une véritable capacité de raisonnement étendu.

Ravi Raju, Mengmeng Ji, Shubhangi Upasani, Bo Li, Urmish Thakker2026-03-09🤖 cs.LG

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

Le papier propose FLoRG, un cadre d'apprentissage fédéré qui améliore l'efficacité du fine-tuning des grands modèles de langage en agrégeant une matrice de Gram à faible rang unique et en utilisant une alignement de Procruste pour éliminer les erreurs d'agrégation et la dérive de décomposition, réduisant ainsi considérablement la surcharge de communication tout en augmentant la précision des tâches.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-09🤖 cs.AI

Conditionally Site-Independent Neural Evolution of Antibody Sequences

Le papier présente CoSiNE, un modèle d'évolution neuronale conditionnellement indépendant du site qui combine la puissance des réseaux de neurones avec les dynamiques évolutives pour prédire les effets des variants d'anticorps et optimiser leur affinité de liaison, surpassant ainsi les modèles de langage actuels.

Stephen Zhewen Lu, Aakarsh Vermani, Kohei Sanno, Jiarui Lu, Frederick A Matsen, Milind Jagota, Yun S. Song2026-03-09🤖 cs.LG

What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

Cette étude démontre, grâce à une validation autonome de 141 hypothèses, que les modèles de fondation biologiques apprennent une structure géométrique et topologique réelle et partagée, bien que localisée principalement dans les tissus immunitaires, qui dépasse la simple métrique euclidienne pour capturer des relations biologiques significatives.

Ihor Kendiukhov2026-03-09🤖 cs.LG

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Ce papier présente EMPO², un cadre d'apprentissage par renforcement hybride intégrant une mémoire pour l'exploration et combinant des mises à jour on- et off-policy, qui améliore significativement les performances et l'adaptabilité des agents LLM sur des tâches complexes et hors distribution.

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang2026-03-09🤖 cs.AI

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Cet article démontre que l'effondrement de modalité dans les LLM multimodaux résulte d'un décodage inadapté où la perte d'information est limitée par la divergence distributionnelle et la sensibilité du modèle, prouvant que l'objectif d'entraînement, et non l'architecture, détermine quelles informations non textuelles deviennent accessibles.

Jayadev Billa2026-03-09🤖 cs.AI

Coverage-Aware Web Crawling for Domain-Specific Supplier Discovery via a Web--Knowledge--Web Pipeline

Cet article propose un pipeline Web-Knowledge-Web itératif qui combine l'extraction de connaissances par LLM et l'estimation de couverture écologique pour découvrir de manière efficace et précise les PME du secteur de l'équipement semi-conducteur, en réduisant significativement le nombre de pages nécessaires par rapport aux méthodes de base.

Yijiashun Qi, Yijiazhen Qi, Tanmay Wagh2026-03-09🤖 cs.LG

Weight Updates as Activation Shifts: A Principled Framework for Steering

Ce papier propose un cadre théorique établissant l'équivalence entre les mises à jour de poids et les décalages d'activation, permettant de concevoir une méthode de « post-block steering » qui atteint des performances proches du réglage fin complet avec une fraction infime de paramètres, tout en surpassant les méthodes d'adaptation existantes grâce à une approche d'adaptation conjointe.

Dyah Adila, John Cooper, Alexander Yun, Avi Trost, Frederic Sala2026-03-09🤖 cs.LG

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Cet article propose une décomposition fonctionnelle en anneau de tenseurs reparamétrée, utilisant des représentations neuronales implicites et une analyse fréquentielle pour améliorer la récupération de données multidimensionnelles continues, surpassant ainsi les méthodes existantes dans des tâches telles que l'inpainting et la super-résolution.

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Cet article propose un cadre acoustique compact combinant un encodeur CNN multi-branches, une unité de mémoire Legendre (LMU) pour la modélisation temporelle efficace et une fusion d'ensemble postérieure calibrée, afin d'améliorer la classification des cris de nourrissons dans des scénarios inter-domaines malgré les défis liés aux signaux non stationnaires et aux décalages de distribution.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin Bouchard2026-03-09🤖 cs.LG

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Ce papier présente Whisper-RIR-Mega, un nouveau jeu de données apparié de parole propre et réverbérée basé sur LibriSpeech et le corpus RIR-Mega, conçu pour évaluer et améliorer la robustesse des modèles de reconnaissance automatique de la parole face aux acoustiques de salle.

Mandip Goswami2026-03-09🤖 cs.AI

← Précédent Suivant →