cs.LG articles | Gist.Science

Operator Learning Using Weak Supervision from Walk-on-Spheres

Cet article présente WoS-NO, une méthode d'apprentissage d'opérateurs neuronaux qui utilise la méthode Walk-on-Spheres pour générer des supervisions faibles et peu coûteuses, permettant ainsi d'entraîner des solveurs d'EDP sans données précalculées ni calculs de dérivées d'ordre supérieur, tout en offrant une meilleure précision, une vitesse d'entraînement accrue et une réduction de la consommation mémoire par rapport aux approches traditionnelles.

Hrishikesh Viswanath, Hong Chul Nam, Xi Deng + 3 more2026-03-04🤖 cs.LG

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

Ce papier présente BiCAM, une méthode d'activation de classe bidirectionnelle pour les Vision Transformers qui capture à la fois les contributions positives et négatives afin d'améliorer l'interprétabilité et de détecter les exemples adverses sans réentraînement.

Qin Su, Tie Luo2026-03-04🤖 cs.AI

Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning

Cet article propose la Coupled Policy Optimization, une méthode qui régule la diversité entre les politiques d'un ensemble via des contraintes KL pour améliorer l'efficacité de l'exploration et la stabilité de l'apprentissage dans le renforcement à grande échelle, surpassant ainsi les approches de l'état de l'art.

Naoki Shitanda, Motoki Omura, Tatsuya Harada + 1 more2026-03-04🤖 cs.AI

Hyperparameter Trajectory Inference with Conditional Lagrangian Optimal Transport

Cet article propose une méthode d'inférence de trajectoires d'hyperparamètres basée sur le transport optimal lagrangien conditionnel pour construire un modèle de substitution capable de prédire les sorties d'un réseau de neurones à des réglages d'hyperparamètres non observés, évitant ainsi le besoin de réentraînement coûteux.

Harry Amad, Mihaela van der Schaar2026-03-04🤖 cs.AI

RxnNano:Training Compact LLMs for Chemical Reaction and Retrosynthesis Prediction via Hierarchical Curriculum Learning

Le papier présente RxnNano, un modèle de langage compact de 0,5 milliard de paramètres qui surpasse les modèles bien plus grands en prédisant les réactions chimiques et la rétrosynthèse grâce à un apprentissage par curriculum hiérarchique, une cohérence chimique latente et l'invariance par permutation des cartes d'atomes.

Ran Li, Shimin Di, Haowei LI + 4 more2026-03-04🤖 cs.AI

ATPO: Adaptive Tree Policy Optimization for Multi-Turn Medical Dialogue

Cet article propose l'ATPO, un algorithme d'optimisation de politique adaptatif et incertain qui améliore l'alignement des grands modèles de langage pour les dialogues médicaux multi-tours en allouant dynamiquement les ressources de simulation aux états incertains, surpassant ainsi des modèles beaucoup plus grands sur plusieurs benchmarks.

Ruike Cao, Shaojie Bai, Fugen Yao + 3 more2026-03-04🤖 cs.AI

Is Retraining-Free Enough? The Necessity of Router Calibration for Efficient MoE Compression

Ce papier démontre que la calibration légère des routeurs, via une méthode de distillation d' connaissances, est essentielle pour rétablir les performances des modèles MoE compressés sans réentraînement, en résolvant le désalignement entre les routeurs et les experts modifiés.

Sieun Hyeon, Jaeyoung Do2026-03-04🤖 cs.AI

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

Cette étude démontre que l'évolution durable des modèles de langage par auto-jeu nécessite un pipeline d'auto-synthèse garantissant un gain d'information apprenable croissant, obtenu grâce à une co-évolution asymétrique, une croissance des capacités et une recherche proactive d'informations.

Wei Liu, Siya Qi, Yali Du + 1 more2026-03-04💬 cs.CL

NExT-Guard: Training-Free Streaming Safeguard without Token-Level Labels

NExT-Guard est un cadre de sécurité sans entraînement qui permet une surveillance en temps réel des flux de génération de modèles de langage en exploitant des caractéristiques latentes interprétables issues de sparse autoencoders, éliminant ainsi le besoin de labels au niveau des tokens tout en surpassant les méthodes existantes.

Junfeng Fang, Nachuan Chen, Houcheng Jiang + 5 more2026-03-04🤖 cs.AI

Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting

Le papier présente TimeGS, un cadre novateur qui transforme la prévision de séries temporelles en un problème de rendu génératif 2D via l'utilisation de splatting gaussien pour surmonter les limites des approches existantes en assurant la continuité chronologique et une résolution adaptative.

Yixin Wang, Yifan Hu, Peiyuan Liu + 3 more2026-03-04🤖 cs.AI

MedFeat: Model-Aware and Explainability-Driven Feature Engineering with LLMs for Clinical Tabular Prediction

Le papier présente MedFeat, un cadre d'ingénierie de fonctionnalités alimenté par les LLMs qui intègre la connaissance médicale, la conscience du modèle et l'explicabilité SHAP pour améliorer de manière stable les prédictions cliniques tabulaires et découvrir des caractéristiques robustes et cliniquement pertinentes.

Zizheng Zhang, Yiming Li, Justin Xu + 6 more2026-03-04🤖 cs.AI

MedCalc-Bench Doesn't Measure What You Think: A Benchmark Audit and the Case for Open-Book Evaluation

Cet article remet en cause la pertinence du benchmark MedCalc-Bench en révélant des erreurs dans ses implémentations, en démontrant que l'accès aux spécifications des calculateurs (« open-book ») permet d'atteindre des performances supérieures à celles des systèmes à apprentissage par renforcement, et en concluant que ce benchmark évalue principalement la mémorisation de formules et la précision arithmétique plutôt que le raisonnement clinique.

Artus Krohn-Grimberghe2026-03-04🤖 cs.AI

Characterizing and Predicting Wildfire Evacuation Behavior: A Dual-Stage ML Approach

En intégrant des méthodes d'apprentissage automatique non supervisé et supervisé à une vaste enquête menée auprès de résidents de la Californie, du Colorado et de l'Oregon, cette étude identifie des typologies comportementales distinctes liées à l'évacuation des incendies de forêt et démontre que, si le mode de transport peut être prédit avec fiabilité à partir des caractéristiques des ménages, le moment de l'évacuation reste difficile à classifier en raison de sa dépendance aux conditions dynamiques du feu.

Sazzad Bin Bashar Polock, Anandi Dutta, Subasish Das2026-03-04🤖 cs.AI

Subspace Geometry Governs Catastrophic Forgetting in Low-Rank Adaptation

Cet article établit une théorie géométrique démontrant que l'oubli catastrophique dans l'adaptation à faible rang (LoRA) est régi par les angles entre les sous-espaces des gradients, révélant une invariance approximative vis-à-vis du rang lorsque ces sous-espaces sont suffisamment orthogonaux.

Brady Steele2026-03-04🤖 cs.LG

Scaling Reward Modeling without Human Supervision

Cette étude démontre la faisabilité et l'efficacité d'une approche de modélisation des récompenses entièrement non supervisée, utilisant des préférences apprises à partir de corpus web massifs pour améliorer les performances en mathématiques et la sécurité des modèles, surpassant ou égalant les méthodes supervisées traditionnelles sans nécessiter d'annotations humaines coûteuses.

Jingxuan Fan, Yueying Li, Zhenting Qi + 4 more2026-03-04🤖 cs.LG

Efficient Sparse Selective-Update RNNs for Long-Range Sequence Modeling

Ce papier présente les suRNNs, une architecture de réseaux de neurones récurrents non linéaires qui utilise des commutateurs binaires au niveau des neurones pour mettre à jour sélectivement la mémoire uniquement lors d'événements informatifs, permettant ainsi de modéliser efficacement des séquences à long terme avec une performance comparable aux Transformers tout en conservant une efficacité computationnelle supérieure.

Bojian Yin, Shurong Wang, Haoyu Tan + 3 more2026-03-04🤖 cs.LG

Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat

Ce papier démontre que l'apprentissage de portes d'attention parcimonieuses est inefficace car les projections Q/K/V s'adaptent au masquage imposé, un phénomène de « routage absorbé » qui rend les portes aléatoires aussi performantes que les portes apprises et favorise ainsi les approches post-hoc.

Keston Aquino-Michaels2026-03-04💬 cs.CL

Neural Paging: Learning Context Management Policies for Turing-Complete Agents

Cet article présente Neural Paging, une architecture hiérarchique qui résout le goulot d'étranglement de la fenêtre de contexte des agents LLM en découplant le raisonnement symbolique de la gestion des ressources via un contrôleur de pages apprenant à approximer l'optimalité de Belady, réduisant ainsi la complexité asymptotique du raisonnement à long terme de $O(N^2)$ à $O(N \cdot K^2)$ .

Liang Chen, Qi Liu2026-03-04🤖 cs.AI

Safety Training Persists Through Helpfulness Optimization in LLM Agents

Cette étude révèle que, contrairement aux attentes, l'entraînement à la sécurité persiste lors d'un optimisation ultérieure de l'utilité chez les agents LLM, et que toutes les configurations d'entraînement convergent vers une frontière de Pareto linéaire sans parvenir à une stratégie optimale combinant les deux objectifs.

Benjamin Plaut2026-03-04💬 cs.CL

Generalized Discrete Diffusion with Self-Correction

Cet article présente le modèle SCDD, une approche de diffusion discrète généralisée qui reformule l'auto-correction préentraînée via des transitions d'état explicites en temps discret, permettant un décodage parallèle plus efficace tout en préservant la qualité de génération.

Linxuan Wang, Ziyi Wang, Yikun Bai + 3 more2026-03-04🤖 cs.AI

← Précédent Suivant →