cs.LG articles | Gist.Science

FlexGuard: Continuous Risk Scoring for Strictness-Adaptive LLM Content Moderation

Le papier présente FlexGuard, un modérateur de contenu LLM basé sur un score de risque continu et calibré qui surpasse les approches binaires existantes en offrant une robustesse accrue face aux variations de sévérité des règles de modération, grâce à l'introduction du benchmark FlexBench et à une optimisation d'alignement des risques.

Zhihao Ding, Jinming Li, Ze Lu + 1 more2026-03-04🤖 cs.AI

A Boundary Integral-based Neural Operator for Mesh Deformation

Cet article propose une méthode de déformation de maillage efficace et précise, nommée BINO, qui combine une représentation par intégrale de bord avec un opérateur neuronal pour résoudre des problèmes d'élasticité linéaire tout en garantissant la qualité du maillage et l'efficacité computationnelle.

Zhengyu Wu, Jun Liu, Wei Wang2026-03-04🤖 cs.LG

Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies

Cet article propose une extension théorique de l'apprentissage par renforcement hors ligne aux politiques paramétrées sur des espaces d'actions larges ou continus en surmontant les limitations des méthodes antérieures grâce à une analyse unifiant la descente de miroir, le gradient de politique naturel et l'apprentissage par imitation.

Xiang Li, Yuheng Zhang, Nan Jiang2026-03-04🤖 cs.AI

What Is the Alignment Tax?

Cet article propose une théorie géométrique formalisant l'« alignement tax » comme une fonction de l'angle entre les sous-espaces de sécurité et de capacité, établissant une frontière de Pareto récursive et une loi d'échelle qui décompose ce compromis en une composante irréductible et un résidu décroissant avec la dimension du modèle.

Robin Young2026-03-04📈 econ

A medical coding language model trained on clinical narratives from a population-wide cohort of 1.8 million patients

Entraîné sur les dossiers de 1,8 million de patients danois, un modèle de langage a démontré une capacité à automatiser le codage médical et a révélé une sous-déclaration systématique de diagnostics secondaires, soulignant l'importance de ces outils pour améliorer la surveillance épidémiologique et la prise en charge des comorbidités.

Joakim Edin, Sedrah Butt Balaganeshan, Annike Kjølby Kristensen + 3 more2026-03-04🤖 cs.LG

CoPeP: Benchmarking Continual Pretraining for Protein Language Models

Le papier présente CoPeP, un nouveau benchmark évaluant l'apprentissage continu sur les modèles de langage protéiques en utilisant une décennie de données UniProt, et démontre que l'exploitation des métadonnées temporelles et de méthodes d'apprentissage continu améliore significativement les performances par rapport à l'entraînement classique.

Darshan Patil, Pranshu Malviya, Mathieu Reymond + 2 more2026-03-04🤖 cs.LG

IDER: IDempotent Experience Replay for Reliable Continual Learning

Ce papier propose IDER, une méthode de réapprentissage continu novatrice basée sur la propriété d'idempotence qui améliore la fiabilité des prédictions, réduit l'oubli catastrophique et augmente la précision tout en étant compatible avec les méthodes de réentraînement existantes.

Zhanwang Liu, Yuting Li, Haoyuan Gao + 4 more2026-03-04🤖 cs.AI

BornoViT: A Novel Efficient Vision Transformer for Bengali Handwritten Basic Characters Classification

Ce papier présente BornoViT, un modèle Vision Transformer léger et efficace conçu pour classifier les caractères et chiffres manuscrits bengalis avec une grande précision tout en minimisant les besoins computationnels, le rendant idéal pour les environnements aux ressources limitées.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04🤖 cs.LG

Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic

Cet article établit un cadre théorique unifié démontrant que l'optimisation de politique par rapport de groupe (GRPO) est une statistique en U, ce qui permet de prouver son équivalence asymptotique avec un algorithme oracle et de dériver une loi d'échelle universelle pour la sélection de la taille de groupe optimale.

Hongyi Zhou, Kai Ye, Erhan Xu + 4 more2026-03-04📊 stat

Grokking as a Phase Transition between Competing Basins: a Singular Learning Theory Approach

En appliquant la Théorie de l'Apprentissage Singulier (SLT), cette étude interprète le phénomène de « grokking » comme une transition de phase entre des bassins de solutions compétitifs dans les réseaux quadratiques, démontrant que le coefficient d'apprentissage local sert d'indicateur fiable pour suivre la dynamique de généralisation et prédire ces transitions.

Ben Cullen, Sergio Estan-Ruiz, Riya Danait + 1 more2026-03-04📊 stat

Operator Learning Using Weak Supervision from Walk-on-Spheres

Cet article présente WoS-NO, une méthode d'apprentissage d'opérateurs neuronaux qui utilise la méthode Walk-on-Spheres pour générer des supervisions faibles et peu coûteuses, permettant ainsi d'entraîner des solveurs d'EDP sans données précalculées ni calculs de dérivées d'ordre supérieur, tout en offrant une meilleure précision, une vitesse d'entraînement accrue et une réduction de la consommation mémoire par rapport aux approches traditionnelles.

Hrishikesh Viswanath, Hong Chul Nam, Xi Deng + 3 more2026-03-04🤖 cs.LG

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

Ce papier présente BiCAM, une méthode d'activation de classe bidirectionnelle pour les Vision Transformers qui capture à la fois les contributions positives et négatives afin d'améliorer l'interprétabilité et de détecter les exemples adverses sans réentraînement.

Qin Su, Tie Luo2026-03-04🤖 cs.AI

Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning

Cet article propose la Coupled Policy Optimization, une méthode qui régule la diversité entre les politiques d'un ensemble via des contraintes KL pour améliorer l'efficacité de l'exploration et la stabilité de l'apprentissage dans le renforcement à grande échelle, surpassant ainsi les approches de l'état de l'art.

Naoki Shitanda, Motoki Omura, Tatsuya Harada + 1 more2026-03-04🤖 cs.AI

Hyperparameter Trajectory Inference with Conditional Lagrangian Optimal Transport

Cet article propose une méthode d'inférence de trajectoires d'hyperparamètres basée sur le transport optimal lagrangien conditionnel pour construire un modèle de substitution capable de prédire les sorties d'un réseau de neurones à des réglages d'hyperparamètres non observés, évitant ainsi le besoin de réentraînement coûteux.

Harry Amad, Mihaela van der Schaar2026-03-04🤖 cs.AI

RxnNano:Training Compact LLMs for Chemical Reaction and Retrosynthesis Prediction via Hierarchical Curriculum Learning

Le papier présente RxnNano, un modèle de langage compact de 0,5 milliard de paramètres qui surpasse les modèles bien plus grands en prédisant les réactions chimiques et la rétrosynthèse grâce à un apprentissage par curriculum hiérarchique, une cohérence chimique latente et l'invariance par permutation des cartes d'atomes.

Ran Li, Shimin Di, Haowei LI + 4 more2026-03-04🤖 cs.AI

ATPO: Adaptive Tree Policy Optimization for Multi-Turn Medical Dialogue

Cet article propose l'ATPO, un algorithme d'optimisation de politique adaptatif et incertain qui améliore l'alignement des grands modèles de langage pour les dialogues médicaux multi-tours en allouant dynamiquement les ressources de simulation aux états incertains, surpassant ainsi des modèles beaucoup plus grands sur plusieurs benchmarks.

Ruike Cao, Shaojie Bai, Fugen Yao + 3 more2026-03-04🤖 cs.AI

Is Retraining-Free Enough? The Necessity of Router Calibration for Efficient MoE Compression

Ce papier démontre que la calibration légère des routeurs, via une méthode de distillation d' connaissances, est essentielle pour rétablir les performances des modèles MoE compressés sans réentraînement, en résolvant le désalignement entre les routeurs et les experts modifiés.

Sieun Hyeon, Jaeyoung Do2026-03-04🤖 cs.AI

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

Cette étude démontre que l'évolution durable des modèles de langage par auto-jeu nécessite un pipeline d'auto-synthèse garantissant un gain d'information apprenable croissant, obtenu grâce à une co-évolution asymétrique, une croissance des capacités et une recherche proactive d'informations.

Wei Liu, Siya Qi, Yali Du + 1 more2026-03-04💬 cs.CL

NExT-Guard: Training-Free Streaming Safeguard without Token-Level Labels

NExT-Guard est un cadre de sécurité sans entraînement qui permet une surveillance en temps réel des flux de génération de modèles de langage en exploitant des caractéristiques latentes interprétables issues de sparse autoencoders, éliminant ainsi le besoin de labels au niveau des tokens tout en surpassant les méthodes existantes.

Junfeng Fang, Nachuan Chen, Houcheng Jiang + 5 more2026-03-04🤖 cs.AI

Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting

Le papier présente TimeGS, un cadre novateur qui transforme la prévision de séries temporelles en un problème de rendu génératif 2D via l'utilisation de splatting gaussien pour surmonter les limites des approches existantes en assurant la continuité chronologique et une résolution adaptative.

Yixin Wang, Yifan Hu, Peiyuan Liu + 3 more2026-03-04🤖 cs.AI

← Précédent Suivant →