Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

L'article présente ATLAS, un cadre de finetuning par renforcement qui permet aux petits modèles de langage d'opérer efficacement dans de vastes écosystèmes d'outils en apprenant à contrôler le contexte et à structurer l'exécution, surpassant ainsi les approches génériques pour atteindre des performances proches de l'état de l'art avec des budgets limités.

Karan Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah2026-03-10🤖 cs.LG

From Statistical Fidelity to Clinical Consistency: Scalable Generation and Auditing of Synthetic Patient Trajectories

Cet article présente un pipeline intégré combinant génération de haute fidélité et audit automatisé par intelligence artificielle pour produire des trajectoires de patients synthétiques cliniquement cohérentes et sécurisées, permettant ainsi de surmonter les limites de confidentialité des données de santé tout en préservant leur utilité pour la recherche.

Guanglin Zhou, Armin Catic, Motahare Shabestari, Matthew Young, Chaiquan Li, Katrina Poppe, Sebastiano Barbieri2026-03-10🤖 cs.LG

Regression Models Meet Foundation Models: A Hybrid-AI Approach to Practical Electricity Price Forecasting

Ce papier propose FutureBoosting, une approche hybride innovante qui améliore la prévision des prix de l'électricité en intégrant les prédictions de modèles fondation temporels figés dans un modèle de régression, surpassant ainsi les méthodes actuelles avec une réduction de l'erreur moyenne absolue de plus de 30 %.

Yunzhong Qiu, Binzhu Li, Hao Wei, Shenglin Weng, Chen Wang, Zhongyi Pei, Mingsheng Long, Jianmin Wang2026-03-10🤖 cs.LG

Safe Transformer: An Explicit Safety Bit For Interpretable And Controllable Alignment

Le papier présente le « Safe Transformer », une approche modulaire qui améliore la sécurité et l'interprétabilité des modèles de langage en insérant un bit de sécurité explicite et contrôlable entre les couches du transformateur, permettant ainsi de séparer clairement les décisions de refus des contenus générés tout en maintenant des performances élevées face aux attaques.

Jingyuan Feng, Andrew Gambardella, Gouki Minegishi, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo2026-03-10🤖 cs.LG

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Ce papier propose une approche d'apprentissage par renforcement pour la navigation en foule dense qui généralise à des densités non vues lors de l'entraînement grâce à un codage d'observation invariant à la densité et à un entraînement randomisé, permettant ainsi d'éviter les collisions et les blocages tout en surpassant les méthodes existantes.

Jiefu Zhang, Yang Xu, Vaneet Aggarwal2026-03-10🤖 cs.LG

PolyBlocks: A Compiler Infrastructure for AI Chips and Programming Frameworks

Le papier présente PolyBlocks, une infrastructure de compilation modulaire basée sur MLIR pour les frameworks d'IA et les puces spécialisées, qui génère automatiquement du code haute performance grâce à des pipelines de transformations et des modèles de coût analytiques, démontrant des résultats compétitifs avec les solutions existantes comme Torch Inductor et XLA sur les GPU NVIDIA.

Uday Bondhugula, Akshay Baviskar, Navdeep Katel, Vimal Patel, Anoop JS, Arnab Dutta2026-03-10🤖 cs.LG

Calibrated Credit Intelligence: Shift-Robust and Fair Risk Scoring with Bayesian Uncertainty and Gradient Boosting

Ce papier présente le cadre Calibrated Credit Intelligence (CCI), une approche de notation du risque de crédit qui combine des réseaux de neurones bayésiens, un gradient boosting contraint par l'équité et une fusion adaptative aux changements de distribution pour garantir des prédictions précises, bien calibrées et équitables dans des environnements de déploiement réels.

Srikumar Nayak2026-03-10🤖 cs.LG

Rank-Factorized Implicit Neural Bias: Scaling Super-Resolution Transformer with FlashAttention

Ce papier propose le Rank-factorized Implicit Neural Bias (RIB), une méthode qui remplace le biais de position relatif pour permettre l'utilisation de FlashAttention dans les Transformers de super-résolution, permettant ainsi d'augmenter considérablement la taille des fenêtres d'attention et d'améliorer les performances tout en réduisant les temps d'entraînement et d'inférence.

Dongheon Lee, Seokju Yun, Jaegyun Im, Youngmin Ro2026-03-10🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

Cet article propose un cadre de génération contrainte qui affine un modèle génératif préentraîné pour produire des échantillons réalistes directement au sein de régions faisables complexes, telles que les cartes routières, en trouvant un compromis optimal entre le respect des contraintes et la qualité de l'échantillonnage.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank Wood2026-03-10🤖 cs.LG

Stabilizing Reinforcement Learning for Diffusion Language Models

Ce papier propose StableDRL, une reformulation de l'optimisation par politique relative de groupe (GRPO) intégrant un recadrage inconditionnel et une auto-normalisation pour stabiliser l'apprentissage par renforcement dans les modèles de langage de diffusion et éviter l'effondrement des récompenses causé par le bruit des estimations de vraisemblance.

Jianyuan Zhong, Kaibo Wang, Ding Ding, Zijin Feng, Haoli Bai, Yang Xiang, Jiacheng Sun, Qiang Xu2026-03-10🤖 cs.LG

Implementation of Quantum Implicit Neural Representation in Deterministic and Probabilistic Autoencoders for Image Reconstruction/Generation Tasks

Cette étude propose des autoencodeurs et autoencodeurs variationnels hybrides classiques-quantiques basés sur une représentation neurale implicite quantique (QINR) qui, en transformant l'espace latent en caractéristiques riches et périodiques, surpassent les modèles génératifs quantiques existants en termes de stabilité, de diversité et de qualité de reconstruction sur des jeux de données d'images.

Saadet Müzehher Eren2026-03-10⚛️ quant-ph

Learning Unbiased Cluster Descriptors for Interpretable Imbalanced Concept Drift Detection

Cet article propose ICD3, une approche novatrice pour détecter les dérives de concepts dans des données en flux déséquilibrées en identifiant les concepts minoritaires via une recherche multi-granulaire et en surveillant chaque concept indépendamment grâce à des classifieurs à un seul cluster, surmontant ainsi l'effet de masquage des grands clusters.

Yiqun Zhang, Zhanpei Huang, Mingjie Zhao, Chuyao Zhang, Yang Lu, Yuzhu Ji, Fangqing Gu, An Zeng2026-03-10🤖 cs.LG