Unsupervised domain adaptation for radioisotope identification in gamma spectroscopy

Cette étude démontre que l'adaptation de domaine non supervisée, en particulier via la minimisation de la divergence maximale de moments (MMD), permet d'améliorer significativement la capacité d'un modèle d'identification de radioisotopes, entraîné sur des données synthétiques, à se généraliser à des environnements expérimentaux réels en utilisant des données cibles non étiquetées.

Peter Lalor, Ayush Panigrahy, Alex Hagen2026-03-09🤖 cs.LG

MIRACL: A Diverse Meta-Reinforcement Learning for Multi-Objective Multi-Echelon Combinatorial Supply Chain Optimisation

Le papier présente MIRACL, un cadre d'apprentissage par renforcement méta multi-objectif hiérarchique qui permet une généralisation à peu d'exemples pour l'optimisation des chaînes d'approvisionnement multi-échelons en décomposant les tâches et en utilisant une stratégie d'adaptation basée sur la dominance de Pareto, surpassant ainsi les méthodes conventionnelles en termes d'efficacité et de diversité des solutions.

Rifny Rachman, Josh Tingey, Richard Allmendinger, Wei Pan, Pradyumn Shukla, Bahrul Ilmi Nasution2026-03-09🤖 cs.LG

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Cette étude propose l'hypothèse de sécurité désenchevêtrée (DSH), démontrant que les mécanismes de sécurité des grands modèles de langage séparent géométriquement la détection du danger de son refus, ce qui permet de créer des attaques efficaces en supprimant sélectivement la capacité d'agir tout en conservant la connaissance du risque.

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Cet article propose une nouvelle méthode de gradient commuté pondéré par softmax pour l'optimisation minimax stochastique distribuée sous contraintes stochastiques, garantissant une convergence efficace et stable en boucle unique pour l'apprentissage fédéré, même en présence de participation partielle des clients.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl Hashemi2026-03-09🤖 cs.LG

The Coordination Gap: Alternation Metrics for Temporal Dynamics in Multi-Agent Battle of the Exes

Cet article introduit de nouvelles métriques d'alternation temporelles pour révéler que, dans le jeu de la Bataille des Exes multi-agents, les politiques apprises par Q-learning peuvent présenter des scores de justice élevés selon les mesures traditionnelles tout en échouant gravement à coordonner leurs actions dans le temps par rapport à des politiques aléatoires.

Nikolaos Al. Papadopoulos, Konstantinos Psannis2026-03-09🤖 cs.LG

Test-Time Adaptation via Many-Shot Prompting: Benefits, Limits, and Pitfalls

Cette étude empirique examine les avantages, les limites et les pièges de l'adaptation au moment du test par le biais du prompting à plusieurs exemples, révélant que cette méthode est efficace pour les tâches structurées mais sensible à la stratégie de sélection et souvent peu bénéfique pour les tâches de génération ouverte.

Shubhangi Upasani, Chen Wu, Jay Rainton, Bo Li, Changran Hu, Qizheng Zhang, Urmish Thakker2026-03-09🤖 cs.LG

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Le papier présente ReflexiCoder, un cadre d'apprentissage par renforcement qui intègre des capacités intrinsèques d'autoréflexion et d'autocorrection dans les poids des modèles de langage, leur permettant d'atteindre des performances de pointe sur des tâches de codage complexes sans dépendre de retours externes ou d'exécution de code lors de l'inférence.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Cet article propose trois techniques de mitigation de biais pour améliorer l'équité des modèles à goulot d'entité conceptuelle (CBM) en réduisant les fuites d'informations, en supprimant les concepts biaisés et en appliquant un débiasage adversarial, surpassant ainsi les travaux antérieurs en matière de compromis entre équité et performance.

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal2026-03-09🤖 cs.LG