cs.LG articles | Gist.Science

Unsupervised domain adaptation for radioisotope identification in gamma spectroscopy

Cette étude démontre que l'adaptation de domaine non supervisée, en particulier via la minimisation de la divergence maximale de moments (MMD), permet d'améliorer significativement la capacité d'un modèle d'identification de radioisotopes, entraîné sur des données synthétiques, à se généraliser à des environnements expérimentaux réels en utilisant des données cibles non étiquetées.

Peter Lalor, Ayush Panigrahy, Alex Hagen2026-03-09🤖 cs.LG

Revisiting the (Sub)Optimality of Best-of-N for Inference-Time Alignment

En réexaminant l'alignement au moment de l'inférence sous l'angle du taux de victoire plutôt que de la récompense attendue, cette étude démontre que l'échantillonnage Best-of-N est statistiquement optimal et propose une variante simple qui élimine le piratage de la récompense tout en conservant cette optimalité.

Ved Sriraman, Adam Block2026-03-09🤖 cs.AI

Full Dynamic Range Sky-Modelling For Image Based Lighting

Ce papier présente Icarus, un modèle de ciel tout-temps basé sur l'apprentissage profond capable de générer des cartes d'environnement en pleine plage dynamique (FDR) photoréalistes et contrôlables par l'utilisateur, surmontant ainsi les limitations des modèles actuels dans la reproduction précise des zones solaires et nuageuses pour l'éclairage basé sur l'image (IBL).

Ian J. Maquignaz2026-03-09🤖 cs.LG

MIRACL: A Diverse Meta-Reinforcement Learning for Multi-Objective Multi-Echelon Combinatorial Supply Chain Optimisation

Le papier présente MIRACL, un cadre d'apprentissage par renforcement méta multi-objectif hiérarchique qui permet une généralisation à peu d'exemples pour l'optimisation des chaînes d'approvisionnement multi-échelons en décomposant les tâches et en utilisant une stratégie d'adaptation basée sur la dominance de Pareto, surpassant ainsi les méthodes conventionnelles en termes d'efficacité et de diversité des solutions.

Rifny Rachman, Josh Tingey, Richard Allmendinger, Wei Pan, Pradyumn Shukla, Bahrul Ilmi Nasution2026-03-09🤖 cs.LG

Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing

Ce papier propose SGPP, un cadre géométrique unifié qui reformule l'édition des modèles de flux rectifié comme un problème d'optimisation proximale guidée par le score, permettant ainsi de combiner efficacement la fidélité à l'entrée et la réalisme généré tout en généralisant les méthodes d'inversion existantes.

Vansh Bansal, James G Scott2026-03-09🤖 cs.LG

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

Ce papier présente TML-Bench, un nouveau benchmark évaluant la fiabilité et les performances de dix modèles de langage open-source sur des tâches d'apprentissage automatique tabulaire de type Kaggle, en mesurant leur capacité à générer des soumissions valides et performantes sous différentes contraintes de temps.

Mykola Pinchuk2026-03-09🤖 cs.AI

Bridging Domains through Subspace-Aware Model Merging

Ce papier présente SCORE, une méthode de fusion de modèles qui améliore la généralisation de domaine en résolvant les conflits de sous-espaces singuliers entre modèles entraînés sur des distributions différentes grâce à la projection dans une base orthogonale partagée.

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Cette étude propose l'hypothèse de sécurité désenchevêtrée (DSH), démontrant que les mécanismes de sécurité des grands modèles de langage séparent géométriquement la détection du danger de son refus, ce qui permet de créer des attaques efficaces en supprimant sélectivement la capacité d'agir tout en conservant la connaissance du risque.

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Cet article propose une nouvelle méthode de gradient commuté pondéré par softmax pour l'optimisation minimax stochastique distribuée sous contraintes stochastiques, garantissant une convergence efficace et stable en boucle unique pour l'apprentissage fédéré, même en présence de participation partielle des clients.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl Hashemi2026-03-09🤖 cs.LG

The Coordination Gap: Alternation Metrics for Temporal Dynamics in Multi-Agent Battle of the Exes

Cet article introduit de nouvelles métriques d'alternation temporelles pour révéler que, dans le jeu de la Bataille des Exes multi-agents, les politiques apprises par Q-learning peuvent présenter des scores de justice élevés selon les mesures traditionnelles tout en échouant gravement à coordonner leurs actions dans le temps par rapport à des politiques aléatoires.

Nikolaos Al. Papadopoulos, Konstantinos Psannis2026-03-09🤖 cs.LG

Sparse Crosscoders for diffing MoEs and Dense models

Cette étude utilise des crosscoders pour démontrer que les modèles Mixture of Experts (MoE) développent des représentations plus spécialisées et moins d'features uniques que les modèles denses, qui, eux, répartissent l'information sur des caractéristiques plus générales.

Marmik Chaudhari, Nishkal Hundia, Idhant Gulati2026-03-09🤖 cs.LG

MoE Lens -- An Expert Is All You Need

Cette étude démontre que les modèles Mixture of Experts (MoE) comme DeepSeekMoE reposent sur une expertise fortement concentrée, où un seul expert suffit souvent à approximer les performances de l'ensemble, ouvrant ainsi la voie à des optimisations d'inférence par élagage ciblé.

Marmik Chaudhari, Idhant Gulati, Nishkal Hundia, Pranav Karra, Shivam Raval2026-03-09🤖 cs.LG

Margin and Consistency Supervision for Calibrated and Robust Vision Models

Ce papier présente MaCS, un cadre de régularisation simple et indépendant de l'architecture qui améliore simultanément la calibration et la robustesse des modèles de vision en combinant une pénalité de marge dans l'espace des logits et une régularisation de consistance locale, sans nécessiter de données supplémentaires ni modifier l'inférence.

Salim Khazem2026-03-09🤖 cs.AI

Self-Auditing Parameter-Efficient Fine-Tuning for Few-Shot 3D Medical Image Segmentation

Ce papier présente SEA-PEFT, une méthode d'affinage efficace en paramètres qui automatise la configuration des adaptateurs via une boucle d'auto-audit pour surmonter les défis du décalage de domaine et du manque de données dans la segmentation d'images médicales 3D en contexte few-shot.

Son Thai Ly, Hien V. Nguyen2026-03-09🤖 cs.LG

Test-Time Adaptation via Many-Shot Prompting: Benefits, Limits, and Pitfalls

Cette étude empirique examine les avantages, les limites et les pièges de l'adaptation au moment du test par le biais du prompting à plusieurs exemples, révélant que cette méthode est efficace pour les tâches structurées mais sensible à la stratégie de sélection et souvent peu bénéfique pour les tâches de génération ouverte.

Shubhangi Upasani, Chen Wu, Jay Rainton, Bo Li, Changran Hu, Qizheng Zhang, Urmish Thakker2026-03-09🤖 cs.LG

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Le papier présente ReflexiCoder, un cadre d'apprentissage par renforcement qui intègre des capacités intrinsèques d'autoréflexion et d'autocorrection dans les poids des modèles de langage, leur permettant d'atteindre des performances de pointe sur des tâches de codage complexes sans dépendre de retours externes ou d'exécution de code lors de l'inférence.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

Stochastic Event Prediction via Temporal Motif Transitions

Le papier présente STEP, un cadre de prédiction d'événements stochastiques qui reformule la prédiction de liens temporels comme un problème de prévision séquentielle en temps continu basé sur les transitions de motifs temporels, offrant des gains significatifs de précision et une efficacité computationnelle supérieure sur plusieurs jeux de données réels.

\.Ibrahim Bahadır Altun, Ahmet Erdem Sarıyüce2026-03-09🤖 cs.LG

ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning

Le papier présente ROSE, une méthode de réordonnancement de SparseGPT qui améliore la précision du pruning en une seule passe des grands modèles de langage en adaptant dynamiquement l'ordre d'élagage des poids en fonction de leur perte estimée, surpassant ainsi les approches existantes sur plusieurs modèles de pointe.

Mingluo Su, Huan Wang2026-03-09🤖 cs.LG

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

PixARMesh est une méthode qui reconstruit de manière autorégressive des maillages 3D complets et prêts pour les artistes d'une scène intérieure à partir d'une seule image RGB, en prédisant conjointement la disposition et la géométrie des objets dans un modèle unifié sans nécessiter d'optimisation postérieure.

Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu2026-03-09🤖 cs.LG

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Cet article propose trois techniques de mitigation de biais pour améliorer l'équité des modèles à goulot d'entité conceptuelle (CBM) en réduisant les fuites d'informations, en supprimant les concepts biaisés et en appliquant un débiasage adversarial, surpassant ainsi les travaux antérieurs en matière de compromis entre équité et performance.

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal2026-03-09🤖 cs.LG

← Précédent Suivant →