cs.LG articles | Gist.Science

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Cette étude propose une méthode de fine-tuning équitable et économe en paramètres pour les modèles vision-langage appliqués au diagnostic du glaucome, utilisant une nouvelle fonction de perte différentiable et des techniques d'adaptation de bas rang pour réduire significativement les disparités diagnostiques entre groupes démographiques tout en maintenant une précision globale élevée.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning

Le papier présente la Guided Flow Policy (GFP), une méthode d'apprentissage par renforcement hors ligne qui couple un acteur distillé et une politique de flot pour se concentrer sur l'imitation des actions à haute valeur, surpassant ainsi les approches existantes sur de nombreux benchmarks.

Franki Nguimatsia Tiofack, Théotime Le Hellard, Fabian Schramm + 2 more2026-03-06💻 cs

Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order

Cette étude démontre que l'ajout d'une récompense incitant à suivre un ordre d'action canonique lors du post-entraînement par apprentissage par renforcement améliore les performances des modèles sur des énigmes logiques, même lorsque les données d'entraînement sont désordonnées.

Prakhar Gupta, Vaibhav Gupta2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

Le papier présente NeuralRemaster, une méthode de diffusion qui préserve la phase des signaux d'entrée tout en randomisant leur magnitude, permettant ainsi une génération alignée sur la structure sans coût d'inférence supplémentaire et en améliorant significativement le transfert sim-to-real pour les planificateurs de conduite.

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

Sparse Attention Post-Training for Mechanistic Interpretability

Cette étude présente une méthode de post-entraînement qui rend l'attention des transformeurs extrêmement clairsemée sans compromettre les performances, révélant ainsi des circuits de calcul plus simples et interprétables tout en démontrant que la majeure partie du calcul des modèles actuels est redondante.

Florent Draye, Anson Lei, Hsiao-Ru Pan + 2 more2026-03-06💻 cs

Symmetric Aggregation of Conformity Scores for Efficient Uncertainty Sets

Cet article propose SACP, une nouvelle méthode d'agrégation symétrique des scores de non-conformité de plusieurs modèles prédictifs pour générer des ensembles de prédiction conformes plus efficaces et fiables.

Nabil Alami, Jad Zakharia, Souhaib Ben Taieb2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Cet article propose TAP, un cadre novateur utilisant les grands modèles de langage et une stratégie d'optimisation préférentielle directe pour découvrir automatiquement et sans entraînement des proxies supérieurs afin d'optimiser la quantification de précision mixte des réseaux de neurones profonds.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Le papier présente ReFusion, un modèle de diffusion masqué innovant qui combine le réordonnancement de séquences et le cadre d'attention causale pour permettre un décodage parallèle efficace avec mise en cache KV, surmontant ainsi les limitations de vitesse et de cohérence des modèles de diffusion existants tout en rivalisant avec les modèles autoregressifs.

Jia-Nan Li, Jian Guan, Wei Wu + 1 more2026-03-06💻 cs

Measuring Uncertainty Calibration

Cet article propose des bornes supérieures non asymptotiques et sans hypothèse de distribution pour l'erreur d'étalonnage des classificateurs binaires, ainsi qu'une méthode pratique pour les modifier afin d'assurer un étalonnage efficace sans compromettre leurs performances.

Kamil Ciosek, Nicolò Felicioni, Sina Ghiassian + 6 more2026-03-06💻 cs

RePo: Language Models with Context Re-Positioning

En s'inspirant de la théorie de la charge cognitive, le papier présente RePo, une nouvelle méthode qui améliore l'apprentissage en contexte des grands modèles de langage en réaffectant dynamiquement les positions des tokens pour réduire la charge cognitive extrinsèque et optimiser l'attention sur les informations pertinentes, même dans des contextes bruyants ou longs.

Huayang Li, Tianyu Zhao, Deng Cai + 1 more2026-03-06💻 cs

Agentic Multi-Persona Framework for Evidence-Aware Fake News Detection

Ce papier propose AMPEND-LS, un cadre multi-personas agentic intégrant la synergie entre LLM et SLM pour détecter les fausses nouvelles multimodales de manière précise, robuste et explicable grâce à une analyse de preuves enrichie.

Roopa Bukke, Soumya Pandey, Suraj Kumar + 2 more2026-03-06💻 cs

Parallel Token Prediction for Language Models

Ce papier propose le cadre général de prédiction de tokens parallèles (PTP), qui accélère le décodage des modèles de langage en rendant les futurs tokens déterministes via des variables d'entrée aléatoires, permettant ainsi de générer plusieurs tokens en une seule passe et d'obtenir un gain de vitesse de 2,4 fois.

Felix Draxler, Justus Will, Farrin Marouf Sofian + 3 more2026-03-06💻 cs

Uncertainty-Aware Flow Field Reconstruction Using SVGP Kolmogorov-Arnold Networks

Cet article présente un cadre d'apprentissage automatique basé sur les réseaux de Kolmogorov-Arnold avec processus gaussiens variationnels épars (SVGP-KAN) pour reconstruire avec précision et quantifier les incertitudes des champs d'écoulement à partir de mesures de vélocimetry temporellement éparses, surpassant les méthodes classiques en offrant des estimations d'incertitude bien calibrées.

Y. Sungtaek Ju2026-03-06🔬 physics

Prediction of Cellular Malignancy Using Electrical Impedance Signatures and Supervised Machine Learning

Cette étude démontre que l'intégration des signatures d'impédance électrique cellulaire avec des algorithmes d'apprentissage automatique, en particulier la forêt aléatoire, permet de prédire la malignité cellulaire avec une précision d'environ 90 %, ouvrant la voie à de nouveaux outils de diagnostic.

Shadeeb Hossain2026-03-06💻 cs

Controlled LLM Training on Spectral Sphere

Ce papier présente le Spectral Sphere Optimizer (SSO), un nouvel algorithme d'optimisation intégré à Megatron qui impose des contraintes spectrales strictes pour aligner pleinement l'entraînement avec la paramétrisation $\mu$ P, surpassant ainsi AdamW et Muon en termes de convergence et de stabilité sur diverses architectures de grands modèles.

Tian Xie, Haoming Luo, Haoyu Tang + 9 more2026-03-06💻 cs

BPE: Behavioral Profiling Ensemble

Cet article présente le cadre Behavioral Profiling Ensemble (BPE), une approche d'intégration centrée sur le modèle qui, en construisant des profils comportementaux intrinsèques pour chaque apprenant, surpasse les méthodes d'ensemble dynamiques existantes en améliorant la précision prédictive tout en réduisant les coûts computationnels et de stockage.

Yanxin Liu, Yunqi Zhang2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Le papier présente EmboTeam, un cadre de planification pour des équipes de robots hétérogènes qui combine les capacités de raisonnement des grands modèles de langage avec la rigueur des planificateurs classiques et des arbres de comportement pour exécuter des tâches complexes, validé par une amélioration significative des taux de réussite sur le nouveau benchmark MACE-THOR.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits

ButterflyMoE est une méthode qui permet de stocker de multiples experts sur des appareils à ressources limitées en remplaçant le stockage linéaire de matrices de poids indépendantes par une représentation géométrique sub-linéaire basée sur des rotations appliquées à un prototype ternaire partagé, réduisant ainsi la consommation mémoire de 150 fois sans perte significative de précision.

Aryan Karmore2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

Ce papier présente Yuan3.0 Ultra, un modèle de langage open-source de type MoE orienté entreprise qui utilise l'algorithme de pruning d'experts adaptatif par couche (LAEP) pour améliorer l'efficacité du pré-entraînement et obtenir des performances de pointe sur des tâches spécialisées tout en réduisant la taille totale du modèle.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Agentic Very Long Video Understanding

Ce travail présente EGAgent, un cadre agentique innovant basé sur des graphes de scènes d'entités qui permet une compréhension vidéo longitudinale avancée et un raisonnement multi-modal sur des flux vidéo continus de plusieurs jours, surpassant les méthodes existantes sur des tâches complexes d'assistance personnelle.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

← Précédent Suivant →