cs.LG articles | Gist.Science

Margin and Consistency Supervision for Calibrated and Robust Vision Models

Ce papier présente MaCS, un cadre de régularisation simple et indépendant de l'architecture qui améliore simultanément la calibration et la robustesse des modèles de vision en combinant une pénalité de marge dans l'espace des logits et une régularisation de consistance locale, sans nécessiter de données supplémentaires ni modifier l'inférence.

Salim Khazem2026-03-09🤖 cs.AI

Self-Auditing Parameter-Efficient Fine-Tuning for Few-Shot 3D Medical Image Segmentation

Ce papier présente SEA-PEFT, une méthode d'affinage efficace en paramètres qui automatise la configuration des adaptateurs via une boucle d'auto-audit pour surmonter les défis du décalage de domaine et du manque de données dans la segmentation d'images médicales 3D en contexte few-shot.

Son Thai Ly, Hien V. Nguyen2026-03-09🤖 cs.LG

Test-Time Adaptation via Many-Shot Prompting: Benefits, Limits, and Pitfalls

Cette étude empirique examine les avantages, les limites et les pièges de l'adaptation au moment du test par le biais du prompting à plusieurs exemples, révélant que cette méthode est efficace pour les tâches structurées mais sensible à la stratégie de sélection et souvent peu bénéfique pour les tâches de génération ouverte.

Shubhangi Upasani, Chen Wu, Jay Rainton, Bo Li, Changran Hu, Qizheng Zhang, Urmish Thakker2026-03-09🤖 cs.LG

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Le papier présente ReflexiCoder, un cadre d'apprentissage par renforcement qui intègre des capacités intrinsèques d'autoréflexion et d'autocorrection dans les poids des modèles de langage, leur permettant d'atteindre des performances de pointe sur des tâches de codage complexes sans dépendre de retours externes ou d'exécution de code lors de l'inférence.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

Stochastic Event Prediction via Temporal Motif Transitions

Le papier présente STEP, un cadre de prédiction d'événements stochastiques qui reformule la prédiction de liens temporels comme un problème de prévision séquentielle en temps continu basé sur les transitions de motifs temporels, offrant des gains significatifs de précision et une efficacité computationnelle supérieure sur plusieurs jeux de données réels.

\.Ibrahim Bahadır Altun, Ahmet Erdem Sarıyüce2026-03-09🤖 cs.LG

ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning

Le papier présente ROSE, une méthode de réordonnancement de SparseGPT qui améliore la précision du pruning en une seule passe des grands modèles de langage en adaptant dynamiquement l'ordre d'élagage des poids en fonction de leur perte estimée, surpassant ainsi les approches existantes sur plusieurs modèles de pointe.

Mingluo Su, Huan Wang2026-03-09🤖 cs.LG

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

PixARMesh est une méthode qui reconstruit de manière autorégressive des maillages 3D complets et prêts pour les artistes d'une scène intérieure à partir d'une seule image RGB, en prédisant conjointement la disposition et la géométrie des objets dans un modèle unifié sans nécessiter d'optimisation postérieure.

Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu2026-03-09🤖 cs.LG

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Cet article propose trois techniques de mitigation de biais pour améliorer l'équité des modèles à goulot d'entité conceptuelle (CBM) en réduisant les fuites d'informations, en supprimant les concepts biaisés et en appliquant un débiasage adversarial, surpassant ainsi les travaux antérieurs en matière de compromis entre équité et performance.

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal2026-03-09🤖 cs.LG

Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning

Ce papier présente RePO, une nouvelle méthode d'optimisation de politique guidée par des références qui combine l'apprentissage par renforcement pour l'exploration et un apprentissage supervisé pour l'exploitation, afin de surmonter les limitations des approches actuelles dans l'optimisation moléculaire basée sur les grands modèles de langage en l'absence de trajectoires de raisonnement détaillées.

Xuan Li, Zhanke Zhou, Zongze Li, Jiangchao Yao, Yu Rong, Lu Zhang, Bo Han2026-03-09🤖 cs.AI

Stock Market Prediction Using Node Transformer Architecture Integrated with BERT Sentiment Analysis

Cet article propose un cadre intégré combinant une architecture de transformateur de nœuds et une analyse de sentiments basée sur BERT pour prédire les cours boursiers, démontrant une précision supérieure aux modèles traditionnels grâce à la modélisation des dépendances inter-actions et à l'incorporation de données textuelles.

Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman2026-03-09🤖 cs.AI

Design Experiments to Compare Multi-armed Bandit Algorithms

Ce papier propose une nouvelle méthode expérimentale appelée « Artificial Replay » qui permet de comparer efficacement des algorithmes de bandit manchot en réutilisant les données d'une première exécution, réduisant ainsi considérablement les coûts d'interaction tout en garantissant un estimateur non biaisé et à variance sous-linéaire.

Huiling Meng, Ningyuan Chen, Xuefeng Gao2026-03-09🤖 cs.LG

Weak-SIGReg: Covariance Regularization for Stable Deep Learning

Ce travail présente Weak-SIGReg, une méthode de régularisation efficace par sketching qui stabilise l'entraînement des réseaux de neurones profonds en contraindre la densité des représentations vers une distribution gaussienne isotrope, permettant ainsi de récupérer des architectures comme les Vision Transformers de l'effondrement de l'optimisation sans recourir à des astuces architecturales.

Habibullah Akbar2026-03-09🤖 cs.LG

Addressing the Ecological Fallacy in Larger LMs with Human Context

Cette étude démontre que modéliser le contexte linguistique de l'auteur, via des méthodes comme HuLM et HuFT, permet de corriger la fallace écologique et d'améliorer significativement les performances d'un grand modèle de langage (8B Llama) sur diverses tâches, même sans réentraînement complet.

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA

Cet article présente un accélérateur FPGA qui résout le goulot d'étranglement mémoire du décodage Gated DeltaNet en hébergeant l'état récurrent persistant dans la BRAM embarquée, permettant ainsi d'atteindre une latence 4,5 fois inférieure et une efficacité énergétique 60 fois supérieure par rapport aux GPU NVIDIA H100.

Neelesh Gupta, Peter Wang, Rajgopal Kannan, Viktor K. Prasanna2026-03-09🤖 cs.LG

Implicit Style Conditioning: A Structured Style-Rewrite Framework for Low-Resource Character Modeling

Cet article propose un cadre de réécriture de style structuré combinant une désambiguïsation explicite des dimensions stylistiques et un conditionnement implicite par distillation de chaînes de pensée, permettant aux petits modèles de langage de générer des personnages stylisés avec une fidélité supérieure à celle de modèles plus grands, même en contexte de données limitées.

Chanhui Zhu2026-03-09🤖 cs.LG

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

En s'appuyant sur des théories psychologiques interactionnistes et constructivistes, cette étude développe des modèles interprétables qui intègrent des traits individuels et des contextes situationnels déduits du langage pour prédire le bien-être mental, démontrant que les caractéristiques théoriques offrent une performance compétitive et une meilleure interprétabilité par rapport aux embeddings de grands modèles de langage.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Omni-Masked Gradient Descent: Memory-Efficient Optimization via Mask Traversal with Improved Convergence

Ce papier propose l'OMGD, une méthode d'optimisation légère et compatible avec les optimiseurs existants qui améliore l'efficacité mémoire et garantit une complexité de convergence de $\tilde{\mathcal{O}}(\epsilon^{-3})$ pour l'entraînement de grands modèles de langage.

Hui Yang, Tao Ren, Jinyang Jiang, Wan Tian, Yijie Peng2026-03-09🤖 cs.LG

TADPO: Reinforcement Learning Goes Off-road

Le papier présente TADPO, une nouvelle méthode d'apprentissage par renforcement basée sur PPO qui permet pour la première fois le transfert sim-to-real zéro-shot d'un véhicule tout-terrain à échelle réelle capable de naviguer à haute vitesse sur des terrains non cartographiés et accidentés.

Zhouchonghao Wu, Raymond Song, Vedant Mundheda, Luis E. Navarro-Serment, Christof Schoenborn, Jeff Schneider2026-03-09🤖 cs.AI

EvoESAP: Non-Uniform Expert Pruning for Sparse MoE

Le papier présente EvoESAP, un cadre de recherche évolutionnaire qui optimise l'allocation non uniforme de l'élagage des experts dans les modèles MoE épars en utilisant une métrique de proxy d'acceptation spéculative (ESAP), permettant d'améliorer significativement les performances de génération tout en respectant un budget global fixe.

Zongfang Liu, Shengkun Tang, Boyang Sun, Zhiqiang Shen, Xin Yuan2026-03-09🤖 cs.LG

Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments

En modélisant le boucle externe de PPO comme une optimisation stochastique, cette étude démontre que l'augmentation massive du nombre d'environnements parallèles (jusqu'à un million) permet de réduire le bruit du gradient et de prévenir la stagnation de l'apprentissage, permettant ainsi une amélioration monotone des performances jusqu'à un trillion de transitions.

Michael Beukman, Khimya Khetarpal, Zeyu Zheng, Will Dabney, Jakob Foerster, Michael Dennis, Clare Lyle2026-03-09🤖 cs.LG

← Précédent Suivant →