Test-Time Adaptation via Many-Shot Prompting: Benefits, Limits, and Pitfalls

Cette étude empirique examine les avantages, les limites et les pièges de l'adaptation au moment du test par le biais du prompting à plusieurs exemples, révélant que cette méthode est efficace pour les tâches structurées mais sensible à la stratégie de sélection et souvent peu bénéfique pour les tâches de génération ouverte.

Shubhangi Upasani, Chen Wu, Jay Rainton, Bo Li, Changran Hu, Qizheng Zhang, Urmish Thakker2026-03-09🤖 cs.LG

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Le papier présente ReflexiCoder, un cadre d'apprentissage par renforcement qui intègre des capacités intrinsèques d'autoréflexion et d'autocorrection dans les poids des modèles de langage, leur permettant d'atteindre des performances de pointe sur des tâches de codage complexes sans dépendre de retours externes ou d'exécution de code lors de l'inférence.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Cet article propose trois techniques de mitigation de biais pour améliorer l'équité des modèles à goulot d'entité conceptuelle (CBM) en réduisant les fuites d'informations, en supprimant les concepts biaisés et en appliquant un débiasage adversarial, surpassant ainsi les travaux antérieurs en matière de compromis entre équité et performance.

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal2026-03-09🤖 cs.LG

Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning

Ce papier présente RePO, une nouvelle méthode d'optimisation de politique guidée par des références qui combine l'apprentissage par renforcement pour l'exploration et un apprentissage supervisé pour l'exploitation, afin de surmonter les limitations des approches actuelles dans l'optimisation moléculaire basée sur les grands modèles de langage en l'absence de trajectoires de raisonnement détaillées.

Xuan Li, Zhanke Zhou, Zongze Li, Jiangchao Yao, Yu Rong, Lu Zhang, Bo Han2026-03-09🤖 cs.AI

Stock Market Prediction Using Node Transformer Architecture Integrated with BERT Sentiment Analysis

Cet article propose un cadre intégré combinant une architecture de transformateur de nœuds et une analyse de sentiments basée sur BERT pour prédire les cours boursiers, démontrant une précision supérieure aux modèles traditionnels grâce à la modélisation des dépendances inter-actions et à l'incorporation de données textuelles.

Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman2026-03-09🤖 cs.AI

Weak-SIGReg: Covariance Regularization for Stable Deep Learning

Ce travail présente Weak-SIGReg, une méthode de régularisation efficace par sketching qui stabilise l'entraînement des réseaux de neurones profonds en contraindre la densité des représentations vers une distribution gaussienne isotrope, permettant ainsi de récupérer des architectures comme les Vision Transformers de l'effondrement de l'optimisation sans recourir à des astuces architecturales.

Habibullah Akbar2026-03-09🤖 cs.LG

Addressing the Ecological Fallacy in Larger LMs with Human Context

Cette étude démontre que modéliser le contexte linguistique de l'auteur, via des méthodes comme HuLM et HuFT, permet de corriger la fallace écologique et d'améliorer significativement les performances d'un grand modèle de langage (8B Llama) sur diverses tâches, même sans réentraînement complet.

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA

Cet article présente un accélérateur FPGA qui résout le goulot d'étranglement mémoire du décodage Gated DeltaNet en hébergeant l'état récurrent persistant dans la BRAM embarquée, permettant ainsi d'atteindre une latence 4,5 fois inférieure et une efficacité énergétique 60 fois supérieure par rapport aux GPU NVIDIA H100.

Neelesh Gupta, Peter Wang, Rajgopal Kannan, Viktor K. Prasanna2026-03-09🤖 cs.LG

Implicit Style Conditioning: A Structured Style-Rewrite Framework for Low-Resource Character Modeling

Cet article propose un cadre de réécriture de style structuré combinant une désambiguïsation explicite des dimensions stylistiques et un conditionnement implicite par distillation de chaînes de pensée, permettant aux petits modèles de langage de générer des personnages stylisés avec une fidélité supérieure à celle de modèles plus grands, même en contexte de données limitées.

Chanhui Zhu2026-03-09🤖 cs.LG

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

En s'appuyant sur des théories psychologiques interactionnistes et constructivistes, cette étude développe des modèles interprétables qui intègrent des traits individuels et des contextes situationnels déduits du langage pour prédire le bien-être mental, démontrant que les caractéristiques théoriques offrent une performance compétitive et une meilleure interprétabilité par rapport aux embeddings de grands modèles de langage.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments

En modélisant le boucle externe de PPO comme une optimisation stochastique, cette étude démontre que l'augmentation massive du nombre d'environnements parallèles (jusqu'à un million) permet de réduire le bruit du gradient et de prévenir la stagnation de l'apprentissage, permettant ainsi une amélioration monotone des performances jusqu'à un trillion de transitions.

Michael Beukman, Khimya Khetarpal, Zeyu Zheng, Will Dabney, Jakob Foerster, Michael Dennis, Clare Lyle2026-03-09🤖 cs.LG