Robust Heterogeneous Analog-Digital Computing for Mixture-of-Experts Models with Theoretical Generalization Guarantees

Cet article propose un cadre de calcul hétérogène sans réentraînement qui alloue les experts sensibles au bruit et les modules d'attention à un traitement numérique, tandis que le reste des experts est exécuté sur du matériel de calcul analogique en mémoire, garantissant ainsi la robustesse et l'efficacité des modèles MoE à grande échelle.

Mohammed Nowaz Rabbani Chowdhury, Hsinyu Tsai, Geoffrey W. Burr + 3 more2026-03-04🤖 cs.AI

HomeAdam: Adam and AdamW Algorithms Sometimes Go Home to Obtain Better Provable Generalization

Ce papier propose et analyse théoriquement la famille d'algorithmes HomeAdam(W), qui améliore la généralisation et la convergence des méthodes Adam et AdamW en alternant avec des étapes de descente de gradient stochastique momentum, prouvant ainsi une erreur de généralisation de l'ordre de O(1/N)O(1/N) supérieure à celle des variantes existantes.

Feihu Huang, Guanyi Zhang, Songcan Chen2026-03-04📊 stat

DREAM: Where Visual Understanding Meets Text-to-Image Generation

Le papier présente DREAM, un cadre unifié qui combine l'apprentissage de représentations visuelles et la génération d'images à partir de texte grâce à des techniques innovantes comme le réchauffement du masquage et le décodage aligné sémantiquement, permettant d'obtenir des performances supérieures à la fois en compréhension visuelle et en génération sans nécessiter de réordonnanceurs externes.

Chao Li, Tianhong Li, Sai Vidyaranya Nuthalapati + 8 more2026-03-04🤖 cs.LG

An Empirical Analysis of Calibration and Selective Prediction in Multimodal Clinical Condition Classification

Cette étude démontre que la prédiction sélective basée sur l'incertitude échoue souvent dans la classification clinique multimodale en raison d'une mauvaise calibration spécifique aux classes, masquée par les métriques d'évaluation standards et nécessitant une approche d'évaluation consciente de la calibration pour garantir la sécurité des systèmes d'IA.

L. Julián Lechuga López, Farah E. Shamout, Tim G. J. Rudner2026-03-04🤖 cs.LG

Single Microphone Own Voice Detection based on Simulated Transfer Functions for Hearing Aids

Cet article présente une méthode de détection de la voix propre pour les appareils auditifs utilisant un seul microphone, qui combine des fonctions de transfert acoustiques simulées et un classificateur basé sur des transformers pour atteindre une grande précision et une bonne généralisation aux conditions réelles.

Mathuranathan Mayuravaani, W. Bastiaan Kleijn, Andrew Lensen + 1 more2026-03-04🤖 cs.LG

The power of small initialization in noisy low-tubal-rank tensor recovery

Cet article démontre que l'utilisation d'une petite initialisation dans la descente de gradient factorisée permet de récupérer avec une précision quasi optimale un tenseur de faible rang-tubal à partir de mesures bruitées, même en cas de sur-paramétrage significatif, en éliminant la dépendance de l'erreur de reconstruction vis-à-vis du rang surestimé.

ZHiyu Liu, Haobo Geng, Xudong Wang + 3 more2026-03-04📊 stat

Practical FP4 Training for Large-Scale MoE Models on Hopper GPUs

Cet article présente une méthode de formation pratique pour les modèles MoE à grande échelle sur les GPU Hopper qui, grâce à une quantisation directe FP8-FP4 et une conversion adaptative, permet d'utiliser l'efficacité de la précision FP4 pour les activations et la communication sans support matériel natif, réduisant ainsi la mémoire de pic de 14,8 % et augmentant le débit de 12,5 % par rapport aux bases FP8.

Wuyue Zhang, Chongdong Huang, Chunbo You + 3 more2026-03-04🤖 cs.AI

Rethinking Time Series Domain Generalization via Structure-Stratified Calibration

Cet article propose un cadre de calibration stratifiée par structure (SSCF) qui améliore la généralisation de domaine des séries temporelles en distinguant les échantillons structurellement cohérents pour effectuer un alignement localisé, évitant ainsi les transferts négatifs causés par l'hétérogénéité des systèmes dynamiques sous-jacents.

Jinyang Li, Shuhao Mei, Xiaoyu Xiao + 3 more2026-03-04🤖 cs.LG