Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts

Ce papier présente OOMB, un système d'entraînement économe en mémoire pour les grands modèles de langage qui permet de gérer des contextes de plusieurs millions de tokens sur une seule carte graphique grâce à une architecture de récurrentité par blocs, une recomputation dynamique des activations et une gestion optimisée du cache KV.

Wenhao Li, Daohai Yu, Gen Luo + 7 more2026-03-03💬 cs.CL

Universal Robust Speech Adaptation for Cross-Domain Speech Recognition and Enhancement

Ce papier présente URSA-GAN, un cadre génératif unifié qui utilise une architecture à double encodage et une perturbation stochastique dynamique pour adapter robustement la reconnaissance et l'amélioration de la parole à des conditions de bruit et de canal inconnues, réduisant ainsi significativement les erreurs et améliorant les métriques perceptuelles.

Chien-Chun Wang, Hung-Shin Lee, Hsin-Min Wang + 1 more2026-03-03⚡ eess

Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

Cette étude évalue les formats HiFloat (HiF8 et HiF4) sur les NPU Ascend pour l'inférence de grands modèles de langage, démontrant leur supériorité dans la gestion des données à forte variance et leur capacité à éviter l'effondrement de la précision en 4 bits par rapport aux formats entiers, tout en restant compatibles avec les cadres de quantification actuels.

Pengxiang Zhao, Hui-Ling Zhen, Xing Li + 10 more2026-03-03💬 cs.CL

Deepfake Word Detection by Next-token Prediction using Fine-tuned Whisper

Cet article présente une méthode rentable de détection de mots deepfake qui consiste à affiner le modèle Whisper pour identifier les mots synthétiques lors de la transcription par prédiction de jeton suivant, en utilisant des données partiellement vocodées pour réduire les coûts de collecte, tout en démontrant des performances compétitives sur des données in-domaine et un potentiel de généralisation à améliorer sur des données out-of-domaine.

Hoan My Tran, Xin Wang, Wanying Ge + 2 more2026-03-03⚡ eess

Iterative LLM-based improvement for French Clinical Interview Transcription and Speaker Diarization

Cette étude propose une architecture de post-traitement itérative basée sur un LLM (Qwen3-Next-80B) qui alterne la reconnaissance des locuteurs et des mots pour améliorer significativement la précision de la transcription et du diarisation des conversations cliniques françaises, réduisant les erreurs de diarisation tout en restant viable pour un déploiement hors ligne.

Ambre Marie, Thomas Bertin, Guillaume Dardenne + 1 more2026-03-03⚡ eess