cs.LG articles | Gist.Science

Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

Cet article présente MR-GPTQ, une méthode de quantisation post-entraînement spécialisée pour les formats FP4 micro-échelles (MXFP4 et NVFP4) qui, en combinant des transformations de Hadamard par blocs et des noyaux GPU optimisés, comble l'écart entre les promesses théoriques et les performances réelles pour offrir des gains de vitesse significatifs tout en maintenant une précision compétitive.

Vage Egiazarian, Roberto L. Castro, Denis Kuznedelev + 8 more2026-03-04🤖 cs.LG

CREPE: Controlling Diffusion with Replica Exchange

Ce papier présente CREPE, une méthode d'inférence pour contrôler les modèles de diffusion via l'échange de répliques, offrant une alternative flexible aux approches SMC existantes en générant des échantillons séquentiels, en préservant leur diversité et en permettant un raffinement en ligne.

Jiajun He, Paul Jeha, Peter Potaptchik + 5 more2026-03-04🤖 cs.LG

Entering the Era of Discrete Diffusion Models: A Benchmark for Schrödinger Bridges and Entropic Optimal Transport

Cet article présente le premier benchmark pour l'évaluation rigoureuse des ponts de Schrödinger sur des espaces discrets, en proposant des solutions analytiques de référence et en introduisant de nouveaux algorithmes comme DLightSB pour permettre une comparaison fiable des méthodes de transport optimal entropique.

Xavier Aramayo Carrasco, Grigoriy Ksenofontov, Aleksei Leonov + 2 more2026-03-04🤖 cs.LG

Fine-Tuning Diffusion Models via Intermediate Distribution Shaping

Ce papier propose un cadre de fine-tuning pour les modèles de diffusion qui, en façonnant les distributions intermédiaires via P-GRAFT et en corrigeant le bruit inverse, améliore la génération d'images et d'autres contenus tout en offrant une meilleure efficacité théorique et empirique que les méthodes existantes.

Gautham Govind Anil, Shaan Ul Haque, Nithish Kannen + 3 more2026-03-04🤖 cs.AI

Lightweight Transformer for EEG Classification via Balanced Signed Graph Algorithm Unrolling

Cette étude propose un réseau de neurones léger et interprétable pour la classification des signaux EEG, construit par déroulement d'un algorithme de débruitage spectral sur un graphe signé équilibré, permettant d'atteindre des performances comparables aux modèles profonds avec beaucoup moins de paramètres.

Junyi Yao, Parham Eftekhar, Gene Cheung + 3 more2026-03-04🤖 cs.LG

AdaBet: Gradient-free Layer Selection for Efficient Training of Deep Neural Networks

Le papier présente AdaBet, une méthode sans gradient qui sélectionne automatiquement les couches les plus importantes pour l'adaptation efficace de réseaux de neurones pré-entraînés sur des appareils contraints en analysant les caractéristiques topologiques de leurs activations, permettant ainsi d'obtenir une meilleure précision tout en réduisant considérablement la consommation mémoire sans nécessiter d'étiquettes ni de rétropropagation.

Irene Tenison, Soumyajit Chatterjee, Fahim Kawsar + 1 more2026-03-04🤖 cs.LG

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

Cet article propose Cache-to-Cache (C2C), une nouvelle méthode de communication sémantique directe entre grands modèles de langage via la fusion de leurs caches KV, qui surpasse la communication textuelle traditionnelle en offrant une meilleure précision et une latence réduite.

Tianyu Fu, Zihan Min, Hanling Zhang + 4 more2026-03-04💬 cs.CL

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

Ce papier présente LaDiR, un cadre de raisonnement novateur qui améliore les modèles de langage en unifiant la représentation latente et les capacités de raffinement itératif des modèles de diffusion pour permettre une génération parallèle et holistique de trajectoires de raisonnement.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

Post-hoc Stochastic Concept Bottleneck Models

Cet article présente les Modèles Stochastiques de Concepts Bottleneck Post-hoc (PSCBMs), une méthode légère qui améliore les modèles CBM pré-entraînés en y ajoutant une distribution multivariée pour capturer les dépendances entre les concepts, permettant ainsi d'augmenter la précision et la robustesse aux interventions sans nécessiter de réentraînement du modèle de base.

Wiktor Jan Hoffmann, Sonia Laguna, Moritz Vandenhirtz + 2 more2026-03-04🤖 cs.LG

Characterizing the Multiclass Learnability of Forgiving 0-1 Loss Functions

Cet article caractérise l'apprenabilité des fonctions de perte 0-1 « indulgentes » dans le cadre multiclasse en introduisant une nouvelle dimension combinatoire, la dimension de Natarajan généralisée, qui est finie si et seulement si la classe d'hypothèses est apprenable, couvrant ainsi divers scénarios d'apprentissage avec des retours sous forme d'ensembles et un apprentissage de listes modifié.

Jacob Trauger, Tyson Trauger, Ambuj Tewari2026-03-04📊 stat

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Cet article présente l'Energy Landscape Steering (ELS), un cadre novateur et sans réentraînement qui atténue le sur-rejet dans les grands modèles de langage alignés en guidant dynamiquement leurs activations internes vers des états désirables via un modèle externe basé sur l'énergie, améliorant ainsi la conformité aux requêtes bénignes tout en préservant la sécurité.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat

Physically Valid Biomolecular Interaction Modeling with Gauss-Seidel Projection

Ce papier présente une méthode de modélisation des interactions biomoléculaires intégrant une projection de Gauss-Seidel différentiable pour garantir la validité physique des structures, permettant d'obtenir une précision équivalente aux modèles de diffusion actuels en seulement deux étapes et avec une vitesse dix fois supérieure.

Siyuan Chen, Minghao Guo, Caoliwen Wang + 6 more2026-03-04🧬 q-bio

Efficient Resource-Constrained Training of Transformers via Subspace Optimization

Ce papier présente WASI, une méthode d'optimisation de sous-espace qui permet l'entraînement efficace de modèles Transformer sur des appareils mobiles en réduisant considérablement l'utilisation de la mémoire et les coûts computationnels tout en préservant la précision.

Le-Trung Nguyen, Enzo Tartaglione, Van-Tam Nguyen2026-03-04🤖 cs.LG

Auditing Information Disclosure During LLM-Scale Gradient Descent Using Gradient Uniqueness

Cet article présente GNQ, une métrique efficace et fondée sur la théorie de l'information pour auditer les risques de divulgation d'informations dans les grands modèles de langage, en surmontant les limitations computationnelles grâce à l'algorithme BS-Ghost GNQ qui permet d'évaluer la prédictibilité des séquences lors de l'entraînement.

Sleem Abdelghafar, Maryam Aliakbarpour, Chris Jermaine2026-03-04📊 stat

Quantum Kernel Methods: Convergence Theory, Separation Bounds and Applications to Marketing Analytics

Cet article présente une méthode hybride combinant une machine à vecteurs de support à noyau quantique et une extraction de caractéristiques quantiques pour une tâche de classification de consommateurs dans le régime NISQ, démontrant une sensibilité accrue et servant de point de départ concret pour l'intégration matérielle future.

Laura Sáez-Ortuño, Santiago Forgas-Coll, Massimiliano Ferrara2026-03-04⚛️ quant-ph

Secure Sparse Matrix Multiplications and their Applications to Privacy-Preserving Machine Learning

Cet article propose des algorithmes de multiplication de matrices creuses sécurisées par calcul multipartite (MPC) qui surmontent les limitations de mémoire et réduisent considérablement les coûts de communication par rapport aux méthodes denses, permettant ainsi l'application du machine learning préservant la vie privée sur des données réelles de grande dimension.

Marc Damie, Florian Hahn, Andreas Peter + 1 more2026-03-04🤖 cs.LG

Policy Transfer for Continuous-Time Reinforcement Learning: A (Rough) Differential Equation Approach

Cet article établit la première preuve théorique du transfert de politique pour l'apprentissage par renforcement en temps continu en exploitant la structure gaussienne des systèmes linéaires-quadratiques et la stabilité des équations différentielles stochastiques via la théorie des chemins rugueux, permettant ainsi d'initialiser la recherche d'une politique quasi-optimale pour un problème connexe tout en conservant le taux de convergence original.

Xin Guo, Zijiu Lyu2026-03-04🤖 cs.LG

Boosted Trees on a Diet: Compact Models for Resource-Constrained Devices

Cet article présente une méthode de compression pour les arbres de décision boostés qui, en favorisant le réutilisation des caractéristiques et des seuils durant l'entraînement, permet de réduire l'empreinte mémoire de 4 à 16 fois par rapport à LightGBM, facilitant ainsi le déploiement autonome de modèles d'apprentissage automatique sur des appareils IoT aux ressources limitées.

Nina Herrmann, Jan Stenkamp, Benjamin Karic + 2 more2026-03-04🤖 cs.LG

Adversarial Spatio-Temporal Attention Networks for Epileptic Seizure Forecasting

L'article présente STAN, un réseau de neurones à attention spatio-temporelle adversaire qui améliore la prévision des crises d'épilepsie en modélisant conjointement les connexions cérébrales et les dynamiques temporelles pour atteindre une sensibilité élevée et un faible taux de fausses alarmes sur des données EEG multivariées.

Zan Li, Kyongmin Yeo, Wesley Gifford + 3 more2026-03-04🤖 cs.AI

Graph Homomorphism Distortion: A Metric to Distinguish Them All and in the Latent Space Bind Them

Cet article propose une nouvelle métrique de distorsion basée sur les homomorphismes de graphes qui intègre à la fois la structure et les caractéristiques des nœuds pour évaluer la similarité entre graphes, comblant ainsi les lacunes des mesures d'expressivité existantes et améliorant les performances des réseaux de neurones graphiques.

Martin Carrasco, Olga Zaghen, Kavir Sumaraj + 2 more2026-03-04🤖 cs.LG

← Précédent Suivant →