cs.LG articles | Gist.Science

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

Ce papier présente LaDiR, un cadre de raisonnement novateur qui améliore les modèles de langage en unifiant la représentation latente et les capacités de raffinement itératif des modèles de diffusion pour permettre une génération parallèle et holistique de trajectoires de raisonnement.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

Post-hoc Stochastic Concept Bottleneck Models

Cet article présente les Modèles Stochastiques de Concepts Bottleneck Post-hoc (PSCBMs), une méthode légère qui améliore les modèles CBM pré-entraînés en y ajoutant une distribution multivariée pour capturer les dépendances entre les concepts, permettant ainsi d'augmenter la précision et la robustesse aux interventions sans nécessiter de réentraînement du modèle de base.

Wiktor Jan Hoffmann, Sonia Laguna, Moritz Vandenhirtz + 2 more2026-03-04🤖 cs.LG

Characterizing the Multiclass Learnability of Forgiving 0-1 Loss Functions

Cet article caractérise l'apprenabilité des fonctions de perte 0-1 « indulgentes » dans le cadre multiclasse en introduisant une nouvelle dimension combinatoire, la dimension de Natarajan généralisée, qui est finie si et seulement si la classe d'hypothèses est apprenable, couvrant ainsi divers scénarios d'apprentissage avec des retours sous forme d'ensembles et un apprentissage de listes modifié.

Jacob Trauger, Tyson Trauger, Ambuj Tewari2026-03-04📊 stat

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Cet article présente l'Energy Landscape Steering (ELS), un cadre novateur et sans réentraînement qui atténue le sur-rejet dans les grands modèles de langage alignés en guidant dynamiquement leurs activations internes vers des états désirables via un modèle externe basé sur l'énergie, améliorant ainsi la conformité aux requêtes bénignes tout en préservant la sécurité.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat

Physically Valid Biomolecular Interaction Modeling with Gauss-Seidel Projection

Ce papier présente une méthode de modélisation des interactions biomoléculaires intégrant une projection de Gauss-Seidel différentiable pour garantir la validité physique des structures, permettant d'obtenir une précision équivalente aux modèles de diffusion actuels en seulement deux étapes et avec une vitesse dix fois supérieure.

Siyuan Chen, Minghao Guo, Caoliwen Wang + 6 more2026-03-04🧬 q-bio

Efficient Resource-Constrained Training of Transformers via Subspace Optimization

Ce papier présente WASI, une méthode d'optimisation de sous-espace qui permet l'entraînement efficace de modèles Transformer sur des appareils mobiles en réduisant considérablement l'utilisation de la mémoire et les coûts computationnels tout en préservant la précision.

Le-Trung Nguyen, Enzo Tartaglione, Van-Tam Nguyen2026-03-04🤖 cs.LG

Auditing Information Disclosure During LLM-Scale Gradient Descent Using Gradient Uniqueness

Cet article présente GNQ, une métrique efficace et fondée sur la théorie de l'information pour auditer les risques de divulgation d'informations dans les grands modèles de langage, en surmontant les limitations computationnelles grâce à l'algorithme BS-Ghost GNQ qui permet d'évaluer la prédictibilité des séquences lors de l'entraînement.

Sleem Abdelghafar, Maryam Aliakbarpour, Chris Jermaine2026-03-04📊 stat

Quantum Kernel Methods: Convergence Theory, Separation Bounds and Applications to Marketing Analytics

Cet article présente une méthode hybride combinant une machine à vecteurs de support à noyau quantique et une extraction de caractéristiques quantiques pour une tâche de classification de consommateurs dans le régime NISQ, démontrant une sensibilité accrue et servant de point de départ concret pour l'intégration matérielle future.

Laura Sáez-Ortuño, Santiago Forgas-Coll, Massimiliano Ferrara2026-03-04⚛️ quant-ph

Secure Sparse Matrix Multiplications and their Applications to Privacy-Preserving Machine Learning

Cet article propose des algorithmes de multiplication de matrices creuses sécurisées par calcul multipartite (MPC) qui surmontent les limitations de mémoire et réduisent considérablement les coûts de communication par rapport aux méthodes denses, permettant ainsi l'application du machine learning préservant la vie privée sur des données réelles de grande dimension.

Marc Damie, Florian Hahn, Andreas Peter + 1 more2026-03-04🤖 cs.LG

Policy Transfer for Continuous-Time Reinforcement Learning: A (Rough) Differential Equation Approach

Cet article établit la première preuve théorique du transfert de politique pour l'apprentissage par renforcement en temps continu en exploitant la structure gaussienne des systèmes linéaires-quadratiques et la stabilité des équations différentielles stochastiques via la théorie des chemins rugueux, permettant ainsi d'initialiser la recherche d'une politique quasi-optimale pour un problème connexe tout en conservant le taux de convergence original.

Xin Guo, Zijiu Lyu2026-03-04🤖 cs.LG

Boosted Trees on a Diet: Compact Models for Resource-Constrained Devices

Cet article présente une méthode de compression pour les arbres de décision boostés qui, en favorisant le réutilisation des caractéristiques et des seuils durant l'entraînement, permet de réduire l'empreinte mémoire de 4 à 16 fois par rapport à LightGBM, facilitant ainsi le déploiement autonome de modèles d'apprentissage automatique sur des appareils IoT aux ressources limitées.

Nina Herrmann, Jan Stenkamp, Benjamin Karic + 2 more2026-03-04🤖 cs.LG

Adversarial Spatio-Temporal Attention Networks for Epileptic Seizure Forecasting

L'article présente STAN, un réseau de neurones à attention spatio-temporelle adversaire qui améliore la prévision des crises d'épilepsie en modélisant conjointement les connexions cérébrales et les dynamiques temporelles pour atteindre une sensibilité élevée et un faible taux de fausses alarmes sur des données EEG multivariées.

Zan Li, Kyongmin Yeo, Wesley Gifford + 3 more2026-03-04🤖 cs.AI

Graph Homomorphism Distortion: A Metric to Distinguish Them All and in the Latent Space Bind Them

Cet article propose une nouvelle métrique de distorsion basée sur les homomorphismes de graphes qui intègre à la fois la structure et les caractéristiques des nœuds pour évaluer la similarité entre graphes, comblant ainsi les lacunes des mesures d'expressivité existantes et améliorant les performances des réseaux de neurones graphiques.

Martin Carrasco, Olga Zaghen, Kavir Sumaraj + 2 more2026-03-04🤖 cs.LG

Continual Unlearning for Text-to-Image Diffusion Models: A Regularization Perspective

Cet article présente la première étude systématique de l'effacement continu dans les modèles de diffusion texte-à-image, démontrant que les méthodes actuelles échouent à cause d'une dérive des paramètres et proposant une approche de régularisation, incluant une projection de gradient, pour préserver les connaissances tout en supprimant les concepts ciblés.

Justin Lee, Zheda Mai, Jinsu Yoo + 3 more2026-03-04🤖 cs.LG

TransactionGPT

Le papier présente TransactionGPT, un modèle fondation innovant basé sur une architecture 3D-Transformer entraîné sur des milliards de transactions réelles, qui surpasse les modèles de production existants dans la détection d'anomalies et la génération de trajectoires tout en offrant une efficacité supérieure aux grands modèles de langage pour les tâches prédictives sur les données de paiement.

Yingtong Dou, Zhimeng Jiang, Tianyi Zhang + 26 more2026-03-04💬 cs.CL

SURFACEBENCH: A Geometry-Aware Benchmark for Symbolic Surface Discovery

Cet article présente SURFACEBENCH, le premier benchmark conscient de la géométrie conçu pour évaluer la découverte d'expressions symboliques régissant des surfaces tridimensionnelles, en mettant l'accent sur la fidélité structurelle et géométrique au-delà des métriques de régression traditionnelles.

Sanchit Kabra, Shobhnik Kriplani, Parshin Shojaee + 1 more2026-03-04🤖 cs.LG

FAST: Topology-Aware Frequency-Domain Distribution Matching for Coreset Selection

Le papier présente FAST, un cadre de sélection de coeurs sans réseau de neurones profond qui utilise la théorie des graphes spectraux et une distance de fonction caractéristique atténuée pour matcher les distributions dans le domaine fréquentiel, surpassant ainsi les méthodes existantes en précision, vitesse et efficacité énergétique.

Jin Cui, Boran Zhao, Jiajun Xu + 3 more2026-03-04📊 stat

QiMeng-CRUX: Narrowing the Gap Between Natural Language and Verilog via Core Refined Understanding eXpression for Circuit Design

Le papier présente QiMeng-CRUX, un cadre innovant qui réduit l'écart entre les descriptions en langage naturel et la génération de code Verilog en introduisant un espace intermédiaire structuré appelé CRUX, optimisé par un entraînement en deux étapes pour produire des résultats state-of-the-art.

Lei Huang, Rui Zhang, Jiaming Guo + 9 more2026-03-04🤖 cs.LG

WARP: Weight Teleportation for Attack-Resilient Unlearning Protocols

Ce papier présente WARP, une méthode de téléportation des poids exploitant les symétries des réseaux de neurones pour renforcer la confidentialité des protocoles d'oubli machine approximatif en réduisant les fuites d'informations détectables par des attaques de reconstruction ou d'inférence de membres, tout en préservant la précision du modèle.

Mohammad M Maheri, Xavier Cadet, Peter Chin + 1 more2026-03-04🤖 cs.AI

ALARM: Automated MLLM-Based Anomaly Detection in Complex-EnviRonment Monitoring with Uncertainty Quantification

Ce papier présente ALARM, un cadre de détection d'anomalies visuelles basé sur des modèles de langage multimodaux (MLLM) intégrant une quantification de l'incertitude et des techniques d'assurance qualité pour assurer une prise de décision fiable dans des environnements complexes.

Congjing Zhang, Feng Lin, Xinyi Zhao + 5 more2026-03-04🤖 cs.AI

← Précédent Suivant →