cs.LG articles | Gist.Science

Wasserstein Gradient Flows for Batch Bayesian Optimal Experimental Design

Cet article propose une nouvelle approche pour la conception optimale d'expériences bayésienne par lots en relevant le problème d'optimisation vers l'espace des mesures de probabilité, où l'optimisation d'une régularisation entropique de l'utilité attendue mène à des algorithmes basés sur des particules dérivés des flots de gradient de Wasserstein.

Louis Sharrock2026-03-13📊 stat

Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

Cet article propose le cadre MMDDPG, qui utilise une optimisation minimax avec un objectif fractionnaire pour apprendre des politiques de contrôle robustes et stables face aux perturbations externes et aux incertitudes de modèle dans des tâches de contrôle continu.

Taeho Lee, Donghwan Lee2026-03-13🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Le papier présente Cornserve, un système de service distribué open-source conçu pour les modèles multimodaux « any-to-any » qui permet le découplage des composants et une mise à l'échelle indépendante, offrant ainsi une augmentation significative du débit et une réduction de la latence grâce à un modèle d'exécution efficace basé sur Kubernetes.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf Chowdhury2026-03-13🤖 cs.LG

Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D

Le papier présente Hoi3DGen, un cadre innovant qui génère des maillages texturés 3D de haute qualité représentant des interactions humain-objet fidèles aux descriptions textuelles, en surmontant les limitations des méthodes existantes grâce à l'utilisation de modèles de langage multimodaux pour la création de données et l'optimisation de la fidélité du texte.

Agniv Sharma, Xianghui Xie, Tom Fischer, Eddy Ilg, Gerard Pons-Moll2026-03-13🤖 cs.LG

Automatic Generation of High-Performance RL Environments

Cet article présente une méthode automatisée et peu coûteuse utilisant des agents IA pour générer des environnements d'apprentissage par renforcement haute performance en JAX ou Rust, garantissant une équivalence sémantique et des gains de vitesse considérables par rapport aux implémentations de référence.

Seth Karten, Rahul Dev Appapogu, Chi Jin2026-03-13🤖 cs.LG

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Le papier présente FlashMotion, un cadre d'entraînement novateur qui permet une génération vidéo contrôlée par trajectoire en quelques étapes en combinant l'entraînement d'un adaptateur de trajectoire, la distillation d'un générateur vidéo et un affinage hybride, surpassant ainsi les méthodes existantes en qualité visuelle et en précision du mouvement.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Ce papier propose un guide pratique pour l'entraînement par renforcement des grands modèles de langage en identifiant les règles d'allocation optimales des ressources de calcul, notamment en démontrant que le nombre de déroulés parallèles par problème doit augmenter puis se saturer en fonction du budget disponible pour améliorer la stabilité et l'efficacité.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

A Quantitative Characterization of Forgetting in Post-Training

Ce papier propose une caractérisation quantitative du phénomène d'oubli lors du post-entraînement continu de modèles génératifs en démontrant théoriquement comment la direction de la divergence (KL direct ou inverse), le chevauchement géométrique des modes et les stratégies d'échantillonnage déterminent respectivement l'effondrement des poids des anciennes tâches ou leur dérive contrôlée.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

L'article présente les « Proof-Carrying Materials », un cadre de certification formelle et falsifiable qui comble les lacunes de sécurité des potentiels interatomiques appris par machine en combinant falsification adversaire, enveloppes statistiques et vérification formelle pour améliorer significativement la fiabilité et le rendement de la découverte de nouveaux matériaux.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

L'article présente IndexCache, une méthode qui accélère l'attention sparse en réutilisant les index de couches complètes pour les couches partagées, réduisant ainsi les calculs de l'indexeur de 75 % tout en maintenant la qualité du modèle.

Yushi Bai, Qian Dong, Ting Jiang, Xin Lv, Zhengxiao Du, Aohan Zeng, Jie Tang, Juanzi Li2026-03-13💬 cs.CL

HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers

Ce papier présente HiAP, un cadre d'élagage stochastique multi-granulaire qui optimise de manière continue et en une seule phase les Transformers de vision en éliminant simultanément des têtes d'attention, des blocs FFN et des dimensions internes, permettant ainsi de réduire efficacement les coûts computationnels et mémoire pour le déploiement sur appareils embarqués sans nécessiter de seuils manuels ou de pipelines complexes.

Andy Li, Aiden Durrant, Milan Markovic, Georgios Leontidis2026-03-13🤖 cs.LG

Interpreting Contrastive Embeddings in Specific Domains with Fuzzy Rules

Cet article propose une méthode combinant un système de classification à règles floues et des techniques de traitement de texte pour interpréter les embeddings contrastifs du modèle CLIP dans des domaines spécifiques, tels que les rapports cliniques et les critiques de films, afin de pallier les limites de ce modèle dans des contextes spécialisés.

Javier Fumanal-Idocin, Mohammadreza Jamalifard, Javier Andreu-Perez2026-03-13🤖 cs.LG

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Cet article démontre que dans les grands modèles pré-entraînés, les experts spécialisés dans diverses tâches sont si denses autour des poids initiaux qu'une méthode post-entraînement simple, consistant à échantillonner et à agréger des perturbations aléatoires, rivalise avec des techniques d'optimisation structurée complexes comme PPO ou GRPO.

Yulu Gan, Phillip Isola2026-03-13🤖 cs.LG

Security Considerations for Artificial Intelligence Agents

Ce document présente les observations et recommandations de Perplexity concernant la sécurité des agents d'IA de pointe, en identifiant leurs nouvelles vulnérabilités, en évaluant les défenses en couches actuelles et en soulignant les lacunes de recherche pour aligner la conception des systèmes multi-agents sur les principes de gestion des risques du NIST.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Temporal Straightening for Latent Planning

Ce papier propose une méthode de « redressement temporel » qui, en régularisant la courbure des trajectoires latentes, améliore la stabilité du planification par gradient et les taux de réussite dans des tâches d'atteinte de but.

Ying Wang, Oumayma Bounou, Gaoyue Zhou, Randall Balestriero, Tim G. J. Rudner, Yann LeCun, Mengye Ren2026-03-13🤖 cs.LG

STAMP: Selective Task-Aware Mechanism for Text Privacy

Le papier présente STAMP, un nouveau cadre de privatisation textuelle qui améliore le compromis entre confidentialité et utilité en allouant sélectivement des budgets de confidentialité au niveau des tokens via un mécanisme polaire qui perturbe uniquement la direction des embeddings tout en préservant leur magnitude et leur sémantique.

Fengwei Tian, Payel Bhattacharjee, Heidi Hanson, Geoffrey D. Rubin, Joseph Y. Lo, Ravi Tandon2026-03-13🤖 cs.LG

BiGain: Unified Token Compression for Joint Generation and Classification

Le papier présente BiGain, un cadre d'accélération sans entraînement pour les modèles de diffusion qui, grâce à une séparation fréquentielle et des opérateurs d'attention adaptatifs, optimise simultanément la qualité de génération et la précision de classification en préservant à la fois les détails haute fréquence et les sémantiques globales.

Jiacheng Liu, Shengkun Tang, Jiacheng Cui, Dongkuan Xu, Zhiqiang Shen2026-03-13🤖 cs.LG

Separable neural architectures as a primitive for unified predictive and generative intelligence

Cet article présente les architectures neuronales séparables (SNA) comme un primitif unificateur pour l'intelligence prédictive et générative, exploitant une structure factorisable pour modéliser efficacement des systèmes complexes allant de la dynamique chaotique au langage naturel.

Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine, Sourav Saha2026-03-13🤖 cs.LG

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Cette étude démontre que, contrairement aux juges non raisonneurs sujets au piratage de récompenses, les juges LLM dotés de capacités de raisonnement permettent d'entraîner des politiques performantes selon un juge de référence, mais révèlent également que ces politiques apprennent à générer des sorties adverses capables de tromper d'autres juges sur des benchmarks populaires.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models

Ce papier présente l'ajustement fin basé sur l'énergie (EBFT), une méthode qui optimise les statistiques au niveau de la séquence via un appariement de caractéristiques et un échantillonnage parallèle, surpassant ainsi l'entraînement par supervision fine (SFT) et égalant les méthodes de renforcement avec vérificateur (RLVR) tout en maintenant une entropie croisée plus faible.

Samy Jelassi, Mujin Kwun, Rosie Zhao, Yuanzhi Li, Nicolo Fusi, Yilun Du, Sham M. Kakade, Carles Domingo-Enrich2026-03-13🤖 cs.LG

← Précédent Suivant →