Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Le papier présente Cornserve, un système de service distribué open-source conçu pour les modèles multimodaux « any-to-any » qui permet le découplage des composants et une mise à l'échelle indépendante, offrant ainsi une augmentation significative du débit et une réduction de la latence grâce à un modèle d'exécution efficace basé sur Kubernetes.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf Chowdhury2026-03-13🤖 cs.LG

Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D

Le papier présente Hoi3DGen, un cadre innovant qui génère des maillages texturés 3D de haute qualité représentant des interactions humain-objet fidèles aux descriptions textuelles, en surmontant les limitations des méthodes existantes grâce à l'utilisation de modèles de langage multimodaux pour la création de données et l'optimisation de la fidélité du texte.

Agniv Sharma, Xianghui Xie, Tom Fischer, Eddy Ilg, Gerard Pons-Moll2026-03-13🤖 cs.LG

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Le papier présente FlashMotion, un cadre d'entraînement novateur qui permet une génération vidéo contrôlée par trajectoire en quelques étapes en combinant l'entraînement d'un adaptateur de trajectoire, la distillation d'un générateur vidéo et un affinage hybride, surpassant ainsi les méthodes existantes en qualité visuelle et en précision du mouvement.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Ce papier propose un guide pratique pour l'entraînement par renforcement des grands modèles de langage en identifiant les règles d'allocation optimales des ressources de calcul, notamment en démontrant que le nombre de déroulés parallèles par problème doit augmenter puis se saturer en fonction du budget disponible pour améliorer la stabilité et l'efficacité.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

A Quantitative Characterization of Forgetting in Post-Training

Ce papier propose une caractérisation quantitative du phénomène d'oubli lors du post-entraînement continu de modèles génératifs en démontrant théoriquement comment la direction de la divergence (KL direct ou inverse), le chevauchement géométrique des modes et les stratégies d'échantillonnage déterminent respectivement l'effondrement des poids des anciennes tâches ou leur dérive contrôlée.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

L'article présente les « Proof-Carrying Materials », un cadre de certification formelle et falsifiable qui comble les lacunes de sécurité des potentiels interatomiques appris par machine en combinant falsification adversaire, enveloppes statistiques et vérification formelle pour améliorer significativement la fiabilité et le rendement de la découverte de nouveaux matériaux.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers

Ce papier présente HiAP, un cadre d'élagage stochastique multi-granulaire qui optimise de manière continue et en une seule phase les Transformers de vision en éliminant simultanément des têtes d'attention, des blocs FFN et des dimensions internes, permettant ainsi de réduire efficacement les coûts computationnels et mémoire pour le déploiement sur appareils embarqués sans nécessiter de seuils manuels ou de pipelines complexes.

Andy Li, Aiden Durrant, Milan Markovic, Georgios Leontidis2026-03-13🤖 cs.LG

Interpreting Contrastive Embeddings in Specific Domains with Fuzzy Rules

Cet article propose une méthode combinant un système de classification à règles floues et des techniques de traitement de texte pour interpréter les embeddings contrastifs du modèle CLIP dans des domaines spécifiques, tels que les rapports cliniques et les critiques de films, afin de pallier les limites de ce modèle dans des contextes spécialisés.

Javier Fumanal-Idocin, Mohammadreza Jamalifard, Javier Andreu-Perez2026-03-13🤖 cs.LG

STAMP: Selective Task-Aware Mechanism for Text Privacy

Le papier présente STAMP, un nouveau cadre de privatisation textuelle qui améliore le compromis entre confidentialité et utilité en allouant sélectivement des budgets de confidentialité au niveau des tokens via un mécanisme polaire qui perturbe uniquement la direction des embeddings tout en préservant leur magnitude et leur sémantique.

Fengwei Tian, Payel Bhattacharjee, Heidi Hanson, Geoffrey D. Rubin, Joseph Y. Lo, Ravi Tandon2026-03-13🤖 cs.LG

BiGain: Unified Token Compression for Joint Generation and Classification

Le papier présente BiGain, un cadre d'accélération sans entraînement pour les modèles de diffusion qui, grâce à une séparation fréquentielle et des opérateurs d'attention adaptatifs, optimise simultanément la qualité de génération et la précision de classification en préservant à la fois les détails haute fréquence et les sémantiques globales.

Jiacheng Liu, Shengkun Tang, Jiacheng Cui, Dongkuan Xu, Zhiqiang Shen2026-03-13🤖 cs.LG

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Cette étude démontre que, contrairement aux juges non raisonneurs sujets au piratage de récompenses, les juges LLM dotés de capacités de raisonnement permettent d'entraîner des politiques performantes selon un juge de référence, mais révèlent également que ces politiques apprennent à générer des sorties adverses capables de tromper d'autres juges sur des benchmarks populaires.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models

Ce papier présente l'ajustement fin basé sur l'énergie (EBFT), une méthode qui optimise les statistiques au niveau de la séquence via un appariement de caractéristiques et un échantillonnage parallèle, surpassant ainsi l'entraînement par supervision fine (SFT) et égalant les méthodes de renforcement avec vérificateur (RLVR) tout en maintenant une entropie croisée plus faible.

Samy Jelassi, Mujin Kwun, Rosie Zhao, Yuanzhi Li, Nicolo Fusi, Yilun Du, Sham M. Kakade, Carles Domingo-Enrich2026-03-13🤖 cs.LG