Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations

Cet article propose une nouvelle méthode de défense contre les injections de prompts dans les grands modèles de langage en injectant un signal de hiérarchie des instructions directement dans les représentations intermédiaires du réseau, ce qui réduit considérablement le taux de réussite des attaques par rapport aux approches existantes sans dégrader l'utilité du modèle.

Sanjay Kariyappa, G. Edward Suh2026-03-10🤖 cs.LG

Representing local protein environments with machine learning force fields

Cette étude propose une nouvelle représentation des environnements protéiques locaux dérivée des modèles de fondation atomistiques, démontrant son efficacité pour capturer la structure et la chimie locales, établir des priors de données et réaliser des prédictions de décalages chimiques NMR à l'état de l'art.

Meital Bojan, Sanketh Vedula, Advaith Maddipatla, Nadav Bojan Sellam, Anar Rzayev, Federico Napoli, Paul Schanda, Alex M. Bronstein2026-03-10💻 cs

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Ce papier présente MMTU, un benchmark à grande échelle comprenant plus de 28 000 questions sur 25 tâches réelles, conçu pour évaluer de manière exhaustive les capacités des modèles de langage à comprendre, raisonner et manipuler des données tabulaires au niveau expert, révélant ainsi des lacunes significatives même chez les modèles les plus avancés.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Ce papier présente BemaGANv2, un vocodeur basé sur les GAN optimisé pour la génération audio longue durée, qui améliore la fidélité et la cohérence temporelle grâce à l'intégration de modules AMP et d'une combinaison systématique de discriminateurs innovants comme le MED et le MRD.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Context Matters! Relaxing Goals with LLMs for Feasible 3D Scene Planning

Le papier présente ContextMatters, un cadre qui fusionne les modèles de langage et la planification classique pour assouplir les objectifs de manière contextuelle via des graphes de scènes 3D, permettant ainsi aux agents incarnés de générer des plans réalisables et d'atteindre des buts partiels dans des environnements complexes, avec une amélioration de 52,45 % du taux de succès par rapport aux méthodes de l'état de l'art.

Emanuele Musumeci, Michele Brienza, Francesco Argenziano, Abdel Hakim Drid, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi2026-03-10💻 cs

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

Ce papier présente MeRF, une méthode de finetuning par renforcement qui améliore l'efficacité des grands modèles de raisonnement en injectant une « motivation » explicite sous forme de description de la fonction de récompense dans le prompt, permettant ainsi au modèle d'aligner sa génération sur l'objectif d'optimisation grâce à l'apprentissage en contexte.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng Tao2026-03-10💬 cs.CL

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Le papier présente SUBARU, une approche pratique qui réduit la consommation énergétique des appareils auditifs en utilisant un sous-échantillonnage et une résolution binaire faible, tout en restaurant la qualité audio via un suréchantillonnage pour le traitement de la parole en temps réel.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Ce papier propose LD-RPS, une méthode unifiée et sans jeu de données pour la restauration d'images qui exploite l'échantillonnage récursif de l'arrière-plan d'un modèle de diffusion latent préentraîné, enrichi par des priors sémantiques multimodaux, pour surpasser les méthodes actuelles dans la gestion de diverses dégradations sans nécessiter de données appariées.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Noisy PDE Training Requires Bigger PINNs

Cette étude démontre que l'entraînement efficace des réseaux de neurones informés par la physique (PINNs) sur des données bruitées exige une taille de modèle suffisamment grande, établissant une limite inférieure sur le nombre de paramètres nécessaire pour réduire l'erreur empirique en dessous de la variance du bruit, indépendamment de l'augmentation du nombre d'échantillons.

Sebastien Andre-Sloan, Anirbit Mukherjee, Matthew Colbrook2026-03-10🤖 cs.LG

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Cet article propose MCULoRA, une nouvelle approche d'adaptation faible rang dynamique et découplée par modalité qui surpasse les méthodes existantes pour la reconnaissance des émotions en résolvant les conflits de gradients lors de l'apprentissage avec des données multimodales incomplètes.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Cet article propose un cadre d'apprentissage profond basé sur les Vision Transformers (ViT) et utilisant des données Sentinel-2 et Formosat-5 pour affiner la segmentation des zones sinistrées via une approche d'apprentissage faible supervision, améliorant ainsi la fiabilité des produits d'urgence (EVAP) développés par l'agence spatiale taïwanaise (TASA).

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Goal Alignment in LLM-Based User Simulators for Conversational AI

Ce papier présente UGST, un nouveau cadre et une méthodologie en trois étapes qui permettent aux simulateurs d'utilisateurs basés sur les grands modèles de langage de suivre et de raisonner sur l'évolution des objectifs de l'utilisateur, garantissant ainsi une meilleure alignement des réponses dans les conversations multi-tours.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-Tür2026-03-10💬 cs.CL