cs.AI articles | Gist.Science

Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations

Cet article propose une nouvelle méthode de défense contre les injections de prompts dans les grands modèles de langage en injectant un signal de hiérarchie des instructions directement dans les représentations intermédiaires du réseau, ce qui réduit considérablement le taux de réussite des attaques par rapport aux approches existantes sans dégrader l'utilité du modèle.

Sanjay Kariyappa, G. Edward Suh2026-03-10🤖 cs.LG

OCN: Effectively Utilizing Higher-Order Common Neighbors for Better Link Prediction

Ce papier propose OCN, une nouvelle méthode de prédiction de liens qui surpasse les approches existantes en éliminant la redondance et le lissage excessif des voisins communs d'ordres supérieurs grâce à des techniques d'orthogonalisation et de normalisation.

Juntong Wang, Xiyuan Wang, Muhan Zhang2026-03-10🤖 cs.LG

Representing local protein environments with machine learning force fields

Cette étude propose une nouvelle représentation des environnements protéiques locaux dérivée des modèles de fondation atomistiques, démontrant son efficacité pour capturer la structure et la chimie locales, établir des priors de données et réaliser des prédictions de décalages chimiques NMR à l'état de l'art.

Meital Bojan, Sanketh Vedula, Advaith Maddipatla, Nadav Bojan Sellam, Anar Rzayev, Federico Napoli, Paul Schanda, Alex M. Bronstein2026-03-10💻 cs

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Ce papier présente MMTU, un benchmark à grande échelle comprenant plus de 28 000 questions sur 25 tâches réelles, conçu pour évaluer de manière exhaustive les capacités des modèles de langage à comprendre, raisonner et manipuler des données tabulaires au niveau expert, révélant ainsi des lacunes significatives même chez les modèles les plus avancés.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Ce papier présente BemaGANv2, un vocodeur basé sur les GAN optimisé pour la génération audio longue durée, qui améliore la fidélité et la cohérence temporelle grâce à l'intégration de modules AMP et d'une combinaison systématique de discriminateurs innovants comme le MED et le MRD.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

Le papier propose Co-LoRA, une méthode de fédéré personnalisé qui surmonte l'hétérogénéité des données et des architectures via une agrégation consciente de la pertinence des tâches et un module invariant en dimension, validée sur un nouveau benchmark multi-modal de 40 tâches.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars2026-03-10🤖 cs.LG

Context Matters! Relaxing Goals with LLMs for Feasible 3D Scene Planning

Le papier présente ContextMatters, un cadre qui fusionne les modèles de langage et la planification classique pour assouplir les objectifs de manière contextuelle via des graphes de scènes 3D, permettant ainsi aux agents incarnés de générer des plans réalisables et d'atteindre des buts partiels dans des environnements complexes, avec une amélioration de 52,45 % du taux de succès par rapport aux méthodes de l'état de l'art.

Emanuele Musumeci, Michele Brienza, Francesco Argenziano, Abdel Hakim Drid, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi2026-03-10💻 cs

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Cet article propose une approche d'apprentissage semi-autosupervisé nommée GLMask, qui transforme la segmentation sémantique en segmentation d'instances avec un minimum d'annotation manuelle, atteignant des performances de pointe à la fois pour la détection d'épis de blé en agriculture et sur le jeu de données généraliste COCO.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

Cet article présente SamS, un algorithme innovant qui améliore l'optimisation directe par préférence (DPO) en adaptant dynamiquement la sélection des échantillons d'entraînement à chaque lot en fonction de l'état évolutif du modèle, sans modifier l'algorithme de base et avec un surcoût computationnel minimal.

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang2026-03-10🤖 cs.LG

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

Ce papier présente MeRF, une méthode de finetuning par renforcement qui améliore l'efficacité des grands modèles de raisonnement en injectant une « motivation » explicite sous forme de description de la fonction de récompense dans le prompt, permettant ainsi au modèle d'aligner sa génération sur l'objectif d'optimisation grâce à l'apprentissage en contexte.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng Tao2026-03-10💬 cs.CL

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Le papier présente SUBARU, une approche pratique qui réduit la consommation énergétique des appareils auditifs en utilisant un sous-échantillonnage et une résolution binaire faible, tout en restaurant la qualité audio via un suréchantillonnage pour le traitement de la parole en temps réel.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Ce papier propose LD-RPS, une méthode unifiée et sans jeu de données pour la restauration d'images qui exploite l'échantillonnage récursif de l'arrière-plan d'un modèle de diffusion latent préentraîné, enrichi par des priors sémantiques multimodaux, pour surpasser les méthodes actuelles dans la gestion de diverses dégradations sans nécessiter de données appariées.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Noisy PDE Training Requires Bigger PINNs

Cette étude démontre que l'entraînement efficace des réseaux de neurones informés par la physique (PINNs) sur des données bruitées exige une taille de modèle suffisamment grande, établissant une limite inférieure sur le nombre de paramètres nécessaire pour réduire l'erreur empirique en dessous de la variance du bruit, indépendamment de l'augmentation du nombre d'échantillons.

Sebastien Andre-Sloan, Anirbit Mukherjee, Matthew Colbrook2026-03-10🤖 cs.LG

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Cet article propose MCULoRA, une nouvelle approche d'adaptation faible rang dynamique et découplée par modalité qui surpasse les méthodes existantes pour la reconnaissance des émotions en résolvant les conflits de gradients lors de l'apprentissage avec des données multimodales incomplètes.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Ce papier identifie le biais d'adhésion limitant les vérificateurs basés sur les MLLM et propose la méthode SGV, qui améliore significativement la détection des échecs et les performances d'agents autonomes en générant d'abord des priors indépendants avant d'évaluer les trajectoires.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Unified Medical Image Segmentation with State Space Modeling Snake

Ce papier propose Mamba Snake, un cadre innovant de segmentation unifiée d'images médicales qui combine la modélisation par espace d'états et des mécanismes de type « snake » pour surmonter les défis de l'hétérogénéité structurelle et améliorer la précision anatomique.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

Cet article présente InsightX Agent, un cadre novateur basé sur un modèle multimodal large (LMM) qui orchestre un détecteur de défauts et un outil de réflexion ancrée dans les preuves pour fournir une analyse d'inspection non destructive par rayons X à la fois fiable, interprétable et interactive.

Jiale Liu, Huan Wang, Yue Zhang + 4 more2026-03-10🤖 cs.AI

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Cet article propose un cadre d'apprentissage profond basé sur les Vision Transformers (ViT) et utilisant des données Sentinel-2 et Formosat-5 pour affiner la segmentation des zones sinistrées via une approche d'apprentissage faible supervision, améliorant ainsi la fiabilité des produits d'urgence (EVAP) développés par l'agence spatiale taïwanaise (TASA).

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Flow Matching Meets Biology and Life Science: A Survey

Cet article présente la première enquête complète sur les développements récents du flow matching et ses applications dans les domaines biologiques, couvrant la modélisation des séquences, la génération de molécules et la conception de protéines.

Zihao Li, Zhichen Zeng, Xiao Lin, Feihao Fang, Yanru Qu, Zhe Xu, Zhining Liu, Xuying Ning, Tianxin Wei, Ge Liu, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

Ce papier présente UGST, un nouveau cadre et une méthodologie en trois étapes qui permettent aux simulateurs d'utilisateurs basés sur les grands modèles de langage de suivre et de raisonner sur l'évolution des objectifs de l'utilisateur, garantissant ainsi une meilleure alignement des réponses dans les conversations multi-tours.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-Tür2026-03-10💬 cs.CL

← Précédent Suivant →