cs.LG articles | Gist.Science

Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification

Cet article présente CDGLT, un cadre novateur et économe en calcul pour l'identification des métaphores multimodales qui utilise un mécanisme de dérive conceptuelle et un ajustement de la normalisation par couches pour atteindre des performances de pointe sur le benchmark MET-Meme.

Wenhao Qian, Zhenzhen Hu, Zijie Song, Jia Li2026-03-11🤖 cs.LG

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

L'article présente la SGPO, une méthode qui améliore l'optimisation par politique relative de groupe (GRPO) en intégrant un juge étape par étape pour exploiter les signaux d'apprentissage des groupes de réponses entièrement incorrects, comblant ainsi une lacune majeure de l'apprentissage par renforcement dans le raisonnement des grands modèles de langage.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin2026-03-11🤖 cs.AI

The Gaussian-Multinoulli Restricted Boltzmann Machine: A Potts Model Extension of the GRBM

Ce papier présente la Machine de Boltzmann Restreinte Gaussienne-Multinoulli (GM-RBM), une extension du modèle Potts qui remplace les unités cachées binaires par des unités catégorielles à q états pour mieux représenter des concepts multivalués, démontrant ainsi des performances supérieures ou compétitives sur des tâches de mémoire structurée et de rappel analogique par rapport aux modèles continus équivalents.

Nikhil Kapasi, Mohamed Elfouly, William Whitehead, Luke Theogarajan2026-03-11🤖 cs.LG

JULI: Jailbreak Large Language Models by Self-Introspection

Le papier propose JULI, une méthode de contournement (jailbreak) des grands modèles de langage qui, en exploitant uniquement les probabilités logarithmiques des tokens via un petit module appelé BiasNet, permet de compromettre efficacement des modèles propriétaires accessibles par API dans un cadre de boîte noire.

Jesson Wang, Zhanhao Hu, David Wagner2026-03-11🤖 cs.LG

Discovering Symbolic Differential Equations with Symmetry Invariants

Cet article propose une méthode innovante pour découvrir des équations différentielles symboliques à partir de données en utilisant des invariants de symétrie comme entités atomiques, garantissant ainsi que les lois physiques découvertes respectent les symétries du système tout en améliorant l'efficacité et la précision des algorithmes existants.

Jianke Yang, Manu Bhat, Bryan Hu, Yadi Cao, Nima Dehmamy, Robin Walters, Rose Yu2026-03-11🤖 cs.LG

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

L'article présente UltraEdit, une méthode de mise à jour des connaissances dans les grands modèles de langage qui, sans nécessiter de réentraînement, de suivi des sujets ni de mémoire externe, permet une édition en temps réel ultra-rapide et économe en ressources tout en supportant jusqu'à deux millions de modifications grâce à une stratégie de normalisation continue.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai Zhang2026-03-11🤖 cs.AI

A Systematic Evaluation of On-Device LLMs: Quantization, Performance, and Resources

Cette étude propose une méthodologie systématique pour évaluer les grands modèles de langage sur des appareils mobiles, démontrant que les modèles volumineux fortement quantifiés surpassent les modèles plus petits à haute précision et offrant des directives pour optimiser leur déploiement dans des environnements aux ressources limitées.

Qingyu Song, Rui Liu, Wei Lin, Peiyu Liao, Wenqian Zhao, Yiwen Wang, Shoubo Hu, Yining Jiang, Mochun Long, Hui-Ling Zhen, Ning Jiang, Mingxuan Yuan, Qiao Xiang, Hong Xu2026-03-11🤖 cs.LG

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

Le papier présente Saturn, un cadre d'apprentissage par renforcement basé sur les problèmes de satisfaisabilité booléenne (SAT) qui surmonte les limitations d'évolutivité, de vérification et de contrôle de difficulté des tâches existantes pour améliorer significativement les capacités de raisonnement des grands modèles de langage.

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong2026-03-11🤖 cs.AI

FrontierCO: Real-World and Large-Scale Evaluation of Machine Learning Solvers for Combinatorial Optimization

Le papier présente FrontierCO, un benchmark à grande échelle et fondé sur des structures réelles pour évaluer les solveurs d'optimisation combinatoire par apprentissage automatique, révélant un écart de performance persistant par rapport aux solveurs classiques sur des instances massives tout en identifiant des cas où les méthodes ML surpassent les approches traditionnelles.

Shengyu Feng, Weiwei Sun, Shanda Li, Ameet Talwalkar, Yiming Yang2026-03-11🤖 cs.LG

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Cet article présente la première revue systématique de l'intégration des modèles de fondation dans la robotique de service mobile, en analysant comment ces technologies surmontent les défis techniques et éthiques pour permettre une exécution de tâches adaptative et sûre dans des environnements réels.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score

Cet article propose SemiCP, une méthode de prédiction conforme semi-supervisée qui améliore la stabilité de la couverture en exploitant des données non étiquetées via un score de non-conformité basé sur l'appariement des plus proches voisins, réduisant ainsi considérablement l'erreur de couverture dans des scénarios à faible étiquetage.

Xuanning Zhou, Zihao Shi, Hao Zeng, Xiaobo Xia, Bingyi Jing, Hongxin Wei2026-03-11🤖 cs.LG

Pure Exploration with Infinite Answers

Cet article propose un cadre général, nommé Sticky-Sequence Track-and-Stop, qui résout les problèmes d'exploration pure avec un ensemble infini de réponses possibles et garantit une optimalité asymptotique là où les méthodes existantes échouent.

Riccardo Poiani, Martino Bernasconi, Andrea Celli2026-03-11🤖 cs.LG

Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment

Ce papier présente TSRating, un cadre unifié qui exploite le jugement de grands modèles de langage (LLM) et un apprentissage méta pour évaluer efficacement la qualité de données de séries temporelles provenant de domaines diversifiés, surpassant ainsi les méthodes existantes en précision et en adaptabilité.

Shunyu Wu, Dan Li, Wenjie Feng, Haozheng Ye, Jian Lou, See-Kiong Ng2026-03-11🤖 cs.AI

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Cette présentation propose CORA, une méthode d'attribution de crédit pour l'apprentissage par renforcement multi-agent coopératif qui utilise l'allocation du noyau de la théorie des jeux coopératifs et l'échantillonnage aléatoire de coalitions pour optimiser l'apprentissage des politiques en attribuant les avantages globaux aux stratégies de coalition.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning

Cet article propose deux nouveaux algorithmes d'apprentissage par renforcement sans modèle, Q-EarlySettled-LowCost et FedQ-EarlySettled-LowCost, qui réduisent simultanément les coûts d'initialisation, de commutation de politique et de communication tout en garantissant des regrets quasi-optimaux pour l'apprentissage par renforcement en agent unique et fédéré.

Haochen Zhang, Zhong Zheng, Lingzhou Xue2026-03-11🤖 cs.LG

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

Ce papier propose ChannelTokenFormer, un cadre de prévision basé sur les Transformers conçu pour gérer simultanément les dépendances inter-canaux, l'échantillonnage asynchrone et les valeurs manquantes afin d'améliorer la robustesse des prévisions de séries temporelles multivariées dans des conditions réelles.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

Wavelet Scattering Transform and Fourier Representation for Offline Detection of Malicious Clients in Federated Learning

L'article présente WAFFLE, un algorithme de détection pré-entraînement utilisant des représentations compressées par transformée en ondelettes ou de Fourier pour identifier les clients malveillants dans l'apprentissage fédéré sans accéder aux données brutes, offrant ainsi une méthode efficace et légère pour améliorer la performance globale du modèle.

Alessandro Licciardi, Davide Leo, Davide Carbone2026-03-11🤖 cs.LG

Uncovering Social Network Activity Using Joint User and Topic Interaction

Cet article présente le modèle MIC, une approche basée sur des processus ponctuels de Hawkes multidimensionnels en mélange, qui permet de modéliser conjointement les interactions entre les utilisateurs et les cascades d'information pour mieux comprendre la dynamique des réseaux sociaux et surpasser les méthodes existantes.

Gaspard Abel, Argyris Kalogeratos, Jean-Pierre Nadal, Julien Randon-Furling2026-03-11🤖 cs.LG

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

Le papier propose ConLID, une méthode d'apprentissage contrastif supervisé qui améliore la reconnaissance des langues peu dotées sur des données hors domaine en apprenant des représentations invariantes au domaine, tout en préservant les performances des langues riches.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine Bosselut2026-03-11🤖 cs.AI

Global Convergence of Iteratively Reweighted Least Squares for Robust Subspace Recovery

Cet article établit les premières garanties de convergence globale linéaire pour une variante de la méthode des moindres carrés itérativement pondérés (IRLS) avec régularisation dynamique, prouvant sa capacité à retrouver un sous-espace sous-jacent à partir de n'importe quelle initialisation dans le cadre de la récupération robuste de sous-espaces et de l'estimation de sous-espaces affines.

Gilad Lerman, Kang Li, Tyler Maunu, Teng Zhang2026-03-11🤖 cs.LG

← Précédent Suivant →