cs.LG articles | Gist.Science

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

Le papier présente Mem-T, un agent de mémoire autonome entraîné via le cadre RL MoT-GRPO pour densifier les récompenses et optimiser conjointement la construction et la récupération de mémoires sur des horizons longs, surpassant ainsi les méthodes existantes en performance et en efficacité.

Yanwei Yue, Boci Peng, Xuanbo Fan, Jiaxin Guo, Qiankun Li, Yan Zhang2026-03-10🤖 cs.LG

Bitcoin Price Prediction using Machine Learning and Combinatorial Fusion Analysis

Cet article propose l'application de l'analyse de fusion combinatoire (CFA) pour améliorer la prédiction des prix du Bitcoin en agrégeant divers modèles d'apprentissage automatique, obtenant ainsi une performance supérieure avec une erreur moyenne absolue en pourcentage (MAPE) de 0,19 %.

Yuanhong Wu, Wei Ye, Jingyan Xu, D. Frank Hsu2026-03-10🤖 cs.LG

In-Run Data Shapley for Adam Optimizer

Cet article propose l'« Adam-Aware In-Run Data Shapley », une méthode novatrice qui surpasse les approches existantes basées sur SGD en fournissant des attributions de données précises et évolutives pour l'optimiseur Adam grâce à une approximation linéarisée des gradients et une réévaluation de l'utilité sous hypothèse d'état fixe.

Meng Ding, Zeqing Zhang, Di Wang, Lijie Hu2026-03-10🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Cette étude démontre que, pour la détection de valeurs humaines au niveau des phrases, la structure hiérarchique des valeurs de Schwartz est plus efficace en tant que biais inductif que comme règle de routage rigide, les meilleurs résultats étant obtenus grâce à l'ajustement des seuils et à l'ensemblage plutôt qu'aux architectures hiérarchiques strictes ou aux modèles de langage compacts.

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG

LatentMem: Customizing Latent Memory for Multi-Agent Systems

Le papier présente LatentMem, un cadre de mémoire multi-agent apprenable qui surmonte l'homogénéisation et la surcharge d'informations grâce à une composition de mémoires latentes spécifiques aux agents et à une optimisation par politique (LMPO), permettant d'obtenir des performances supérieures sans modifier les systèmes existants.

Muxin Fu, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang Yang2026-03-10🤖 cs.LG

Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

Le papier présente T2T, un cadre de récompense dynamique inspiré de l'apprentissage humain qui améliore le raisonnement des grands modèles de langage en favorisant l'exploration via des trajectoires plus longues lors des erreurs et en encourageant l'efficacité par des pénalités de longueur une fois la solution correcte trouvée.

Wenze Lin, Zhen Yang, Xitai Jiang, Pony Ma, Gao Huang2026-03-10🤖 cs.LG

Inference-Time Backdoors via Hidden Instructions in LLM Chat Templates

Cette étude révèle une nouvelle vulnérabilité de la chaîne d'approvisionnement des LLM où des attaquants peuvent植入 des portes dérobées au moment de l'inférence en modifiant les modèles de chat Jinja2, permettant d'altérer le comportement du modèle sans toucher aux poids ni aux données d'entraînement.

Ariel Fogel, Omer Hofman, Eilon Cohen, Roman Vainshtein2026-03-10🤖 cs.LG

Hinge Regression Tree: A Newton Method for Oblique Regression Tree Splitting

Cet article présente l'Arbre de Régression à Charnière (HRT), une méthode qui reformule la recherche de divisions obliques comme un problème d'optimisation non linéaire résolu par une méthode de Newton amortie, garantissant une convergence rapide, des propriétés d'approximation universelle et des performances supérieures sur divers benchmarks.

Hongyi Li, Han Lin, Jun Xu2026-03-10🤖 cs.LG

Radial Müntz-Szász Networks: Neural Architectures with Learnable Power Bases for Multidimensional Singularities

Cet article présente les Radial Müntz-Szász Networks (RMN), une architecture neuronale innovante utilisant des puissances radiales apprissables et un terme logarithmique pour modéliser avec une grande précision et une efficacité paramétrique inégalée les champs singuliers radiaux que les réseaux de neurones classiques peinent à représenter.

Gnankan Landry Regis N'guessan, Bum Jun Kim2026-03-10🤖 cs.LG

SDFed: Bridging Local Global Discrepancy via Subspace Refinement and Divergence Control in Federated Prompt Learning

Le papier présente SDFed, un cadre d'apprentissage fédéré hétérogène pour les modèles vision-langage qui résout les disparités locales-globales en permettant des prompts locaux de longueur variable tout en maintenant un prompt global fixe, grâce à une raffinement de sous-espace et un contrôle de divergence pour améliorer la performance et la robustesse.

Yicheng Di, Wei Yuan, Tieke He, Yuan Liu, Hongzhi Yin2026-03-10🤖 cs.LG

Retrieval Pivot Attacks in Hybrid RAG: Measuring and Mitigating Amplified Leakage from Vector Seeds to Graph Expansion

Cette étude révèle que les pipelines RAG hybrides combinant recherche vectorielle et graphes de connaissances introduisent un risque de fuite de données par « pivot » entre locataires, qu'il est possible d'éliminer efficacement en réappliquant les contrôles d'autorisation spécifiquement à la frontière d'expansion du graphe.

Scott Thornton2026-03-10🤖 cs.LG

Diffusion-Guided Pretraining for Brain Graph Foundation Models

Cet article propose un cadre de préentraînement unifié basé sur la diffusion pour les modèles de fondation du cerveau, qui améliore l'apprentissage de représentations transférables en guidant des stratégies de masquage et de lecture respectueuses de la structure et de la topologie des graphes cérébraux, surpassant ainsi les méthodes existantes sur de vastes ensembles de données neuroimagerie.

Xinxu Wei, Rong Zhou, Lifang He, Yu Zhang2026-03-10🤖 cs.LG

Learning Page Order in Shuffled WOO Releases

Cette étude évalue cinq méthodes d'apprentissage pour réordonner des pages de documents administratifs néerlandais mélangés, révélant que les modèles spécialisés surpassent les approches séquentielles et l'apprentissage par curriculum, notamment pour les documents longs où les transformers séquentiels échouent à généraliser.

Efe Kahraman, Giulio Tosato2026-03-10🤖 cs.LG

Discovering Semantic Latent Structures in Psychological Scales: A Response-Free Pathway to Efficient Simplification

Cet article présente un cadre d'apprentissage automatique sans réponse qui exploite la structure sémantique des items de questionnaires psychologiques via l'analyse de sujets et le regroupement de plongements contextuels pour réduire efficacement la longueur des échelles tout en préservant leur validité psychométrique.

Bo Wang, Yuxuan Zhang, Yueqin Hu, Hanchao Hou, Kaiping Peng, Shiguang Ni2026-03-10🤖 cs.LG

TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers

L'article présente TrasMuon, un optimiseur qui améliore la stabilité et la convergence des méthodes Muon en combinant une calibration RMS globale et un recadrage par région de confiance basé sur l'énergie pour préserver la géométrie orthogonale tout en contrôlant les magnitudes des mises à jour.

Peng Cheng, Jiucheng Zang, Qingnan Li, Liheng Ma, Yufei Cui, Yingxue Zhang, Boxing Chen, Ming Jian, Wen Tong2026-03-10🤖 cs.LG

Benchmark Leakage Trap: Can We Trust LLM-based Recommendation?

Cet article met en évidence le problème critique de la fuite de données dans les benchmarks des systèmes de recommandation basés sur les LLM, démontrant que la mémorisation de ces données lors de l'entraînement peut fausser les performances mesurées, soit en les exagérant artificiellement, soit en les dégradant selon la pertinence du domaine.

Mingqiao Zhang, Qiyao Peng, Yumeng Wang, Chunyuan Liu, Hongtao Liu2026-03-10🤖 cs.LG

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Cet article propose la politique de vitesse moyenne (MVP), une nouvelle fonction générative qui, grâce à une contrainte de vitesse instantanée, permet une génération d'actions en une seule étape tout en maintenant une grande expressivité et en surpassant les méthodes existantes en termes de précision et de rapidité sur des tâches de manipulation robotique.

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

Pawsterior: Variational Flow Matching for Structured Simulation-Based Inference

Le papier présente Pawsterior, un cadre d'apprentissage variationnel par matching de flux qui améliore l'inférence basée sur la simulation en intégrant nativement les contraintes géométriques et les structures latentes discrètes pour une fidélité postérieure accrue.

Jorge Carrasco-Pollo, Floor Eijkelboom, Jan-Willem van de Meent2026-03-10🤖 cs.LG

Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning

Ce papier propose une hiérarchie à cinq niveaux de la capacité d'apprentissage fondée sur la structure de l'information pour expliquer pourquoi la génération de code progresse plus fiablement que l'apprentissage par renforcement, en démontrant que les limites du progrès en ML dépendent davantage de la nature apprenable d'une tâche que de la simple augmentation de la taille des modèles.

Zhimin Zhao2026-03-10🤖 cs.LG

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

Le papier présente LongAudio-RAG, un cadre hybride qui répond aux questions sur des enregistrements audio de plusieurs heures en ancrant les réponses d'un grand modèle de langage dans des événements acoustiques structurés et horodatés, permettant ainsi une extraction efficace en périphérie et un raisonnement de haute qualité dans le cloud.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser2026-03-10🤖 cs.LG

← Précédent Suivant →