cs.LG articles | Gist.Science

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

Cet article propose un contrôleur hybride combinant l'apprentissage par renforcement profond et la recherche d'extremum bornée pour améliorer la robustesse et la performance des systèmes non linéaires à temps variable, comme démontré par une application au réglage automatique d'un accélérateur de particules.

Shaifalee Saxena, Alan Williams, Rafael Fierro, Alexander ScheinkerWed, 11 Ma🤖 cs.LG

Latent Speech-Text Transformer

Le papier présente le Latent Speech-Text Transformer (LST), une architecture qui améliore l'efficacité computationnelle et les performances des modèles multimodaux en regroupant les tokens de parole en patches latents pour aligner leur granularité avec celle du texte, permettant ainsi des gains significatifs de précision à la fois pour la parole et le texte.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Le papier présente AlphaApollo, un système de raisonnement agentic qui surmonte les limites des modèles de fondation en matière de résolution de problèmes complexes et d'évolution fiable grâce à une orchestration combinant raisonnement multi-tours, apprentissage par renforcement et évolution itérative avec vérification assistée par outils.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Cet article présente DuNe, un cadre d'apprentissage dual innovant qui résout le problème de la généralisation de domaine pour la segmentation sémantique LiDAR en présence de labels bruités, surpassant les méthodes existantes grâce à une cohérence au niveau des caractéristiques et un filtrage des prédictions basé sur la confiance.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

Le papier présente RECODE, un cadre agentique qui améliore le raisonnement visuel des modèles multimodaux en transformant l'analyse d'images structurées en une tâche de génération et de vérification itérative de code exécutable, surpassant ainsi les méthodes traditionnelles sur plusieurs benchmarks.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

L'article présente REAP, une méthode de compression par élagage des experts qui, contrairement aux techniques de fusion, préserve le contrôle de routage fin et surpasse les approches existantes pour la compression des modèles MoE dans les tâches génératives, notamment avec une réduction de 50 % des paramètres.

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan ThangarasaWed, 11 Ma🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Le papier présente RL-100, un cadre d'apprentissage par renforcement réel basé sur des politiques visuo-motrices par diffusion qui unifie imitation et renforcement pour atteindre une fiabilité de 100 % sur huit tâches robotiques complexes, surpassant les opérateurs experts et démontrant une robustesse exceptionnelle en déploiement zéro-shot.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe XuWed, 11 Ma🤖 cs.AI

Bradley-Terry Policy Optimization for Generative Preference Modeling

Ce papier propose la Bradley-Terry Policy Optimization (BTPO), une nouvelle méthode qui dérive un estimateur de gradient Monte Carlo cohérent pour optimiser efficacement l'apprentissage par renforcement de modèles de langage génératifs intégrant le raisonnement par chaîne de pensée dans des tâches non vérifiables basées sur des préférences humaines.

Shengyu Feng, Yun He, Shuang Ma, Beibin Li, Yuanhao Xiong, Songlin Li, Karishma Mandyam, Julian Katz-Samuels, Shengjie Bi, Licheng Yu, Hejia Zhang, Karthik Abinav Sankararaman, Han Fang, Yiming Yang, Manaal FaruquiWed, 11 Ma🤖 cs.LG

Personalized Collaborative Learning with Affinity-Based Variance Reduction

Cet article propose AffPCL, un cadre d'apprentissage collaboratif personnalisé qui réduit la complexité d'échantillonnage grâce à des mécanismes de correction de biais et d'importance, permettant une accélération adaptative basée sur l'affinité entre agents sans nécessiter de connaissances préalables sur leur hétérogénéité.

Chenyu Zhang, Navid AzizanWed, 11 Ma🤖 cs.LG

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Ce papier présente FALCON, une nouvelle approche qui améliore les modèles vision-langage-action en injectant des tokens spatiaux 3D riches, dérivés de modèles de fondation spatiale, directement dans la tête d'action pour combler le fossé de raisonnement spatial et atteindre des performances de pointe sur des tâches simulées et réelles.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Le papier propose GraphKeeper, une méthode novatrice pour l'apprentissage incrémental de domaine sur les graphes qui résout l'oubli catastrophique grâce à la disentanglement et la préservation des connaissances, surpassant les approches existantes tout en s'intégrant à divers modèles de base graphiques.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin LiWed, 11 Ma🤖 cs.AI

Structured Matrix Scaling for Multi-Class Calibration

Cet article propose des méthodes de recalibration post-hoc pour la classification multi-classes, basées sur une régression logistique structurée et régularisée, qui surpassent les techniques existantes comme le scaling de température en gérant efficacement le compromis biais-variance grâce à des optimisations et des prétraitements robustes.

Eugène Berta, David Holzmüller, Michael I. Jordan, Francis BachWed, 11 Ma🤖 cs.AI

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

Ce papier propose LTSV, une méthode légère d'évaluation de la qualité des données temporelles pour les modèles fondationnels, qui utilise un ajustement fin en contexte et une agrégation de blocs temporels pour estimer efficacement la contribution des échantillons tout en préservant les dépendances temporelles.

Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong NgWed, 11 Ma🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

Cet article présente une méthode de classification de l'état de santé des roulements par apprentissage en contexte utilisant des modèles de base pour séries temporelles, permettant d'identifier des défauts dans des données vibratoires sans nécessiter de fine-tuning du modèle ni d'entraînement d'un classifieur traditionnel.

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng FengWed, 11 Ma🤖 cs.AI

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

Cet article propose une approche périodiquement asynchrone qui accélère l'apprentissage par renforcement des grands modèles de langage en séparant l'inférence et l'entraînement dans un pipeline producteur-consommateur, garantissant ainsi une correction strictement on-policy tout en multipliant le débit d'entraînement par trois à cinq fois.

Jian LuWed, 11 Ma🤖 cs.AI

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

Cette étude présente le Decoder-DeepONet (DDON), un modèle d'apprentissage automatique interprétable basé sur l'apprentissage d'opérateurs qui surpasse les méthodes précédentes pour reconstruire avec précision et généralité les profils de champ électrique dans les décharges à partir de signaux EFISH, même avec des données d'entrée incomplètes.

Zhijian Yang, Edwin Setiadi Sugeng, Mhedine Alicherif, Tat Loon ChngWed, 11 Ma🤖 cs.LG

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Cette étude propose ELERAG, une architecture de génération augmentée par la récupération intégrant le lien d'entités et une stratégie de réordonnancement hybride, qui démontre une précision factuelle supérieure aux méthodes de l'état de l'art dans des contextes éducatifs spécialisés en italien, tout en révélant l'importance d'adapter les stratégies au domaine pour éviter les biais de distribution.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

SA $^{2}$ GFM: Enhancing Robust Graph Foundation Models with Structure-Aware Semantic Augmentation

Ce papier présente SA²GFM, un cadre de modèles de graphes fondamentaux robuste qui améliore les représentations adaptatives aux domaines grâce à une augmentation sémantique consciente de la structure, un mécanisme de routage adaptatif et un apprentissage hiérarchique, surpassant ainsi les méthodes de pointe en termes d'efficacité et de résistance aux perturbations.

Junhua Shi, Qingyun Sun, Haonan Yuan, Xingcheng FuWed, 11 Ma🤖 cs.LG

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Le papier présente ADHint, une méthode d'apprentissage par renforcement qui intègre dynamiquement des indices adaptatifs pondérés par la difficulté des échantillons et des rollouts pour améliorer l'efficacité de l'échantillonnage, stabiliser l'apprentissage et renforcer les capacités de raisonnement et de généralisation des modèles.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang YangWed, 11 Ma🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

Ce papier propose la Directional Textual Inversion (DTI), une méthode qui améliore la fidélité des prompts et permet des interpolations sémantiques fluides en optimisant uniquement la direction des embeddings sur une hypersphère pour éviter l'inflation de norme qui nuit aux modèles de génération d'images personnalisés.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung ShimWed, 11 Ma🤖 cs.LG

← Précédent Suivant →

cs.LG