cs.LG 件の論文 | Gist.Science

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

この論文は、時間変動する非線形システムの制御において、大量のデータから迅速な制御を学習する深層強化学習（DRL）と、モデル非依存かつロバストな有界極値探索（ES）を組み合わせることで、両者の長所を統合し、時間変動に対する耐性を大幅に向上させたハイブリッド制御手法を提案し、ロスアラモス国立研究所の線形加速器における低エネルギービーム輸送セクションの自動調整への適用事例を通じてその有効性を検証したものである。

Shaifalee Saxena, Alan Williams, Rafael Fierro, Alexander ScheinkerWed, 11 Ma🤖 cs.LG

Latent Speech-Text Transformer

音声トークンの長さがテキストに比べて著しく長いことによる計算効率の低さを解決するため、音声トークンを高レベルの潜在パッチに集約して両モダリティの粒度を揃え、計算効率と性能を同時に向上させる「Latent Speech-Text Transformer (LST)」を提案する論文です。

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

本論文は、複雑な問題解決における推論能力の限界と検証の信頼性という 2 つのボトルネックを解決するため、構造化されたツール呼び出し、ターンレベルの強化学習、そして検証と長期記憶を組み合わせた進化ループを統合した「AlphaApollo」という自律的推論システムを提案し、複数の数学推論ベンチマークで顕著な性能向上を実証しています。

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

本論文は、LiDAR 3D セマンティックセグメンテーションにおけるドメイン一般化と不完全ラベルという未解決課題に焦点を当て、既存手法の限界を克服し、信頼性に基づく双視点フレームワーク「DuNe」を提案することで、複数のデータセットにおいて最先端の性能を達成したことを報告しています。

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

本論文は、視覚的推論を検証可能な記号問題へと変換し、チャートや図表などの構造化された視覚データに対する推論精度を飛躍的に向上させるために、視覚を可実行コードへ逆変換する「デレンダリング」を活用した新しいエージェントフレームワーク「RECODE」を提案するものです。

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

本論文は、生成タスクにおいて従来のエキスパートマージ手法よりも優位性を示し、ルーターゲート値とエキスパート活性化ノルムを考慮した新たな剪定基準「REAP」を提案することで、大規模なSMoEモデルの50% 剪定においてもコード生成などのタスクでほぼ損失のない圧縮を実現することを明らかにしています。

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan ThangarasaWed, 11 Ma🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

本論文は、拡散ビジョモーターポリシーを基盤とした実世界強化学習フレームワーク「RL-100」を提案し、模倣学習と強化学習を統合して 1000 回の試行で 100% の成功率を達成し、人間を超える性能と高い汎用性・頑健性を示したことを報告しています。

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe XuWed, 11 Ma🤖 cs.AI

Bradley-Terry Policy Optimization for Generative Preference Modeling

この論文は、検証可能な答えを持たないタスクにおける推論過程を潜在変数として扱うことで Bradley-Terry 尤度の構造が変化するという課題を解決し、一貫性のあるモンテカルロ推定量を用いた Bradley-Terry 方策最適化（BTPO）を提案することで、連鎖思考（CoT）を含む生成型選好モデルの安定した学習を実現したことを示しています。

Shengyu Feng, Yun He, Shuang Ma, Beibin Li, Yuanhao Xiong, Songlin Li, Karishma Mandyam, Julian Katz-Samuels, Shengjie Bi, Licheng Yu, Hejia Zhang, Karthik Abinav Sankararaman, Han Fang, Yiming Yang, Manaal FaruquiWed, 11 Ma🤖 cs.LG

Personalized Collaborative Learning with Affinity-Based Variance Reduction

この論文は、エージェント間の異質性レベルを事前に知らずに、環境や目的関数の多様性に応じて協調学習の利点を自動的に調整し、独立学習に対して最大で線形加速を実現する新しいパーソナライズド協調学習フレームワーク「AffPCL」を提案し、その理論的保証を示すものである。

Chenyu Zhang, Navid AzizanWed, 11 Ma🤖 cs.LG

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

本論文は、2D エンコーダの限界を克服し、RGB 画像から強力な 3D 幾何学的事前知識を抽出してアクションヘッドに注入する新たなパラダイム「FALCON」を提案し、シミュレーションおよび実世界タスクにおいて最先端の性能と高い汎用性を達成したことを報告しています。

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

この論文は、グラフ基礎モデルの発展に伴い未探索であったグラフドメイン逐次学習（Domain-IL）における catastrophic forgetting を、埋め込みのシフトと決定境界の逸脱を防ぐための知識の解離と保存を可能にする「GraphKeeper」を提案し、既存手法を大幅に上回る性能で達成したことを示しています。

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin LiWed, 11 Ma🤖 cs.AI

Structured Matrix Scaling for Multi-Class Calibration

この論文は、構造化正則化、ロバストな前処理、効率的な最適化を通じて過学習を抑制し、多クラス分類におけるロジスティック回帰に基づく再較正手法のバイアス・バリアンスのトレードオフを効果的に管理することで、既存の手法よりも大幅な精度向上を実現する手法を提案し、オープンソース実装を提供しています。

Eugène Berta, David Holzmüller, Michael I. Jordan, Francis BachWed, 11 Ma🤖 cs.AI

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

本論文は、時間系列基盤モデルのデータ価値評価において、従来の手法が抱える計算コストと時系列依存性の課題を解決するため、コンテキスト微調整と時間ブロック集約を活用した軽量かつ高精度な評価手法「LTSV」を提案し、その有効性を検証したものである。

Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong NgWed, 11 Ma🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

この論文は、事前学習済み時系列基盤モデル（TSFM）のインコンテキスト学習を活用し、微調整や従来の分類モデルの学習なしにサーボプレスモータのベアリング振動データを健康状態ごとに分類する手法を提案し、従来のカスタム AI 解決策を超えたスケーラブルな予知保全システムの実現可能性を示しています。

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng FengWed, 11 Ma🤖 cs.AI

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

この論文は、推論と学習を分離し、オフポリシーバイアスなしで同期 RL と等価な非同期パイプラインを実現する「Periodic Asynchrony」を提案し、NPU 環境において既存フレームワークの 3〜5 倍のトレーニングスループット向上を達成したことを示しています。

Jian LuWed, 11 Ma🤖 cs.AI

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

本論文は、EFISH 法に基づく放電中の電界プロファイル再構成のために、従来の ANN や CNN を凌駕する汎用性と精度を有し、不完全な入力データにも頑健な新しい「デコーダー型 DeepONet（DDON）」という解釈可能なオペレーター学習モデルを提案し、その有効性をシミュレーションおよび実験データで実証したものである。

Zhijian Yang, Edwin Setiadi Sugeng, Mhedine Alicherif, Tat Loon ChngWed, 11 Ma🤖 cs.LG

← 前へ次へ →

cs.LG

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

Latent Speech-Text Transformer

AlphaApollo: A System for Deep Agentic Reasoning

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

RECODE: Reasoning Through Code Generation for Visual Question Answering

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Bradley-Terry Policy Optimization for Generative Preference Modeling

Personalized Collaborative Learning with Affinity-Based Variance Reduction

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Structured Matrix Scaling for Multi-Class Calibration

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

TSFM in-context learning for time-series classification of bearing-health status

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

SA $^{2}$ GFM: Enhancing Robust Graph Foundation Models with Structure-Aware Semantic Augmentation

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Directional Textual Inversion for Personalized Text-to-Image Generation

cs.LG

Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

Latent Speech-Text Transformer

AlphaApollo: A System for Deep Agentic Reasoning

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

RECODE: Reasoning Through Code Generation for Visual Question Answering

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Bradley-Terry Policy Optimization for Generative Preference Modeling

Personalized Collaborative Learning with Affinity-Based Variance Reduction

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Structured Matrix Scaling for Multi-Class Calibration

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

TSFM in-context learning for time-series classification of bearing-health status

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

SA2^{2}2GFM: Enhancing Robust Graph Foundation Models with Structure-Aware Semantic Augmentation

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Directional Textual Inversion for Personalized Text-to-Image Generation

SA $^{2}$ GFM: Enhancing Robust Graph Foundation Models with Structure-Aware Semantic Augmentation