Improved Robustness of Deep Reinforcement Learning for Control of Time-Varying Systems by Bounded Extremum Seeking

この論文は、時間変動する非線形システムの制御において、大量のデータから迅速な制御を学習する深層強化学習(DRL)と、モデル非依存かつロバストな有界極値探索(ES)を組み合わせることで、両者の長所を統合し、時間変動に対する耐性を大幅に向上させたハイブリッド制御手法を提案し、ロスアラモス国立研究所の線形加速器における低エネルギービーム輸送セクションの自動調整への適用事例を通じてその有効性を検証したものである。

Shaifalee Saxena, Alan Williams, Rafael Fierro, Alexander ScheinkerWed, 11 Ma🤖 cs.LG

Latent Speech-Text Transformer

音声トークンの長さがテキストに比べて著しく長いことによる計算効率の低さを解決するため、音声トークンを高レベルの潜在パッチに集約して両モダリティの粒度を揃え、計算効率と性能を同時に向上させる「Latent Speech-Text Transformer (LST)」を提案する論文です。

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

本論文は、複雑な問題解決における推論能力の限界と検証の信頼性という 2 つのボトルネックを解決するため、構造化されたツール呼び出し、ターンレベルの強化学習、そして検証と長期記憶を組み合わせた進化ループを統合した「AlphaApollo」という自律的推論システムを提案し、複数の数学推論ベンチマークで顕著な性能向上を実証しています。

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

本論文は、LiDAR 3D セマンティックセグメンテーションにおけるドメイン一般化と不完全ラベルという未解決課題に焦点を当て、既存手法の限界を克服し、信頼性に基づく双視点フレームワーク「DuNe」を提案することで、複数のデータセットにおいて最先端の性能を達成したことを報告しています。

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

本論文は、視覚的推論を検証可能な記号問題へと変換し、チャートや図表などの構造化された視覚データに対する推論精度を飛躍的に向上させるために、視覚を可実行コードへ逆変換する「デレンダリング」を活用した新しいエージェントフレームワーク「RECODE」を提案するものです。

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

本論文は、生成タスクにおいて従来のエキスパートマージ手法よりも優位性を示し、ルーターゲート値とエキスパート活性化ノルムを考慮した新たな剪定基準「REAP」を提案することで、大規模なSMoEモデルの50% 剪定においてもコード生成などのタスクでほぼ損失のない圧縮を実現することを明らかにしています。

Mike Lasby, Ivan Lazarevich, Nish Sinnadurai, Sean Lie, Yani Ioannou, Vithursan ThangarasaWed, 11 Ma🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

本論文は、拡散ビジョモーターポリシーを基盤とした実世界強化学習フレームワーク「RL-100」を提案し、模倣学習と強化学習を統合して 1000 回の試行で 100% の成功率を達成し、人間を超える性能と高い汎用性・頑健性を示したことを報告しています。

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe XuWed, 11 Ma🤖 cs.AI

Bradley-Terry Policy Optimization for Generative Preference Modeling

この論文は、検証可能な答えを持たないタスクにおける推論過程を潜在変数として扱うことで Bradley-Terry 尤度の構造が変化するという課題を解決し、一貫性のあるモンテカルロ推定量を用いた Bradley-Terry 方策最適化(BTPO)を提案することで、連鎖思考(CoT)を含む生成型選好モデルの安定した学習を実現したことを示しています。

Shengyu Feng, Yun He, Shuang Ma, Beibin Li, Yuanhao Xiong, Songlin Li, Karishma Mandyam, Julian Katz-Samuels, Shengjie Bi, Licheng Yu, Hejia Zhang, Karthik Abinav Sankararaman, Han Fang, Yiming Yang, Manaal FaruquiWed, 11 Ma🤖 cs.LG

Personalized Collaborative Learning with Affinity-Based Variance Reduction

この論文は、エージェント間の異質性レベルを事前に知らずに、環境や目的関数の多様性に応じて協調学習の利点を自動的に調整し、独立学習に対して最大で線形加速を実現する新しいパーソナライズド協調学習フレームワーク「AffPCL」を提案し、その理論的保証を示すものである。

Chenyu Zhang, Navid AzizanWed, 11 Ma🤖 cs.LG

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

本論文は、2D エンコーダの限界を克服し、RGB 画像から強力な 3D 幾何学的事前知識を抽出してアクションヘッドに注入する新たなパラダイム「FALCON」を提案し、シミュレーションおよび実世界タスクにおいて最先端の性能と高い汎用性を達成したことを報告しています。

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

この論文は、グラフ基礎モデルの発展に伴い未探索であったグラフドメイン逐次学習(Domain-IL)における catastrophic forgetting を、埋め込みのシフトと決定境界の逸脱を防ぐための知識の解離と保存を可能にする「GraphKeeper」を提案し、既存手法を大幅に上回る性能で達成したことを示しています。

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin LiWed, 11 Ma🤖 cs.AI

Structured Matrix Scaling for Multi-Class Calibration

この論文は、構造化正則化、ロバストな前処理、効率的な最適化を通じて過学習を抑制し、多クラス分類におけるロジスティック回帰に基づく再較正手法のバイアス・バリアンスのトレードオフを効果的に管理することで、既存の手法よりも大幅な精度向上を実現する手法を提案し、オープンソース実装を提供しています。

Eugène Berta, David Holzmüller, Michael I. Jordan, Francis BachWed, 11 Ma🤖 cs.AI

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

本論文は、時間系列基盤モデルのデータ価値評価において、従来の手法が抱える計算コストと時系列依存性の課題を解決するため、コンテキスト微調整と時間ブロック集約を活用した軽量かつ高精度な評価手法「LTSV」を提案し、その有効性を検証したものである。

Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong NgWed, 11 Ma🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

この論文は、事前学習済み時系列基盤モデル(TSFM)のインコンテキスト学習を活用し、微調整や従来の分類モデルの学習なしにサーボプレスモータのベアリング振動データを健康状態ごとに分類する手法を提案し、従来のカスタム AI 解決策を超えたスケーラブルな予知保全システムの実現可能性を示しています。

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng FengWed, 11 Ma🤖 cs.AI

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

本論文は、EFISH 法に基づく放電中の電界プロファイル再構成のために、従来の ANN や CNN を凌駕する汎用性と精度を有し、不完全な入力データにも頑健な新しい「デコーダー型 DeepONet(DDON)」という解釈可能なオペレーター学習モデルを提案し、その有効性をシミュレーションおよび実験データで実証したものである。

Zhijian Yang, Edwin Setiadi Sugeng, Mhedine Alicherif, Tat Loon ChngWed, 11 Ma🤖 cs.LG

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

この論文は、教育分野の専門用語の曖昧さを解消し事実性を高めるため、エンティティリンキングとハイブリッド再ランク付けを統合した「ELERAG」と呼ばれる新しい RAG アーキテクチャを提案し、ドメイン固有のデータセットにおいて従来の手法を上回る性能を実証したものである。

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

SA2^{2}GFM: Enhancing Robust Graph Foundation Models with Structure-Aware Semantic Augmentation

本論文は、階層的構造セマンティクスの不足を解消し、ドメインノイズや敵対的攻撃に対する堅牢性を向上させるため、構造認識セマンティック拡張、情報ボトルネック、およびエキスパート適応ルーティングを組み合わせた新しいグラフ基礎モデル「SA²GFM」を提案し、ノードおよびグラフ分類タスクにおいて既存の最先端手法を上回る性能を実証しています。

Junhua Shi, Qingyun Sun, Haonan Yuan, Xingcheng FuWed, 11 Ma🤖 cs.LG

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

本論文は、RL におけるサンプルの難易度事前分布を活用してヒントの比率を適応的に調整し、勾配変調とロールアウト難易度事後分布に基づく優位性推定を導入することで、探索と模倣のバランスを最適化し、推論能力と分布外汎化性能を大幅に向上させる「ADHint」という新しい手法を提案しています。

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang YangWed, 11 Ma🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

この論文は、埋め込みノルムの膨張が複雑なプロンプトの失敗原因であることを特定し、方向のみを最適化する「方向性テキスト反転(DTI)」を提案することで、テキスト忠実性と被写体類似性を両立させ、学習済み概念間の滑らかな補間を可能にする個人化テキスト生成手法を開発したことを示しています。

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung ShimWed, 11 Ma🤖 cs.LG