Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

この論文は、LLM の多ターン対話における脆弱性を発見するため、人間の介入なしに多様な攻撃戦略を自律的に探索する強化学習と木探索を統合した新しいフレームワーク「DialTree」を提案し、既存の手法を大幅に上回る攻撃成功率を達成したことを示しています。

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

The Role of Feature Interactions in Graph-based Tabular Deep Learning

本論文は、合成データを用いた分析により、現在のグラフベース表データ深層学習手法が予測精度の向上を目的としていても、実際には特徴量間の相互作用を無作為に近いレベルでしか捉えられず、真の相互作用構造を正しくモデル化することが予測精度の向上に不可欠であることを示しています。

Elias Dubbeldam, Reza Mohammadi, Marit Schoonhoven, S. Ilker Birbil2026-03-10🤖 cs.LG

Wasserstein Gradient Flows for Scalable and Regularized Barycenter Computation

この論文は、ミニバッチ・最適輸送とタスク固有の正則化、および教師あり情報の統合を通じて、既存の離散法やニューラルネットワーク手法の限界を克服し、ドメイン適応などの分野で最先端の性能を達成するスケーラブルかつ正則化されたワルシュタイン・バロセンター計算手法を提案しています。

Eduardo Fernandes Montesuma, Yassir Bendou, Mike Gartrell2026-03-10🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

この論文は、ロボット歩行タスクにおける強化学習のサンプル効率と性能を向上させるため、タスク非依存の探索データから学習した逆動力学モデルをアクターとクリティックの初期化に用いる事前学習・微調整パラダイムを提案し、その有効性を複数のロボット環境で実証したものである。

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco Hutter2026-03-10🤖 cs.LG

ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

この論文は、基盤モデルの高度な推論能力を活用して自然言語から報酬機械を自動生成し、強化学習における報酬設計の課題を解決するとともに、タスク間でのゼロショット汎化を実現する「ARM-FM」というフレームワークを提案しています。

Roger Creus Castanyer, Faisal Mohamed, Pablo Samuel Castro, Cyrus Neary, Glen Berseth2026-03-10🤖 cs.LG

Explainable Heterogeneous Anomaly Detection in Financial Networks via Adaptive Expert Routing

この論文は、市場環境に応じてグラフ構造を適応的に変化させ、価格ショックや流動性凍結など 4 つの異なる異常メカニズムを専門家のネットワークで分解・解釈可能にする新たなフレームワークを提案し、金融ネットワークにおける異常検知の精度と説明可能性を大幅に向上させることを示しています。

Zan Li, Rui Fan2026-03-10🤖 cs.LG

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

本論文は、列の置換不変性を構造的な事前知識としてエンコードする強化学習手法「Permutation Relative Policy Optimization (PRPO)」を提案し、これにより大規模言語モデルの潜在的な数値推論能力を活性化させ、少量の教師信号やゼロショット設定でも大規模モデルを上回る表形式データ予測を実現することを示しています。

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

A Unified Framework for Zero-Shot Reinforcement Learning

本論文は、ゼロショット強化学習の多様なアプローチを統一的に理解し、厳密な比較を可能にするための形式化された枠組みを提案し、アルゴリズムを「表現」と「学習パラダイム」の 2 つの軸で分類するとともに、推論・報酬・近似の 3 つの誤差成分に分解した統一的な誤差解析の視点を導入するものである。

Jacopo Di Ventura, Jan Felix Kleuker, Aske Plaat, Thomas Moerland2026-03-10🤖 cs.LG

SwiftTS: A Swift Selection Framework for Time Series Pre-trained Models via Multi-task Meta-Learning

本論文は、多数の事前学習済みモデルの中から最適なモデルを個別の微調整なしで効率的に選択するための、マルチタスクメタ学習に基づく軽量かつ汎用的なフレームワーク「SwiftTS」を提案し、14 のデータセットと 8 つのモデルを用いた実験でその有効性を示しています。

Tengxue Zhang, Biao Ouyang, Yang Shu, Xinyang Chen, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Continual Low-Rank Adapters for LLM-based Generative Recommender Systems

LLM 推薦システムにおける継続学習の課題を解決するため、過去のタスク維持ではなく現在のユーザー行動への適応を重視し、直近の凍結状態を基準とした近傍正則化を導入した新たな LoRA 適応手法「PESO」を提案し、理論的・実証的に既存手法を上回る性能を実証した論文です。

Hyunsik Yoo, Ting-Wei Li, SeongKu Kang, Zhining Liu, Charlie Xu, Qilin Qi, Hanghang Tong2026-03-10🤖 cs.LG

Balancing Interpretability and Performance in Motor Imagery EEG Classification: A Comparative Study of ANFIS-FBCSP-PSO and EEGNet

本論文は、BCI Competition IV-2a データセットを用いた比較研究において、個人内では解釈性の高い ANFIS-FBCSP-PSO モデルが、個人間では汎化性能に優れた EEGNet がそれぞれ優位であることを示し、MI-BCI システムの設計目標に応じたモデル選択の指針を提供しています。

Farjana Aktar, Mohd Ruhul Ameen, Akif Islam, Md Ekramul Hamid2026-03-10🤖 cs.LG

Towards Efficient Federated Learning of Networked Mixture-of-Experts for Mobile Edge Computing

本論文は、モバイルエッジコンピューティングにおける大規模 AI モデルの展開課題を解決するため、専門性に基づいて隣接ノード間でタスクを分散処理する「ネットワーク化された混合エキスパート(NMoE)」システムと、その学習を効率化かつプライバシーを保護するフェデレーテッドラーニング枠組みを提案するものである。

Song Gao, Songyang Zhang, Shusen Jing, Shuai Zhang, Xiangwei Zhou, Yue Wang, Zhipeng Cai2026-03-10🤖 cs.LG

FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels

大規模言語モデルが数学オリンピックなどの競合問題では高い性能を示す一方で、現代の数学研究の深さや抽象度を反映する「FATE」という新たな代数学形式ベンチマークシリーズ(FATE-H および FATE-X)の導入により、最先端モデルが博士課程レベルの証明において極めて低い精度しか達成できず、自然言語での推論と形式化の間に大きなギャップが存在することが明らかになりました。

Jiedong Jiang, Wanyi He, Yuefeng Wang, Guoxiong Gao, Yongle Hu, Jingting Wang, Nailin Guan, Peihao Wu, Chunbo Dai, Liang Xiao, Bin Dong2026-03-10🤖 cs.LG

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

本論文は、人間の研究者の基礎論文を基に仮説立案から実験、論文執筆までを自律的に行う「Jr. AI Scientist」を開発し、その科学的貢献と評価結果を報告するとともに、現在の AI 科学者システムが抱えるリスクや限界を包括的に分析したものである。

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

Distributionally Robust Self Paced Curriculum Reinforcement Learning

本論文は、強化学習における性能とロバスト性のトレードオフを解決するため、ロバストネス予算をエージェントの進捗に応じて適応的に調整する連続的なカリキュラムとして扱う「分布ロバスト自己ペース型カリキュラム強化学習(DR-SPCRL)」を提案し、多様な環境での実験により、固定またはヒューリスティックな手法と比較して優位なロバスト性・性能のバランスと安定した学習を実現することを示しています。

Anirudh Satheesh, Keenan Powell, Vaneet Aggarwal2026-03-10🤖 cs.LG

Adaptive Multi-view Graph Contrastive Learning via Fractional-order Neural Diffusion Networks

この論文は、分数階微分の次数を学習可能なパラメータとして扱うことで、手動によるデータ拡張なしに局所的から大域的まで連続的な多様なグラフ視点を生成し、既存の手法を上回る頑健なグラフ表現学習を実現する「適応的マルチビューグラフ対照学習」を提案しています。

Yanan Zhao, Feng Ji, Jingyang Dai, Jiaze Ma, Keyue Jiang, Kai Zhao, Wee Peng Tay2026-03-10🤖 cs.LG