Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning

この論文は、単一エージェントおよび連合強化学習において、線形なバーンインコストと対数的なポリシー切り替え・通信コストを達成しつつ、既知のモデルフリー手法の中で最良に近い最適後悔を達成する、2 つの新しいモデルフリーアルゴリズム(Q-EarlySettled-LowCost および FedQ-EarlySettled-LowCost)を提案し、その理論的保証を示すものである。

Haochen Zhang, Zhong Zheng, Lingzhou XueWed, 11 Ma🤖 cs.LG

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

この論文は、現実世界の多変量時系列データが抱えるチャネル間の依存関係、非同期サンプリング、欠損値という 3 つの課題を同時に解決し、堅牢な予測を実現するために、Transformer ベースの「ChannelTokenFormer」という新しいフレームワークを提案し、その有効性を実証したものである。

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup KimWed, 11 Ma🤖 cs.AI

Uncovering Social Network Activity Using Joint User and Topic Interaction

この論文は、情報カスケードとユーザーの行動を同時にモデル化する「混合相互作用カスケード(MIC)」という新しい手法を提案し、既存の手法よりも優れた情報拡散の予測性能と、学習されたパラメータを用いた社会ネットワーク活動の二層構造可視化を実現することを示しています。

Gaspard Abel, Argyris Kalogeratos, Jean-Pierre Nadal, Julien Randon-FurlingWed, 11 Ma🤖 cs.LG

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

この論文は、単一ドメインデータに依存する低資源言語の言語識別性能を向上させるため、ドメイン不変な表現を学習する教師付き対照学習アプローチ「ConLID」を提案し、低資源言語におけるアウトオブドメインデータでの性能を 3.2 ポイント向上させたことを示しています。

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine BosselutWed, 11 Ma🤖 cs.AI

Global Convergence of Iteratively Reweighted Least Squares for Robust Subspace Recovery

この論文は、動的平滑化正則化を備えた反復重み付き最小二乗法(IRLS)のバリアントが、任意の初期化から線形収束して真の部分空間を復元することを示し、アフィン部分空間推定への拡張や低次元ニューラルネットワーク訓練への応用を通じて、ロバスト部分空間復元および非凸 Riemann 多様体上の IRLS に対する初のグローバル収束保証を提供するものである。

Gilad Lerman, Kang Li, Tyler Maunu, Teng ZhangWed, 11 Ma🤖 cs.LG

Operator Learning for Consolidation: An Architectural Comparison for DeepONet Variants

この論文は、地盤沈下問題に対して物理情報を枝網ではなく幹網に組み込んだ改良型 DeepONet(モデル 3)とフーリエ特徴量強化版(モデル 4)を提案・評価し、特に 3 次元問題において従来のソルバーに比べ最大 1,000 倍の高速化を実現し、地盤工学における不確実性定量化の加速への可能性を示したものである。

Yongjin Choi, Chenying Liu, Jorge MacedoWed, 11 Ma🤖 cs.LG

Langevin Flows for Modeling Neural Latent Dynamics

本論文は、慣性や減衰などの物理的プリアと局所結合発振器ネットワークを潜在空間のランジュバン流に組み込むことで、神経集団の複雑な動的構造と外部影響を高精度にモデル化し、合成データおよび実神経データにおいて既存手法を上回る性能を示した「LangevinFlow」と呼ばれる逐次変分オートエンコーダを提案しています。

Yue Song, T. Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

この論文は、ロボットや人間など異なるエンボディメントからのデータを光フローを用いて事前学習した世界モデルと価値関数を活用し、ターゲットとなるロボットの実証データのみで微調整を行う「潜在ポリシー・ステアリング(LPS)」手法を提案し、低データ量環境でもビヘイビア・クローンベースの視覚運動ポリシーを大幅に改善することを示しています。

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

Multimodal LLM-assisted Evolutionary Search for Programmatic Control Policies

この論文は、深層強化学習の透明性と検証可能性を高めるため、マルチモーダル大規模言語モデルと進化探索を組み合わせ、視覚フィードバックに基づく失敗パターン分析を用いて人間に理解可能なプログラム制御方策を自動生成する手法「MLES」を提案し、標準的な制御タスクにおいて PPO と同等の性能を達成しつつ、透明な制御ロジックとスケーラビリティを実現したことを示しています。

Qinglong Hu, Xialiang Tong, Mingxuan Yuan, Fei Liu, Zhichao Lu, Qingfu ZhangWed, 11 Ma🤖 cs.LG

CTRL Your Shift: Clustered Transfer Residual Learning for Many Small Datasets

この論文は、多数の異なるソース(特にサンプル数が少ない場合)からなるデータにおける分布のシフトとサンプルサイズの変動に対処し、全体の精度とソースごとの異質性の両方を維持する予測を実現するために、クロスドメイン残差学習と適応的クラスタリングを組み合わせるメタ学習手法「CTRL」を提案し、スイスの難民雇用予測など実世界データを用いた評価で既存手法を上回る性能を実証しています。

Gauri Jain, Dominik Rothenhäusler, Kirk Bansak, Elisabeth PaulsonWed, 11 Ma🤖 cs.LG

RF-Informed Graph Neural Networks for Accurate and Data-Efficient Circuit Performance Prediction

この論文は、RFIC ドメイン知識を活用した特徴量インデックスとトランジスタレベルのグラフ抽象化を組み合わせた軽量なグラフニューラルネットワークを提案し、既存手法に比べて大幅に高い精度とデータ効率で多様な能動 RF 回路の性能を予測可能にするものです。

Anahita Asadi, Leonid Popryho, Inna Partin-VaisbandWed, 11 Ma🤖 cs.LG

Iterative In-Context Learning to Enhance LLMs Abstract Reasoning: The Case-Study of Algebraic Tasks

本論文は、非標準的な代数タスクにおける LLM の推論能力を向上させるため、テストデータ分布に合致する複雑な例よりも単純な例を反復的に選択・最適化する「反復的インコンテキスト学習」手法を提案し、その有効性を示したものです。

Stefano Fioravanti, Matteo Zavatteri, Roberto Confalonieri, Kamyar Zeinalipour, Paolo Frazzetto, Alessandro Sperduti, Nicolò NavarinWed, 11 Ma🤖 cs.LG

A Surrogate model for High Temperature Superconducting Magnets to Predict Current Distribution with Neural Network

本論文では、有限要素法(FEM)の計算コストを回避し、大規模高温超電導磁石の設計を効率化するため、T-A 定式化による FEM シミュレーションデータで学習した完全結合残差ニューラルネットワーク(FCRN)を用いた、電流密度分布の高精度予測サロゲートモデルを開発し、その最適設計への有効性を示しました。

Mianjun Xiao, Peng Song, Yulong Liu, Cedric Korte, Ziyang Xu, Jiale Gao, Jiaqi Lu, Haoyang Nie, Qiantong Deng, Timing QuWed, 11 Ma🤖 cs.LG

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

本論文は、大規模な汎用ロボットポリシーの研究を支援するために、シミュレーションと実世界のロボットを統一的に扱うモジュラーかつ軽量なエコシステム「Robot Control Stack (RCS)」を提案し、その設計原則と VLA や RL ポリシー開発における有用性を評価したものである。

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian WalterWed, 11 Ma🤖 cs.LG

ZeroSiam: An Efficient Asymmetry for Test-Time Entropy Optimization without Collapse

本論文は、テスト時エントロピー最小化におけるモデルの崩壊を防ぎ、バイアスのある学習信号を正則化して性能を向上させるための、効率的な非対称シエスミアンアーキテクチャ「ZeroSiam」を提案し、視覚適応から大規模言語モデルの推論まで多様なタスクでその有効性を示しています。

Guohao Chen, Shuaicheng Niu, Deyu Chen, Jiahao Yang, Zitian Zhang, Mingkui Tan, Pengcheng Wu, Zhiqi ShenWed, 11 Ma🤖 cs.LG

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

この論文は、追加の学習なしに複数の事前学習済みロボット方策の分布スコアを凸結合してテスト時に合成する「General Policy Composition (GPC)」を提案し、理論的根拠と実証実験を通じて、個々の方策単体よりも優れた制御性能と適応性の向上を実現することを示しています。

Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. LuoWed, 11 Ma🤖 cs.LG