Optimizing Reinforcement Learning Training over Digital Twin Enabled Multi-fidelity Networks

この論文は、物理ネットワークとデジタルツインからのデータ収集比率を最適化し、強化学習を用いて基地局のアンテナ傾斜角を調整する階層的強化学習フレームワークを提案し、ユーザーのデータレート最大化と遅延制約の両立を実現する手法を提示しています。

Hanzhi Yu, Hasan Farooq, Julien Forgeat, Shruti Bothe, Kristijonas Cyras, Md Moin Uddin Chowdhury, Mingzhe Chen2026-03-11🤖 cs.LG

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

この論文は、マルコフ連鎖、強化学習、LLM を組み合わせた 3 層アーキテクチャを採用し、行方不明児童の捜索計画において、構造化されていないデータから解釈可能な時空間リスク予測と最適化された捜索計画を生成する意思決定支援システム「Guardian」を提案し、その有効性を検証したものである。

Joshua Castillo, Ravi Mukkamala2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

本論文は、異なるドメイン間の画像特徴が少数のアンカーを用いて復元可能な幾何学的変換によって関連付けられているという仮説に基づき、極めてシンプルかつパラメータ効率の高い BiCLIP というフレームワークを提案し、11 のベンチマークで最先端のドメイン適応性能を達成したことを報告しています。

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

Kernel Debiased Plug-in Estimation based on the Universal Least Favorable Submodel

本論文は、効率的な影響関数の明示的な導出や評価を必要とせず、普遍的最も不利な部分モデルに基づく RKHS 上のデータ適応的バイアス補正フローを構築することで、非パラメトリックモデルにおける経路微分可能なパラメータの推定を半パラメトリック効率限界で達成する「ULFS-KDPE」と呼ばれる新しいカーネル偏倚補正プラグイン推定量を提案し、その理論的基盤と数値的安定性を示したものである。

Haiyi Chen, Yang Liu, Ivana Malenica2026-03-11🤖 cs.LG

The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

本論文は、混合専門家(MoE)モデルが推論時に「重みの再利用断片化」と「KV キャッシュのメモリ制約」という二重のペナルティに直面し、長文脈環境では密度モデルよりもスループットが劣ることを「qsqs 不等式」で定式化し、MoE の推論効率の限界を指摘しています。

Vignesh Adhinarayanan, Nuwan Jayasena2026-03-11🤖 cs.LG

MAcPNN: Mutual Assisted Learning on Data Streams with Temporal Dependence

この論文は、Vygotsky の社会文化理論に基づき、IoT デバイスが自律的に概念ドリフト時に他デバイスからの知識を相互に援助し合う「MAcPNN」という新しい学習パラダイムを提案し、連続的進化的ニューラルネットワーク(cPNN)と量子化を用いてデータストリーム上の性能向上とメモリ削減を実現したことを示しています。

Federico Giannini, Emanuele Della Valle2026-03-11🤖 cs.LG

Data-driven robust Markov decision processes on Borel spaces: performance guarantees via an axiomatic approach

本論文は、未知の擾乱分布を持つマルコフ決定過程に対して、経験分布からの距離関数の副レベル集合を曖昧集合として定義するデータ駆動型のロバストアプローチを提案し、その最適値関数が真の最適値関数に収束することや、有限サンプル数においてアウトオブサンプル性能の確率的な上界となることを証明しています。

Sivaramakrishnan Ramani2026-03-11✓ Author reviewed 🤖 cs.LG

MAPLE: Elevating Medical Reasoning from Statistical Consensus to Process-Led Alignment

この論文は、医療分野における複雑な推論において多数決に依存する従来のテスト時強化学習の限界を克服するため、医学的プロセス報酬モデル(Med-RPM)と統合し、合意ではなく医学的正確さに基づく段階的報酬による新しいトレーニングパラダイム「MAPLE」を提案し、その有効性を複数のベンチマークで実証したものである。

Kailong Fan, Anqi Pu, Yichen Wu, Wanhua Li, Yicong Li, Hanspeter Pfister, Huafeng Liu, Xiang Li, Quanzheng Li, Ning Guo2026-03-11🤖 cs.LG

The Coupling Within: Flow Matching via Distilled Normalizing Flows

本論文は、事前学習された正規化フロー(NF)モデルから導出されたカップリングを蒸留して学生モデルを訓練する「正規化フローマッチング(NFM)」を提案し、独立カップリングや最適輸送カップリングを用いた既存のフローモデルを凌駕する性能と、教師モデル自体の性能向上を実現することを示しています。

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei Zhai2026-03-11🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

この論文は、畳み込みニューラルネットワーク(CNN)の幾何学的構造を正確に反映し、クロスエントロピー損失のヘッシアン行列のトレースの閉形式解を導出することで、モデルの汎化性能を評価し、アーキテクチャや訓練の設計を支援する新たな平坦性指標を提案しています。

Rahman Taleghani, Maryam Mohammadi, Francesco Marchetti2026-03-11🤖 cs.LG

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

本論文は、広域センシングやリアルタイム処理における通信コストと物理法則の矛盾を解決するため、エッジデバイスでの軽量エンコーディングと物理意識デコーディングを組み合わせ、FWI タスクにおいて通信遅延を 8.9 倍、エネルギー消費を 33.8 倍削減しつつ、多くのケースで再構成精度を向上させる分散 SciML フレームワーク「EPIC」を提案するものである。

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei Yang2026-03-11🤖 cs.LG

SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding

この論文は、LLM の計画と強化学習を双方向に結合し、RL の実行結果を LLM のスキル仕様にフィードバックして反復的に改善する「SCALAR」というフレームワークを提案し、Craftax 環境において既存手法を大幅に上回る性能を達成したことを報告するものです。

Renos Zabounidis, Yue Wu, Simon Stepputtis, Woojun Kim, Yuanzhi Li, Tom Mitchell, Katia Sycara2026-03-11🤖 cs.LG

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

本論文は、ARM TrustZone の不十分なリソース分離によるオーバーヘッドを克服し、柔軟なメモリおよび NPU 保護メカニズムを導入することで、モバイル端末における大規模言語モデル(LLM)推論の高速化とセキュリティを両立させる「FlexServe」システムを提案し、従来手法と比較して大幅な性能向上を実現したことを示しています。

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin Xia2026-03-11🤖 cs.LG

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

この論文は、遠隔患者モニタリングで生成される膨大なデータを臨床スタッフが処理する課題を解決するため、自律型 AI エージェント「Sentinel」を開発し、従来の医師による監視を上回る感度とスケーラビリティで臨床的トリアージを可能にしたことを報告しています。

Seunghwan Kim (AnsibleHealth Inc., San Francisco, USA), Tiffany H. Kung (AnsibleHealth Inc., San Francisco, USA, Stanford School of Medicine, Stanford, USA), Heena Verma (AnsibleHealth Inc., San Francisco, USA), Dilan Edirisinghe (AnsibleHealth Inc., San Francisco, USA), Kaveh Sedehi (AnsibleHealth Inc., San Francisco, USA), Johanna Alvarez (AnsibleHealth Inc., San Francisco, USA), Diane Shilling (AnsibleHealth Inc., San Francisco, USA), Audra Lisa Doyle (AnsibleHealth Inc., San Francisco, USA), Ajit Chary (AnsibleHealth Inc., San Francisco, USA), William Borden (AnsibleHealth Inc., San Francisco, USA, George Washington University, Washington, D.C., USA), Ming Jack Po (AnsibleHealth Inc., San Francisco, USA)2026-03-11🤖 cs.AI