cs.LG 件の論文 | Gist.Science

Optimizing Reinforcement Learning Training over Digital Twin Enabled Multi-fidelity Networks

この論文は、物理ネットワークとデジタルツインからのデータ収集比率を最適化し、強化学習を用いて基地局のアンテナ傾斜角を調整する階層的強化学習フレームワークを提案し、ユーザーのデータレート最大化と遅延制約の両立を実現する手法を提示しています。

Hanzhi Yu, Hasan Farooq, Julien Forgeat, Shruti Bothe, Kristijonas Cyras, Md Moin Uddin Chowdhury, Mingzhe Chen2026-03-11🤖 cs.LG

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

この論文は、マルコフ連鎖、強化学習、LLM を組み合わせた 3 層アーキテクチャを採用し、行方不明児童の捜索計画において、構造化されていないデータから解釈可能な時空間リスク予測と最適化された捜索計画を生成する意思決定支援システム「Guardian」を提案し、その有効性を検証したものである。

Joshua Castillo, Ravi Mukkamala2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

本論文は、異なるドメイン間の画像特徴が少数のアンカーを用いて復元可能な幾何学的変換によって関連付けられているという仮説に基づき、極めてシンプルかつパラメータ効率の高い BiCLIP というフレームワークを提案し、11 のベンチマークで最先端のドメイン適応性能を達成したことを報告しています。

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

Kernel Debiased Plug-in Estimation based on the Universal Least Favorable Submodel

本論文は、効率的な影響関数の明示的な導出や評価を必要とせず、普遍的最も不利な部分モデルに基づく RKHS 上のデータ適応的バイアス補正フローを構築することで、非パラメトリックモデルにおける経路微分可能なパラメータの推定を半パラメトリック効率限界で達成する「ULFS-KDPE」と呼ばれる新しいカーネル偏倚補正プラグイン推定量を提案し、その理論的基盤と数値的安定性を示したものである。

Haiyi Chen, Yang Liu, Ivana Malenica2026-03-11🤖 cs.LG

Towards Reliable Simulation-based Inference

この論文は、シミュレーションに基づく推論における機械学習モデルの過信を軽減し、推論の信頼性を向上させるために、「バランス化」という正則化手法と、新しい事前分布を採用したベイズ型ニューラルネットワークという 2 つのアプローチを提案・検証するものです。

Arnaud Delaunoy2026-03-11🤖 cs.LG

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

この論文は、欠落者捜査の最初の 72 時間を支援し、複数のタスク特化型 LLM と合意形成エンジン、そして QLoRA 微調整を組み合わせることで、信頼性の高い構造化情報抽出を実現する「Guardian」というエンドツーエンドシステムを提案しています。

Joshua Castillo, Ravi Mukkamala2026-03-11🤖 cs.AI

A Survey of Reinforcement Learning For Economics

この論文は、次元の呪いによって従来の動的計画法が困難となる高次元の経済モデルに対し、強化学習が柔軟な解決策を提供する一方で、その実用性はサンプル効率やシミュレータの精度などの制約に依存していることを示す調査である。

Pranjal Rawat2026-03-11🤖 cs.LG

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

本論文は、混合専門家（MoE）モデルが推論時に「重みの再利用断片化」と「KV キャッシュのメモリ制約」という二重のペナルティに直面し、長文脈環境では密度モデルよりもスループットが劣ることを「 $qs$ 不等式」で定式化し、MoE の推論効率の限界を指摘しています。

Vignesh Adhinarayanan, Nuwan Jayasena2026-03-11🤖 cs.LG

Semantic Level of Detail: Multi-Scale Knowledge Representation via Heat Kernel Diffusion on Hyperbolic Manifolds

本論文は、双曲多様体上の熱核拡散を用いた連続的なズーム操作「Semantic Level of Detail (SLoD)」を提案し、グラフラプラシアンのスペクトルギャップから知識グラフの抽象化レベルを自動的に検出する手法を確立したものである。

Edward Izgorodin2026-03-11🤖 cs.AI

MAcPNN: Mutual Assisted Learning on Data Streams with Temporal Dependence

この論文は、Vygotsky の社会文化理論に基づき、IoT デバイスが自律的に概念ドリフト時に他デバイスからの知識を相互に援助し合う「MAcPNN」という新しい学習パラダイムを提案し、連続的進化的ニューラルネットワーク（cPNN）と量子化を用いてデータストリーム上の性能向上とメモリ削減を実現したことを示しています。

Federico Giannini, Emanuele Della Valle2026-03-11🤖 cs.LG

Data-driven robust Markov decision processes on Borel spaces: performance guarantees via an axiomatic approach

本論文は、未知の擾乱分布を持つマルコフ決定過程に対して、経験分布からの距離関数の副レベル集合を曖昧集合として定義するデータ駆動型のロバストアプローチを提案し、その最適値関数が真の最適値関数に収束することや、有限サンプル数においてアウトオブサンプル性能の確率的な上界となることを証明しています。

Sivaramakrishnan Ramani2026-03-11✓ Author reviewed ⓘ🤖 cs.LG

MAPLE: Elevating Medical Reasoning from Statistical Consensus to Process-Led Alignment

この論文は、医療分野における複雑な推論において多数決に依存する従来のテスト時強化学習の限界を克服するため、医学的プロセス報酬モデル（Med-RPM）と統合し、合意ではなく医学的正確さに基づく段階的報酬による新しいトレーニングパラダイム「MAPLE」を提案し、その有効性を複数のベンチマークで実証したものである。

Kailong Fan, Anqi Pu, Yichen Wu, Wanhua Li, Yicong Li, Hanspeter Pfister, Huafeng Liu, Xiang Li, Quanzheng Li, Ning Guo2026-03-11🤖 cs.LG

Statistical Inference via Generative Models: Flow Matching and Causal Inference

この論文は、フローマッチングを中核的な例として生成 AI を統計的推論の文脈で再解釈し、欠損値補完や因果推論など、高次元の構造化問題における推論の妥当性を保ちつつ生成モデルを統合するための統計的枠組みを提案しています。

Shinto Eguchi2026-03-11🤖 cs.LG

The Coupling Within: Flow Matching via Distilled Normalizing Flows

本論文は、事前学習された正規化フロー（NF）モデルから導出されたカップリングを蒸留して学生モデルを訓練する「正規化フローマッチング（NFM）」を提案し、独立カップリングや最適輸送カップリングを用いた既存のフローモデルを凌駕する性能と、教師モデル自体の性能向上を実現することを示しています。

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei Zhai2026-03-11🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

この論文は、畳み込みニューラルネットワーク（CNN）の幾何学的構造を正確に反映し、クロスエントロピー損失のヘッシアン行列のトレースの閉形式解を導出することで、モデルの汎化性能を評価し、アーキテクチャや訓練の設計を支援する新たな平坦性指標を提案しています。

Rahman Taleghani, Maryam Mohammadi, Francesco Marchetti2026-03-11🤖 cs.LG

When to Retrain after Drift: A Data-Only Test of Post-Drift Data Size Sufficiency

本論文は、概念ドリフト発生後の再学習に必要なデータサイズを推定し、安定した再学習のタイミングを決定するための、検出器やモデルに依存せずデータのみを用いた手法「CALIPER」を提案し、その理論的裏付けと実効性を示したものである。

Ren Fujiwara, Yasuko Matsubara, Yasushi Sakurai2026-03-11🤖 cs.LG

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

本論文は、広域センシングやリアルタイム処理における通信コストと物理法則の矛盾を解決するため、エッジデバイスでの軽量エンコーディングと物理意識デコーディングを組み合わせ、FWI タスクにおいて通信遅延を 8.9 倍、エネルギー消費を 33.8 倍削減しつつ、多くのケースで再構成精度を向上させる分散 SciML フレームワーク「EPIC」を提案するものである。

Yuchen Yuan, Junhuan Yang, Hao Wan, Yipei Liu, Hanhan Wu, Youzuo Lin, Lei Yang2026-03-11🤖 cs.LG

SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding

この論文は、LLM の計画と強化学習を双方向に結合し、RL の実行結果を LLM のスキル仕様にフィードバックして反復的に改善する「SCALAR」というフレームワークを提案し、Craftax 環境において既存手法を大幅に上回る性能を達成したことを報告するものです。

Renos Zabounidis, Yue Wu, Simon Stepputtis, Woojun Kim, Yuanzhi Li, Tom Mitchell, Katia Sycara2026-03-11🤖 cs.LG

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

本論文は、ARM TrustZone の不十分なリソース分離によるオーバーヘッドを克服し、柔軟なメモリおよび NPU 保護メカニズムを導入することで、モバイル端末における大規模言語モデル（LLM）推論の高速化とセキュリティを両立させる「FlexServe」システムを提案し、従来手法と比較して大幅な性能向上を実現したことを示しています。

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin Xia2026-03-11🤖 cs.LG

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

この論文は、遠隔患者モニタリングで生成される膨大なデータを臨床スタッフが処理する課題を解決するため、自律型 AI エージェント「Sentinel」を開発し、従来の医師による監視を上回る感度とスケーラビリティで臨床的トリアージを可能にしたことを報告しています。

Seunghwan Kim (AnsibleHealth Inc., San Francisco, USA), Tiffany H. Kung (AnsibleHealth Inc., San Francisco, USA, Stanford School of Medicine, Stanford, USA), Heena Verma (AnsibleHealth Inc., San Francisco, USA), Dilan Edirisinghe (AnsibleHealth Inc., San Francisco, USA), Kaveh Sedehi (AnsibleHealth Inc., San Francisco, USA), Johanna Alvarez (AnsibleHealth Inc., San Francisco, USA), Diane Shilling (AnsibleHealth Inc., San Francisco, USA), Audra Lisa Doyle (AnsibleHealth Inc., San Francisco, USA), Ajit Chary (AnsibleHealth Inc., San Francisco, USA), William Borden (AnsibleHealth Inc., San Francisco, USA, George Washington University, Washington, D.C., USA), Ming Jack Po (AnsibleHealth Inc., San Francisco, USA)2026-03-11🤖 cs.AI

← 前へ次へ →