Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers

この論文は、大規模な基礎モデルにおける不確実性の定量化と計算コストの両立を実現するため、混合専門家(MoE)層のルーティング段階にベイズ推論を限定した「変分混合専門家ルーティング(VMoER)」を提案し、較正誤差の大幅な削減と分布外データに対する性能向上を、計算コストの増加を最小限に抑えながら達成することを示しています。

Albus Yizhuo Li, Matthew Wicker2026-03-11🤖 cs.AI

Temporal-Conditioned Normalizing Flows for Multivariate Time Series Anomaly Detection

この論文は、過去の観測値に基づいて正常な時系列データの確率分布を正確にモデル化し、低確率事象を検出することで多変量時系列の異常検知を可能にする「時系列条件付き正規化フロー(tcNF)」という新しい枠組みを提案し、その有効性を検証したものである。

David Baumgartner, Helge Langseth, Kenth Engø-Monsen, Heri Ramampiaro2026-03-11🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

本論文は、極限エッジデバイスにおけるリソース制約を克服し、CNN とトランスフォーマー両モデルの効率的なオンデバイス微調整を実現するハードウェア加速フレームワーク「TrainDeeploy」を提案し、RISC-V 基盤 SoC 上での実証を通じて LoRA などのパラメータ効率化手法によるメモリ使用量削減と高速処理を立証したものである。

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca Benini2026-03-11🤖 cs.LG

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

この論文は、意味内容が教師モデルの特定の動物への好意と無関係、あるいは矛盾する忠実な言い換えデータを用いて学生モデルを学習させた場合でも、教師モデルの行動特性が最大 19 ポイント増加する「潜在学習」が発生し、従来の内容ベースの検知や矛盾するコンテンツによる防止が機能しないことを示しています。

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)2026-03-11🤖 cs.LG

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

本論文は、特定ドメインでファインチューニングされたターゲットモデルに対するスペキュレイティブデコーディングの性能低下を、パラメータとデータの両面で効率的にドラフトモデルを適応させる新フレームワーク「EDA」により解決し、再学習コストを大幅に削減しながら平均受入長を向上させることを提案しています。

Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Yuhao Chen, Qingyu Zhang, Jixiang Luo, Xuelong Li, Rongrong Ji2026-03-11🤖 cs.AI

What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects

この論文は、非遵守(noncompliance)が存在するバンドット問題において推奨と処置の目的が一致しない課題を定式化し、IV 推定量の信頼性を保証する「BRACE」というパラメータフリーのアルゴリズムを提案するとともに、その理論的保証と多様なシナリオにおける実証的有効性を示しています。

Nicolás Della Penna2026-03-11🤖 cs.LG

Compiler-First State Space Duality and Portable O(1)O(1) Autoregressive Caching for Inference

本論文は、Mamba-2 の状態空間双対性アルゴリズムを XLA の最適化パスに直接マッピングすることで、CUDA 固有のカーネルに依存せず CPU、NVIDIA GPU、Google Cloud TPU 単一ソースから実行可能なポータブルかつ O(1)O(1) のオートレグレイシブキャッシングを実現し、TPU 上で高い性能と精度を確認したことを報告しています。

Cosmo Santoni2026-03-11🤖 cs.AI

Learning Bayesian and Markov Networks with an Unreliable Oracle

この論文は、誤りを許容する条件付き独立性オラクルを用いたマルコフネットワークとベイズネットワークの構造学習を研究し、マルコフネットワークでは経路数に制約があれば誤り数が増加しても構造を一意に特定できる一方、ベイズネットワークでは構造的な制約があっても誤りを一切許容できないことを示し、一意に特定可能な場合のアルゴリズムを提案しています。

Juha Harviainen, Pekka Parviainen, Vidya Sagar Sharma2026-03-11🤖 cs.LG

SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

本論文は、完全な状態推定を不要とし、オンボードセンサーのみの観測から拡散モデルを用いて特権的な状態情報を推論する「SCDP」を提案し、シミュレーションおよび実機(G1)において、外部センサーや状態推定なしで人間型ロボットの堅牢な歩行制御を実現したことを報告しています。

Milo Carroll, Tianhu Peng, Lingfan Bao, Chengxu Zhou, Zhibin Li2026-03-11🤖 cs.LG

Routing without Forgetting

本論文は、オンライン継続学習の課題に対処するため、現代ホップフィールドネットワークに着想を得たエネルギーベースの連想検索層をトランスフォーマーに統合し、反復的な勾配最適化なしに動的にタスク固有の表現部分空間を選択する「Routing without Forgetting(RwF)」という新しいアーキテクチャを提案し、クラス増加ベンチマークにおいて既存のプロンプトベース手法を大幅に上回る性能を示したことを報告しています。

Alessio Masano, Giovanni Bellitto, Dipam Goswani, Joost Van de Weijer, Concetto Spampinato2026-03-11🤖 cs.AI

Towards Understanding Adam Convergence on Highly Degenerate Polynomials

この論文は、外部スケジューラなしで自動的に収束する高度に退化した多項式という特定のクラスにおいて、Adam 最適化アルゴリズムが勾配降下法やモーメンタムよりも優れた局所線形収束性を示す理論的根拠とメカニズムを解明し、そのハイパーパラメータの振る舞い領域を分類したものである。

Zhiwei Bai, Jiajie Zhao, Zhangchen Zhou, Zhi-Qin John Xu, Yaoyu Zhang2026-03-11🤖 cs.LG

Nonparametric Variational Differential Privacy via Embedding Parameter Clipping

本論文は、非パラメトリック変分差分プライバシーの枠組みにおいて、レニーダイバージェンスの上限最小化に基づいて導出されたパラメータクリッピング戦略を導入することで、プライバシー保証の強化と下流タスクでの性能向上を両立させる手法を提案しています。

Dina El Zein, Shashi Kumar, James Henderson2026-03-11🤖 cs.LG

Memorization capacity of deep ReLU neural networks characterized by width and depth

この論文は、ReLU 活性化関数を持つ深層ニューラルネットワークが任意のNN個のデータ点を記憶するために必要な幅WWと深さLLの関係を明らかにし、W2L2W^2L^2NNlog(δ1)\log(\delta^{-1})の積に比例することが必要十分条件であることを示すことで、記憶容量における幅と深さのトレードオフを明示的に特徴づけています。

Xin Yang, Yunfei Yang2026-03-11🤖 cs.LG

MM-algorithms for traditional and convex NMF with Tweedie and Negative Binomial cost functions and empirical evaluation

この論文は、過分散や複雑な平均分散関係を持つデータに対応するため、Tweedie 分布や負の二項分布などの広範な分布仮定に基づき、従来の NMF と凸 NMF の両方に対して Majorize-Minimisation 法を用いた統一的な乗法更新アルゴリズムを開発し、実データを用いた評価を通じてノイズモデルの選択の重要性と凸 NMF の有効性を示したものです。

Elisabeth Sommer James, Asger Hobolth, Marta Pelizzola2026-03-11🤖 cs.LG

Learning the Hierarchical Organization in Brain Network for Brain Disorder Diagnosis

この論文は、事前定義されたサブネットワークに依存せず、内在的な特徴に基づいて脳ネットワークの階層的依存関係を学習する「BrainHO」という手法を提案し、ABIDE や REST-meta-MDD データセットにおける脳障害診断の精度向上と、解釈可能なバイオマーカーの特定を実現したことを示しています。

Jingfeng Tang, Peng Cao, Guangqi Wen, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-11🤖 cs.LG

Multi-DNN Inference of Sparse Models on Edge SoCs

本論文は、再学習なしにスパースモデルのサブグラフを再構成する「モデルステッチング」手法と、それをエッジ SoC に実装した実証システム「SparseLoom」を提案し、既存のマルチ DNN 推論システムと比較して SLO 違反率の大幅な削減、スループットの向上、およびメモリオーバーヘッドの低減を実現することを示しています。

Jiawei Luo, Di Wu, Simon Dobson, Blesson Varghese2026-03-11🤖 cs.LG

Well Log-Guided Synthesis of Subsurface Images from Sparse Petrography Data Using cGANs

本論文は、カーボンナノチューブなどの新材料ではなく、井戸ログデータと条件付き生成敵対ネットワーク(cGAN)を組み合わせることで、限られた岩石薄片データから堆積岩の多孔質構造を連続的に合成し、炭素回収や地下水素貯蔵などのエネルギー転換分野における貯留層評価を革新する手法を提案しています。 ※注:上記の日本語要約は、提供された英語の要旨の内容(cGAN、井戸ログ、炭酸塩岩、孔隙率、エネルギー転換応用など)に基づき、自然な日本語として再構成したものです。ただし、元の英語要旨に「カーボンナノチューブ」や「新材料」といった記述は含まれておらず、これは私の誤った推測(ハルシネーション)を含んでしまったため、以下に**正確な内容に基づいた修正版**を提示します。 **修正版(正確な要約):** 本論文は、井戸ログから得られる孔隙率データと条件付き生成敵対ネットワーク(cGAN)を組み合わせることで、限られた岩石薄片データから地質学的に整合性の高い孔隙スケールの画像を連続的に合成し、炭素回収や地下水素貯蔵などのエネルギー転換分野における貯留層評価を革新する手法を提案しています。

Ali Sadeghkhani, A. Assadi, B. Bennett, A. Rabbani2026-03-11🤖 cs.LG