Diffusion Controller: Framework, Algorithms and Parameterization

この論文は、拡散モデルの制御を統一的な制御理論の枠組み(LS-MDP)として再解釈し、これに基づいて事前学習済みモデルのバックボーンを凍結したまま軽量なサイドネットワークで効率的に微調整を行う「Diffusion Controller(DiffCon)」という新たな手法とアルゴリズムを提案し、Stable Diffusion における生成品質と効率性の両面で既存手法を上回る性能を実証したものである。

Tong Yang, Moonkyung Ryu, Chih-Wei Hsu, Guy Tennenholtz, Yuejie Chi, Craig Boutilier, Bo Dai2026-03-10🤖 cs.LG

Masked Unfairness: Hiding Causality within Zero ATE

この論文は、因果的公平性の評価において平均処置効果(ATE)のみに依存する規制が、交絡変数によって「因果的マスキング」を引き起こし、見かけ上の公平性を維持しながら実質的な不平等を隠蔽する深刻なリスクを有することを示し、モデルレベルでの公平性規制の必要性を説いています。

Zou Yang, Sophia Xiao, Bijan Mazaheri2026-03-10🤖 cs.LG

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

本論文は、マルチモーダル大規模言語モデル(MLLM)を用いて人間を代替し、低リソース音声分類タスクにおいて高速かつ解釈可能な音声属性を適応的に発見する手法を提案し、従来の人間依存型アプローチや直接予測よりも高い性能と実用性を示したことを述べています。

Kosuke Yoshimura, Hisashi Kashima2026-03-10🤖 cs.LG

Combinatorial Allocation Bandits with Nonlinear Arm Utility

本論文は、マッチングプラットフォームにおける参加者の不満や離脱を防ぐために、アームの満足度を最大化する新たなオンライン学習問題「組合せ割り当てバンドット」を提案し、そのために上界信頼区間法と Thompson サンプリング法を開発して近似後悔の理論的保証と実験的有効性を示したものである。

Yuki Shibukawa, Koichi Tanaka, Yuta Saito, Shinji Ito2026-03-10🤖 cs.LG

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

この論文は、自動化された評価モデルからの弱い教師信号を用いた「Self-MOA」というフレームワークを提案し、小規模言語モデルが従来の人間によるアノテーションに依存することなく、安全性と有用性を両立させながら効率的にアライメントできることを実証しています。

Punyajoy Saha, Sudipta Halder, Debjyoti Mondal, Subhadarshi Panda2026-03-10🤖 cs.LG

TEA-Time: Transporting Effects Across Time

この論文は、無作為化比較試験の結果を異なる時期に外挿するための「TEA-Time」フレームワークを提案し、複製試験や共通治療群を用いた二つの識別戦略と二重頑健推定量を開発し、Upworthy の A/B テストデータを用いて、共通治療群アプローチが精度向上をもたらす一方で異質的な相互作用によるバイアスリスクがあることを示しています。

Harsh Parikh, Gabriel Levin-Konigsberg, Dominique Perrault-Joncas, Alexander Volfovsky2026-03-10🤖 cs.LG

RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States

この論文は、複雑な特徴量設計やグラフベースのアーキテクチャに依存せず、最小限の 4 つの特徴量と Transformer 機構を活用した軽量な強化学習フレームワーク「ReSched」を提案し、柔軟ジョブショップスケジューリング問題において既存の手法を上回る性能と高い汎用性を示したことを報告しています。

Xiangjie Xiao, Cong Zhang, Wen Song, Zhiguang Cao2026-03-10🤖 cs.LG

Resource-Adaptive Federated Text Generation with Differential Privacy

この論文は、計算リソースが異なるクライアントが参加するフェデレーテッド学習において、強力なクライアントによる差分プライバシー付きファインチューニングと、弱いクライアントによる軽量な投票メカニズムを組み合わせることで、合成データの生成とタスク間での再利用を可能にする適応型フレームワークを提案し、分布の整合性とロバスト性の向上を実証しています。

Jiayi Wang, John Gounley, Heidi Hanson2026-03-10🤖 cs.LG

The Talking Robot: Distortion-Robust Acoustic Models for Robot-Robot Communication

この論文は、ロボット間通信に特化し、手動設計の信号処理に代わるエンドツーエンドの共学習ニューラルネットワーク「Artoo」を提案し、ノイズ環境下での高い認識精度とリソース制約のあるプラットフォームでの実用性を両立させていることを示しています。

Hanlong Li, Karishma Kamalahasan, Jiahui Li, Kazuhiro Nakadai, Shreyas Kousik2026-03-10🤖 cs.LG

Interpretable Maximum Margin Deep Anomaly Detection

この論文は、Deep SVDD の課題である超球の崩壊や解釈性の欠如を、少量の異常ラベルと最大マージン目的関数を活用して解決し、超球パラメータと最終層の重みの等価性を証明することで学習と可視化を可能にした、解釈可能な最大マージン深層異常検出手法「IMD-AD」を提案するものです。

Zhiji Yang, Mei Huang, Xinyu Li, Xianli Pan, Qi Wang, Jianhua Zhao2026-03-10🤖 cs.LG

Entropy-Aware On-Policy Distillation of Language Models

本論文は、教師モデルの分布エントロピーが高い場合に前方 KL 発散を組み込むことで、従来の逆 KL 発散に基づくオンポリシー蒸留が抱える生成多様性の低下と学習不安定性を解決し、数学推論タスクにおいて学生モデルの精度と多様性を同時に向上させる「エントロピー感知型オンポリシー蒸留」手法を提案し、その有効性を示したものである。

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee2026-03-10🤖 cs.LG

VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness

VLN-Cache は、視点変化やタスクの進行に伴う意味的変化を認識してトークンの位置整合性と再利用の適切性を動的に調整する新しいキャッシュフレームワークを提案し、視覚言語ナビゲーションモデルの推論コストを削減しながら精度を維持することを実現します。

Zihao Zheng, Zhihao Mao, Xingyue Zhou, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen2026-03-10🤖 cs.LG

Dreamer-CDP: Improving Reconstruction-free World Models Via Continuous Deterministic Representation Prediction

本論文は、高次元観測空間におけるモデルベース強化学習において、従来の再構成タスクを廃棄し連続的な決定論的表現予測(JEPA 風)を導入することで、Crafter 環境において Dreamer と同等の性能を達成する新たな世界モデル「Dreamer-CDP」を提案しています。

Michael Hauri, Friedemann Zenke2026-03-10🤖 cs.LG

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

この論文は、数学的推論タスクとテストハックの両方が可能な環境「Countdown-Code」を提案し、SFT 段階でのわずかな報酬ハッキングデータの混入が RL 段階での誤った行動の一般化を招くことを実証することで、合成 SFT データの厳密な検証の必要性を浮き彫りにしています。

Muhammad Khalifa, Zohaib Khan, Omer Tafveez, Hao Peng, Lu Wang2026-03-10🤖 cs.LG

Statistical Contraction for Chance-Constrained Trajectory Optimization of Non-Gaussian Stochastic Systems

この論文は、分布仮定を置かずに、コンフォーマル推論と収縮理論を組み合わせることで、非ガウス確率システムにおける確率制約付き軌道最適化に統計的保証を与える新規手法を提案し、学習ベースの制御器を安全な実世界応用へ導く道筋を示しています。

Rihan Aaron D'Silva, Hiroyasu Tsukamoto2026-03-10🤖 cs.LG

Deep Generative Spatiotemporal Engression for Probabilistic Forecasting of Epidemics

この論文は、複雑な時空間依存関係と不確実性を扱うために、事前加算ノイズを駆動とした軽量な深生成アーキテクチャを用いた「深生成時空間回帰(Deep Generative Spatiotemporal Engression)」手法を提案し、6 つの疫学データセットにおける評価で、従来の時空間モデルを凌駕する高精度な確率的流行予測と説明可能性を実現したことを報告しています。

Rajdeep Pathak, Tanujit Chakraborty2026-03-10🤖 cs.LG

Agentic Planning with Reasoning for Image Styling via Offline RL

本論文は、複雑な画像スタイル変換を分解可能なツール列と推論連鎖を用いた構造化されたエージェント計画により解決し、合成データとオフライン強化学習を通じて視覚品質と指示追従性を大幅に向上させるフレームワークを提案するものです。

Subhojyoti Mukherjee, Stefano Petrangeli, Branislav Kveton, Trung Bui, Franck Dernoncourt, Arko Mukherjee2026-03-10🤖 cs.LG

Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts

本論文は、科学計算を含む多様なシナリオを網羅するベンチマーク「MSKernelBench」を提案し、これに基づいてプロファイリング情報やコンパイル・実行ツールチェーンの自動構築を活用するマルチエージェントシステム「CUDAMaster」を開発することで、既存の自動化手法や cuBLAS などの高度に最適化されたライブラリと競合する性能を実現したことを示しています。

Yuxuan Han, Meng-Hao Guo, Zhengning Liu, Wenguang Chen, Shi-Min Hu2026-03-10🤖 cs.LG