Marginals Before Conditionals

この論文は、ニューラルネットワークが条件付き学習を行う際、まず条件付きエントロピーに相当する損失のプラトー(定常状態)を経由し、その後、データセットサイズや学習率などの要因によって制御される急激な転移を経て完全な条件付けを獲得するという、学習ダイナミクスにおける「周辺分布の先行」と「条件付き分布の遅延」という非対称性を明らかにしたものである。

Mihir Sahasrabudhe2026-03-12🤖 cs.LG

Stochastic Port-Hamiltonian Neural Networks: Universal Approximation with Passivity Guarantees

本論文は、ハミルトニアンをニューラルネットワークでパラメータ化し、物理的な構造とパッシビティを保証する「確率的ポートハミルトニアンニューラルネットワーク(SPH-NN)」を提案し、その普遍近似定理の証明と、ノイズを含む振動系における長期的な精度向上を実証的に示しています。

Luca Di Persio, Matthias Ehrhardt, Youness Outaleb2026-03-12🤖 cs.LG

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

この論文は、既存の安全対策をバイパスし、追加の微調整なしで有害なコンテンツを生成させることを可能にする軽量な活性化空間敵対的攻撃手法「Amnesia」を提案し、オープンウェイト大規模言語モデルにおけるセキュリティ対策の強化の緊急性を浮き彫りにしています。

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra2026-03-12🤖 cs.AI

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

この論文は、LLM の暗黙的なヒューリスティックに代わって知識駆動型の専門スキルと双層メモリ機構を採用したマルチエージェントフレームワーク「KernelSkill」を提案し、GPU カーネル最適化において既存手法を上回る高い成功率と高速化を実現したことを報告しています。

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

この論文は、拡散大規模言語モデル(dLLM)の中間表現が反復ごとにわずかにしか変化しないという洞察に基づき、トークンの重要度を推定して早期にスキップするトレーニング不要の高速化フレームワーク「ES-dLLM」を提案し、生成品質を維持しながら最大 16.8 倍の高速化を実現したことを示しています。

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

A Survey of Weight Space Learning: Understanding, Representation, and Generation

本論文は、ニューラルネットワークの重み空間そのものを分析・モデル化の対象として捉える「重み空間学習(WSL)」という新たな研究分野を初めて体系的に整理し、その理解・表現・生成の 3 つの主要な側面と、モデル検索や継続学習などの実用的応用を包括的に概説する調査論文である。

Xiaolong Han, Zehong Wang, Bo Zhao, Binchi Zhang, Jundong Li, Damian Borth, Rose Yu, Haggai Maron, Yanfang Ye, Lu Yin, Ferrante Neri2026-03-12🤖 cs.LG

Equivariant Asynchronous Diffusion: An Adaptive Denoising Schedule for Accelerated Molecular Conformation Generation

この論文は、分子生成における階層的な因果関係と分子全体の視野を両立させるため、非同期なノイズ除去スケジュールと動的なスケジューリング機構を組み合わせた新しい等変性非同期拡散モデル(EAD)を提案し、3 次元分子生成において最先端の性能を達成したことを示しています。

Junyi An, Chao Qu, Yun-Fei Shi, Zhijian Zhou, Fenglei Cao, Yuan Qi2026-03-12🧬 q-bio

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

この論文は、解釈性の低い深層強化学習に代わり大規模言語モデルを用いて可読なコードとして方策を生成する「コード空間反応オラクル(CSRO)」という新たなマルチエージェント学習フレームワークを提案し、競合する性能を維持しつつ説明可能な多様な戦略の発見を実現することを示しています。

Daniel Hennes, Zun Li, John Schultz, Marc Lanctot2026-03-12🤖 cs.AI

Denoising the US Census: Succinct Block Hierarchical Regression

本論文は、2020 年国勢調査のプライバシー保護システム(DAS)において、階層構造を活用した統計的に最適な一般化最小二乗回帰と効率的な線形代数演算を組み合わせることで、既存の TopDown 法よりも郡や地区レベルの集計精度を大幅に向上させつつ、同じプライバシ保証と構造的制約を満たす新しい事後処理手法「BlueDown」を提案するものである。

Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Adam Sealfon2026-03-12🤖 cs.LG

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

この論文は、従来のハードスパースティの限界を克服し、最上位ビット(MSB)を代理として利用する「ソフトスパースティ」パラダイムを提案することで、ReLU および Tanh 活性化関数を用いた CNN の推論において、精度を損なわずに乗算演算を大幅に削減し、エッジデバイス向けに電力効率を向上させる手法を提示しています。

Vishal Shashidhar, Anupam Kumari, Roy P Paily2026-03-12🤖 cs.LG

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

この論文は、最終的な正解だけでなく中間推論ステップの正しさも考慮する対照学習を組み込んだ CLIPO を提案し、LLM の推論におけるハルシネーションや一般化性の欠如といった RLVR の課題を解決し、頑健な政策最適化を実現する手法を提示しています。

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang2026-03-12🤖 cs.LG

Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

この論文は、LLM の「真ん中の情報を見失う(Lost in the Middle)」現象が学習や位置符号化に起因するのではなく、残差接続を持つ因果的デコーダの幾何学的性質に由来し、初期化段階(トレーニング前)ですでに存在する構造的な偏りであることを、厳密な理論と実験的検証によって明らかにしたものである。

Borun D Chowdhury2026-03-12🤖 cs.LG

Unbalanced Optimal Transport Dictionary Learning for Unsupervised Hyperspectral Image Clustering

この論文は、ハイパースペクトル画像の教師なしクラスタリングにおいて、従来の方法が抱えるデータバランス調整によるクラス境界の曖昧化やノイズへの非頑健性といった課題を解決するため、不均衡 Wasserstein 重心を用いて低次元表現を学習する新たな辞書学習手法を提案するものである。

Joshua Lentz, Nicholas Karris, Alex Cloninger, James M. Murphy2026-03-12📊 stat

A neural operator for predicting vibration frequency response curves from limited data

この論文は、物理則に基づく正則化項を不要とし、暗黙の数値スキームとニューラルオペレーターを統合することで、限られたデータから線形単一自由度系の振動周波数応答曲線を 99.87% の精度で予測し、未検証の条件への汎化を可能にする手法を提案しています。

D. Bluedorn, A. Badawy, B. E. Saunders, D. Roettgen, A. Abdelkefi2026-03-12🤖 cs.LG

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

本論文は、既存の LoRA 混合モデルにおける経路重みの偏り問題を解決するため、非学習型経路重みと RLOO 法に基づく強化学習アプローチを採用し、同等のアクティブパラメータ数で最先端の性能を達成する「ReMix」と呼ばれる新しい経路設計を提案するものである。

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG