LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks
本論文は、低ランク適応(LoRA)を拡張して自己注意ネットワークに適用する「LoRA-Ensemble」を提案し、明示的なアンサンブルと同等以上の精度と較正性能を、はるかに高い計算効率で実現する手法を提示しています。
2330 件の論文
本論文は、低ランク適応(LoRA)を拡張して自己注意ネットワークに適用する「LoRA-Ensemble」を提案し、明示的なアンサンブルと同等以上の精度と較正性能を、はるかに高い計算効率で実現する手法を提示しています。
この論文は、方策勾配法を用いて確率分布でアトリビューションベースの説明を最適化する「FEX」という新しいフレームワークを提案し、従来のモデル非依存アプローチと比較して推論時間を 97% 以上削減しつつ、高品質で汎用的な説明をリアルタイムで可能にすることを示しています。
本論文は、少ショット微調整における拡散モデルの学習過程で生じる「腐敗段階」を、ベイズニューラルネットワークを用いて学習分布を広く捉えることで理論的に説明し、生成画像の忠実度と多様性を向上させる手法を提案しています。
本論文は、知識蒸留と低ランク適応微調整を組み合わせることで、計算コストを大幅に削減しつつ最先端の精度を達成する軽量な転がり軸受故障検出モデル「DKDL-Net」を提案しています。
この論文は、二面市場におけるアルゴリズム干渉により既存の推定量が偏る問題を解決するため、競争的な割り当てメカニズムを明示的にモデル化する構造化半パラメトリック枠組みと二重機械学習を組み合わせた新たな推定手法を提案し、大規模フィールド実験を通じてその有効性を実証したものである。
LAMBDA は、大規模言語モデルを活用し、コード生成を行う「プログラマー」とデバッグを行う「インスペクター」という 2 つの代理エージェントを連携させることで、自然言語による直感的なデータ分析を可能にするオープンソースのマルチエージェントシステムである。
この論文は、最適輸送理論に基づく正則化と凸統合問題の解決を通じて、局所リプシッツ連続性を保証しつつ訓練データに高精度に適合する新しい強健な敵対的防御モデル「OTAD」を提案し、多様なデータセットにおいて既存の強健モデルを上回る性能を実証しています。
本論文は、深層コックスモデルにおけるミニバッチ確率的勾配降下法(SGD)の統計的基盤を確立し、新しい推定量(mb-MPLE)の一貫性と収束性を証明するとともに、学習率とバッチサイズの比率の重要性や大規模実データへの適用可能性など、実用的な指針を提供しています。
この論文は、高次元空間や複雑なデータにおける提案分布の生成が困難という既存のベイズ GPLVM の課題を解決するため、変分推論と Annealed Importance Sampling を組み合わせ、すべての変数を再パラメータ化することで効率的な学習を実現し、より tight な変分境界や高い対数尤度、頑健な収束性を実現する手法を提案しています。
本論文は、任意の距離空間に値をとるカーネルを持つ-ネットワークを定義し、これらを比較するための-グロモフ・ワッサーシュタイン距離を導入することで、既存の距離の多くを包含する統一的な理論的枠組みを構築し、その距離が持つ望ましい性質や計算可能な近似手法を示しています。
本論文は、SHAP や LIME などのポストホック説明手法がビジネス研究で広く用いられているものの、それらが生成する説明をデータの本質的な関係性の証拠として誤解釈する傾向が横行しており、高い予測精度があっても説明の信頼性は保証されないため、仮説検証ではなく探索的ツールとして位置づけるべきであると警鐘を鳴らしています。
本論文は、データ移動やメモリアクセスなどのオーバーヘッドを包括的に評価する厳密なエネルギーモデルを用いて、特定の条件下(平均スパイク率が 6.4% 未満など)でのみスパイクニューラルネットワーク(SNN)が従来の量子化人工ニューラルネットワーク(QNN)を上回るエネルギー効率を実現し得ることを実証し、スマートウォッチのバッテリー寿命を倍増させる可能性を示唆しています。
この論文は、物理システムの数学的構造と安定性を保ち、入力と潜在空間の力を双方向に変換可能にする「結合振動子ネットワーク(CON)」を提案し、これにより画像からのみ学習した複雑な非線形力学を閉形式の制御理論と組み合わせて効率的に制御する手法を実現したことを示しています。
この論文は、事前学習された拡散モデルを用いてソースドメインの軌跡にノイズを加え、ターゲットドメインの特性に整合させながら元の意味情報を保持する「xTED」というフレームワークを提案し、複雑なモデル構造に依存せず、データレベルでドメインギャップを効果的に埋めることで、限られたターゲットデータ下での意思決定タスクにおける政策学習の性能を向上させることを示しています。
本論文は、ボルツマン分布からの効率的なサンプリングを目的として、ノイズ付きエネルギーの学習に基づく拡散サンプリング手法「NEM」と、そのバイアスと分散を調整するブートストラップ技術を組み合わせた「BNEM」を提案し、複雑な分布における最先端の性能と頑健性を示しています。
この論文は、有限 horizon のマルコフ決定過程における方策勾配法の非凸最適化問題に対し、Polyak-Łojasiewicz-Kurdyka 条件を満たす構造的特徴を特定することで、非凸性にもかかわらず大域的最適解への収束を保証し、在庫管理やキャッシュバランス問題など多様なオペレーションモデルにおけるサンプル複雑性の保証を初めて提供することを示しています。
この論文は、Mori-Zwanzig 形式に着想を得て、遅延時間変数をデータから学習するニューラル遅延微分方程式(NDDE)を提案し、部分観測条件下での非マルコフ的動的システムのモデル化において、既存の手法よりも優れた性能とデータ効率を実現することを示しています。
本論文は、MineDojo などの高次元オープンワールド環境において、ゴール条件付きのジャンプ状態遷移とアフォーダンスマップの活用を通じて「長短期世界モデル」を構築し、エージェントの想像ホライズンを拡張することで長期的な報酬を見据えた探索効率を大幅に向上させる手法「LS-Imagine」を提案しています。
この論文は、モーメンタム SGD を用いた敵対的訓練を離散時間力学系として捉え、PAC ベイズ解析枠組みを通じて学習ダイナミクスとロバスト一般化誤差の関係を解明し、ロバスト過学習のメカニズムを統一的に説明するとともに、敵対的重み摂動の最適化における限界を指摘するものである。
本論文は、トランスフォーマーがインコンテキスト学習を通じて動的システムの隠れ状態を暗黙的に推定し、モデルや勾配更新なしに線形・非線形システム双方においてカルマンフィルタや粒子フィルタに匹敵する出力予測を実現することを示しています。