Marginals Before Conditionals
この論文は、ニューラルネットワークが条件付き学習を行う際、まず条件付きエントロピーに相当する損失のプラトー(定常状態)を経由し、その後、データセットサイズや学習率などの要因によって制御される急激な転移を経て完全な条件付けを獲得するという、学習ダイナミクスにおける「周辺分布の先行」と「条件付き分布の遅延」という非対称性を明らかにしたものである。
2316 件の論文
この論文は、ニューラルネットワークが条件付き学習を行う際、まず条件付きエントロピーに相当する損失のプラトー(定常状態)を経由し、その後、データセットサイズや学習率などの要因によって制御される急激な転移を経て完全な条件付けを獲得するという、学習ダイナミクスにおける「周辺分布の先行」と「条件付き分布の遅延」という非対称性を明らかにしたものである。
本論文は、ハミルトニアンをニューラルネットワークでパラメータ化し、物理的な構造とパッシビティを保証する「確率的ポートハミルトニアンニューラルネットワーク(SPH-NN)」を提案し、その普遍近似定理の証明と、ノイズを含む振動系における長期的な精度向上を実証的に示しています。
この論文は、NTK スケーリングにおける浅い全結合ネットワークの SGD 学習を大偏差論の観点から解析し、学習率やデータに依存する明示的な関数 の符号によって、NTK を平坦化する大きなスパイクが発生する確率と振る舞いが決まることを示す定量的理論を提示しています。
この論文は、既存の安全対策をバイパスし、追加の微調整なしで有害なコンテンツを生成させることを可能にする軽量な活性化空間敵対的攻撃手法「Amnesia」を提案し、オープンウェイト大規模言語モデルにおけるセキュリティ対策の強化の緊急性を浮き彫りにしています。
この論文は、パラメータ化量子回路が持つ周波数学習バイアスを克服するため、古典的なフーリエニューラルオペレータの手法に触発されたマルチステージ残差学習を量子ドメインに適用し、複数の周波数成分を持つ関数の学習精度を大幅に向上させることを示しています。
この論文は、粗いアノテーションのみから多階層の概念ヒエラルキーを自動発見する「Multi-Level Concept Splitting (MLCS)」と、発見された階層を表現し多段階の介入を可能にする「Deep-HiCEMs」を提案し、解釈性とタスク性能の両立を実現するものです。
この論文は、LLM の暗黙的なヒューリスティックに代わって知識駆動型の専門スキルと双層メモリ機構を採用したマルチエージェントフレームワーク「KernelSkill」を提案し、GPU カーネル最適化において既存手法を上回る高い成功率と高速化を実現したことを報告しています。
この論文は、拡散大規模言語モデル(dLLM)の中間表現が反復ごとにわずかにしか変化しないという洞察に基づき、トークンの重要度を推定して早期にスキップするトレーニング不要の高速化フレームワーク「ES-dLLM」を提案し、生成品質を維持しながら最大 16.8 倍の高速化を実現したことを示しています。
本論文は、ニューラルネットワークの重み空間そのものを分析・モデル化の対象として捉える「重み空間学習(WSL)」という新たな研究分野を初めて体系的に整理し、その理解・表現・生成の 3 つの主要な側面と、モデル検索や継続学習などの実用的応用を包括的に概説する調査論文である。
この論文は、分子生成における階層的な因果関係と分子全体の視野を両立させるため、非同期なノイズ除去スケジュールと動的なスケジューリング機構を組み合わせた新しい等変性非同期拡散モデル(EAD)を提案し、3 次元分子生成において最先端の性能を達成したことを示しています。
非定常な時系列データにおける分布のドリフトへの適応性を高めるため、Adam 最適化アルゴリズムの 2 次バイアス補正を除去した軽量な変法 TS_Adam を提案し、実世界の予測タスクにおいて MSE や MAE の大幅な改善を実証した。
この論文は、解釈性の低い深層強化学習に代わり大規模言語モデルを用いて可読なコードとして方策を生成する「コード空間反応オラクル(CSRO)」という新たなマルチエージェント学習フレームワークを提案し、競合する性能を維持しつつ説明可能な多様な戦略の発見を実現することを示しています。
本論文は、2020 年国勢調査のプライバシー保護システム(DAS)において、階層構造を活用した統計的に最適な一般化最小二乗回帰と効率的な線形代数演算を組み合わせることで、既存の TopDown 法よりも郡や地区レベルの集計精度を大幅に向上させつつ、同じプライバシ保証と構造的制約を満たす新しい事後処理手法「BlueDown」を提案するものである。
この論文は、従来のハードスパースティの限界を克服し、最上位ビット(MSB)を代理として利用する「ソフトスパースティ」パラダイムを提案することで、ReLU および Tanh 活性化関数を用いた CNN の推論において、精度を損なわずに乗算演算を大幅に削減し、エッジデバイス向けに電力効率を向上させる手法を提示しています。
この論文は、最終的な正解だけでなく中間推論ステップの正しさも考慮する対照学習を組み込んだ CLIPO を提案し、LLM の推論におけるハルシネーションや一般化性の欠如といった RLVR の課題を解決し、頑健な政策最適化を実現する手法を提示しています。
この論文は、LLM の「真ん中の情報を見失う(Lost in the Middle)」現象が学習や位置符号化に起因するのではなく、残差接続を持つ因果的デコーダの幾何学的性質に由来し、初期化段階(トレーニング前)ですでに存在する構造的な偏りであることを、厳密な理論と実験的検証によって明らかにしたものである。
この論文は、ハイパースペクトル画像の教師なしクラスタリングにおいて、従来の方法が抱えるデータバランス調整によるクラス境界の曖昧化やノイズへの非頑健性といった課題を解決するため、不均衡 Wasserstein 重心を用いて低次元表現を学習する新たな辞書学習手法を提案するものである。
この論文は、物理則に基づく正則化項を不要とし、暗黙の数値スキームとニューラルオペレーターを統合することで、限られたデータから線形単一自由度系の振動周波数応答曲線を 99.87% の精度で予測し、未検証の条件への汎化を可能にする手法を提案しています。
この論文は、過去の学習チェックポイントをモデルマージ技術で統合して新しいタスクのファインチューニング初期値として活用する「Mashup Learning」を提案し、これにより下流タスクの精度向上と収束の高速化を実現することを示しています。
本論文は、既存の LoRA 混合モデルにおける経路重みの偏り問題を解決するため、非学習型経路重みと RLOO 法に基づく強化学習アプローチを採用し、同等のアクティブパラメータ数で最先端の性能を達成する「ReMix」と呼ばれる新しい経路設計を提案するものである。