Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models
この論文は、解釈性の低い深層強化学習に代わり大規模言語モデルを用いて可読なコードとして方策を生成する「コード空間反応オラクル(CSRO)」という新たなマルチエージェント学習フレームワークを提案し、競合する性能を維持しつつ説明可能な多様な戦略の発見を実現することを示しています。
4637 件の論文
この論文は、解釈性の低い深層強化学習に代わり大規模言語モデルを用いて可読なコードとして方策を生成する「コード空間反応オラクル(CSRO)」という新たなマルチエージェント学習フレームワークを提案し、競合する性能を維持しつつ説明可能な多様な戦略の発見を実現することを示しています。
本論文は、2020 年国勢調査のプライバシー保護システム(DAS)において、階層構造を活用した統計的に最適な一般化最小二乗回帰と効率的な線形代数演算を組み合わせることで、既存の TopDown 法よりも郡や地区レベルの集計精度を大幅に向上させつつ、同じプライバシ保証と構造的制約を満たす新しい事後処理手法「BlueDown」を提案するものである。
この論文は、従来のハードスパースティの限界を克服し、最上位ビット(MSB)を代理として利用する「ソフトスパースティ」パラダイムを提案することで、ReLU および Tanh 活性化関数を用いた CNN の推論において、精度を損なわずに乗算演算を大幅に削減し、エッジデバイス向けに電力効率を向上させる手法を提示しています。
この論文は、最終的な正解だけでなく中間推論ステップの正しさも考慮する対照学習を組み込んだ CLIPO を提案し、LLM の推論におけるハルシネーションや一般化性の欠如といった RLVR の課題を解決し、頑健な政策最適化を実現する手法を提示しています。
この論文は、LLM の「真ん中の情報を見失う(Lost in the Middle)」現象が学習や位置符号化に起因するのではなく、残差接続を持つ因果的デコーダの幾何学的性質に由来し、初期化段階(トレーニング前)ですでに存在する構造的な偏りであることを、厳密な理論と実験的検証によって明らかにしたものである。
この論文は、ハイパースペクトル画像の教師なしクラスタリングにおいて、従来の方法が抱えるデータバランス調整によるクラス境界の曖昧化やノイズへの非頑健性といった課題を解決するため、不均衡 Wasserstein 重心を用いて低次元表現を学習する新たな辞書学習手法を提案するものである。
この論文は、物理則に基づく正則化項を不要とし、暗黙の数値スキームとニューラルオペレーターを統合することで、限られたデータから線形単一自由度系の振動周波数応答曲線を 99.87% の精度で予測し、未検証の条件への汎化を可能にする手法を提案しています。
この論文は、過去の学習チェックポイントをモデルマージ技術で統合して新しいタスクのファインチューニング初期値として活用する「Mashup Learning」を提案し、これにより下流タスクの精度向上と収束の高速化を実現することを示しています。
本論文は、既存の LoRA 混合モデルにおける経路重みの偏り問題を解決するため、非学習型経路重みと RLOO 法に基づく強化学習アプローチを採用し、同等のアクティブパラメータ数で最先端の性能を達成する「ReMix」と呼ばれる新しい経路設計を提案するものである。
本論文は、電子カルテの医療コードが持つ多様な役割を考慮し、臓器システム内の診断中心の相互作用と非同期な進行パターンを明示的にモデル化する「DT-BEHRT」というグラフ強化型トランスフォーマーを提案し、高い予測性能と臨床医の推論に合致する解釈可能な患者表現の実現を達成したことを報告しています。
この論文は、正則化された確率的ミラー降下法に基づくバンドットアルゴリズムの安定性を体系的に理論化し、適応的サンプリング下での統計的推論の妥当性と学習効率の両立、さらなる汚染耐性の確立を可能にする新たな枠組みを提示しています。
本論文は、再帰的またはトランスフォーマー構造に依存せず、階層的・空間的・チャネルベースの事前分布と適応的特徴再較正を統合した効率的な畳み込み設計により、VVC 内符号化を凌駕する高効率な画像圧縮を実現するエンドツーエンド学習フレームワーク「ARCHE」を提案するものである。
この論文は、大規模言語モデルの幻覚を信号処理の適応ノイズキャンセレーションに例え、推論時に特定の神経活性化をリアルタイムで抑制する「適応的活性化キャンセル(AAC)」という手法を提案し、事実性の向上を達成しながらもモデルの汎用能力や流暢さを一切損なわないことを示しています。
本論文は、連続行動空間における強化学習において、最適化サブ問題の近似解を学習したポリシーネットワークで高速化する「Actor-Accelerated PDA」を提案し、理論的な収束保証を維持しながら PPO などの既存手法を上回る性能を実現することを示しています。
この論文は、連続的な超過成長率をラプラス分位で定義された離散状態に変換し、ポアソン駆動のジャンプ持続メカニズムを組み込んだハイブリッド隠れマルコフモデルを提案することで、現実の市場データが持つ重尾分布、ボラティリティ・クラスタリング、および線形自己相関の欠如を同時に再現する合成金融時系列生成手法を開発したことを述べています。
この論文は、学習後に各原子ごとのカットオフ半径を最適化することで、精度と計算コストのバランスを用途に合わせて調整可能にする新しい機械学習ポテンシャル手法「Flexible Cutoff Learning(FCL)」を提案し、分子結晶のサブセットにおいて再学習なしで計算コストを 60% 以上削減しながら力誤差を 1% 未満に抑えることを実証しています。
本論文は、短時間での CMR 画像から高時間分解能の 4 次元心臓運動を推定し、既存手法よりも高精度な形状回復(Dice 係数 0.897 超)を実現するニューラルネットワーク「FusionNet」を提案するものである。
本論文は、種間遺伝子不整合や大規模データ処理の課題に対処するため、スペクトルグラフ理論に基づく階層的分割統治法「SDSR」を提案し、理論的な回復保証と、CA-ML や ASTRAL などの既存手法と組み合わせることで、精度を維持しつつ最大 10 倍の高速化を実現することを示しています。
本論文は、確率的バンディット問題における方策勾配法の連続時間拡散近似を解析し、学習率の条件に応じて対数後悔と線形後悔が分岐することを示しています。
この論文は、従来のクロスエントロピー損失の課題を克服するため、視覚モデルや大規模言語モデルにおいて多様な距離指標(特にコサイン距離)を用いた拡張ハーモニック損失を体系的に評価し、精度、解釈性、持続可能性の観点からその有効性を示したものです。