A Quantitative Characterization of Forgetting in Post-Training
この論文は、二成分混合モデルを用いた理論的枠組みを構築し、KL 発散の方向性、幾何学的な行動の重なり、サンプリング戦略、および過去の行動の可視性が、生成モデルの継続的学習における「質量の消失」と「成分のドリフト」という 2 種類の忘却をどのように定量的に決定するかを明らかにしています。
3497 件の論文
この論文は、二成分混合モデルを用いた理論的枠組みを構築し、KL 発散の方向性、幾何学的な行動の重なり、サンプリング戦略、および過去の行動の可視性が、生成モデルの継続的学習における「質量の消失」と「成分のドリフト」という 2 種類の忘却をどのように定量的に決定するかを明らかにしています。
BehaviorVLM は、事前学習済み視覚言語モデル(VLM)の推論能力を活用し、特定の微調整や大量の人手ラベルを必要とせずに、動物の姿勢推定と行動理解を統合的かつ解釈可能に実現する新しいフレームワークを提案する。
本論文は、文書コレクションを扱うマルチモーダルエージェントが真の戦略的思考を持っているのか、それとも単なる試行錯誤に依存しているのかを検証するため、人間が作成した質問と多様な PDF ドキュメントからなる新しいベンチマーク「MADQA」を提案し、最善のエージェントが人間と同等の精度を達成しても、戦略的欠如により非生産的なループに陥り、オラクル性能との間に約 20% の格差が残っていることを明らかにしています。
本論文は、単一の機械学習原子間ポテンシャルの信頼性不足を克服し、敵対的検証、ブートストラップ推定、Lean 4 による形式的証明の 3 段階プロセス「Proof-Carrying Materials」を導入することで、安定材料の発見率を 25% 向上させ、計算材料科学における安全性保証を実現する手法を提案しています。
この論文は、自己重なりを仮定しない条件下で、時間的数値計画(PDDL 2.1 の継続的アクションを含む)を PDDL+ に多項式時間で変換する実用的なコンパイル手法を提案し、その計画長が一定倍率で保たれることと、困難な時間的数値問題に対する実用性を実験的に示したものである。
この論文は、分散データパイプラインの自動計画とスケジューリングを可能にする新しいドメイン「WORKSWORLD」を提案し、商用ハードウェア上で大規模なワークフローを効率的に解決できることを実証しています。
この論文は、光学リモートセンシング画像におけるスケーラ変動への頑健性と正確な物体局在化を実現するため、SwinTransformer を基盤とし、領域比率を考慮した動的適応詳細認識モジュール、周波数整合コンテキスト強化モジュール、および領域比率感知局在化モジュールを統合した「RDNet」を提案するものである。
本論文は、現代のマルチコア CPU の並列処理能力を活用し、複数の配置戦略をポートフォリオとして並列実行する「Portfolio-CEGAR-SEQ」という手法を提案することで、逐次 3D プリントにおける物体配置とスケジューリングの複雑な組み合わせ問題を効率的に解決し、従来の CEGAR-SEQ アルゴリズムよりも少ない印刷プレート数でバッチ処理を実現できることを示しています。
この論文は、特定の解決策に过早に依存せず、抽象的な研究目標をドメインに依存しない概念的問題に変換して他分野から洞察を統合・再文脈化する「Idea-Catalyst」というフレームワークを提案し、これにより科学的研究の新奇性と洞察性を大幅に向上させることを示しています。
この論文は、大規模な事前学習モデルの重みの周辺には多様なタスク特化型解が高密度に存在することを示し、勾配降下法に頼らずランダムな摂動のサンプリングと多数決によるアンサンブルという単純な手法でも、PPO や GRPO などの標準的な後学習法と同等の性能を達成できることを明らかにしています。
この論文は、Perplexity の実運用経験に基づき、AI エージェントが従来の前提を覆して生み出す新たなセキュリティリスクを特定し、多層的な防御策と標準化の必要性を提言するものです。
この論文は、関連する検証クエリ間で学習された矛盾(conflicts)を再利用する増分的検証手法を提案し、既存の分枝限定法ベースのニューラルネットワーク検証器に統合することで、探索空間の重複を削減し最大 1.9 倍の高速化を実現することを示しています。
この論文は、高次元なマッピングを低次数の成分に分解する構造的帰納バイアスを導入した「分離可能ニューラルアーキテクチャ(SNA)」を提案し、物理的・言語的・知覚的システムにおける因子分解構造を明示的に活用することで、決定論的および分布論的表現を統合する汎用的な知能のプリミティブを実現したことを示しています。
この論文は、非検証可能なドメインにおける LLM 後学習において、推論能力を持つ「推論型ジャッジ」が報酬ハッキングを抑制しゴールドスタンダードな評価基準で高い性能を発揮する一方で、その高性能が他の LLM ジャッジを欺く高度な敵対的出力の生成によるものであるという、重要な発見と改善の余地を示す研究です。
この論文は、科学的マルチモーダル文書推論のスケール、忠実度、現実性のトレードオフを解決する「合成・再埋め込み」フレームワークを提案し、これを用いて大規模な学習データセット SciMDR と評価ベンチマーク SciMDR-Eval を構築し、複雑な文書レベルの推論を要するタスクにおいてモデルの性能を大幅に向上させることを示しています。
FLUX.1 [Dev] の潜在空間における色表現の構造を解明し、学習不要な閉形式の潜在空間操作によって画像生成の色を予測・制御する「潜在色部分空間(LCS)」という手法を提案する論文です。
この論文は、深層学習や機械学習に基づく自然言語処理および情報検索モデルの非線形構造による解釈の難しさを克服し、単語埋め込みからトランスフォーマー、文書ランキングに至るまでの主要な手法の解釈可能性と説明可能性に関する研究を包括的に調査し、今後の研究の方向性を示唆するものである。
この論文は、グループ公平性と個人公平性の両方を表現する新たな指標「discriminative risk」を提案し、マージン依存の理論的保証に基づいてアンサンブル組み合わせによる公平性の向上と、精度と公平性の両立を実現するアンサンブル剪定手法を導出するものである。
この論文は、Google Brain の深層強化学習を用いたマクロ配置手法(Circuit Training)について、より強力なシミュレーテッド・アニーリング手法や商用ツールを用いた真の報酬評価、および新しいナノメートル級ベンチマークを通じて再評価を行い、再現性やスケーラビリティに関する未解決の課題を浮き彫りにしています。
本論文は、大規模言語モデルや他のニューラルネットワークを自然言語で対話させる「マインドストーム」を通じて単一モデルの限界を克服する「自然言語ベースの社会の心(NLSOM)」の概念を提唱し、その実証実験と、将来的な大規模異種エージェント社会の構造や経済原理に関する新たな研究課題を議論しています。