To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models
本論文は、数学やコーディングなど複数のドメインにおける大規模言語モデルの強化学習(RLVR)において、混合マルチタスク学習と個別学習後のモデル結合の 2 つの手法を比較・分析し、ドメイン間の干渉が少なく相乗効果が得られることを示すとともに、その内部メカニズムを多角的に解明した研究です。
6885 件の論文
本論文は、数学やコーディングなど複数のドメインにおける大規模言語モデルの強化学習(RLVR)において、混合マルチタスク学習と個別学習後のモデル結合の 2 つの手法を比較・分析し、ドメイン間の干渉が少なく相乗効果が得られることを示すとともに、その内部メカニズムを多角的に解明した研究です。
本論文は、LLM エージェントの推論時に知識を付与する「スキル」の効果を測定する新しいベンチマーク「SkillsBench」を提案し、手動で選定されたスキルがタスクの成功率を大幅に向上させる一方で、モデルが自律的に生成したスキルは平均的に効果がないことを示した。
本論文は、LLM のハルシネーションを埋め込み空間の幾何学的特性に基づいて「不忠実性」「虚構」「事実誤認」の 3 種類に分類し、それぞれに対応する検出指標(SGI と DGI)を提案するとともに、TruthfulQA における分類性能の限界が事実誤認の検出ではなくスタイルの偏りに起因することを明らかにしています。
この論文は、Muon 系オプティマイザの更新方向の直交化に伴う不安定性を、大域 RMS 較正とエネルギーに基づく信頼領域クリッピングを組み合わせることで解決し、ウォームアップなしでも Adam 系手法を上回る安定性と収束速度を実現する「TrasMuon」という新しい最適化手法を提案しています。
この論文は、引用に基づく検証に最適化された軽量な自動化 AI パイプラインが、ICC M や未発表の研究課題など、高度な研究レベルの数学問題の解決に成功したことを示しています。
この論文は、瞬間速度制約を付与することで表現力と計算効率を両立し、ロボット操作タスクにおいて最先端の成功率と高速な推論を実現する、一歩でアクションを生成する新しい生成方策「平均速度方策(MVP)」を提案するものです。
本論文は、構造化された領域(有界な物理パラメータや離散 - 連続ハイブリッド変数など)に制約されるシミュレーションに基づく推論(SBI)の問題に対し、幾何学的制約と離散潜在構造の両方を統合的に扱える新しい変分フローマッチングフレームワーク「Pawsterior」を提案し、従来の手法では困難だったより広範な SBI 課題への適用を可能にするものです。
本論文は、LLM の微調整データセットにおけるトークンレベルのノイズを「推論の重要性」「知識の新規性」「タスクの関連性」という 3 つの属性に分解して評価し、ノイズとなるトークンの勾配をマスクすることで微調整後のモデル性能を最大 13.7% 向上させる、説明可能なトークンレベルノイズフィルタリングフレームワーク「XTF」を提案しています。
本論文は、数時間にわたる音声データを構造化されたイベント記録に変換し、SQL データベースから関連するイベントを検索して大規模言語モデルの回答を支援するハイブリッド型フレームワーク「LongAudio-RAG」を提案し、その精度向上とエッジ - クラウド環境での実用性を示したものである。
この論文は、人間のエピソード記憶メカニズムに着想を得て、意味の要約(Semantic Gist)の抽出と進化、多次元知識グラフ、および拡散型検索を組み合わせた新しい RAG フレームワーク「CogitoRAG」を提案し、複雑な知識統合や推論において既存の最先端手法を上回る性能を実証したものである。
本論文は、患者の条件に依存する臨床推論を評価する初のベンチマーク「CondMedQA」を提案し、クエリの条件に基づいて知識グラフの推論経路を選択的に活性化・剪定する「条件ゲート型推論(CGR)」フレームワークを開発することで、医療QAにおける条件依存性の明示的なモデル化の重要性を実証しています。
この論文は、従来のカバレッジ保証を超えて、コンフォーマル予測の運用上の指標(コミット頻度や誤り曝露など)に対する有限サンプル保証を提供し、それらのトレードオフを可視化・最適化するための新しい手法と理論的枠組みを提案しています。
この論文は、有限一階世界におけるデフォルトと例外の帰納推論(ABD)を評価する新しいベンチマークを提案し、SMT 検証を用いた厳密な評価を通じて、最先端の LLM が妥当性は高いものの例外のスパース性(簡潔性)において課題を抱え、観察 regimes によって異なる一般化の失敗モードを示すことを明らかにしています。
この論文は、拡張的にラベル付けされたターゲット述語を説明する単一の第一階述語論理式を生成するタスクとして、有限構造概念合成のためのベンチマーク「INDUCTION」を提案し、モデルの推論能力と汎化特性を評価する結果を報告しています。
この論文は、CityLearn 環境を用いて都市エネルギー制御におけるマルチエージェント強化学習(MARL)を多角的な KPI で評価し、分散学習分散実行(DTDE)が集中学習分散実行(CTDE)よりも優れており、時間依存性の学習がバッテリー寿命などの持続可能性指標の改善に寄与することを示しています。
ModernBERT 基盤の多言語エンコーダ「MrBERT」は、35 言語とコードの事前学習、Matryoshka 表現学習による柔軟な次元適応、および特定ドメインへの最適化を通じて、地域言語の卓越性と専門分野での高性能、そして推論・保存コストの削減を同時に実現するモデルファミリーを提案し、Hugging Face でオープンソース化されています。
本論文では、不安定な学習が課題である自律型強化学習(ARL)の安定性を制御された環境で分析するフレームワーク「ARLArena」を提案し、その知見に基づいて安定した学習を実現する手法「SAMPO」を開発し、多様なタスクで安定した学習と高い性能を達成することを示しています。
本論文は、従来の手法に比べて計算コストが低く手動調整が不要な、Cryo-EM 密度マップ制約を組み込んだワンステップ拡散モデル「CryoNet.Refine」を開発し、タンパク質複合体や DNA/RNA-タンパク質複合体の構造精密化を大幅に高速化・自動化する手法を提案しています。
この論文は、AI エージェントが研究の速度や網羅性を向上させる一方で理論的独創性には限界があるとし、認知タスクの特性に基づいて「Vibe Researching」の概念を提唱し、社会科学における人間の役割と教育のあり方について考察しています。
この論文は、古典系における「二重予測可能性(bipredictability)」の上限が 0.5 以下であることを理論的に証明し、現在の AI は予測に基づく「主体性(agency)」は持っても学習の自己監視と適応を欠くため真の「知能(intelligence)」ではないと定義し、生物の視床 - 皮質調節に着想を得た新たなフィードバック機構を提案しています。