SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement
本論文は、再帰的自己改善におけるアライメントのドリフトを防止し、コード生成や推論タスクでの性能向上を可能にするため、目標ドリフト指数、制約保持チェック、回帰リスク定量化の 3 つのセーフガードを組み合わせた実用的なフレームワーク「SAHOO」を提案するものである。
1720 件の論文
本論文は、再帰的自己改善におけるアライメントのドリフトを防止し、コード生成や推論タスクでの性能向上を可能にするため、目標ドリフト指数、制約保持チェック、回帰リスク定量化の 3 つのセーフガードを組み合わせた実用的なフレームワーク「SAHOO」を提案するものである。
この論文は、数式テキストからオペランドと演算子の関係を抽出するタスクにトランスフォーマーベースのモデル(特に BERT)を適用し、SHAP による説明可能性を統合することで、99.39% の高精度を達成しつつ透明性を高めた数学的エンティティ関係抽出の解釈可能なフレームワークを提案しています。
この論文は、新しい義務的モダリティを明示的に符号化したワソン選択課題データセットを用いて大規模言語モデルを評価した結果、人間と同様に義務的ルールにおいて推論能力が高く、一致バイアスに似た誤りパターンを示すことを明らかにしました。
この論文は、IELTS 英作文の自動採点において、エンコーダー微調整、プロンプティング、指示微調整、RAG、DPO などの主要な LLM ベースのアプローチを包括的に比較し、k-SFT と RAG を統合した構成が 93% の F1 スコアを達成して最も優れた性能を示すことを実証しています。
本論文は、大規模言語モデル(LLM)が演繹だけでなく帰納的推論(アブダクション)においても人間と同様のバイアスを示すかどうかを、三段論法形式のデータセットを変換して検証し、文脈に即した推論の重要性を明らかにするものである。
この論文は、ユーザーの専門性や目標に応じた信頼性の高い説明を生成するために、LLM のハルシネーションを防ぎつつフィードバックループで個人化を実現する XAI 枠組み「PONTE」を提案し、医療・金融分野での評価でその有効性を示したものである。
本論文では、事前学習から適用可能な新しいアーキテクチャ拡張「NOBLE」を提案し、非線形低ランク分岐をトランスフォーマーの線形層に追加することで、最小限のパラメータ増加と計算コストでトレーニング効率を大幅に向上させることを示しています。
COLD-Steer は、ラベル付き例からの勾配降下による表現変化を推論時に近似することで、従来の手法に比べて 50 倍少ないサンプル数で大規模言語モデルの振る舞いを効率的に制御するトレーニング不要なフレームワークです。
この論文は、単一パス検索の限界を克服し、反復的なツール呼び出しループとマルチモーダル検索を統合したエージェントフレームワーク「BRTR」を提案し、大規模な企業用スプレッドシートの理解と編集において最先端の性能を達成したことを報告しています。
本論文は、対照学習を用いて音声と文脈表現を整合させることで、多言語・多方言の会話文脈を考慮した高精度な自動音声認識フレームワークを提案し、実世界のデータで認識品質を 5% 以上向上させたことを示しています。
この論文は、SemEval-2026 の政治的回避検出タスクにおける KCLarity チームの取り組みとして、直接ラベル予測と階層構造に基づく間接予測の 2 つの手法、およびゼロショット推論を含む複数のモデルアプローチを比較評価し、エンコーダーモデルとゼロショットモデルのそれぞれで異なる性能特性が観測されたことを報告しています。
この論文は、医師や看護師など222名の病院職員から収集した質問に基づき、MIMIC-III と eICU のオープンソースデータベースを基に作成され、複雑な医療クエリや時間表現の理解、回答不可能な質問の判別といった実用的な課題に挑む電子カルテ向けテキスト -SQL ベンチマーク「EHRSQL」を提案するものです。
この論文は、単に「正解と誤答の両方を提示する」という対照的プロンプトを付加するだけで、大規模言語モデルの推論能力を飛躍的に向上させ、既存のゼロショットや数ショット手法を上回る性能を達成できることを示しています。
LLM ベースのエージェントが孤立した動作や静的なデータベースに依存する課題を解決するため、リアルタイムなメモリ共有プールを構築し、エージェント間の対話的な知識交換と集合的な自己向上を実現する非同期インタラクションフレームワーク「INMS」を提案し、その有効性を複数のデータセットで実証した。
本論文は、ハイブリッドウィンドウアテンションや報酬バックプロパゲーション、トークン長を考慮した学習戦略などの新技術を導入し、生成速度と画質を両立させた高性能な動画生成フレームワーク「EasyAnimate」を提案し、VBench リーダーボードおよび人間評価において最先端の性能を達成したことを報告しています。
この論文は、類似性と多様性を同時に満たすベクトル検索問題(VRSD)が NP 完全であることを理論的に証明し、パラメータ不要のヒューリスティック手法を提案することで、既存の手法を上回る性能を実現することを示しています。
本論文は、外部知識を参照するリトリーバル・オーグメント・ジェネレーション(RAG)機能を持つノートブックLM が、その内部モデルであるジェミニ 2.0 Flash を上回る膵臓癌の病期分類精度を達成し、RAG 技術が臨床診断における LLM の精度向上と透明性確保に有効であることを示したものである。
本論文は、意味知識グラフとプロンプトヒューリスティクスを組み合わせた論理強化生成(LAG)フレームワークを提案し、暗黙的な類推的つながりを抽出することで、メタファー検出や理解タスクにおいて既存のベースラインや人間を上回る性能と説明可能性を実現したことを示しています。
この論文は、LLM と知識グラフを用いて気候変動関連ニュースの科学的正確性を半自動で評価する手法を開発・評価したが、現状では大規模なメディア検証には不十分であり、FAIR な基盤知識の整備が不可欠であると結論付けています。
本論文は、クラウド環境における大規模で動的な仮想マシンスケジューリング問題(ODMBP)に対し、大規模言語モデルを活用して多様な戦略を発見・統合する階層的言語エージェント「MiCo」を提案し、1 万を超える仮想マシンを含む実データセットで 96.9% の競争率を達成する高い汎用性と実用性を示したものである。