COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics
COLD-Steer は、ラベル付き例からの勾配降下による表現変化を推論時に近似することで、従来の手法に比べて 50 倍少ないサンプル数で大規模言語モデルの振る舞いを効率的に制御するトレーニング不要なフレームワークです。
1077 件の論文
COLD-Steer は、ラベル付き例からの勾配降下による表現変化を推論時に近似することで、従来の手法に比べて 50 倍少ないサンプル数で大規模言語モデルの振る舞いを効率的に制御するトレーニング不要なフレームワークです。
この論文は、単一パス検索の限界を克服し、反復的なツール呼び出しループとマルチモーダル検索を統合したエージェントフレームワーク「BRTR」を提案し、大規模な企業用スプレッドシートの理解と編集において最先端の性能を達成したことを報告しています。
本論文は、対照学習を用いて音声と文脈表現を整合させることで、多言語・多方言の会話文脈を考慮した高精度な自動音声認識フレームワークを提案し、実世界のデータで認識品質を 5% 以上向上させたことを示しています。
この論文は、SemEval-2026 の政治的回避検出タスクにおける KCLarity チームの取り組みとして、直接ラベル予測と階層構造に基づく間接予測の 2 つの手法、およびゼロショット推論を含む複数のモデルアプローチを比較評価し、エンコーダーモデルとゼロショットモデルのそれぞれで異なる性能特性が観測されたことを報告しています。
この論文は、医師や看護師など222名の病院職員から収集した質問に基づき、MIMIC-III と eICU のオープンソースデータベースを基に作成され、複雑な医療クエリや時間表現の理解、回答不可能な質問の判別といった実用的な課題に挑む電子カルテ向けテキスト -SQL ベンチマーク「EHRSQL」を提案するものです。
この論文は、単に「正解と誤答の両方を提示する」という対照的プロンプトを付加するだけで、大規模言語モデルの推論能力を飛躍的に向上させ、既存のゼロショットや数ショット手法を上回る性能を達成できることを示しています。
LLM ベースのエージェントが孤立した動作や静的なデータベースに依存する課題を解決するため、リアルタイムなメモリ共有プールを構築し、エージェント間の対話的な知識交換と集合的な自己向上を実現する非同期インタラクションフレームワーク「INMS」を提案し、その有効性を複数のデータセットで実証した。
本論文は、ハイブリッドウィンドウアテンションや報酬バックプロパゲーション、トークン長を考慮した学習戦略などの新技術を導入し、生成速度と画質を両立させた高性能な動画生成フレームワーク「EasyAnimate」を提案し、VBench リーダーボードおよび人間評価において最先端の性能を達成したことを報告しています。
この論文は、類似性と多様性を同時に満たすベクトル検索問題(VRSD)が NP 完全であることを理論的に証明し、パラメータ不要のヒューリスティック手法を提案することで、既存の手法を上回る性能を実現することを示しています。
本論文は、外部知識を参照するリトリーバル・オーグメント・ジェネレーション(RAG)機能を持つノートブックLM が、その内部モデルであるジェミニ 2.0 Flash を上回る膵臓癌の病期分類精度を達成し、RAG 技術が臨床診断における LLM の精度向上と透明性確保に有効であることを示したものである。
本論文は、意味知識グラフとプロンプトヒューリスティクスを組み合わせた論理強化生成(LAG)フレームワークを提案し、暗黙的な類推的つながりを抽出することで、メタファー検出や理解タスクにおいて既存のベースラインや人間を上回る性能と説明可能性を実現したことを示しています。
この論文は、LLM と知識グラフを用いて気候変動関連ニュースの科学的正確性を半自動で評価する手法を開発・評価したが、現状では大規模なメディア検証には不十分であり、FAIR な基盤知識の整備が不可欠であると結論付けています。
本論文は、クラウド環境における大規模で動的な仮想マシンスケジューリング問題(ODMBP)に対し、大規模言語モデルを活用して多様な戦略を発見・統合する階層的言語エージェント「MiCo」を提案し、1 万を超える仮想マシンを含む実データセットで 96.9% の競争率を達成する高い汎用性と実用性を示したものである。
本論文は、因果推論における統計的落とし穴(例えば Simpson のパラドックスや選択バイアスなど)を LLM が克服できるかを厳密に評価するための新しいベンチマーク「CausalPitfalls」を提案し、その評価を通じて現在の LLM が統計的因果推論において重大な限界を抱えていることを明らかにしています。
本論文は、複雑な CLI 入力のモデル化におけるデータ不足を解消するため、文法制約と自己教師あり不可縮性信号を用いて Bash 実行挙動を捉える環境「ShIOEnv」を提案し、これにより収集した 210 万組のデータセットが従来の実行フリー手法を上回る精度でユーザー入力の挙動をモデル化できることを示しています。
この論文は、検索結果が矛盾・ノイズ・無効であるような状況における検索拡張言語モデルの推論能力を評価する新たなベンチマーク「SealQA」を提案し、最先端のモデルさえもそのような環境で著しく低い性能を示すことを明らかにしています。
この論文は、自然言語による時間的コンテキスト更新を意思決定プロセスと分離し、推論のみに基づくミドルウェア「LUCIFER」を通じて制御に直接関連する信号に変換する「シグナル契約」を提案し、捜索救助シナリオにおける安全性と情報収集効率の向上を実証したものである。
本論文は、日本の企業開示データ(EDINET)を用いて会計不正検出や収益予測などの高度な金融タスクを評価するオープンソースベンチマーク「EDINET-Bench」を提案し、最先端の LLM でも専門家の判断に迫る性能が得られていない現状を明らかにするとともに、より実務に近い環境での評価枠組みの必要性を提言しています。
本論文は、ジグソーパズルなどの新規タスクを用いた実験により、強微調整(RFT)が教師あり微調整(SFT)に比べて事前知識の保持に優れ、その理由が学習データ分布の方向性と大きさの違いにあることを示し、RFT が安定した継続学習に有効であることを提唱しています。
この論文は、スペイン語圏の言語的多様性と文化的多様性を反映した大規模言語モデル(LLM)の開発を促進するため、スペインおよびラテンアメリカの言語や方言を対象とした初のオープンソース評価リーダーボード「La Leaderboard」を提案し、その評価手法や環境負荷低減のための工夫について解説しています。