Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization
この論文は、大規模言語モデルの推論プロセスにおける冗長性を削減し、GRPO の限界を克服するために、長さやエントロピーに基づいてグループ応答を細かく重み付けする強化学習アルゴリズム「FGO」を提案し、性能を維持したまま推論コストを効果的に圧縮できることを示しています。
2315 件の論文
この論文は、大規模言語モデルの推論プロセスにおける冗長性を削減し、GRPO の限界を克服するために、長さやエントロピーに基づいてグループ応答を細かく重み付けする強化学習アルゴリズム「FGO」を提案し、性能を維持したまま推論コストを効果的に圧縮できることを示しています。
この論文は、ジェネリックな物体追跡の汎用性と堅牢性を向上させるため、JEPA アーキテクチャを拡張して追跡モデル自体の予測を行う「GOT-JEPA」フレームワークと、オクルージョン(遮蔽)の細かなパターンを捉えて追跡精度を高める「OccuSolver」を提案し、複数のベンチマークでその有効性を示したものです。
この論文は、オフライン強化学習において安全性の優先順位を厳密に維持し、理論的な保証と実証的な有効性を兼ね備えた新しいフレームワーク「LexiSafe」を提案するものです。
医療画像の空間的構造が弱い領域において、位置エンコーディングや [CLS] トークンを除去しパッチの置換不変性を導入した軽量モデル「ZACH-ViT」が、データ不足の条件下でも従来の Vision Transformer よりも優れた性能を発揮し、データ構造に適合したアーキテクチャ設計の有効性を示しました。
統計物理学の観点から新たな難問ベンチマークを提案し、公平な比較を通じて古典的アルゴリズムがグラフニューラルネットワークよりも依然として優れていることを示しました。
この論文は、大規模言語モデルを用いた自律型 AI 分析者が人間と同様に多様な分析結果を生み出すことを実証し、AI による科学的研究における結果のばらつきを可視化し、透明性を高めるための新たな規範(多宇宙報告とプロンプトの開示)の必要性を提唱しています。
本論文は、組合せオークションや機械学習の解釈可能性などにおいて重要なサブアディティブ集合関数の学習において、既知の事前分布に基づき追加の値問い合わせ(オフラインおよびオンライン)を戦略的に選択することで、欠損値による最小・最大補完間の加法誤差を最小化する手法を提案し、その理論的性質と実効性を検証したものである。
この論文は、大規模言語モデルが学習初期にバイグラム統計に基づく誤ったバイアスを形成し、それが学習を通じて解消されずに定着することで、文法判断タスクで持続的なエラーを引き起こす「早期構造と持続的誤り」という現象を、BabyLM 上の OPT モデルを用いた BLiMP ベンチマーク評価と質的・量的分析を通じて明らかにし、これを説明する「バイグラム仮説」を提唱している。
本論文は、臨床的な説明責任を高めるため、画像の特定領域を専門モデルで抽出し、それを証拠として活用して推論を行う「CARE」という、臨床ワークフローを模倣したマルチモーダル医療推論のためのエージェンティックフレームワークを提案し、既存の最先端モデルを上回る精度と信頼性を達成したことを示しています。
本論文は、拡散モデルにおける Classifier-Free Guidance (CFG) を制御理論の観点から再解釈し、従来の線形制御に起因する不安定性やオーバーシュートを解消するため、スライディングモード制御を適用した「SMC-CFG」を提案し、多様なモデルにおいて高いセマンティック整合性とロバスト性を達成することを示しています。
本論文は、コード分析タスクにおけるマルチタスク学習とパラメータ効率型微調整(PEFT)を統合した初の包括的評価を行い、単一の共有 PEFT モジュールがフル微調整に匹敵する性能を発揮しつつ、ストレージや計算コストを大幅に削減できることを示し、さらにタスクの組み合わせやモデル構造が成功に与える影響を明らかにした。
本論文は、既存のアンラーニング手法が抱える汎用能力の低下や知識の不完全な削除といった課題を解決するため、推論能力を活用して特定の知識を正確に除去しつつ他の能力を維持する「Targeted Reasoning Unlearning(TRU)」という新たなアプローチを提案し、その有効性を示したものです。
本論文は、エッジ環境における MoE モデルの推論を効率化するため、スペキュレイティブデコーディングをメモリ管理の指標として活用し、専門家の需要予測や非同期実行エンジンなどを統合した新しいフレームワーク「MoE-SpAc」を提案し、既存手法を大幅に上回る性能向上を実現したことを示しています。
この論文は、強化学習で探索された高パフォーマンスな変換軌跡をライブラリ化し、多様性を考慮してコンテキストを動的に最適化する連鎖思考フレームワークを提案することで、大規模言語モデルを用いた特徴変換の精度と安定性を向上させる手法を提示しています。
この論文は、機関固有の文脈に適応した大規模言語モデル対話システム「TAMUSA-Chat」のアーキテクチャ、学習手法、評価、および責任ある展開に関する包括的な研究フレームワークを提示し、学術機関における透明性とガバナンスを遵守した AI 導入の道筋を示しています。
本論文は、トルコ語の継承語教育におけるデータプライバシーと信頼性の課題を踏まえ、14 のオフライン LLM を「トルコ語異常スイート(TAS)」で評価した結果、パラメータ規模だけでなく推論指向の 8B〜14B モデルがコストと安全性の面で学習者にとって最もバランスが取れていることを明らかにしています。
この論文は、大規模言語モデルが次語予測のみの訓練から生じる文脈理解、インコンテキスト学習、思考連鎖といった現象の理論的メカニズムを解明し、これらがそれぞれトランジション確率の推定、曖昧性の低減、およびタスク分解の活性化を通じて機能することを示すことで、高度なプロンプトエンジニアリング手法の統計的優位性を理論的に裏付けています。
この論文は、ウィキペディアとウィキデータの構造、および社会科学の専門知識を活用してラテンアメリカの多様な文化を反映した26,000 以上の多肢選択形式の質問応答データセット「LatamQA」を構築し、大規模言語モデルがラテンアメリカ諸国間や言語間で知識格差やイベリア半島のスペイン文化への偏りを持つことを実証したものである。
本論文は、自然言語で指定された制約に基づいてスプレッドシートを生成する大規模言語モデル(LLM)の性能を評価するためのプラットフォーム「SpreadsheetArena」を提案し、盲検ペア評価を通じて生成物のスタイルや構造、機能への好みが用途によって大きく異なり、専門家のベストプラクティスとの整合性にも課題があることを明らかにしています。
この論文は、LLM の欺瞞検出における「嘘探知機」アプローチが、事実と異なる発言(嘘)を含まない欺瞞(誤解を招く真実の発言など)を検出できないという重大な盲点を明らかにし、従来の真偽判定プロトコルでは不十分であることを示唆しています。