GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
本論文は、RL 訓練中のチェックポイントをマージして「無料の教師モデル」として活用する GTR-Turbo を提案し、高価な外部モデルへの依存を排除しつつ、マルチモーダルエージェントの精度を大幅に向上させるとともに訓練時間と計算コストを大幅に削減する手法を提示しています。
2384 件の論文
本論文は、RL 訓練中のチェックポイントをマージして「無料の教師モデル」として活用する GTR-Turbo を提案し、高価な外部モデルへの依存を排除しつつ、マルチモーダルエージェントの精度を大幅に向上させるとともに訓練時間と計算コストを大幅に削減する手法を提示しています。
本論文は、多様な電池データから転移可能な表現を学習する「事前学習済みバッテリー・トランスフォーマー(PBT)」という基礎モデルを初めて提案し、リチウムイオン、ナトリウムイオン、亜鉛イオン電池を含む広範なデータセットにおいて、既存の最良手法を大幅に上回る電池寿命予測性能を達成したことを報告しています。
この論文は、TLS 3D ポイントクラウドから生成された 2D 画像を用いて YOLOv8 で樹種分類を行う際、Finer-CAM による可視化解析がモデルの判断根拠(主に樹冠や幹などの構造的特徴)を忠実に説明し、分類精度の向上とモデルの信頼性構築に寄与することを示しています。
本論文は、真の事後分布が既知で記憶化が不可能な「ベイズ風洞」と呼ばれる制御環境を構築し、トランスフォーマーがアーキテクチャの幾何学的設計(残差ストリーム、フィードフォワードネットワーク、アテンションの役割分担)によって厳密にベイズ推論を実現することを示し、これが平坦なアーキテクチャとの決定的な違いであることを明らかにした。
本論文は、クロスエントロピー損失による勾配降下法がアテンションスコアと値ベクトルを共進化的に更新するメカニズムを解析し、これが変分推論的な EM 手順に相当する動的過程を通じて、トランスフォーマーがベイズ推論を実行するための低次元多様体を形成することを明らかにしています。
本論文は、小規模な「風洞」設定で確立されたベイズ推論の幾何学的基盤(低次元多様体や確率的エントロピーと相関する軸)が、Pythia や Llama-3 などの大規模言語モデルにおいても保存されており、不確実性の読み取りに寄与しているが、単一の層への介入だけでベイズ的な挙動が決定的に阻害されるわけではないことを示しています。
この論文は、検索拡張大規模言語モデルにおける不要な検索(オーバーサーチ)の問題を体系的に評価し、その新たな評価指標「Tokens Per Correctness」や軽減策、および関連データセット「OverSearchQA」を提案する研究です。
本論文は、企業向け大規模言語モデルにおけるデータ漏洩を防止するため、部門間でのインスタンス分離と厳格なコンテキスト所有権境界を実現する「セキュア・マルチテナント・アーキテクチャ(SMTA)」と、使用後の会話コンテキストを自動的に破棄する「バーン・アフター・ユース(BAU)」メカニズムを提案し、現実的な攻撃シナリオにおける高い防御成功率を実証したものである。
本論文は、モデル・コンテキスト・プロトコル(MCP)におけるツール呼び出しチェーンを悪用し、標準的なフィルタリングを回避しながら大規模言語モデルエージェントの計算リソースとコストを劇的に増幅させる、ステルス性の高い経済的 Denial-of-Service 攻撃手法を提案しています。
この論文は、アクションRPG『ダークソウルIII』の戦闘を方向性のあるスキルグラフとして表現し、階層的なカリキュラム学習と選択的適応を組み合わせることで、環境変化に対して再学習なしに高性能を維持・進化させる強化学習エージェントの実現可能性を示しています。
MemOCR は、重要な証拠を視覚的に強調し補助的な詳細を圧縮するレイアウト認識型の視覚メモリを構築することで、限られたコンテキスト予算下でも効率的な長期推論を実現するマルチモーダルエージェントです。
本論文は、従来の集約指標では見落とされがちな高リスク事例や多回対話におけるモデルの挙動を詳細に分析し、安全クリティカルなメンタルヘルス支援 AI の開発・評価・監査を可能にするオープンソースプラットフォーム「MHDash」を提案し、その有効性を示すものです。
この論文は、大規模言語モデルのハルシネーションが、限られた容量下での情報理論的に最適な戦略として、事実と非事実のスコア分布間の最小 KL ダイバージェンスによって特徴づけられるレート歪み定理の必然的な帰結であることを示しています。
本論文は、現実の多者対話における長期的な記憶能力を評価する初のベンチマーク「EverMemBench」を提案し、現在の LLM が多者間の帰属、時間的推論、および文脈に依存する記憶の認識において根本的な限界を抱えていることを明らかにしています。
この論文は、ロボットの駆動部故障時でもタスクを安全に完了させる「フェイル・アクティブ」な動作を実現するため、ロボットの現在の状態とタスク制約を条件とした拡散モデルベースの軌道生成手法「DEFT」を提案し、シミュレーションおよび実世界での実験を通じて、既存手法を大幅に上回る成功率と未知の故障に対するゼロショット汎化能力を実証しています。
本論文は、高次元のハイパースペクトル画像における異常検出の課題を解決するため、空間・スペクトル特徴を効率的に学習する双枝型Mambaアーキテクチャと動的ゲート融合機構を提案し、14 のベンチマークデータセットで最先端の精度と推論速度を実現した DMS2F-HAD を紹介しています。
この論文は、大規模言語モデルの推論プロセスにおける冗長性を削減し、GRPO の限界を克服するために、長さやエントロピーに基づいてグループ応答を細かく重み付けする強化学習アルゴリズム「FGO」を提案し、性能を維持したまま推論コストを効果的に圧縮できることを示しています。
本論文は、$2^{128}$ の巨大なバイナリコードブックと独自のトレーニング手法を組み合わせることで、高忠実度な再構成、複雑な意味抽出、生成適性を同時に実現し、多様なマルチモーダルタスクにおいて最先端のパフォーマンスを達成する統合バイナリトークナイザー「UniWeTok」を提案するものである。
この論文は、マルチモーダル大規模言語モデルにおける微細な視覚推論のボトルネックを解決するため、言語推論とズーム・セグメント化による画像領域の選択的拡大を交互に行う「TAO ループ」を採用し、相対的不確実性低減(RUR)に基づく強化学習で安定化させたエージェント「TikArt」を提案するものである。
この論文は、ジェネリックな物体追跡の汎用性と堅牢性を向上させるため、JEPA アーキテクチャを拡張して追跡モデル自体の予測を行う「GOT-JEPA」フレームワークと、オクルージョン(遮蔽)の細かなパターンを捉えて追跡精度を高める「OccuSolver」を提案し、複数のベンチマークでその有効性を示したものです。