Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models
この論文は、推論時のモデル操作(モデル・ステアリング)を用いて学習なしで大規模音声言語モデルの推論能力を向上させる手法を提案し、テキストからのベクトルを音声推論に転用する高いデータ効率性や最大 4.4% の精度向上を実証したものです。
12860 件の論文
この論文は、推論時のモデル操作(モデル・ステアリング)を用いて学習なしで大規模音声言語モデルの推論能力を向上させる手法を提案し、テキストからのベクトルを音声推論に転用する高いデータ効率性や最大 4.4% の精度向上を実証したものです。
この論文は、LLM の意思決定支援における説明性と争議性を向上させるため、個別事例に限定された従来のアプローチを超え、共通の議論枠組みを構築・修正することでグローバルな争議を可能にする新しいフレームワーク「ArgEval」を提案し、膠芽腫の治療推奨において臨床実践に合致した説明可能なガイダンスを生み出すことを示しています。
この論文は、LLM が他者の現在の信念を推論することはできるものの、信念の更新後に過去の信念状態を維持・想起する「動的な心の理論」において、認知科学で知られる直近性バイアスや干渉効果に類似した課題を抱えていることを、DToM-Track という評価枠組みを用いて明らかにしたものである。
本論文は、医療画像解析において視覚的特徴に加えトポロジカルな構造情報を活用する新たな対照学習フレームワーク「TopoCL」を提案し、トポロジーを考慮したデータ拡張や階層的エンコーダ、適応的混合専門家モジュールを導入することで、複数の既存手法および多様な医療画像データセットにおいて分類精度を有意に向上させることを実証しています。
この論文は、沸騰水型原子炉の熱的限界バイアスを予測・修正するために深層学習を用いた手法を提案し、その実証によりオフライン手法と比較して誤差を大幅に低減し、燃料サイクル経済性と運用計画の改善に成功したことを示しています。
本論文は、個々のモデルの性能とモデル間の整合性に基づいて重みを動的に調整する新しいアンサンブルアーキテクチャ「EARCP」を提案し、その理論的な後悔境界と時系列予測などの実任務における有効性を示しています。
この論文は、特に低・中品質の動画において、AI 単体では検出精度が著しく低下するのに対し、人間の判断と AI を組み合わせたハイブリッドシステムが、より効果的なディープフェイク検出を実現することを示しています。
本論文は、トレーニング時に視覚的プロンプトを適応的に適用して動画の根拠を強化し、自己蒸留を通じて推論時に外部ツールなしで高精度な時空間 grounding を実現する RL ベースのフレームワーク「VisionCoach」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。
この論文は、AI の発展が連続的なスケーリングではなく「分断的平衡」によって進み、信頼やコストなどの制度的要因を考慮した「制度的適応度多様体」の枠組みにより、大規模モデルの単純な拡張が必ずしも優位性を保証せず、むしろ適応された小規模モデルの集合が制度的環境において優位となり得ることを示しています。
この論文は、教師なしの辞書学習を用いてトレーニング勾配を「グラディエント原子」と呼ばれるスパースな構成要素に分解し、事前の行動ラベルなしでモデルの振る舞いを発見・解釈可能にし、かつ重み空間への摂動として適用することでモデルの振る舞いを効果的に制御する手法「Gradient Atoms」を提案するものである。
本論文は、脳 MRI の超解像において、3 次元畳み込み U-Net アーキテクチャが、スライス条件付き 2.5D U-Net や既存の EDSR ベースラインと比較して、PSNR、SSIM、LPIPS のすべての指標において優位な性能を達成することを示しています。
この論文は、エージェントの視点に依存する推論を可能にするため、固定された観測の代わりに 3D 空間表現を維持し、クエリに基づいて視点を生成して描画を行う「RenderMem」という新しい空間記憶フレームワークを提案し、AI2-THOR 環境での実験により視覚的隠蔽や可視性に関する推論精度の向上を実証しています。
この論文は、大規模言語モデルほど知識の隠蔽を検知する分類器の性能が低下し、700 億パラメータを超えるモデルでは検出が不可能になることを示し、ブラックボックスのみでの監査の限界を浮き彫りにしている。
本論文は、3D 基礎モデルを介して多視点条件と動画生成モデルを橋渡しする 2 段階フレームワーク「MVHOI」を提案し、複雑な 3D 物体操作を含む高品質な人間 - 物体相互作用(HOI)動画の再現実現に成功したことを示しています。
この論文は、マルチエージェントシステムの実運用における障害診断を目的とし、実行ログから因果グラフを再構築して LLM の推論なしに高速かつ高精度に根本原因を特定する軽量フレームワーク「AgentTrace」を提案しています。
本論文は、均衡論理と線形時間論理演算子を統合した「時間的均衡論理」の視点から時間的答集合プログラミングの論理的基盤を調査し、ピアスとオソリオの手法を時間的設定へと拡張することで、時間的直観主義論理と時間的論理プログラミングの間の形式的対応関係を確立するものである。
この論文は、災害対応における人間と機械の協調システム(HMS)の信頼性を高めるため、ドメイン適応(SDA)を用いた 2 段階のアンサンブル手法を開発し、未知の地理的領域における建物の損傷検出性能を大幅に向上させたことを示しています。
この論文は、従来の局所的なコード最適化の限界を克服し、マイクロサービスシステム全体のアーキテクチャや依存関係を多エージェント協調によって推論することで、スループットを 36.58% 向上させ平均応答時間を 27.81% 削減するシステム全体最適化フレームワークを提案し、その有効性を実証したものである。
本論文は、事前学習済み Vision Transformer のバックボーンを凍結したまま効率的に転移学習を行うための「AdapterTune」を提案し、ゼロ初期化された低ランクアダプターにより最適化の不安定性を解消し、フル微調整に匹敵または上回る精度を極めて少ないパラメータで達成することを示しています。
この論文は、LLM とビジョン言語モデルを統合した自律エージェント「GameUIAgent」を提案し、自然言語からゲーム UI の Figma デザインを生成するプロセスにおける品質限界や評価忠実性に関する新たな実証的知見を明らかにしたものである。