VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models
本論文は、視覚言語モデルの推論時に視覚概念を分析・可視化し、モデルの失敗モードを特定するためのインタラクティブなツール「VisualScratchpad」を提案し、その応用によりクロスモーダルアライメントの限界や誤った視覚概念、未使用の隠れた手がかりといった新たな失敗パターンを明らかにしたものです。
7120 件の論文
本論文は、視覚言語モデルの推論時に視覚概念を分析・可視化し、モデルの失敗モードを特定するためのインタラクティブなツール「VisualScratchpad」を提案し、その応用によりクロスモーダルアライメントの限界や誤った視覚概念、未使用の隠れた手がかりといった新たな失敗パターンを明らかにしたものです。
この論文は、LLM を活用して人間の多様な声を統合し、政策合意形成のスキルを育成する AI プラットフォーム「Agora」を提案し、その有効性を学生を対象とした予備研究で実証したものである。
本論文は、ブラックボックスモデルが学習した概念をスパースオートエンコーダとマルチモーダル LLM を用いて抽出・命名する「Mechanistic CBM(M-CBM)」を提案し、事前定義された概念に依存する既存の概念ボトルネックモデルよりも高い予測精度と説明性を実現することを示しています。
農業ビジョン分野におけるモデルの汎化性能向上を目指し、複数のチームが独立して収集した多様なフィールドデータを用いた「AgrI Challenge」というデータ中心のコンペティション枠組みと、クロスチーム検証(CTV)という評価手法を提案し、単一ソース学習の限界とマルチソース協調学習の有効性を示した。
この論文は、ネステッドドロップアウトを活用して拡散モデルや正規化フローなどの生成モデルに可変複雑性を導入し、圧縮センシングや画像復元などの逆問題において、固定複雑性のベースラインよりも低い再構成誤差を達成することを示しています。
この論文は、グリッドワールド生存アリーナを用いた大規模言語モデル(LLM)のマルチエージェントシミュレーションにおいて、環境圧力(資源不足や生殖競争)とパフォーマンスの関係が心理学者のヤーキーズ・ドッドソンの法則(逆 U 字型曲線)に従い、中程度の圧力下で協力的な行動が最大化されることを実証した世界初の体系的な研究です。
本論文は、1 億パラメータ未満の「極小モデル」領域におけるスケーリング則を初めて実証し、モデルサイズの変化に伴う誤分類パターンの転換や、中規模モデルで最も誤った確率が高いという_calibration_の逆説的現象を明らかにし、エッジ AI 向けにはターゲットサイズでの検証が不可欠であることを示しています。
この論文は、カテゴリ理論に基づく関手を用いた構造的バイアス除去と、検索拡張生成(RAG)による外部知識の動的注入を組み合わせることで、大規模言語モデルの公平性を確保する統合フレームワークを提唱しています。
この論文は、実験的なオラクルへの依存なしに、生成された分子候補が所望の性質を満たす確実性を統計的に保証し、かつ候補集合を効率的に絞り込むための新しい分布フリーフレームワーク「ConfHit」を提案しています。
この論文は、リソースが限られたインド諸語の機械翻訳における品質推定(QE)の課題を解決するため、閉鎖型および開放型の大規模言語モデル(LLM)を対象にプロンプト手法を比較し、中間層への低ランク適応(ALOPE および LoRMA)を導入することで、特に高リスク領域において頑健な品質推定を実現する方法を提案し、関連データとコードを公開したことを報告しています。
本論文は、再構成遅延を考慮した並列光回路スイッチのスケジューリング問題に対し、行列分解と負荷均等化を組み合わせた新アルゴリズム「Spectra」を提案し、AI 学習ワークロードにおいて既存手法を大幅に上回るスループットを実現したことを示しています。
本論文は、自律的な意思決定システムとしてのアージェント型 RAG を初めて統一的に定式化し、その分類体系・アーキテクチャ・評価手法の課題を体系的に整理するとともに、信頼性の高い大規模システム構築に向けた将来の研究方向性を提示する包括的な知見の体系化(SoK)論文である。
この論文は、世界が区別された特徴を通じて提示され、オッカムの剃刀によって特徴数が少ない「疎な」仮説が選好されるという前提に基づき、訓練分布とテスト分布が関連特徴上で十分に重なり合っていれば、疎な仮説が分布外(OOD)でも一般化することを証明し、従来のサンプル複雑性の境界を OOD 文脈に拡張する原理的な枠組みを提案しています。
本論文は、曖昧な視覚質問に対する戦略的な応答生成を可能にするため、曖昧さのレベルと最適な対応戦略を分類した新しいデータセット「AQuA」を提案し、これを用いて微調整された視覚言語モデルが曖昧さを認識し、不確実性を管理して文脈に適した戦略で応答する能力を実証したものです。
この論文は、視覚言語行動モデル(VLA)の微調整において、タスクや環境に応じて適応的に容量を割り当てる新しい手法「LoRA-SP」を提案し、従来の固定ランクの LoRA やフル微調整と比較して、より少ない学習パラメータで高い汎化性能と多タスク成功率を実現することを示しています。
既存の万能画像復元モデルが複数の劣化を同時に学習する際に発生する干渉と忘却の問題を解決するため、専門的なエキスパートを組み合わせるマルチブランチの混合エキスパートアーキテクチャを採用し、大規模かつ制御可能な万能画像復元を実現する「UnSCAR」を提案する。
本論文は、2012 年から 2025 年の 300 件の研究を分析し、機械学習が水中通信の物理層から応用層までの各層で性能を大幅に向上させ、エネルギー効率やスループットを改善する一方で、データ不足や計算制約といった実用化の課題と今後の展望を包括的に解説するチュートリアル調査である。
この論文は、継続学習における「文脈チャネル容量」という情報理論的枠組みを提唱し、パラメータを状態ではなく関数値として再定義する条件付き再生アーキテクチャ(ハイパーネットワーク)が、忘却をゼロにするための必要条件を満たすことを示すことで、忘却のメカニズムを統一的に説明し、アーキテクチャ設計の重要性を強調しています。
この論文は、事前予約された乗客の要請に対して即座に受諾可否を確定しつつ、後続の最適化によって全受諾要請の確実な運行を保証する新たな動的車両経路問題の定式化と、強化学習を用いた非近視的目的関数を組み合わせた新規アルゴリズムを提案し、実世界のマイクロトランジットデータを用いた評価で既存手法を上回る要請受諾数を達成したことを示しています。
LLM の論理と物語を分離し、実行可能なコードで状態を確定的に管理することで論理の幻覚を抑制しつつ、70 のシナリオと 9 つの最先端モデルを用いた評価により、圧力下でのリスク急増やモデル強度に応じた多様なミスマッチパターンなど、自律エージェントの潜在的なリスクを浮き彫りにする「AutoControl Arena」という自動評価フレームワークを提案しています。