Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs
本論文は、機械的解釈性技術を用いて VideoLLM の内部情報フローを分析し、時空推論における層ごとの特徴的な情報伝達パターンを解明するとともに、不要な注意エッジを抑制することで性能を維持するメカニズムを明らかにしたものである。
5561 件の論文
本論文は、機械的解釈性技術を用いて VideoLLM の内部情報フローを分析し、時空推論における層ごとの特徴的な情報伝達パターンを解明するとともに、不要な注意エッジを抑制することで性能を維持するメカニズムを明らかにしたものである。
本論文は、クエリに依存した自己増強プロンプティングとエントロピーに基づく適応的閾値調整を採用するトレーニング不要なデコーディング手法「Self-Aug」を提案し、大規模視覚言語モデルの幻覚を抑制して事実的一貫性を大幅に向上させることを示しています。
本論文は、火星の地形データに存在する欠損部分を補完するために、HiRISE 衛星画像から作成されたデータセットを用いて学習した無条件拡散モデルを提案し、従来の補間手法と比較して再構成精度と知覚的類似性が大幅に向上することを示しています。
本論文は、CLAHE と改良ベン・グラハム法を組み合わせた前処理、DenseNet121 エンコーダと Self-ONN デコーダを備えた UNet によるセグメンテーション、そして輪郭補正モジュールという 3 段階の深層学習パイプライン「CASR-Net」を提案し、X 線冠動脈造影画像における病変血管の自動分割精度を大幅に向上させたことを報告しています。
本論文は、任意の RGB 画像やテキスト記述から、MCTS 探索と幾何学的最適化を組み合わせることで、自由度の高い可動部品を持つ物体の運動学構造と関節パラメータを自動的に合成するフレームワーク「Kinematify」を提案し、既存手法の拡張性を克服して物理的に整合性のあるモデル生成を実現するものです。
本論文は、物体検出タスクにおいてモデルの予測品質に基づいてデータセット全体の平均精度(AP)への限界貢献度を推定し、学習中に有益なサンプルを動的に選択するオンラインデータキュレーション手法「DetGain」を提案し、COCO データセットでの実験により精度向上と低品質データに対する頑健性を実証しています。
本論文は、ビデオからオーディオを生成する際に生じる目的の絡み合い問題を解決し、人間の評価と整合性を持たせるため、4 つの知覚次元に対応する分解された思考連鎖と多次元報酬を統合した強化学習フレームワーク「PrismAudio」を提案し、高速化手法「Fast-GRPO」と包括的なベンチマーク「AudioCanvas」を用いて最先端の性能を実証するものである。
本論文は、従来の VAR モデルが抱える計算コストとメモリ使用量の課題を解決するため、過去のスケール情報をコンパクトな履歴ベクトルに圧縮する「マルコフ的スケール予測」を導入し、画像生成の精度向上と大幅な効率化を両立させた新モデル「Markov-VAR」を提案するものである。
本論文は、複雑な環境における視覚的異常検出において不確実性を定量化し、推論連鎖や自己反省、MLLM アンサンブルなどの品質保証技術を統合した新しいフレームワーク「ALARM」を提案し、実世界データによる評価でその優れた性能と汎用性を示しています。
この論文は、従来の「選択・ランキング」方式の誤差伝播を回避し、自己調整型のマスキング予測と逐次自己修正メカニズムを導入したTransformerベースの手法「SSMP」を提案することで、映画予告編生成の最先端性能を達成したことを報告しています。
本論文は、最適制御理論に基づき、事前学習済みフローマッチングモデルの微調整において、価値関数の勾配場と速度場の最適差分を一致させる「VGG-Flow」という手法を提案し、限られた計算資源で効率的かつ事前分布を保持した人間嗜好への整合を実現することを示しています。
本論文は、粗いマスクを精密なインスタンス領域に反復的に洗練させる粒度認識マスクリファイナと高品質なオーディオガイダンスを生成する自己フィードバック型オーディオエージェントを提案し、大規模データセットを構築することで、視覚的品質、条件追従性、および音声・映像の同期において最先端の手法を上回る「AVI-Edit」というオーディオ同期型動画インスタンス編集フレームワークを提示するものである。
本論文は、75 の多様な生物学的研究から収集された異種マルチチャネル顕微鏡画像データセット「CHAMMI-75」を公開し、これによりチャネルに依存しない細胞形態モデルの学習と性能向上を実現したことを報告しています。
本論文は、自律運転における知覚・予測・計画を単一のアーキテクチャで統合し、将来の軌道予測と条件付き未来画像生成を相互に強化することで、Bench2Drive ベンチマークにおいて従来手法を上回る性能を達成した「UniDrive-WM」という新しい世界モデルを提案するものである。
本論文は、漢字の視覚構造を低解像度のグレースケール画像として入力する手法を提案し、従来の索引ベースのトークンと同等の精度を達成しつつ、学習初期段階で顕著な高速学習効果(ホットスタート)を示すことを実証しています。
本論文は、医療画像解析における変形画像登録の課題を解決するため、局所・大域アテンション機構と特徴量分解を統合した新しい教師なしフレームワーク「LGANet++」を提案し、多様な公開データセットにおける最先端手法を上回る精度と汎用性を実証したものである。
画像からの視覚的グラフ認識の課題に対し、特定のタスクに依存せず多様なグラフや描画に対応可能な汎用的な手法「GraSP」を提案し、統一されたフレームワークの構築に向けた道を開くことを示しています。
本論文は、計算コストの削減と長尺動画における時間的一貫性の維持という課題を解決するため、セグメントごとの編集と境界補正、および構造のドリフト抑制を行う 2 つの中核モジュールを備えた、学習不要の動画編集フレームワーク「MLV-Edit」を提案するものです。
本論文は、長期動画理解における従来の均等サンプリングの限界を克服し、強固な局所化能力とオンデマンドのクリッピング、不正確な局所化の修正を可能にする統合型エージェント思考フレームワーク「VideoTemp-o3」を提案し、教師あり微調整におけるユニファイドなマスキング機構や強化学習のための専用報酬、高品質なデータ構築パイプラインを通じて、長期動画理解とグラウンディングの両方で卓越した性能を達成することを示しています。
本論文は、小児手首の X 線画像における骨折パターンの検索精度を向上させるため、放射線報告書と骨領域の特定を活用し、手動アノテーションなしで粗い検索から領域特異的な再ランク付けを行う「WristMIR」という新しいフレームワークを提案し、臨床的関連性と診断精度の両面で既存手法を上回る性能を実証したものである。