Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks
本論文は、多画像推論における推論型 VLM の注意メカニズムに存在する「拡散的なパルス」や位置バイアスという課題を特定し、推論時に画像の計画と焦点を明示的に制御するトレーニング不要の手法「PulseFocus」を提案することで、BLINK や MuirBench などのベンチマークで性能向上を実現したことを報告しています。
5344 件の論文
本論文は、多画像推論における推論型 VLM の注意メカニズムに存在する「拡散的なパルス」や位置バイアスという課題を特定し、推論時に画像の計画と焦点を明示的に制御するトレーニング不要の手法「PulseFocus」を提案することで、BLINK や MuirBench などのベンチマークで性能向上を実現したことを報告しています。
本論文は、リソース制約のある環境での展開を可能にするため、剪定、量子化、知識蒸留という 3 つの圧縮手法をハイパースペクトル画像分類タスクで体系的に評価し、モデルサイズと計算コストを大幅に削減しつつ高い分類精度を維持できることを実証した研究です。
マルチモーダル大規模言語モデル(MLLM)をゼロショットで異常検知に応用する研究において、現状のモデルは正常クラスへの過度なバイアスによりリコールが極端に低下する課題があるものの、クラス固有の指示を用いることで性能を大幅に改善できる可能性が示されました。
本論文は、リソース制約のある環境でのテスト時適応(TTA)向けに、バックプロパゲーション不要かつメモリ効率が良く、中間特徴統計量と予測エントロピーを最適化するゼロ次順方向最適化手法「FOZO」を提案し、ImageNet 系列のベンチマークや量子化モデルにおいて既存の勾配ベース手法や先行するフォワードオンリー手法を上回る性能を実証したものである。
この論文は、現実世界の赤外線画像の超解像課題に対処するため、熱的・構造的ガイダンスを用いた統一的な自己回帰フレームワーク「Real-IISR」と、実環境で取得されたペアデータセット「FLIR-IISR」を提案し、物理的整合性を保ちながら高品質な画像復元を実現するものです。
本論文は、GPT-5 が医療テキスト推論や画像診断の統合において GPT-4o よりも大幅に向上したことを示す一方で、神経放射線学や専門的な乳房画像診断といった高度に専門化された領域では依然として専門特化型モデルに劣るため、一般目的の基盤モデルは特定タスク向けシステムを完全に代替する段階には至っていないと結論付けています。
本論文は、多文化環境におけるマイクロ表情認識の人間によるアノテーション誤差を軽減するため、キーフレームの動的再選択と共有パラメータを持つ二ブランチ構造を用いた「グローバル反単調微分選択戦略(GAMDSS)」を提案し、既存モデルのパラメータ増加なしに認識性能を向上させることを示しています。
本論文は、低解像度入力からの動的 DSA 画像の超解像再構成を可能にする新たなフレームワーク「DSA-SRGS」を提案し、マルチフィデリティなテクスチャ学習と放射サブピクセル密化技術により、血管の詳細な構造を高精度に復元することを示しています。
本論文は、臨床ワークフローに着想を得たテンプレート変形とマージンセグメンテーションを組み合わせることで、既存の手法が抱える解像度やノイズ、過剰な表面復元といった課題を克服し、幾何学的精度と臨床的有用性の両面で優れた自動歯科クラウン設計フレームワーク「MADCrowner」を提案するものである。
本論文は、エッジデバイスで生画像を数学的に不可逆な抽象特徴ベクトルに変換し、クラウドで動的輪郭言語を用いて行動認識と意味的再構成を行う「AI Flow」パラダイムに基づく新たなプライバシー保護知覚フレームワーク「Privacy-Aware Camera 2.0」を提案し、プライバシー保護と証拠能力の両立を実現するものである。
リモートセンシング画像における回転物体検出の課題を解決するため、多スケール特徴抽出、文脈モデル化、空間詳細の保持、および角度回帰の安定性を向上させる新たなアーキテクチャ「RMK RetinaNet」を提案し、複数のデータセットで最先端の性能を実証した論文です。
この論文は、医療画像の病変領域と背景の空間的不均衡に対処するため、拡散モデルの学習に適応的な重み付けを行う「LAW」と、効率的なセグメンテーションを実現する「ORDER」という 2 つのネットワークアダプターを提案し、合成データの質向上とセグメンテーション精度の大幅な改善、および計算コストの低減を実証しています。
この論文は、脳膠腫の画像解析における従来の手法と深層学習(特に畳み込みニューラルネットワーク)を比較評価し、後者がセグメンテーションや分類タスクにおいて従来手法を上回る性能を示すことを示唆しています。
本論文は、マルチモーダル大規模言語モデルにおけるポストトレーニング量子化の課題である平滑化の不一致とクロスモーダル計算不変性を解決するため、モダリティ固有の平滑化と SVD whitening を用いたクロスモーダル補償を組み合わせた新しいフレームワーク「MASQuant」を提案し、その有効性を示すものである。
CLIP の視覚エンコーダが持つ識別能力と詳細知覚能力の両方を同時に向上させるため、拡散モデルによる画像再構成プロセスに、再構成された画像から得られる対照信号を注入する「Diffusion Contrastive Reconstruction (DCR)」を提案し、勾配競合を回避してバランスの取れた視覚表現を実現する手法を提示しています。
本論文は、MRI シーケンスや撮像平面といったカテゴリカルなメタデータを明示的に活用して特徴抽出を導く「Meta-D」というアーキテクチャを提案し、2D 腫瘍検出における F1 スコアの向上と、モダリティが欠損した 3D 脳腫瘍セグメンテーションにおける精度向上およびモデル軽量化を実現したことを報告しています。
本論文は、高品質な実物 3D スキャンデータと事前学習済み DINOv3 の事前知識、およびセンサーノイズを考慮したデータ拡張を活用することで、少量データと軽量モデルでも RGB 単独のビジョン基盤モデルを上回る偏光からの形状復元(SfP)を実現し、偏光モダリティの有効性を再評価した研究です。
この論文は、インスタンス依存の部分的ラベル学習におけるインスタンスの絡み合い問題を解決するため、クラス固有の特徴を強化するデータ拡張と曖昧なラベルに対する重み付けペナルティを組み合わせた新規な「CAD」フレームワークを提案し、クラス境界の明確化と分類性能の向上を実現したことを示しています。
本論文は、既存の視覚言語モデルへの敵対的攻撃が持つ転移性の限界を克服するため、動的な対照学習と意味的拡張を組み合わせた「SADCA」という新たな攻撃手法を提案し、その有効性を多様な実験で実証したものである。
本論文は、単一のパラダイムに依存する既存の手法の限界を克服し、視覚と言語の多様な表現を統合して最適化を行う「多パラダイム協調攻撃(MPCAttack)」フレームワークを提案することで、マルチモーダル大規模言語モデルに対する敵対的攻撃の転移性を飛躍的に向上させることを示しています。