IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding
この論文は、視覚言語モデル(VLM)に基づく視覚的グラウンディングシステムに対して、任意のターゲット対象の記述に応答して動的に生成される入力依存型のトリガーを用いた、初の多ターゲットバックドア攻撃手法「IAG」を提案し、その高い攻撃成功率と隠蔽性を示したものである。
2790 件の論文
この論文は、視覚言語モデル(VLM)に基づく視覚的グラウンディングシステムに対して、任意のターゲット対象の記述に応答して動的に生成される入力依存型のトリガーを用いた、初の多ターゲットバックドア攻撃手法「IAG」を提案し、その高い攻撃成功率と隠蔽性を示したものである。
Video-EM は、長期動画理解における文脈制約を解決するため、既存の Video-LLM を追加学習なしで活用し、LLM を能動的な記憶エージェントとして機能させることで、クエリ関連の瞬間を特定し、一貫したイベントにグループ化し、冗長性を除去する自己反省ループを経て、コンパクトかつ信頼性の高い「イベントタイムライン」を構築するトレーニングフリーのフレームワークである。
本論文は、LLM と潜在拡散モデルを中核とし、幾何学的・意味的学習戦略を組み合わせることで、3D 画像の生成と空間的視覚質問応答(VQA)を統合的に実現する初のフレームワーク「UniUGG」を提案するものである。
この論文は、単一画像から物理特性を考慮した3Dガウス表現を直接予測し、高速かつ高品質な4Dシミュレーションを実現する新しいフレームワーク「PhysGM」と、それを訓練するための大規模データセット「PhysAssets」を提案するものである。
本論文は、フレームおよびセマンティックレベルで冗長なポーズトークンを動的に剪除する階層的時系列剪除(HTP)戦略を提案し、拡散モデルに基づく 3 次元人体姿勢推定の計算コストを大幅に削減しつつ最先端の性能を達成する効率的なフレームワークを構築したものである。
PointSlice は、3 次元点群を 2 次元スライスに変換し、垂直方向の幾何学的関係を維持するためのスライス相互作用ネットワーク(SIN)を導入することで、自律運転における 3 次元物体検出の精度と推論速度の両立を実現する新たな手法を提案しています。
本論文は、各クライアントでモダリティとデータが異なる非中央集権的な MRI 画像セグメンテーション課題を解決するため、モダリティの情報を解離・共有し、欠落モダリティを補完する新たな連合学習フレームワーク「MDM-MixMFL」を提案するものである。
この論文は、YOLO 物体検出モデルや車線推定アルゴリズムなどのコンピュータビジョン技術を用いて外部から車両を監視し、自動運転車向けに非接続車両の運転者の不注意や酩酊などの危険な運転行動をリアルタイムで分類する新規フレームワークを提案し、その有効性を検証したものである。
この論文は、コスト効率、移動性、安全性に優れた超音波画像診断において、従来の別々のタスクとして扱われていた疾患予測と組織セグメンテーションを、計算コストを抑えつつ同時に高精度に行うための新しい汎用フレームワーク「UltraUPConvNet」を提案し、大規模データセットでの検証によりその有効性を示しています。
この論文は、従来の事例検索に依存せず、好奇心駆動型の正則化を用いて構造化された事例空間を学習する「Traffic-MLLM」を提案し、複雑な交通シナリオにおける推論精度と汎化性能を大幅に向上させたことを報告しています。
本論文は、従来の線形アテンションにおける低ランク制約と特徴の冗長性を解消し、高解像度画像処理において計算効率と表現力を両立させるために、入力適応型の選択的アダプティブゲーティング(SAGA)を提案するものである。
この論文は、アノテーションを必要とせず、テスト時のデータ拡張と予測バウンディングボックスの空間的一貫性を測定することで、実環境における物体検出モデルの信頼性を評価する新しい指標「累積合意スコア(CCS)」を提案し、その有効性と理論的根拠を実証しています。
本論文は、都市の街路樹インベントリを効率化するため、2 つの都市で収集された 2 万 1,007 件のアノテーション付き木々を含む大規模なマルチモーダルデータセット「WHU-STree」を提案し、その多様なタスクへの適用性と将来の課題を検証するものです。
本論文は、制限された計算資源やプライバシー制約下でも実用的な産業環境で動作する、5 つの役割特化型エージェントと安全チェックアウディット、および適応的ステップ融合(ASF)を採用したマルチエージェント協調アシスタント「MICA」を提案し、その有効性をベンチマークと評価指標を用いて実証するものである。
この論文は、大規模視覚言語モデル(LVLM)が文脈的不整合下で物体認識に失敗する現象を「ORIC」フレームワークを用いて分析し、不整合な文脈における認識精度の低下を実証するとともに、視覚強化学習による微調整でモデルの信頼性を向上させる手法を提案しています。
本論文は、イベントカメラのバイナリ構造とフーリエ領域の高速相互相関を用いて処理遅延を 2.88ms に抑え、昼夜・室内外を問わず 3000 メートル以上で横逸脱誤差 15cm 未満のリアルタイム視覚教示・反復ナビゲーションを実現するシステムを提案するものである。
この論文は、既存の動画ベンチマークが音声情報を過小評価していることを実証し、音声エンコーダーを統合した新しいモデルが音声理解やクロスモーダルなタスクにおいて明確な性能向上をもたらすことを示しています。
本論文は、単一の画像から高忠実度な表面と SDF 場を数秒で効率的に再構築し、ロボットにおける表面追従タスクへの応用を可能にする軽量フレームワーク「FINS」を提案するものである。
本論文は、大規模な 3D 再構築モデル VGGT の推論コストを削減するため、重み付きトークンによる重たい分布やマルチビューデータの不安定性という課題を解決し、4 ビット量子化で 3.7 倍のメモリ削減と 2.5 倍の高速化を実現する新しい量子化フレームワーク「QuantVGGT」を提案する。
本論文は、検出と追跡クエリを単一のデコーダ層で処理する既存の DETR 系フレームワークの課題を克服するため、フレーム間での物体運動を明示的に予測して追跡クエリを事前に更新する「Motion-Aware Transformer(MATR)」を提案し、DanceTrack や SportsMOT などの主要ベンチマークで最先端の性能を達成したことを示しています。