Sparse Imagination for Efficient Visual World Model Planning
この論文は、トランスフォーマーベースの視覚世界モデルにおいてランダム化されたグループアテンション戦略を用いてトークン処理をスパース化し、計算リソースを制約されたロボット環境でも高忠実度を維持しながら計画効率を劇的に向上させる「スパース・イマジネーション」という手法を提案しています。
7592 件の論文
この論文は、トランスフォーマーベースの視覚世界モデルにおいてランダム化されたグループアテンション戦略を用いてトークン処理をスパース化し、計算リソースを制約されたロボット環境でも高忠実度を維持しながら計画効率を劇的に向上させる「スパース・イマジネーション」という手法を提案しています。
この論文は、単一の放射線科医の指示から時系列にわたる腫瘍の追跡と体積セグメンテーションを可能にする、登録とガイド付きセグメンテーションを組み合わせた新しいフレームワーク「LinGuinE」を提案し、4 つのデータセットで最先端の性能を達成したことを報告しています。
本論文は、シュレーディンガー橋と条件付き拡散モデルを組み合わせ、人間のバイナリフィードバックを統合して CBCT から MDCT への翻訳において影のアーティファクトを抑制しつつ解剖学的忠実性を維持し、従来の手法を上回る精度と効率で臨床的に好ましい画像変換を実現する新たなフレームワークを提案するものである。
本論文は、医療画像セグメンテーションにおけるデータ不足と分布シフトの問題に対し、i.i.d.仮定ではなく交換可能性の枠組みを採用し、因果推論に基づいて深層ネットワークの全層で前景・背景の特性不一致を制御する手法を提案することで、5 つのデータセット(新規作成した超音波画像データセットを含む)において最先端の性能を達成したことを示しています。
LayerT2V は、単一の推論パスで背景と複数の前景レイヤー(アルファマット付き)を含む一貫性のある多層動画を生成する統合フレームワークであり、VidLayer データセットと 3 段階の学習戦略を通じて、既存のテキスト動画生成手法を視覚忠実度、時間的整合性、レイヤー間の一貫性の面で大幅に凌駕します。
本論文は、高次元中間表現や明示的な運動モデルに依存せず、ハイブリッド注意機構と静的・動的な学習推論パラダイムを採用することで、リアルタイム制約下でも高品質かつ音声と映像が同期した talking head 動画を生成する統合フレームワーク「RAP」を提案し、最先端の性能を実現したことを報告しています。
本論文は、既存の単一粒度のキャッシュ戦略の限界を克服し、コンテキストに応じたトリガーと適応的なハイブリッド粒度選択により、生成品質を維持しつつ動画生成モデルの推論を大幅に高速化するトレーニング不要のフレームワーク「MixCache」を提案するものである。
本論文は、CLIP モデルの視覚エンコーダにおけるタイポグラフィック攻撃のメカニズムを解明し、ファインチューニング不要で特定の注意ヘッドを除去する「Dyslexify」という防御手法を提案することで、攻撃耐性を大幅に向上させつつ標準精度をほぼ維持する画期的なアプローチを示しています。
本論文は、現実世界のマルチモーダル安全シナリオの複雑さをカバーし、統一評価指標を用いてその有効性を検証した、画像から対話ペアを自動生成する自己適応型データセット構築手法「RMS2」を提案するものである。
この論文は、単眼深度推定と弱教師あり学習を用いて地上画像と航空画像の局所特徴を直接対応付け、3 自由度のカメラ姿勢を推定する解釈性が高く高精度なクロスビュー位置特定手法「Loc」を提案するものである。
本論文は、視覚中心の自律運転における 3D 空間認識の精度と時間的一貫性を向上させるため、双モード注意機構に基づく空間集約戦略と幾何学的時間融合方式を導入した「ST-GS」と呼ばれる新しい 3D 半導体ガウススプラッティングフレームワークを提案し、nuScenes ベンチマークで最先端の性能を達成したことを示しています。
この論文は、推論が知覚を強化する新たなパラダイムとして、ドメイン固有の視覚指令データを用いて視覚言語モデル内で Vision Transformer を事前学習する「Visual Instruction Pretraining (ViTP)」を提案し、遠隔 sensing や医療画像など 16 のベンチマークで最先端の性能を達成したことを報告しています。
本論文は、大規模な 3D データでネイティブに学習された初のプロンプト可能 3D パートセグメンテーションモデル「PartSAM」を提案し、そのスケーラブルなアーキテクチャと 500 万組以上の 3D 形状 - パート対データによる大規模注釈パイプラインを通じて、既存の 2D 転移学習アプローチを凌駕する高精度かつ汎用的な 3D 物体の部品分解を実現することを示しています。
この論文は、秘密鍵を拡散プロセスに直接注入することで、高品質な匿名化と権限のある復元を両立し、不正な復元を防ぐ初の拡散モデルベースの安全で可逆的な顔匿名化フレームワークを提案するものである。
この論文は、すべての画素が同時にノイズから画像へ進化するという従来の同期デノイジングの限界を克服し、画素ごとに異なるタイムステップを割り当てる「非同期拡散モデル」を提案することで、プロンプトに関連する領域がより明確な文脈を参照し、テキストから画像への生成の整合性を大幅に向上させることを示しています。
本論文は、オーストリアの hail 事象に関するソーシャルメディア画像 474 枚を用いて事前学習済みマルチモーダル大規模言語モデルを検証し、参照物体を含む二段階プロンプト戦略により平均絶対誤差 1.12cm の精度で hail 石の直径を推定できることを示し、従来のセンサーを補完する新たな気象観測手法としての可能性を提言しています。
本論文は、参照動画セグメンテーション(RVOS)を「局所化・セグメンテーション」の段階的パイプラインではなく、動画の包括的表現からターゲットマスクへの言語誘導変形として再定義する生成モデル「FlowRVS」を提案し、主要ベンチマークで新たな最高性能を達成したことを報告しています。
本論文は、事前学習済み拡散モデルの生成事前知識を効果的に活用して 3 次元シーン再構築を強化するため、平面構造に基づく正確な幾何学的ガイダンスを導入し、観測済み・未観測領域を含む高品質で多視点一貫性のあるシーン完成を実現する「G4Splat」を提案しています。
この論文では、詳細な画像記述の評価を目的として、シーングラフを構造化された評価基準として活用し、LLM をジャッジとして導く新たなメトリック「PoSh」と、芸術作品を対象とした高品質な評価データセット「DOCENT」を提案し、既存の手法よりも人間の評価と高い相関を示すことを実証しています。
この論文は、自己教師あり学習を用いて少量のラベル付きデータ(1,000 パッチ)のみで 1 メートル解像度の広域土地被覆分類を実現し、ミシシッピ州全域の高精度マッピングを可能にしたことを示しています。