BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion
この論文は、家具や人間による遮蔽領域を含む局所領域の移動可能性を推定するために、視覚言語モデルに空間的手がかりを組み込み、周囲の RGB-D 観測からオクルージョンに強い鳥瞰図(BEV)の affordance 熱地図を生成する「BEACON」という手法を提案し、最先端の画像空間ベースラインを大幅に上回る精度を達成したことを示しています。
2375 件の論文
この論文は、家具や人間による遮蔽領域を含む局所領域の移動可能性を推定するために、視覚言語モデルに空間的手がかりを組み込み、周囲の RGB-D 観測からオクルージョンに強い鳥瞰図(BEV)の affordance 熱地図を生成する「BEACON」という手法を提案し、最先端の画像空間ベースラインを大幅に上回る精度を達成したことを示しています。
本論文は、推論時の姿勢推定誤差を「レンダリングと比較(ReCo)」モジュールで補正し、長期シーンの処理を可能にするハイブリッド KV キャッシュ圧縮戦略を備えた、姿勢や内部パラメータの有無を問わない自己回帰型フィードフォワードガウススプラッティングモデル「ReCoSplat」を提案するものである。
この論文は、従来の超位置(superposition)の理解が不十分な現実的なデータにおいて、特徴間の相関を考慮した「Bag-of-Words 超位置(BOWS)」モデルを提案し、相関する特徴が干渉を構築的に利用して意味的なクラスタや循環構造を自然に形成することを示しています。
この論文は、データ駆動型の「微分可能な顕微鏡()」というトップダウン設計アプローチを提案し、全光学的位相復元顕微鏡の設計において既存手法を上回る性能を達成するとともに、実験的にその有効性を実証したことを報告しています。
本論文は、ラベル分布のシフト下でもドメインラベルを必要とせず、不確実性に基づくカテゴリカル判別器と低次元特徴量による相互条件付きアライメントを通じて、Blended-Target 領域適用の性能を大幅に向上させる手法を提案するものである。
本論文は、単一の RGB 画像や動画から MiDaS による深度推定や画像修復、高速な 3D 投影アルゴリズムを活用して、自由視点表示に対応する光場画像や動画を含む没入型 3D 体験を生成する拡張ライブラリ「altiro3D」を提案するものである。
この論文では、Play-Doh モデルを用いた大規模な 3D 異常検出データセット「PD-REAL」を提案し、その有効性を検証するために、教師ネットワークからの多段階指導を活用して局所的特徴と大域的文脈を統合するマルチスケール蒸留フレームワークを導入した。
本論文は、カメラ間の変動による Jaccard 距離の信頼性低下を解決するため、カメラ情報を活用して k-相互最近傍探索と局所クエリ拡張を統合した新たな「カメラ対応 Jaccard 距離(CA-Jaccard)」を提案し、Person Re-identification における高精度かつ低コストな距離指標を実現したことを示しています。
本論文は、複雑な数値・空間推論を必要とするテキストから画像への生成タスクにおいて、大規模な閉源モデルへの依存を排除し、軽量モデルでも高精度なレイアウト予測と段階的な画像合成を実現する「DivCon」という分割統治アプローチを提案し、HRS や NSR-1K ベンチマークで既存手法を上回る性能と多物体・複雑な関係性を有するプロンプトに対する知覚品質の向上を実証したものである。
この論文は、ディープフェイクの生成(顔の入れ替え、再演、発話顔生成、属性編集)と検出に関する最新技術、データセット、評価指標を包括的にレビューし、代表的な手法をベンチマークして将来の課題と研究方向を分析する調査研究である。
既存の顔認証モデルが人工的な画像劣化なしでも直面する課題(属性差の大きい同一人物ペア、属性差の小さい異人物ペア、双子や親族など似顔人物)を特定し、高品質な画像を用いた「Goldilocks」レベルの新たなテストセット(Hadrian、Eclipse、ND-Twins)を提案する論文です。
本論文は、少ショット微調整における拡散モデルの学習過程で生じる「腐敗段階」を、ベイズニューラルネットワークを用いて学習分布を広く捉えることで理論的に説明し、生成画像の忠実度と多様性を向上させる手法を提案しています。
この論文は、従来の拡散モデルが抱える計算コストや系列長の制限を克服し、正規化フローを用いて再帰的な条件付けを確率的に実現することで、長系列の人間運動を高精度かつ効率的に生成する新しい「RDM(再帰的拡散モデル)」を提案するものです。
CLIP などの事前学習済み基盤モデルを活用してオンラインで視覚的プロンプトを自動生成・更新し、対照的なガイダンスを通じて不要な対象を抑制することで汎用オブジェクトトラッキングの性能を向上させる新しい手法「PiVOT」を提案する論文です。
本論文は、人間の注釈を必要とせず画像から物体カテゴリの一般的な姿勢事前分布を学習する「Pose Prior Learner」を提案し、その階層的メモリと反復推論によって、特に遮蔽された画像における姿勢推定の精度を向上させることを示しています。
この論文は、音声とテキストの情報を同期させて拡散モデルを用いることで、感情や移動を含む表現豊かな全身ジェスチャーを生成する新しいフレームワーク「ExpGest」を提案し、既存の手法よりも自然で制御性の高い結果を実現したことを示しています。
この論文は、連続的な特徴に依存する従来の深層学習とは異なり、画像を視覚的プリミティブで再構成することで高次な構造的説明を学習する神経記号システムを提案し、組織学的画像の異常診断において、従来の深層学習アーキテクチャよりも高い分類精度と透明性を達成したことを示しています。
この論文は、生成タスクの複雑さに応じて拡散過程自体を各サンプルに動的に適応させる「入力適応型生成ダイナミクス」を提案し、固定された拡散軌道に依存する従来の手法よりも少ないサンプリングステップで高品質な画像生成を実現することを示しています。
NASA の Landsat および Sentinel-2 データを用いて訓練され、多様な地球観測タスクで先行モデルや他社モデルを上回る性能を発揮するオープンソースの汎用地球観測基盤モデル「Prithvi-EO-2.0」が発表されました。
本論文は、画像エンコーダと LLM を共同で最適化し、廃棄されるトークンから有用な情報を再利用する新しいマージ戦略を採用することで、既存の手法を超えたエンドツーエンドの高速化と高精度を実現する iLLaVA を提案しています。