Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation
本論文は、テキスト記述全体を探索の指針とする価値マップと、視点依存の3D 空間推論による候補検証を組み合わせることで、学習なしに複雑な 3D 環境におけるインスタンスナビゲーションの最先端性能を達成する「Context-Nav」を提案しています。
2775 件の論文
本論文は、テキスト記述全体を探索の指針とする価値マップと、視点依存の3D 空間推論による候補検証を組み合わせることで、学習なしに複雑な 3D 環境におけるインスタンスナビゲーションの最先端性能を達成する「Context-Nav」を提案しています。
本論文は、自動運転における視覚言語モデル(VLM)が応答の一貫性や時間的推論の欠如により信頼性に課題を抱えていることを指摘し、未来のシーン推論を評価する新たなベンチマーク「FutureVQA」と、時間ラベルを必要としない自己教師ありチューニング手法を提案するものである。
本論文では、センサー劣化や敵対的攻撃といった現実世界の課題に対処するため、既存の BEV 知覚モデルにプラグアンドプレイで適用可能であり、潜在世界モデルを用いて汚染された観測からクリーンな特徴を予測・復元する強健な手法「RESBev」を提案し、nuScenes データセットでの実験によりその有効性を示しています。
DCAU-Net は、2 つの独立した softmax 注意マップの差分を計算して識別構造を強調し、計算複雑度を低減する「差分クロス注意(DCA)」と、スキップ接続とアップサンプリング経路からの特徴を適応的に再較正する「チャネル・空間特徴融合(CSFF)」を導入することで、医療画像セグメンテーションの精度と頑健性を向上させる新しいフレームワークを提案しています。
大規模な肺癌スクリーニングコホートにおける低線量 CT による PPFE の量的変化を分析した本研究は、PPFE の進行が死亡率の上昇や呼吸器関連の悪性転帰と独立して強く関連していることを明らかにし、PPFE の進行を定量的に評価することがスクリーニングプログラム内の呼吸器リスクの高い個人を特定するための臨床的に有用な画像バイオマーカーとなり得ると結論付けています。
この論文は、大規模なマルチモーダル交差データに依存せず、既存の統一モデルにグループ相対方策最適化(GRPO)を拡張した強化学習アプローチを導入することで、視覚的物語や段階的推論などのタスクにおける高品質なマルチモーダル交差生成を実現する手法を提案しています。
この論文は、動的かつ人間が関与する環境における Embodied Question Answering(EQA)の課題を解決するため、新しいデータセット「DynHiL-EQA」と、曖昧な観測の検証と情報豊富な証拠の選択的保持により推論効率と頑健性を両立させるトレーニング不要のフレームワーク「DIVRR」を提案しています。
本論文は、共通の数理モデルとハードウェア条件下で代表的な時間飛行非視界(ToF NLOS)撮像手法を包括的に比較検討し、それらの理論的・実験的側面における類似点と相違点を明らかにするとともに、将来の研究における客観的な手法比較のための基準となることを目指しています。
本論文は、エントロピー誘導モンテカルロ木探索と視覚的幻覚注入によって構築された大規模なプロセス監視データセット「Geo-PRM-2M」と、それを活用したプロセス報酬モデル「GeoPRM」および強化学習アルゴリズム「Process-Aware Tree-GRPO」を提案し、リモートセンシング分野における推論の視覚的忠実性とテスト時スケーリングを飛躍的に向上させた「GeoSolver」フレームワークを紹介するものである。
この論文は、リモートセンシング画像と自然言語の微細なアライメントを改善するため、マルチ粒度の一貫性学習を提案し、RSFG-100k という新しいデータセットを構築して、既存手法を上回る性能を実現する GeoAlignCLIP というフレームワークを紹介しています。
この論文は、複数の狭視野画像の単純な統合を超えた全体的な空間理解を実現するため、悪天候や事故などの過酷なパノラマ環境を対象とした大規模データセット「PanoVQA」と、既存のモデルを再学習なしでパノラマ処理可能にするスパース注意機構を備えた「パノラマ言語モデル(PLM)」を提案しています。
この論文は、アテンション計算におけるクエリとキーの符号のみを保持し浮動小数点積をビット演算に置き換えることで、学習可能なバイアスや量子化感知学習などの手法と組み合わせることで精度を維持しつつ、FlashAttention2 の 2 倍以上の高速化を実現する「BinaryAttention」と呼ばれる 1 ビット QK アテンション手法を提案し、ビジョンおよび拡散トランスフォーマーにおいてフル精度と同等以上の性能を示すことを実証しています。
既存のテキストから全身の動きを生成する手法が抱える「特定の身体部位への意味的整合性の欠如」と「部位ごとの動きを統合した際の不自然さ」という課題を解決するため、部位ごとの動きを生成してそれをガイドとして活用し、テキストと部位の対応を強化する「ParTY」という新しいフレームワークを提案し、表現力と全身の整合性を両立させることを示しています。
この論文は、DINO によって生成された Vision Transformer の注意マップを人間の注視パターンに類似したサッケード(眼球運動)の指針として活用し、画像全体を処理するのではなく重要な領域に焦点を当てることで、計算効率を維持しつつ画像分類性能を向上させる生物学的に着想を得たアプローチを提案しています。
本論文は、MRI の物理的特性を埋め込んだ明示的なガウス表現と物理に基づくレンダリング戦略を採用することで、対データ不要かつ計算コストを抑えつつ高品質なゼロショット MRI 超解像を実現する新しいフレームワークを提案しています。
この論文は、エッジデバイス向けの画像復元タスクにおいて、FP32 自己蒸留、デコーダフリー蒸留、学習可能重み付け、および軽量な劣化ゲート機構を導入することで、量子化ノイズや容量の不一致といった課題を解決し、Int8 モデルで FP32 パフォーマンスの 96.5% を維持しつつ高速推論と高精度な物体検出を実現する「QDR」というフレームワークを提案しています。
本論文は、リモートセンシング分野における合成データの解釈可能な生成と評価を可能にするビジョン・言語統合フレームワークを提案し、実画像と合成画像、セグメンテーションマップ、説明文を含む大規模データセット「ARAS400k」を構築することで、合成データを用いた拡張学習が実データのみを用いた学習よりも高い性能を発揮することを示しました。
本論文は、未 poses の動画から幾何学と姿勢を最適化し、視覚基盤モデルから高次元のセマンティック特徴を 3D ガウスに蒸留する効率的なパイプライン「X-GS-Perceiver」と、それを活用して物体検出やゼロショットキャプション生成などの下流タスクを可能にする「X-GS-Thinker」を含む、3D ガウススプラッティングとマルチモーダルモデルを統合する拡張可能なオープンフレームワーク「X-GS」を提案し、リアルタイムなセマンティック強化 SLAM を実現するものである。
本論文は、低テクスチャ環境や急激な照明変化下でもロバストな推定を可能にするため、線分に対して専用の学習不要な記述子を導入し、エントロピー正則化付き最適輸送を用いた対応付けと信頼度に基づく適応重み付けを備えた新しいステレオ視覚慣性オドメトリシステム「OTPL-VIO」を提案するものである。
この論文は、動画編集における背景の整合性と前景の品質向上という課題に対し、拡散モデルの「ハルシネーション(幻覚)」を検知して動的にキー・バリューの融合比率と CFG スケールを調整する学習不要なフレームワーク「KV-Lock」を提案し、既存手法を上回る結果を示しています。