Ref-DGS: Reflective Dual Gaussian Splatting
本論文は、近距離の鏡面反射を明示的なレイトレーシングなしに効率的にモデル化し、高速な学習と最先端の性能を両立させる「反射双対ガウススプラッティング(Ref-DGS)」という新しいフレームワークを提案するものです。
3919 件の論文
本論文は、近距離の鏡面反射を明示的なレイトレーシングなしに効率的にモデル化し、高速な学習と最先端の性能を両立させる「反射双対ガウススプラッティング(Ref-DGS)」という新しいフレームワークを提案するものです。
本論文は、事前の厳密な位置合わせを必要とせず、視覚的事前知識を活用して赤外線画像と可視光画像の融合プロセス自体でミスマッチを直接処理し、高精度かつ効率的な融合を実現する汎用的な手法「FusionRegister」を提案するものである。
本論文は、静的および動的な環境要素の両方に対する不確実性を統合的に推定・活用し、エンドツーエンド運転の信頼性と性能を大幅に向上させる軽量な統一フレームワーク「UniUncer」を提案するものです。
本論文は、ストリーミング 3D 推論における KV キャッシュの無制限な増大を解決するため、フレーム単位で情報を凝縮し固定容量のメモリで管理する「FrameVGGT」を提案し、長尺ストリームにおいても安定した幾何学的推論を可能にすることを示しています。
本論文は、人間のデモンストレーションから自動的に収集したデータを用いて、物体の接触領域と接触姿勢を指令に基づいて統合的に予測する「RoboPCA」というフレームワークを提案し、ロボット把持タスクの成功率と汎化性能を向上させることを示しています。
本論文は、動画ストリーミングの帯域幅制限下において、圧縮ドメイン情報(動きベクトル、残差マップ、フレームタイプ)を活用して計算効率と画質のバランスを最適化し、既存の最先端手法よりも高速かつ高精度なオンライン動画超解像を実現する「CDA-VSR」を提案するものである。
本論文は、視覚ベースのモーションキャプチャにおけるオクルージョンやノイズの問題を解決するため、部分的な高品質データを用いて不完全なモーションを再構築する拡散モデル「MMDM」を提案し、効率的な運動学アテンション集約(KAA)機構を通じて文脈適応型の運動事前知識を学習することで、モーションの補完や調整など多様なタスクにおいて高い性能を実現する手法を述べています。
この論文は、非微分可能な報酬信号(人間の評価やオブジェクト数など)を少数ステップの拡散モデルに統合するための新しい強化学習パラダイム「TDM-R1」を提案し、その有効性をテキスト描画や視覚品質、嗜好アライメントなど多岐にわたる実験で実証したものです。
本論文は、物体間の粗い関係表現の限界を克服し、物体の部品レベルの幾何学的相互作用を明示的にモデル化するフレームワーク「PARSE」を提案し、これにより物理的に整合性の取れた 3D 室内シーンの生成と空間推論の精度向上を実現したことを示しています。
本論文は、視覚言語モデルが抱える「空間知能のギャップ」を解消するため、エンジニアリング認知に着想を得て正投影図に基づく「シミュレーションと推論」メカニズムを導入し、複雑な空間推論タスクの精度を大幅に向上させるフレームワーク「3ViewSense」を提案するものである。
本論文は、固定視点動画における長期参照と再識別の課題に対し、静的背景構造から導出したアンカーバンクを永続的な意味記憶として活用し、被写体の不在時や再登場時の追跡を可能にする「AR2-4FV」を提案し、再捕捉率の大幅な向上と遅延の削減を実現したものである。
本論文は、対照的なクリーン・ノイズデータの不足やトレーサーの急速な動態といった課題を克服し、教師なし拡散モデル「DECADE」を用いて、Rb-82 心臓 PET 画像の時間的一貫性を保ちながらノイズを低減し、定量的な精度を維持する手法を提案しています。
本論文は、医療画像の多様な品質劣化条件下におけるマルチモーダル大規模言語モデル(MLLM)の性能と信頼性を包括的に評価するための新しいベンチマーク「MedQ-Deg」を提案し、モデルが劣化に伴い精度が低下しても過剰な自信を示す「AI ダニング=クルーガー効果」など重要な知見を明らかにしたものです。
この論文は、複数の衛星から収集されたリモートセンシング画像のデータ不均一性という課題に対処するため、幾何学的知識を統合したフェデレーティング・デュアル知識蒸留フレームワーク「GK-FedDKD」を提案し、EuroSAT などのデータセットにおいて既存の最先端手法を大幅に上回る性能を達成したことを示しています。
この論文は、従来の画素ベースのアプローチの限界を克服し、キャンバス上の筆触を模倣する「筆触ドメイン」でのスタイル転送手法を提案することで、より自然で視覚的に優れた芸術的表現を実現することを目的としています。
Vision-Language Models の順序数理解における一般化限界を診断するため、3 万 9 千の質問応答対と構造化された推論トレース評価を提供する新しいベンチマーク「OrdinalBench」が提案され、既存のモデルが大きな順序数や複雑な経路において性能が著しく低下することが示されました。
SGI は、シードと軽量 MLP を用いて高解像度画像を構造化された 2 次元ガウスで表現するフレームワークを提案し、これにより既存の 2D ガウス法と比較して最大 7.5 倍の圧縮率と高速な最適化を実現しつつ、画像の忠実度を維持または向上させる。
この論文は、悪天候や照明条件の変化に強い 4D レーダーと豊富な意味情報を提供するカメラを融合し、自動運転の 3D セマンティック・オキュパンシー予測の精度と頑健性を向上させる初の研究を提案するとともに、高価な手動アノテーションへの依存を減らすための自動ラベル付きデータセットを導入したことを報告しています。
本論文は、マルチステップ展開における視覚的整合性を維持し、推論効率を向上させるために、構造事前学習とアクション条件付き整合性(ACC)の事後学習を組み合わせた二段階トレーニングフレームワークと、整合性を保った推論向け蒸留手法(ICSD)を提案するモバイル世界モデル「MWM」を提案しています。
この論文は、拡散モデルの生成プロセスを「編集」と見なし、画像の難易度に応じて大規模モデルと小規模モデルをピクセルおよびタイムステップレベルでハイブリッドに組み合わせることで、Stable Diffusion 3 において既存の手法を上回る 1.83 倍の高速化を実現する「HybridStitch」という新たな手法を提案しています。