GloSplat: Joint Pose-Appearance Optimization for Faster and More Accurate 3D Reconstruction
本論文は、3D ガウススプラッティングの学習中に SfM 特徴量トラックを明示的に維持し、フォトメトリック勾配と幾何学的な再投影損失を組み合わせることで、姿勢と外観を同時に最適化し、COLMAP 不要かつ高精度な 3D 再構築を実現する「GloSplat」というフレームワークを提案しています。
5371 件の論文
本論文は、3D ガウススプラッティングの学習中に SfM 特徴量トラックを明示的に維持し、フォトメトリック勾配と幾何学的な再投影損失を組み合わせることで、姿勢と外観を同時に最適化し、COLMAP 不要かつ高精度な 3D 再構築を実現する「GloSplat」というフレームワークを提案しています。
本論文は、推論深度の増加に伴う性能低下(構造ドリフト)という課題に対し、歴史的解決手順から導出された定理先行グラフを用いて探索空間を構造化し、勾配なしで FormalGeo7k ベンチマークにおいて最先端の精度を達成するトレーニング不要の定理予測手法を提案するものである。
この論文は、高価なモーションキャプチャシステムに依存せず、放送映像から単一カメラでピッチャーの怪我のリスクを評価できる臨床的に有用な生体力学指標を抽出するスケーラブルなパイプラインを開発し、その有効性を示したものである。
本論文は、特徴類似性のみへの依存による過信エラーを解決するため、不確実性(アレイタロアとエピステミック)をモデル化して対応点とその信頼性を同時に予測する半密な特徴マッチングフレームワーク「SURE」を提案し、既存の半密マッチングモデルを精度と効率の両面で上回ることを示しています。
この論文は、メタデータに依存せずプロンプト駆動型ノイズ表現学習を用いて実世界の sRGB 画像ノイズを生成する新たなフレームワーク「PNG」を提案し、その生成ノイズを用いた実世界ノイズ除去の汎用性と有効性を示すものです。
この論文は、放送映像からの単眼 3 次元ポーズシーケンスのみを用いて、11 万 9 千以上のプロ野球投手のデータから 8 種類の球種を 80.4% の精度で予測する解釈可能なモデルを提案し、上肢の運動が予測に最も寄与することや、グリップの違い(4 シームと 2 シーム)は姿勢からは区別できないことを明らかにしたものである。
本論文は、CT 画像と所見レポートの構造対応関係を学習するための構造観測駆動型画像・テキスト対照学習フレームワークを提案し、2 段階の学習プロセスと偽陰性低減手法により、既存手法を超える最先端の CT 所見生成性能を達成したことを報告しています。
本論文は、可変受容野とリレートークン機構を導入して長期依存関係のモデル化と希薄な偽造検出の感度を向上させた変形可能状態空間モデル「DeformTrace」を提案し、動画・音声の時間的偽造局所化において最先端の性能を達成することを示しています。
この論文は、多モーダル画像のモダリティ欠損と個人差という 2 つの課題を解決するため、モダリティ固有のエンコーダを連合学習し、局所データ特性に応じて部分的にパーソナライズされたデコーダを採用する新たな連合学習フレームワーク「FedMEPD」を提案し、脳腫瘍セグメンテーションタスクにおいて既存手法を上回る性能を実証したものである。
本論文は、マルチモーダル連合学習におけるモダリティやタスクの不一致、モデルの異質性といった課題を解決するため、クライアント側で双層敵対的整合と粒度認識型融合を採用し、サーバー側で類似性に基づくアンサンブル蒸留を行う統合フレームワーク「FedAFD」を提案し、その優れた性能を実証したものである。
この論文は、学習可能なガウスカーネルを用いて自己注意を局所的な近傍にバイアスさせる簡易な付加モジュールを導入することで、画像分類能力を維持しつつセグメンテーション性能を大幅に向上させる「Locality-Attending Vision Transformer」を提案しています。
本論文は、事前学習済み動画拡散モデルの忠実性と一貫性の課題を解決し、高解像度・高フレームレートでのスローモーション生成を実現する新たなフレーム補間手法「FC-VFI」を提案するものである。
この論文は、生成されたテキストへの注意を適応的に増幅する手法「AdaIAT」を提案し、大規模視覚言語モデルにおける幻覚を大幅に低減しつつ、言語の流暢さや予測能力を維持することを可能にします。
この論文は、可動カメラによる視点変化下でも有効な 3D 物体の視点一貫性敵対テクスチャ最適化手法を提案し、可視モーションポリシーの脆弱性を包括的に検証するとともに、実世界での適用可能性を実証したものである。
本論文は、産業用室内環境におけるクレーン搭載型LiDARからの人物検出・追跡を目的として、専用データセットを構築し、VoxelNeXtやSECONDなどの検出器を適応させることで、実用的な性能とリアルタイム性を示した研究である。
この論文は、深層学習の解釈性を高め病理医の診断ワークフローに適合させるため、プロトタイプに基づく弱教師あり学習フレームワークを提案し、前立腺がんの自動グレード付けにおいて高い信頼性と性能を実証したものである。
本論文は、Web の進化に伴う UI やレイアウトの変化に対するエージェントの脆弱性を評価するベンチマーク「TimeWarp」を提案し、複数のバージョンにわたる軌跡を教師データとして活用する「TimeTraj」というアルゴリズムにより、エージェントの汎化性能と頑健性を大幅に向上させることを示しています。
本論文は、放射線科医の比較診断ワークフローを模倣し、病状の進行と画像取得の違いを区別するために、自動参照表現やグラウンディングキャプションなどの位置情報に配慮した事前学習タスクを導入することで、胸部 X 線画像の差分視覚的質問応答(VQA)において最先端の性能を達成するフレームワークを提案しています。
本論文は、DOCCI データセットの高密度な人間による記述と効率的なマルチモーダルアライメントを活用し、大規模モデルに依存せず詳細な画像キャプション生成を実現する 17 億パラメータのコンパクトなマルチモーダルアシスタント「VisionPangu」を提案するものである。
本論文は、ヘッドマウントカメラなどで撮影された近接映像におけるパースペクティブ歪みを効果的に捉えるため、従来の正射投影モデルに擬似パースペクティブ効果をもたらす新しい縮小パラメータを導入し、既存の 3D モデルを微調整可能にした新しいカメラモデルを提案するものである。