Spectral Probing of Feature Upsamplers in 2D-to-3D Scene Reconstruction
この論文は、2D から 3D へのシーン再構築における特徴量アップサンプラーの性能を評価するスペクトル診断フレームワークを提案し、空間的な詳細の強調よりもスペクトル構造の保存が再構築品質を決定づける重要な要因であることを示しています。
4144 件の論文
この論文は、2D から 3D へのシーン再構築における特徴量アップサンプラーの性能を評価するスペクトル診断フレームワークを提案し、空間的な詳細の強調よりもスペクトル構造の保存が再構築品質を決定づける重要な要因であることを示しています。
本論文は、イベントカメラのスパース性と高時間分解能を活用し、事前学習済み ViT と MaxViT、および深度推定モデルを組み合わせたグローバル・ローカル特徴融合パイプライン「EventGeM」を提案し、リアルタイムかつ高精度な視覚的場所認識を実現するものです。
この論文は、動画生成モデルの計算遅延を軽減するため、学習不要でフレーム間の重複潜在パッチを剪定し、注意機構の回復メカニズムによって視覚的アーティファクトを抑制する「LIPAR」フレームワークを提案し、生成品質を維持しつつ処理速度を約 1.45 倍に向上させることを示しています。
この論文は、分類マージンの拡大と入力摂動に対する予測の一貫性を同時に強制する新しい正則化フレームワーク「MaCS」を提案し、既存のアーキテクチャや追加データなしで、視覚モデルの較正精度とロバスト性を向上させつつ精度を維持または改善できることを示しています。
この論文は、低照度ノイズ、モーションブラー、モザイクアーティファクトなど、多様な劣化条件下でも物理的一貫性を保ちながら最先端の性能を発揮する、単一段階の画像・ストークス統合処理を行う統一的なアーキテクチャを提案するものです。
この論文は、CNN と Vision Transformer の長所を組み合わせつつ、冗長な特徴表現によるボトルネックを回避するために 4 つの独立した融合モデルを最終予測段階でアンサンブルする手法を提案し、リモートセンシング画像分類において既存のアーキテクチャを上回る高い精度と計算効率を達成したことを示しています。
本論文は、意味情報と絶対幾何学を統合した「3D 認知グラフ」を条件として拡散モデルを導くことで、物理的に妥当で構造的に合理的な 3D 生成を実現するフレームワーク「Cog2Gen3D」を提案し、既存手法を凌駕する性能を実証しています。
VS3R は、ディープ 3D 再構成と生成拡散モデルを相乗的に組み合わせることで、極端なカメラブレに対しても幾何学的な頑健性とフルフレームの一貫性を両立し、最先端の手法を凌駕する高品質な動画安定化を実現するフレームワークです。
この論文は、検証済みの実行軌跡から自律的に有効なツールシーケンスを特定・合成し、新しい高レベルのプリミティブとして登録することで、静的なツール構成から経験駆動型の自己進化型医療エージェント「MACRO」を提案し、多様な医療画像タスクにおけるオーケストレーション精度とドメイン間汎化性能を向上させる手法を報告しています。
本論文は、臨床腫瘍解析の信頼性と解釈可能性を向上させるため、150 万件の CoT ラベル付きデータセット「TumorCoT」と、3D 画像と臨床テキストを密接に連携させた反復的な推論フレームワーク「TumorChain」を提案し、病変検出から病理予測までの一貫した推論を実現する研究です。
本論文は、視覚言語モデルの推論能力を向上させるため、人間の知覚習慣やモデルの構造に合致するパッチ単位の視覚的手がかり「PatchCue」を提案し、教師あり微調整とプロセス報酬に基づく強化学習の二段階アプローチにより、従来のピクセルレベルや点ベースの手がかりよりも優れた性能を達成したことを示しています。
本論文は、医療画像セグメンテーションにおけるドメイン適応の課題を解決するため、モデル重みの更新ではなく軽量なメモリ空間への適応を可能にする「MemSeg-Agent」を提案し、フェデレーティッド学習における通信コストの削減とテスト時適応の両立を実現する新しいパラダイムを提示しています。
本論文は、5 つの公開データベースと 7 つの画像類似度手法を用いた体系的な評価を通じて、合成された新規視点画像がビデオ場所認識(VPR)の性能向上に寄与し、特に視点の変化量よりも追加する画像の数やデータセットの画像タイプが重要であることを示しています。
この論文は、パノラマ画像の新しい視点合成において、直交座標系 Triplane の歪みや疎な視点でのオクルージョン処理の課題を解決するため、マンハッタン世界仮説に適合した円柱状 Triplane を採用し、ピクセルベースと体積ベースの双枝構造で単一・複数視点から高品質な 3D ガウシアンスプラッティングを実現する「CylinderSplat」を提案しています。
PixARMesh は、単一の RGB 画像から自己回帰的に完全な 3D 室内シーンのメッシュを直接再構成し、従来の手法とは異なり、レイアウトと幾何形状を統合モデルで同時に予測することで、高品質かつ軽量なメッシュを単一のフォワードパスで生成する手法です。
本論文は、商品、テキスト、スタイルの 3 つの条件を単一ステージで効率的に制御し、従来の多段階パイプラインが抱える忠実度や文字精度、スタイルの一貫性の問題を解決する「InnoAds-Composer」フレームワークと、それに対応する新規データセットを提案するものである。
この論文は、概念ボトルネックモデル(CBM)の公平性を向上させるため、情報漏洩の低減、バイアス概念の除去、敵対的デバイアシングという 3 つの手法を提案し、公平性と性能のトレードオフを改善する結果を示しています。
本論文は、UAV 画像における小物体検出の課題を解決するため、構造的詳細の保持と異種特徴ストリームの整列を可能にする軽量な協調検出フレームワーク「CollabOD」を提案するものである。
本論文は、幾何学的な正確さよりも芸術的意図を重視し、プロの 3D 映画のスタイルを学習して没入感のある 2D から 3D への変換を実現する新たなパラダイム「Artistic Disparity Synthesis」と、その実現枠組み Art3D を提案しています。
本論文は、単一のパノラマ画像から効率的に高忠実度の 3D シーンを生成する新規フレームワーク「Pano3DComposer」を提案し、既存の反復最適化や視野制限の課題を克服して、約 20 秒で 360 度の完全な 3D 環境を構築可能にするものである。