Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy
この論文は、注釈付きの CT データと注釈なしのインターベンショナル CBCT データを用いて、マージン・ディスパリティ・ディスクリパンシー(MDD)の最適化枠組みを再定式化した新しい教師なしドメイン適応フレームワークを提案し、肝臓セグメンテーションの性能を向上させることを示しています。
1864 件の論文
この論文は、注釈付きの CT データと注釈なしのインターベンショナル CBCT データを用いて、マージン・ディスパリティ・ディスクリパンシー(MDD)の最適化枠組みを再定式化した新しい教師なしドメイン適応フレームワークを提案し、肝臓セグメンテーションの性能を向上させることを示しています。
この論文は、従来の「再構成後に解析」という非効率なパイプラインを回避し、 undersampled k-space データから直接生理学的ラベルを抽出するエンドツーエンドのマルチタスク学習フレームワーク「k-MTR」を提案し、大規模シミュレーションデータを用いてその有効性を実証したものである。
この論文では、専門家と非専門家の診断間の不一致に基づいて「スライドの難易度(WSD)」を定義し、それをマルチタスク学習や重み付き損失関数に組み込むことで、前立腺がんのグレアス分類における多实例学習(MIL)の性能、特に高悪性度のケースでの精度向上を実現する手法を提案しています。
Contrastive 学習とマスク画像モデルの課題を解決するため、セマンティック・インスタンス・ピクセルの 3 段階の粒度で階層的視覚表現を学習し、大規模なマルチ粒度データセットを用いた C2FMAE が、画像分類・物体検出・セマンティックセグメンテーションにおいて顕著な性能向上を実現したことを提案する論文です。
この論文は、家具や人間による遮蔽領域を含む局所領域の移動可能性を推定するために、視覚言語モデルに空間的手がかりを組み込み、周囲の RGB-D 観測からオクルージョンに強い鳥瞰図(BEV)の affordance 熱地図を生成する「BEACON」という手法を提案し、最先端の画像空間ベースラインを大幅に上回る精度を達成したことを示しています。
本論文は、推論時の姿勢推定誤差を「レンダリングと比較(ReCo)」モジュールで補正し、長期シーンの処理を可能にするハイブリッド KV キャッシュ圧縮戦略を備えた、姿勢や内部パラメータの有無を問わない自己回帰型フィードフォワードガウススプラッティングモデル「ReCoSplat」を提案するものである。
この論文は、従来の超位置(superposition)の理解が不十分な現実的なデータにおいて、特徴間の相関を考慮した「Bag-of-Words 超位置(BOWS)」モデルを提案し、相関する特徴が干渉を構築的に利用して意味的なクラスタや循環構造を自然に形成することを示しています。
この論文は、データ駆動型の「微分可能な顕微鏡()」というトップダウン設計アプローチを提案し、全光学的位相復元顕微鏡の設計において既存手法を上回る性能を達成するとともに、実験的にその有効性を実証したことを報告しています。
本論文は、ラベル分布のシフト下でもドメインラベルを必要とせず、不確実性に基づくカテゴリカル判別器と低次元特徴量による相互条件付きアライメントを通じて、Blended-Target 領域適用の性能を大幅に向上させる手法を提案するものである。
本論文は、単一の RGB 画像や動画から MiDaS による深度推定や画像修復、高速な 3D 投影アルゴリズムを活用して、自由視点表示に対応する光場画像や動画を含む没入型 3D 体験を生成する拡張ライブラリ「altiro3D」を提案するものである。
この論文では、Play-Doh モデルを用いた大規模な 3D 異常検出データセット「PD-REAL」を提案し、その有効性を検証するために、教師ネットワークからの多段階指導を活用して局所的特徴と大域的文脈を統合するマルチスケール蒸留フレームワークを導入した。
本論文は、カメラ間の変動による Jaccard 距離の信頼性低下を解決するため、カメラ情報を活用して k-相互最近傍探索と局所クエリ拡張を統合した新たな「カメラ対応 Jaccard 距離(CA-Jaccard)」を提案し、Person Re-identification における高精度かつ低コストな距離指標を実現したことを示しています。
本論文は、複雑な数値・空間推論を必要とするテキストから画像への生成タスクにおいて、大規模な閉源モデルへの依存を排除し、軽量モデルでも高精度なレイアウト予測と段階的な画像合成を実現する「DivCon」という分割統治アプローチを提案し、HRS や NSR-1K ベンチマークで既存手法を上回る性能と多物体・複雑な関係性を有するプロンプトに対する知覚品質の向上を実証したものである。
この論文は、ディープフェイクの生成(顔の入れ替え、再演、発話顔生成、属性編集)と検出に関する最新技術、データセット、評価指標を包括的にレビューし、代表的な手法をベンチマークして将来の課題と研究方向を分析する調査研究である。
既存の顔認証モデルが人工的な画像劣化なしでも直面する課題(属性差の大きい同一人物ペア、属性差の小さい異人物ペア、双子や親族など似顔人物)を特定し、高品質な画像を用いた「Goldilocks」レベルの新たなテストセット(Hadrian、Eclipse、ND-Twins)を提案する論文です。
本論文は、少ショット微調整における拡散モデルの学習過程で生じる「腐敗段階」を、ベイズニューラルネットワークを用いて学習分布を広く捉えることで理論的に説明し、生成画像の忠実度と多様性を向上させる手法を提案しています。
この論文は、従来の拡散モデルが抱える計算コストや系列長の制限を克服し、正規化フローを用いて再帰的な条件付けを確率的に実現することで、長系列の人間運動を高精度かつ効率的に生成する新しい「RDM(再帰的拡散モデル)」を提案するものです。
CLIP などの事前学習済み基盤モデルを活用してオンラインで視覚的プロンプトを自動生成・更新し、対照的なガイダンスを通じて不要な対象を抑制することで汎用オブジェクトトラッキングの性能を向上させる新しい手法「PiVOT」を提案する論文です。
本論文は、人間の注釈を必要とせず画像から物体カテゴリの一般的な姿勢事前分布を学習する「Pose Prior Learner」を提案し、その階層的メモリと反復推論によって、特に遮蔽された画像における姿勢推定の精度を向上させることを示しています。
この論文は、音声とテキストの情報を同期させて拡散モデルを用いることで、感情や移動を含む表現豊かな全身ジェスチャーを生成する新しいフレームワーク「ExpGest」を提案し、既存の手法よりも自然で制御性の高い結果を実現したことを示しています。