WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition
本論文は、大規模言語モデルの埋め込みと視覚誘導知識アダプタ、および硬い負例合成メカニズムを活用して、生成モデルに比べて推論遅延を約 100 倍削減しつつ、オープンドメイン視覚実体認識タスクで高い性能を達成する効率的な対照学習ベースライン「WikiCLIP」を提案するものです。
3444 件の論文
本論文は、大規模言語モデルの埋め込みと視覚誘導知識アダプタ、および硬い負例合成メカニズムを活用して、生成モデルに比べて推論遅延を約 100 倍削減しつつ、オープンドメイン視覚実体認識タスクで高い性能を達成する効率的な対照学習ベースライン「WikiCLIP」を提案するものです。
本論文は、点群再構成や生成における標準的な損失関数であるチャマファ距離の最適化が、局所的な正則化では解決できない勾配構造上の欠陥により「最適化しない場合よりも悪い結果」をもたらす「崩壊」を引き起こすことを示し、これを抑制するには局所領域を超えた非局所的な結合(グローバルな結合)が不可欠であることを明らかにした。
この論文は、関節角度に基づく擬似画像表現とトークン単位の遅延相互作用(MaxSim)を組み合わせることで、既存の手法が抱える細粒度対応の欠如や解釈性の低さを克服し、テキストと 3 次元人間の動きの間の高精度かつ解釈可能な検索を実現する手法を提案しています。
この論文は、利用可能な画像データと臨床メタデータを動的に統合し、GPT-4o による意味的ガイダンスを取り入れた適応型臨床意識潜在拡散モデル「ACADiff」を提案し、アルツハイマー病診断における多モダリティ脳画像の欠損補完と高品質な合成を実現したことを述べています。
この論文は、注釈付きの CT データと注釈なしのインターベンショナル CBCT データを用いて、マージン・ディスパリティ・ディスクリパンシー(MDD)の最適化枠組みを再定式化した新しい教師なしドメイン適応フレームワークを提案し、肝臓セグメンテーションの性能を向上させることを示しています。
この論文は、従来の「再構成後に解析」という非効率なパイプラインを回避し、 undersampled k-space データから直接生理学的ラベルを抽出するエンドツーエンドのマルチタスク学習フレームワーク「k-MTR」を提案し、大規模シミュレーションデータを用いてその有効性を実証したものである。
この論文では、専門家と非専門家の診断間の不一致に基づいて「スライドの難易度(WSD)」を定義し、それをマルチタスク学習や重み付き損失関数に組み込むことで、前立腺がんのグレアス分類における多实例学習(MIL)の性能、特に高悪性度のケースでの精度向上を実現する手法を提案しています。
Contrastive 学習とマスク画像モデルの課題を解決するため、セマンティック・インスタンス・ピクセルの 3 段階の粒度で階層的視覚表現を学習し、大規模なマルチ粒度データセットを用いた C2FMAE が、画像分類・物体検出・セマンティックセグメンテーションにおいて顕著な性能向上を実現したことを提案する論文です。
この論文は、家具や人間による遮蔽領域を含む局所領域の移動可能性を推定するために、視覚言語モデルに空間的手がかりを組み込み、周囲の RGB-D 観測からオクルージョンに強い鳥瞰図(BEV)の affordance 熱地図を生成する「BEACON」という手法を提案し、最先端の画像空間ベースラインを大幅に上回る精度を達成したことを示しています。
本論文は、推論時の姿勢推定誤差を「レンダリングと比較(ReCo)」モジュールで補正し、長期シーンの処理を可能にするハイブリッド KV キャッシュ圧縮戦略を備えた、姿勢や内部パラメータの有無を問わない自己回帰型フィードフォワードガウススプラッティングモデル「ReCoSplat」を提案するものである。
この論文は、従来の超位置(superposition)の理解が不十分な現実的なデータにおいて、特徴間の相関を考慮した「Bag-of-Words 超位置(BOWS)」モデルを提案し、相関する特徴が干渉を構築的に利用して意味的なクラスタや循環構造を自然に形成することを示しています。
この論文は、データ駆動型の「微分可能な顕微鏡()」というトップダウン設計アプローチを提案し、全光学的位相復元顕微鏡の設計において既存手法を上回る性能を達成するとともに、実験的にその有効性を実証したことを報告しています。
本論文は、ラベル分布のシフト下でもドメインラベルを必要とせず、不確実性に基づくカテゴリカル判別器と低次元特徴量による相互条件付きアライメントを通じて、Blended-Target 領域適用の性能を大幅に向上させる手法を提案するものである。
本論文は、単一の RGB 画像や動画から MiDaS による深度推定や画像修復、高速な 3D 投影アルゴリズムを活用して、自由視点表示に対応する光場画像や動画を含む没入型 3D 体験を生成する拡張ライブラリ「altiro3D」を提案するものである。
この論文では、Play-Doh モデルを用いた大規模な 3D 異常検出データセット「PD-REAL」を提案し、その有効性を検証するために、教師ネットワークからの多段階指導を活用して局所的特徴と大域的文脈を統合するマルチスケール蒸留フレームワークを導入した。
本論文は、カメラ間の変動による Jaccard 距離の信頼性低下を解決するため、カメラ情報を活用して k-相互最近傍探索と局所クエリ拡張を統合した新たな「カメラ対応 Jaccard 距離(CA-Jaccard)」を提案し、Person Re-identification における高精度かつ低コストな距離指標を実現したことを示しています。
本論文は、複雑な数値・空間推論を必要とするテキストから画像への生成タスクにおいて、大規模な閉源モデルへの依存を排除し、軽量モデルでも高精度なレイアウト予測と段階的な画像合成を実現する「DivCon」という分割統治アプローチを提案し、HRS や NSR-1K ベンチマークで既存手法を上回る性能と多物体・複雑な関係性を有するプロンプトに対する知覚品質の向上を実証したものである。
この論文は、ディープフェイクの生成(顔の入れ替え、再演、発話顔生成、属性編集)と検出に関する最新技術、データセット、評価指標を包括的にレビューし、代表的な手法をベンチマークして将来の課題と研究方向を分析する調査研究である。
既存の顔認証モデルが人工的な画像劣化なしでも直面する課題(属性差の大きい同一人物ペア、属性差の小さい異人物ペア、双子や親族など似顔人物)を特定し、高品質な画像を用いた「Goldilocks」レベルの新たなテストセット(Hadrian、Eclipse、ND-Twins)を提案する論文です。
本論文は、少ショット微調整における拡散モデルの学習過程で生じる「腐敗段階」を、ベイズニューラルネットワークを用いて学習分布を広く捉えることで理論的に説明し、生成画像の忠実度と多様性を向上させる手法を提案しています。