CA-Jaccard: Camera-aware Jaccard Distance for Person Re-identification
本論文は、カメラ間の変動による Jaccard 距離の信頼性低下を解決するため、カメラ情報を活用して k-相互最近傍探索と局所クエリ拡張を統合した新たな「カメラ対応 Jaccard 距離(CA-Jaccard)」を提案し、Person Re-identification における高精度かつ低コストな距離指標を実現したことを示しています。
2789 件の論文
本論文は、カメラ間の変動による Jaccard 距離の信頼性低下を解決するため、カメラ情報を活用して k-相互最近傍探索と局所クエリ拡張を統合した新たな「カメラ対応 Jaccard 距離(CA-Jaccard)」を提案し、Person Re-identification における高精度かつ低コストな距離指標を実現したことを示しています。
本論文は、複雑な数値・空間推論を必要とするテキストから画像への生成タスクにおいて、大規模な閉源モデルへの依存を排除し、軽量モデルでも高精度なレイアウト予測と段階的な画像合成を実現する「DivCon」という分割統治アプローチを提案し、HRS や NSR-1K ベンチマークで既存手法を上回る性能と多物体・複雑な関係性を有するプロンプトに対する知覚品質の向上を実証したものである。
この論文は、ディープフェイクの生成(顔の入れ替え、再演、発話顔生成、属性編集)と検出に関する最新技術、データセット、評価指標を包括的にレビューし、代表的な手法をベンチマークして将来の課題と研究方向を分析する調査研究である。
既存の顔認証モデルが人工的な画像劣化なしでも直面する課題(属性差の大きい同一人物ペア、属性差の小さい異人物ペア、双子や親族など似顔人物)を特定し、高品質な画像を用いた「Goldilocks」レベルの新たなテストセット(Hadrian、Eclipse、ND-Twins)を提案する論文です。
本論文は、少ショット微調整における拡散モデルの学習過程で生じる「腐敗段階」を、ベイズニューラルネットワークを用いて学習分布を広く捉えることで理論的に説明し、生成画像の忠実度と多様性を向上させる手法を提案しています。
この論文は、従来の拡散モデルが抱える計算コストや系列長の制限を克服し、正規化フローを用いて再帰的な条件付けを確率的に実現することで、長系列の人間運動を高精度かつ効率的に生成する新しい「RDM(再帰的拡散モデル)」を提案するものです。
CLIP などの事前学習済み基盤モデルを活用してオンラインで視覚的プロンプトを自動生成・更新し、対照的なガイダンスを通じて不要な対象を抑制することで汎用オブジェクトトラッキングの性能を向上させる新しい手法「PiVOT」を提案する論文です。
本論文は、人間の注釈を必要とせず画像から物体カテゴリの一般的な姿勢事前分布を学習する「Pose Prior Learner」を提案し、その階層的メモリと反復推論によって、特に遮蔽された画像における姿勢推定の精度を向上させることを示しています。
この論文は、音声とテキストの情報を同期させて拡散モデルを用いることで、感情や移動を含む表現豊かな全身ジェスチャーを生成する新しいフレームワーク「ExpGest」を提案し、既存の手法よりも自然で制御性の高い結果を実現したことを示しています。
この論文は、連続的な特徴に依存する従来の深層学習とは異なり、画像を視覚的プリミティブで再構成することで高次な構造的説明を学習する神経記号システムを提案し、組織学的画像の異常診断において、従来の深層学習アーキテクチャよりも高い分類精度と透明性を達成したことを示しています。
この論文は、生成タスクの複雑さに応じて拡散過程自体を各サンプルに動的に適応させる「入力適応型生成ダイナミクス」を提案し、固定された拡散軌道に依存する従来の手法よりも少ないサンプリングステップで高品質な画像生成を実現することを示しています。
NASA の Landsat および Sentinel-2 データを用いて訓練され、多様な地球観測タスクで先行モデルや他社モデルを上回る性能を発揮するオープンソースの汎用地球観測基盤モデル「Prithvi-EO-2.0」が発表されました。
本論文は、画像エンコーダと LLM を共同で最適化し、廃棄されるトークンから有用な情報を再利用する新しいマージ戦略を採用することで、既存の手法を超えたエンドツーエンドの高速化と高精度を実現する iLLaVA を提案しています。
この論文は、マルチモーダルタスクにおける既存の評価指標の限界を克服するため、基準ごとのスコアを統合して総合評価を行う参照不要の指標「HarmonicEval」を提案し、4 つのタスクにわたる 18,000 件の専門家の人間評価を含む新しいベンチマーク「MMHE」を構築してその有効性を検証したものである。
本論文は、幾何学監督とコントラスト損失を用いた共同学習戦略および階層的コンテキスト認識モジュールを導入し、3D 空間内の物体表面に言語フィールドを正確に整合させることで、テキストクエリによる高精度な 2D/3D セグメンテーションや編集タスクを実現する「LangSurf」を提案しています。
この論文は、事前学習された視覚言語モデル(VLM)を活用して画像から抽象的な記述子(述語)を学習し、これを用いた記号的な世界モデルを構築することで、限られた短いデモンストレーションから未知の環境や目標、そして長期のタスクに対するゼロショットな汎化を実現するロボット制御手法を提案しています。
この論文は、ラベル付きデータと境界付近の unlabeled データを効率的に選択・生成する潜在クラスタリングベースの手法を提案し、半教師あり敵対的トレーニングのデータ量と計算コストを大幅に削減しながら、高い敵対的堅牢性を維持することを示しています。
本論文は、事前学習された無条件拡散モデルを条件付き生成タスクに応用するため、ベイズの定理に基づき条件付きスコア関数を無条件スコアとガイダンス項に分解し、自然画像のガウス型事前分布を組み込んだ最大事後確率(MAP)に基づく新たなガイダンス項推定法を提案することで、逆問題の解像度向上や画像修復において既存手法よりも内容の保存性や一貫性を高める手法を提示しています。
この論文は、専門家のデモから生成拡散ポリシーをクローンし、デモとランダムな探索から予測行動条件付き世界モデルを学習し、その世界モデルを用いて将来を予測しながらアクション提案を最適化する「生成予測制御(GPC)」という学習制御フレームワークを提案し、シミュレーションおよび実世界における多様なロボット操作タスクで行動模倣を凌駕する性能を実証したものである。
複雑な抽象的な指示に基づいて未知の大規模環境を自律的に移動する課題に対し、神経記号(NeSy)アプローチを用いてタスク分解と効率的な探索を可能にする新しいビジョン・言語ナビゲーションシステム「VL-Nav」を提案し、シミュレーションおよび実世界環境で高い成功率を達成したことを示しています。