cs.CV 件の論文 | Gist.Science

CA-Jaccard: Camera-aware Jaccard Distance for Person Re-identification

本論文は、カメラ間の変動による Jaccard 距離の信頼性低下を解決するため、カメラ情報を活用して k-相互最近傍探索と局所クエリ拡張を統合した新たな「カメラ対応 Jaccard 距離（CA-Jaccard）」を提案し、Person Re-identification における高精度かつ低コストな距離指標を実現したことを示しています。

Yiyu Chen, Zheyi Fan, Zhaoru Chen, Yixuan Zhu2026-03-10💻 cs

DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

本論文は、複雑な数値・空間推論を必要とするテキストから画像への生成タスクにおいて、大規模な閉源モデルへの依存を排除し、軽量モデルでも高精度なレイアウト予測と段階的な画像合成を実現する「DivCon」という分割統治アプローチを提案し、HRS や NSR-1K ベンチマークで既存手法を上回る性能と多物体・複雑な関係性を有するプロンプトに対する知覚品質の向上を実証したものである。

Yuhao Jia, Wenhan Tan2026-03-10💻 cs

Deepfake Generation and Detection: A Benchmark and Survey

この論文は、ディープフェイクの生成（顔の入れ替え、再演、発話顔生成、属性編集）と検出に関する最新技術、データセット、評価指標を包括的にレビューし、代表的な手法をベンチマークして将来の課題と研究方向を分析する調査研究である。

Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Dacheng Tao2026-03-10💻 cs

Goldilocks Test Sets for Face Verification

既存の顔認証モデルが人工的な画像劣化なしでも直面する課題（属性差の大きい同一人物ペア、属性差の小さい異人物ペア、双子や親族など似顔人物）を特定し、高品質な画像を用いた「Goldilocks」レベルの新たなテストセット（Hadrian、Eclipse、ND-Twins）を提案する論文です。

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

本論文は、少ショット微調整における拡散モデルの学習過程で生じる「腐敗段階」を、ベイズニューラルネットワークを用いて学習分布を広く捉えることで理論的に説明し、生成画像の忠実度と多様性を向上させる手法を提案しています。

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

RDM: Recurrent Diffusion Model for Human Motion Generation

この論文は、従来の拡散モデルが抱える計算コストや系列長の制限を克服し、正規化フローを用いて再帰的な条件付けを確率的に実現することで、長系列の人間運動を高精度かつ効率的に生成する新しい「RDM（再帰的拡散モデル）」を提案するものです。

Mirgahney Mohamed, Harry Jake Cunningham, Marc P. Deisenroth, Lourdes Agapito2026-03-10💻 cs

Improving Visual Object Tracking through Visual Prompting

CLIP などの事前学習済み基盤モデルを活用してオンラインで視覚的プロンプトを自動生成・更新し、対照的なガイダンスを通じて不要な対象を抑制することで汎用オブジェクトトラッキングの性能を向上させる新しい手法「PiVOT」を提案する論文です。

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-10💻 cs

Pose Prior Learner: Unsupervised Categorical Prior Learning for Pose Estimation

本論文は、人間の注釈を必要とせず画像から物体カテゴリの一般的な姿勢事前分布を学習する「Pose Prior Learner」を提案し、その階層的メモリと反復推論によって、特に遮蔽された画像における姿勢推定の精度を向上させることを示しています。

Ziyu Wang, Shuangpeng Han, Mengmi Zhang2026-03-10💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

この論文は、音声とテキストの情報を同期させて拡散モデルを用いることで、感情や移動を含む表現豊かな全身ジェスチャーを生成する新しいフレームワーク「ExpGest」を提案し、既存の手法よりも自然で制御性の高い結果を実現したことを示しています。

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu2026-03-10💻 cs

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

この論文は、連続的な特徴に依存する従来の深層学習とは異なり、画像を視覚的プリミティブで再構成することで高次な構造的説明を学習する神経記号システムを提案し、組織学的画像の異常診断において、従来の深層学習アーキテクチャよりも高い分類精度と透明性を達成したことを示しています。

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Input-Adaptive Generative Dynamics in Diffusion Models

この論文は、生成タスクの複雑さに応じて拡散過程自体を各サンプルに動的に適応させる「入力適応型生成ダイナミクス」を提案し、固定された拡散軌道に依存する従来の手法よりも少ないサンプリングステップで高品質な画像生成を実現することを示しています。

Yucheng Xing, Xiaodong Liu, Xin Wang2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

NASA の Landsat および Sentinel-2 データを用いて訓練され、多様な地球観測タスクで先行モデルや他社モデルを上回る性能を発揮するオープンソースの汎用地球観測基盤モデル「Prithvi-EO-2.0」が発表されました。

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

← 前へ次へ →

cs.CV

CA-Jaccard: Camera-aware Jaccard Distance for Person Re-identification

DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

Deepfake Generation and Detection: A Benchmark and Survey

Goldilocks Test Sets for Face Verification

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

RDM: Recurrent Diffusion Model for Human Motion Generation

Improving Visual Object Tracking through Visual Prompting

Pose Prior Learner: Unsupervised Categorical Prior Learning for Pose Estimation

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Input-Adaptive Generative Dynamics in Diffusion Models

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

MAP-based Problem-Agnostic diffusion model for Inverse Problems

Strengthening Generative Robot Policies through Predictive World Modeling

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation