cs.CV 件の論文 | Gist.Science

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

この論文は、複雑な環境におけるレンズのベールグレア（光の散乱によるゴーストやハレーション）を除去するため、安定拡散モデルの事前知識を用いて非教師ありで伝達マップとグレアマップを学習する生成モデル「VeilGen」と、そのマップを活用して逆散乱プロセスを行う復元ネットワーク「DeVeiler」を提案し、簡素化された光学システムにおいて既存手法を上回る高品質な復元を実現したことを報告しています。

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

UAM: A Unified Attention-Mamba Backbone of Multimodal Framework for Tumor Cell Classification

Mamba アーキテクチャの成功に着想を得て、Attention と Mamba モジュールを柔軟に統合した「Unified Attention-Mamba (UAM)」バックボーンを提案し、細胞分類と画像セグメンテーションの両タスクにおいて既存の基盤モデルを上回る最先端の性能を達成するマルチモーダルフレームワークを構築した。

Taixi Chen, Jingyun Chen, Nancy Guo2026-03-09💻 cs

EgoCogNav: Cognition-aware Human Egocentric Navigation

この論文は、人間のナビゲーションにおける認知的・経験的要因を考慮し、知覚された経路の不確実性を潜在状態として予測するマルチモーダルなナビゲーションフレームワーク「EgoCogNav」と、実世界での多様なナビゲーション行動を捉えた新しいデータセット「CEN」を提案するものです。

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

本論文は、単一視点の動画生成や制御された環境に依存する既存手法の限界を克服し、視覚的事前知識、運動ダイナミクス、多視点幾何学を統合することで、手と物体の相互作用（HOI）の同期された多視点動画と 4 次元運動を同時に生成する初のモデル「SyncMV4D」を提案するものである。

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs

Reversible Inversion for Training-Free Exemplar-guided Image Editing

この論文は、大規模な事前学習を必要とせず、ソース画像と参照画像の両方に条件付けされた二段階のノイズ除去プロセスとマスク誘導型選択的ノイズ除去戦略を採用することで、計算コストを最小化しつつ最先端の性能を実現する「可逆的逆変換（ReInversion）」と呼ばれるトレーニング不要の例示ガイド画像編集手法を提案しています。

Yuke Li, Lianli Gao, Ji Zhang, Pengpeng Zeng, Lichuan Xiang, Hongkai Wen, Heng Tao Shen, Jingkuan Song2026-03-09💻 cs

A method for tissue-mask supported whole-body image registration in the UK Biobank

この論文は、UK バイオバンクの全身 MRI 画像登録において、皮下脂肪と筋肉のマスクを活用した提案手法が、既存の強度のみの手法や他の登録手法と比較して、より高いアライメント精度と年齢との相関分析における有用性を示したことを報告しています。

Yasemin Utkueri, Elin Lundström, Håkan Ahlström, Johan Öfverstedt, Joel Kullberg2026-03-09💻 cs

UniTS: Unified Spatio-Temporal Generative Model for Remote Sensing

本論文は、フローマッチング生成パラダイムに基づき、時系列復元、雲除去、変化検出、予測といった複数のリモートセンシングタスクを単一のモデルで統合的に処理し、既存の専用モデルを凌駕する性能を実現する「UniTS」と呼ばれる統一時空間生成モデルを提案するものである。

Yuxiang Zhang, Shunlin Liang, Wenyuan Li, Han Ma, Jianglei Xu, Yichuan Ma, Jiangwei Xie, Wei Li, Mengmeng Zhang, Ran Tao, Xiang-Gen Xia2026-03-09💻 cs

Exploiting Spatiotemporal Properties for Efficient Event-Driven Human Pose Estimation

この論文は、イベントカメラのスパースな時空間特性を直接活用し、イベントスライス畳み込みやエッジ強化点雲表現などの新規モジュールを導入することで、高密度なフレーム変換を回避しつつ人間のポーズ推定精度と計算効率を向上させる手法を提案しています。

Haoxian Zhou, Chuanzhi Xu, Langyi Chen, Pengfei Ye, Haodong Chen, Yuk Ying Chung, Qiang Qu2026-03-09🤖 cs.AI

DFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection

本論文は、複雑な背景における小物体検出の課題を解決するため、入力適応型のスパース自己注意機構、ノルム保存型アップサンプリング、および周波数領域での反復精化を組み合わせた DFIR-DETR を提案し、NEU-DET と VisDrone データセットで高い検出精度を達成したことを報告しています。

Bo Gao, Jingcheng Tong, Xingsheng Chen, Han Yu, Zichen Li2026-03-09🤖 cs.LG

Fast-BEV++: Fast by Algorithm, Deployable by Design

本論文は、カスタムカーネルへの依存を排除し、ハードウェア指向の標準的なパイプラインを採用することで、精度を維持しつつ主流のエッジプラットフォームで 3 倍以上の高速化を実現し、nuScenes ベンチマークで SOTA となる 0.488 の NDS と 134 FPS 以上のリアルタイム推論を両立する BEV 知覚フレームワーク「Fast-BEV++」を提案しています。

Yuanpeng Chen, Hui Song, Sheng Yang, Wei Tao, Shanhui Mo, Shuang Zhang, Xiao Hua, Tiankun Zhao2026-03-09💻 cs

Uncertainty-Aware Subset Selection for Robust Visual Explainability under Distribution Shifts

この論文は、分布外（OOD）条件下で既存のサブセット選択に基づく視覚的説明手法の信頼性が低下する問題を解決するため、追加学習なしにサブモジュラ最適化と階層ごとの不確実性推定を組み合わせるフレームワークを提案し、OOD だけでなく在分布（ID）設定でも堅牢で忠実な説明を実現することを示しています。

Madhav Gupta, Vishak Prasad C, Ganesh Ramakrishnan2026-03-09🤖 cs.LG

Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement

Photo3D は、GPT-4o-Image で生成された画像データを活用し、構造整合性を保ちつつ詳細なテクスチャを付与するマルチビュー合成パイプラインと詳細強化手法を提案することで、既存の 3D 生成モデルの画質を飛躍的に向上させ、最先端の写実的な 3D 生成を実現するフレームワークです。

Xinyue Liang, Zhinyuan Ma, Lingchen Sun, Yanjun Guo, Lei Zhang2026-03-09💻 cs

Modular Neural Image Signal Processing

この論文は、中間段階の制御性、スケーラビリティ、汎用性、および編集柔軟性を大幅に向上させるモジュール型ニューラル画像信号処理（ISP）フレームワークを提案し、高品質なレンダリングと無限のポスト編集再レンダリングを可能にするユーザー対話型写真編集ツールの実装を示しています。

Mahmoud Afifi, Zhongling Wang, Ran Zhang, Michael S. Brown2026-03-09💻 cs

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

本論文は、3D 立方体複体法や放射線学的特徴量と比較して、分類性能と計算時間の両面で優位性を示す新たなパッチベースのトポロジカルデータ解析手法を CT 画像解析に提案し、その有効性を検証するとともに Python パッケージ「Patch-TDA」として公開したものである。

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

Towards Scalable Pre-training of Visual Tokenizers for Generation

本論文は、従来の再構成ベースの学習では生成タスクにおけるスケーラビリティに限界があることを指摘し、画像・テキストの対比学習、自己教師あり学習、再構成損失を統合した「VTP」という新しい視覚トークナイザー前学習フレームワークを提案することで、高レベルな意味理解の獲得を通じて生成モデルの性能を計算リソースに対して効果的にスケーリング可能にしたことを示しています。

Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang2026-03-09💻 cs

CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion

本論文は、クロスアテンションを用いた視覚言語モデルが、従来のトークン挿入方式に匹敵する性能を達成しつつ、長文会話や動画処理においてメモリと計算コストの面で大幅な効率性を実現することを示しています。

Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez2026-03-09🤖 cs.AI

Pretraining Frame Preservation for Lightweight Autoregressive Video History Embedding

この論文は、計算リソースが限られた環境でも長編動画の履歴を効率的にエンコードし、生成の整合性を保つために、フレームクエリ目的で事前学習された軽量な履歴エンコーダーを提案するものである。

Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala2026-03-09💻 cs

Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

本論文は、マルチモーダル大規模言語モデル（MLLM）の 4 次元空間推論能力を包括的に評価するための大規模ベンチマーク「Spatial4D-Bench」を提案し、既存モデルが人間のレベルに達するにはまだ多くの課題があることを明らかにしています。

Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu2026-03-09💻 cs

Bayesian Monocular Depth Refinement via Neural Radiance Fields

この論文は、NeRF の体積レンダリングから得られる不確実性を用いてベイズ推論により単眼深度推定を反復的に洗練し、滑らかさを保ちつつ高周波の細部を復元する「MDENeRF」というフレームワークを提案し、SUN RGB-D データセットを用いた実験でその有効性を示しています。

Arun Muthukkumar2026-03-09🤖 cs.LG

FlyPose: Towards Robust Human Pose Estimation From Aerial Views

本論文は、ドローンによる人間との近接運用における安全性向上のため、低解像度や急峻な視点、自己遮蔽といった課題を克服し、Jetson Orin 上でリアルタイム推論を可能にする軽量な空中視点用人体姿勢推定パイプライン「FlyPose」と、その学習・評価に用いた新しいデータセット「FlyPose-104」を提案するものである。

Hassaan Farooq, Marvin Brenner, Peter Stütz2026-03-09💻 cs

← 前へ次へ →