cs.CV 件の論文 | Gist.Science

HeroGS: Hierarchical Guidance for Robust 3D Gaussian Splatting under Sparse Views

本論文は、疎な視点条件下での 3D ガウシアンスプラッティングの課題を解決するため、画像・特徴・パラメータの 3 つの階層にわたるガイダンスを導入し、構造忠実度とレンダリング品質を大幅に向上させる「HeroGS」というフレームワークを提案するものである。

Jiashu Li, Xumeng Han, Zhaoyang Wei + 5 more2026-03-04💻 cs

Continuous Exposure-Time Modeling for Realistic Atmospheric Turbulence Synthesis

本論文は、露光時間とぼけの関係を連続的にモデル化する新しい手法を提案し、これに基づいて大規模な合成乱流データセット「ET-Turb」を構築することで、実世界の乱流画像に対する復元性能と汎化能力を大幅に向上させたことを報告しています。

Junwei Zeng, Dong Liang, Sheng-Jun Huang + 2 more2026-03-04💻 cs

UETrack: A Unified and Efficient Framework for Single Object Tracking

UETrack は、RGB、深度、熱画像、イベント、言語など多様なモダリティを効率的に処理し、Token-Pooling に基づく混合専門家機構とターゲット認識適応蒸留戦略を導入することで、従来法よりも優れた速度と精度のトレードオフを実現する単一物体追跡の統合フレームワークです。

Ben Kang, Jie Zhao, Xin Chen + 5 more2026-03-04💻 cs

FACE: A Face-based Autoregressive Representation for High-Fidelity and Efficient Mesh Generation

この論文は、メッシュ生成における従来の頂点座標列の非効率性を克服するため、三角形の面を単一のトークンとして扱う「FACE」という新しい自己回帰的オートエンコーダフレームワークを提案し、計算コストを大幅に削減しながら高品質なメッシュ生成を実現する手法を紹介しています。

Hanxiao Wang, Yuan-Chen Guo, Ying-Tian Liu + 6 more2026-03-04💻 cs

InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

複雑な多物体シーンにおける空間的推論を要する微細な画像編集を可能にするため、テキストによる位置推論と視覚的グラウンディングを交互に行う「InterCoG」という新しいフレームワークと、それに対応する大規模データセット「GroundEdit-45K」を提案し、高い空間的精度を実現した。

Yecong Wan, Fan Li, Chunwei Wang + 3 more2026-03-04💻 cs

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

この論文は、Vision Transformer の判断根拠をより包括的かつ対照的に解釈するために、正負両方の寄与を捉える双方向クラス活性化マッピング手法「BiCAM」を提案し、敵対的サンプルの検出やモデルの局所化・忠実性の向上を実現することを示しています。

Qin Su, Tie Luo2026-03-04🤖 cs.AI

PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts

本論文は、モノキュラー深度基盤モデルのデコーダに構造と運動のヒントを統合した新しい反復改善モジュール「PRU」を提案し、絶対的なステレオスケール情報を保持しつつゼロショット一般化性能を飛躍的に向上させた PromptStereo を紹介するものである。

Xianqi Wang, Hao Yang, Hangtian Wang + 4 more2026-03-04💻 cs

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

本論文は、知覚から共感までの認知的階層を統合する新しい枠組みを提案し、22 億パラメータの軽量マルチモーダル言語モデル「Nano-EmoX」と段階的学習フレームワーク「P2E」を開発することで、6 つの主要な感情タスクにおいて最先端の性能と優れた汎用性を達成したことを示しています。

Jiahao Huang, Fengyan Lin, Xuechao Yang + 4 more2026-03-04🤖 cs.AI

SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

本論文は、実世界の動画から物理的に妥当で視覚的に忠実な構成要素ベースのシーン再構築を実現するため、「知覚・生成・シミュレーション」のパイプラインに能動的視点最適化とシーングラフ合成器という 2 つの中継モジュールを導入した SimRecon を提案し、ScanNet データセットにおいて既存の最先端手法を上回る性能を実証しています。

Chong Xia, Kai Zhu, Zizhuo Wang + 3 more2026-03-04💻 cs

OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution

本論文は、ストリーミング画像からオンラインで 3D 形状と言語情報を再構築する「OnlineX」を提案し、累積ドリフトを解決するためにアクティブ状態と安定状態を分離・融合する新たなパラダイムを導入することで、リアルタイムかつ高精度な 3D 再構築と意味理解を実現するものです。

Chong Xia, Fangfu Liu, Yule Wang + 2 more2026-03-04💻 cs

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

本論文は、大規模データ不足や製品詳細の保持、粗い教師信号の課題を解決するため、共有強化アテンションと詳細認識損失を導入し、自動フィルタリングで構築した HP-Image-40K データセットを用いて、製品の詳細を忠実に保持した人間と製品の合成画像生成を実現する HiFi-Inpaint を提案するものです。

Yichen Liu, Donghao Zhou, Jie Wang + 9 more2026-03-04💻 cs

Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting

本論文は、時系列予測における時系列の連続性と適応的解像度の課題を解決するため、2D ガウススプラッティングの概念を応用し、未来の系列を連続的な潜在表面としてレンダリングする新しいフレームワーク「TimeGS」を提案し、主要なベンチマークで最先端の性能を達成したことを報告しています。

Yixin Wang, Yifan Hu, Peiyuan Liu + 3 more2026-03-04🤖 cs.AI

CamDirector: Towards Long-Term Coherent Video Trajectory Editing

CamDirector は、ハイブリッド・ワーピングによる世界キャッシュと履歴ガイド付き自己回帰拡散モデルを導入し、既存手法の課題を克服して長期にわたる一貫性を保ちながらユーザー定義のカメラ軌道に従った高品質な動画編集を実現する新しいフレームワークです。

Zhihao Shi, Kejia Yin, Weilin Wan + 5 more2026-03-04💻 cs

Social-JEPA: Emergent Geometric Isomorphism

この論文は、パラメータ共有や調整なしに異なる視点から学習した複数のエージェントが、予測学習によって潜在空間間に線形等長写像という幾何学的な整合性を自然に獲得し、これによりモデル間の相互運用性や知識の転送が容易になることを示しています。

Haoran Zhang, Youjin Wang, Yi Duan + 6 more2026-03-04🤖 cs.AI

From Visual to Multimodal: Systematic Ablation of Encoders and Fusion Strategies in Animal Identification

本論文は、合成テキスト記述から得られる意味的アイデンティティ事前知識を視覚特徴と統合するマルチモーダル検証フレームワークを提案し、大規模な動物データセットを用いた系統的なアブレーション研究により、単一モーダル手法を大幅に上回る動物識別精度を達成したことを示しています。

Vasiliy Kudryavtsev, Kirill Borodin, German Berezin + 3 more2026-03-04💻 cs

Beyond Prompt Degradation: Prototype-guided Dual-pool Prompting for Incremental Object Detection

本論文は、プロンプトの結合とドリフトによる劣化を解消するため、タスク一般知識とタスク固有特徴を分離するデュアルプールプロンプトと、プロトタイプに基づく疑似ラベル生成モジュールを組み合わせた「PDP」を提案し、継続的物体検出において最先端の性能を達成したものである。

Yaoteng Zhang, Zhou Qing, Junyu Gao + 1 more2026-03-04🤖 cs.AI

AutoFFS: Adversarial Deformations for Facial Feminization Surgery Planning

本論文は、性差を学習した分類器に対する敵対的変形を用いて骨格の対照的形態を生成するデータ駆動型フレームワーク「AutoFFS」を提案し、性別適合手術（FFS）の術前計画を定量的かつ再現可能にする手法を確立したものである。

Paul Friedrich, Florentin Bieder, Florian M. Thieringer + 1 more2026-03-04⚡ eess

Loss Design and Architecture Selection for Long-Tailed Multi-Label Chest X-Ray Classification

本論文は、CXR-LT 2026 ベンチマークにおける長尾分布を伴う多ラベル胸部 X 線画像分類に対し、LDAM-DRW 損失関数と ConvNeXt-Large アーキテクチャの組み合わせが最も効果的であることを示し、68 チーム中 5 位という高い成績を収めた手法の体系的な評価と実践的知見を提示しています。

Nikhileswara Rao Sulake2026-03-04⚡ eess

HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

本論文は、画像から得られるインタラクション意図を接触認識埋め込みとして集約し、マルチモーダル大規模言語モデル（MLLM）の能力を活用して階層的なクロスモーダル統合と多粒度の幾何学的リフティングを行う新たなフレームワーク「HAMMER」を提案し、これにより既存手法を上回る精度と頑健性で3D オブジェクトの機能性（アフォードアンス）を意図駆動で局所化する手法を確立したものである。

Lei Yao, Yong Chen, Yuejiao Su + 3 more2026-03-04💻 cs

Preconditioned Score and Flow Matching

この論文は、フローマッチングおよびスコアベース拡散モデルにおいて、中間分布の共分散行列の条件数が最適化バイアスに与える影響を解析し、幾何学的な条件付けを改善する事前条件付けマップを提案することで、低分散モードの学習停滞を回避し、モデルの性能向上を実現することを示しています。

Shadab Ahamed, Eshed Gal, Simon Ghyselincks + 3 more2026-03-04🤖 cs.AI

← 前へ次へ →