cs.CV 件の論文 | Gist.Science

SRNeRV: A Scale-wise Recursive Framework for Neural Video Representation

本論文は、インプリシット・ニューラル・リプレゼンテーション（INR）におけるパラメータ冗長性を解消し、空間混合モジュールとチャネル混合モジュールを分離したハイブリッド共有方式を採用することで、スケーラごとの処理を効率的に再帰的に実行する新たなフレームワーク「SRNeRV」を提案し、大幅なモデル縮小とレート歪み性能の向上を実現したものである。

Jia Wang, Jun Zhu, Xinfeng Zhang2026-03-10💻 cs

GarmentPainter: Efficient 3D Garment Texture Synthesis with Character-Guided Diffusion Model

本論文は、キャラクターの参照画像と UV 位置マップを活用して、3D 整合性を保ちつつ効率的に高品質な衣類テクスチャを合成する新しいフレームワーク「GarmentPainter」を提案し、既存手法を上回る性能を達成したことを報告しています。

Jinbo Wu, Xiaobo Gao, Xing Liu, Chen Zhao, Jialun Liu2026-03-10💻 cs

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

本論文は、MICCAI 2024 で公開された UWF4DR チェレンジデータセットを用い、深層学習モデル（CNN、ViT、基盤モデル）と広視野画像（UWF）を組み合わせることで、画像品質評価、参照可能な糖尿病網膜症の検出、および糖尿病性黄斑浮腫の検出という 3 つの臨床タスクにおいて高い性能を達成し、特徴レベルの融合や周波数領域表現の有効性を示した研究です。

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

この論文は、センサー欠損時にも単一モダリティで動作可能な協調知覚フレームワーク「SiMO」を提案し、長さ適応型マルチモーダル融合（LAMMA）と「Pretrain-Align-Fuse-RD」学習戦略によって、モダリティ間の競合を解消しつつ単一モダリティとマルチモーダル双方で最適な性能を維持することを示しています。

Jiageng Wen, Shengjie Zhao, Bing Li, Jiafeng Huang, Kenan Ye, Hao Deng2026-03-10💻 cs

Topologically Stable Hough Transform

この論文は、古典的なホーグ変換の離散化投票方式を連続的なスコア関数に置き換え、パーシステントホモロジーの持続的特徴を用いて点群から直線を検出する新しい手法とその効率的なアルゴリズムを提案しています。

Stefan Huber, Kristóf Huszár, Michael Kerber, Martin Uray2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

本論文は、自律走行における動的な 4 次元シーン再構成の課題を解決するため、VGGT を拡張し、時相対応や運動意識型注意機構、および 3D ガウススプラッティングを用いて動的な点の動きを効率的に学習するユニファイドなフードフォワードフレームワーク「DynamicVGGT」を提案するものである。

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

この論文は、拡散モデルの重み変化がノルムよりも方向に依存することを発見し、これを低ランク回転行列で効率的にモデル化する「WaDi」と呼ばれる新しいワンステップ画像合成蒸留フレームワークを提案し、従来の手法よりもはるかに少ない学習パラメータで最先端の生成品質と汎用性を達成したことを示しています。

Lei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang2026-03-10💻 cs

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

本論文は、高速な物体追跡においてモーションブラーやフレームレート制限に直面する従来の RGB-D カメラの課題を解決するため、イベントカメラの高時間分解能を活用し、イベントベースのオプティカルフローによる姿勢推定とテンプレートベースの姿勢補正を融合した学習不要な 6 次元物体姿勢追跡手法を提案するものです。

Zhichao Li, Chiara Bartolozzi, Lorenzo Natale, Arren Glover2026-03-10💻 cs

Prototype-Guided Concept Erasure in Diffusion Models

この論文は、既存の手法では除去が困難だった「性的」や「暴力的」などの広範な概念を、モデルの潜在空間における概念プロトタイプを特定し負の条件付けに利用することで、画像品質を損なわずに確実かつ精密に除去する新しいアプローチを提案しています。

Yuze Cai, Jiahao Lu, Hongxiang Shi, Yichao Zhou, Hong Lu2026-03-10💻 cs

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

本論文は、超音波画像の陰影や視点依存性を克服し、アノテーションなしで脊椎の完全な 3D 形状を再構成するための、音響パラメータとニューラルインプリシット表現を統合した新しい手法「OSCAR」を提案し、既存の手法を大幅に上回る精度を達成したことを示しています。

Magdalena Wysocki, Kadir Burak Buldu, Miruna-Alexandra Gafencu, Mohammad Farid Azampour, Nassir Navab2026-03-10💻 cs

Novel Semantic Prompting for Zero-Shot Action Recognition

この論文は、視覚言語モデルの可視エンコーダーを変更せず、意図や運動、物体相互作用など多段階の抽象度で記述された構造化されたセマンティックプロンプトを導入する軽量フレームワーク「SP-CLIP」を提案し、ゼロショット行動認識の精度、特に細粒度および構成的な行動の認識を大幅に向上させることを示しています。

Salman Iqbal, Waheed Rehman2026-03-10💻 cs

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

本論文は、放射線レポートに基づいて 3D 視覚言語エンコーダで関連する臨床事例を検索し、その解剖学的注釈を ControlNet を介して注入することで、テキスト条件付き潜在拡散モデルを用いた CT 画像生成において、意味的な制御と解剖学的な整合性を両立させる新しい手法を提案するものです。

Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi2026-03-10💻 cs

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

本論文は、大規模言語モデルと視覚言語モデルを用いて自動生成された概念マスクに基づき、ビジョン・トランスフォーマーの内部関連性マップを最適化することで、背景などの偽相関への依存を減らし、分布外データに対する頑健性と解釈可能性を向上させる新しいファインチューニング手法を提案し、その有効性を複数のベンチマークで実証したものである。

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

本論文は、従来の 2D 画像融合の限界を克服し、DINO 特徴量や生成事前知識を活用した 4 次元時空間モデルにより、単眼動画から高ダイナミックレンジ（HDR）の放射輝度場と 3 次元シーンフローを統合的に再構築する「HDR-NSFF」を提案し、動的シーンにおける HDR 空間時間ビュー合成の最先端性能を達成したものである。

Shin Dong-Yeon, Kim Jun-Seong, Kwon Byung-Ki, Tae-Hyun Oh2026-03-10💻 cs

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

本論文は、VLM ベースの GUI エージェントの応答効率を標的とし、特定のトリガーにより過剰な推論連鎖を誘発して遅延を引き起こす新たなバックドア攻撃「SlowBA」を提案し、その有効性と潜在的な脅威を実証しています。

Junxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu2026-03-10💬 cs.CL

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

この論文は、Epic Kitchens データセットから作成された最小識別可能領域（MIRCs）を用いた大規模な人間と AI の比較研究を通じて、人間が空間的・時間的制約下でも手と物体の相互作用などの重要な視覚的手がかりに依存して行動認識を行うのに対し、AI モデルは文脈や低レベルの特徴に依存し、人間とは異なる認識パターンを示すことを明らかにしています。

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

この論文は、デジタル病理におけるマルチインスタンス学習モデルのヒートマップの妥当性を検証する新たな枠組みを提案し、アテンションや勾配に基づく手法よりも摂動法や層別関連性伝播（LRP）などの説明手法がモデルの意思決定をより正確に反映し、生物学的な洞察をもたらすことを大規模ベンチマークと実証実験を通じて示しています。

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

← 前へ次へ →

cs.CV

SRNeRV: A Scale-wise Recursive Framework for Neural Video Representation

GarmentPainter: Efficient 3D Garment Texture Synthesis with Character-Guided Diffusion Model

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

Topologically Stable Hough Transform

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

Prototype-Guided Concept Erasure in Diffusion Models

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

Novel Semantic Prompting for Zero-Shot Action Recognition

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Local-Global Prompt Learning via Sparse Optimal Transport

$\Delta$ VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation

cs.CV

SRNeRV: A Scale-wise Recursive Framework for Neural Video Representation

GarmentPainter: Efficient 3D Garment Texture Synthesis with Character-Guided Diffusion Model

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

Topologically Stable Hough Transform

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

Prototype-Guided Concept Erasure in Diffusion Models

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

Novel Semantic Prompting for Zero-Shot Action Recognition

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Local-Global Prompt Learning via Sparse Optimal Transport

Δ\DeltaΔVLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation

$\Delta$ VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation