cs.CV 件の論文 | Gist.Science

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

この論文は、正解が一意に定まらないタスクにおける強化学習の課題を解決するため、正解との比較ではなく「誤りを列挙・重み付けする Implicit Error Counting (IEC)」手法を提案し、バーチャル試着領域での評価基準としてその有効性を示しています。

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI

Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

この論文は、動画時刻定位タスクにおいて、クエリに不可欠なエビデンスとフレーム間接続性を維持する「エビデンス保持」と「接続強度」という 2 つの原則に基づき、学習不要でトークン剪定を行う新たなフレームワーク「SemVID」を提案し、大幅な推論高速化を達成しながら高い精度を維持することを示しています。

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

本論文は、心臓 cine MRI の高速再構築において、高周波成分の表現を可能にするガボールプリミティブと、心臓運動とコントラスト変化を低ランク基底で分解する時空間冗長性の活用を提案し、既存手法を上回る性能と物理的に解釈可能なパラメータを提供する手法を提示しています。

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

OWL: A Novel Approach to Machine Perception During Motion

本論文は、静止環境やカメラ運動の事前知識を必要とせず、視覚運動の手がかりのみからリアルタイムでスケーリングされた 3 次元再構成やカメラの進行方向を推定できる新たな知覚関数「OWL」を提案し、ロボットや自律ナビゲーションにおける次世代システムの実現に貢献する可能性を示しています。

Daniel Raviv, Juan D. Yepes2026-03-09💻 cs

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

この論文は、異なる時点の MRI 画像から病変領域を 3D 解剖学的連続性を保ちながら高精度かつ効率的に補完する、新しい縦断的 3D 領域認識拡散モデル（RAD）に基づくフレームワークを提案し、既存手法を大幅に上回る性能と処理速度を実証したものである。

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

本論文は、大規模な異種マルチモーダルコーパスからの情報検索と推論を同時に評価する初のベンチマーク「MultiHaystack」を提案し、既存のモデルが証拠を直接提供された場合と比較して、コーパスからの検索を必要とするタスクでは性能が著しく低下する課題を明らかにしたものです。

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Interpretable Perception and Reasoning for Audiovisual Geolocation

この論文は、視覚情報の曖昧さを補完する解釈可能な聴覚知覚と推論を組み合わせた新しいフレームワーク「Audiovisual Geolocation」を提案し、大規模な音声・動画ベンチマーク「AVG」と GRPO による多モーダル推論、リーマン流マッチングを用いた高精度な予測により、従来の単一モーダル手法を大幅に上回るグローバルな位置特定を実現したことを示しています。

Yiyang Su, Xiaoming Liu2026-03-09💻 cs

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

本論文は、事前学習された単眼深度推定モデルをスケーリングプロンプトで適応させるワンステージのフレームワーク「Any2Full」を提案し、既存の手法よりも高いロバスト性と効率性で深度補完を実現するものである。

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang2026-03-09💻 cs

Interpretable Motion Artificat Detection in structural Brain MRI

本論文は、2 次元と 3 次元の DHoGM 特徴量を統合した軽量かつ解釈可能なフレームワークを提案し、学習済みデータや未知の施設からのデータにおいても高い精度で脳 MRI のモーションアーチファクトを検出する手法を開発したものである。

Naveetha Nithianandam, Prabhjot Kaur, Anil Kumar Sao2026-03-09💻 cs

Unlocking ImageNet's Multi-Object Nature: Automated Large-Scale Multilabel Annotation

この論文は、自己教師ありビジョントランスフォーマーを用いた自動パイプラインを開発し、人間の注釈なしで ImageNet 訓練セットをマルチラベル形式に変換することで、単一ラベル仮説の限界を克服し、分類精度と転移学習能力の両方を向上させることを提案しています。

Junyu Chen, Md Yousuf Harun, Christopher Kanan2026-03-09💻 cs

From Phase Grounding to Intelligent Surgical Narratives

この論文は、CLIP ベースの多モーダルフレームワークを用いて手術動画を自動解析し、手技やフェーズをテキスト記述と整合させることで、外科医による手動注釈や曖昧な術後報告に代わる構造化された手術タイムラインとナラティブを生成する手法を提案しています。

Ethan Peterson, Huixin Zhan2026-03-09💻 cs

Uni-LVC: A Unified Method for Intra- and Inter-Mode Learned Video Compression

本論文は、信頼性の低い参照フレームに対しても適応的に動作し、単一モデルで低遅延およびランダムアクセスの両方に対応する、学習型動画圧縮の新しい統一手法「Uni-LVC」を提案し、従来の手法を上回る圧縮効率を実現することを示しています。

Yichi Zhang, Ruoyu Yang, Fengqing Zhu2026-03-09💻 cs

Full Dynamic Range Sky-Modelling For Image Based Lighting

本論文は、深層学習を用いた既存の空モデルが抱える高ダイナミックレンジにおける太陽領域の再現性不足を克服し、ユーザーが太陽や雲の配置を直感的に制御できる完全ダイナミックレンジ対応の物理的忠実度を持つ新しい空モデル「Icarus」を提案し、画像ベースライティングにおける画期的な写実性と照明精度の実現を示すものです。

Ian J. Maquignaz2026-03-09🤖 cs.LG

Bridging Domains through Subspace-Aware Model Merging

この論文は、異なるドメインで微調整されたモデルの合併時に生じる特異部分空間の競合を、すべてのモデルの主要特異ベクトルを結合して共通直交基底を求め、競合する特異方向を剪除する「SCORE」という手法で解決し、ドメイン一般化性能を向上させることを提案しています。

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

本論文は、拡散トランスフォーマーにおいてトレーニング不要でプラグアンドプレイ方式で動作し、画像生成の初期段階における潜在構造の再構成とレイヤーごとの注意機構強化を通じて、領域ごとの制御と奥行き順序（遮蔽関係）の正確な制御を可能にする「LayerBind」という手法を提案するものである。

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

この論文は、ビジョントランスフォーマーのパッチ特徴から学習したスパースオートエンコーダの視覚単語活性化に BM25 スコアリングを適用した「BM25-V」を提案し、その高い解釈性と効率的な 2 段階検索パイプラインにより、密なリランキングと同等の精度を維持しつつ大規模画像検索を可能にすることを示しています。

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Spectral Probing of Feature Upsamplers in 2D-to-3D Scene Reconstruction

この論文は、2D から 3D へのシーン再構築における特徴量アップサンプラーの性能を評価するスペクトル診断フレームワークを提案し、空間的な詳細の強調よりもスペクトル構造の保存が再構築品質を決定づける重要な要因であることを示しています。

Ling Xiao, Yuliang Xiu, Yue Chen, Guoming Wang, Toshihiko Yamasaki2026-03-09💻 cs

EventGeM: Global-to-Local Feature Matching for Event-Based Visual Place Recognition

本論文は、イベントカメラのスパース性と高時間分解能を活用し、事前学習済み ViT と MaxViT、および深度推定モデルを組み合わせたグローバル・ローカル特徴融合パイプライン「EventGeM」を提案し、リアルタイムかつ高精度な視覚的場所認識を実現するものです。

Adam D. Hines, Gokul B. Nair, Nicolás Marticorena, Michael Milford, Tobias Fischer2026-03-09💻 cs

Training-free Latent Inter-Frame Pruning with Attention Recovery

この論文は、動画生成モデルの計算遅延を軽減するため、学習不要でフレーム間の重複潜在パッチを剪定し、注意機構の回復メカニズムによって視覚的アーティファクトを抑制する「LIPAR」フレームワークを提案し、生成品質を維持しつつ処理速度を約 1.45 倍に向上させることを示しています。

Dennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu2026-03-09💻 cs

Margin and Consistency Supervision for Calibrated and Robust Vision Models

この論文は、分類マージンの拡大と入力摂動に対する予測の一貫性を同時に強制する新しい正則化フレームワーク「MaCS」を提案し、既存のアーキテクチャや追加データなしで、視覚モデルの較正精度とロバスト性を向上させつつ精度を維持または改善できることを示しています。

Salim Khazem2026-03-09🤖 cs.AI

← 前へ次へ →