cs.CV 件の論文 | Gist.Science

MPFlow: Multi-modal Posterior-Guided Flow Matching for Zero-Shot MRI Reconstruction

本論文は、追加の MRI モダリティを事前再学習なしで推論時に活用し、自己教師あり事前学習「PAMRI」によるクロスモーダルガイダンスと整合性制約を組み合わせることで、ゼロショット MRI 再構築における幻覚を抑制し、画像品質を維持しながらサンプリング効率を大幅に向上させるフレームワーク「MPFlow」を提案するものである。

Seunghoi Kim, Chen Jin, Henry F. J. Tregidgo + 2 more2026-03-05🤖 cs.AI

Order Is Not Layout: Order-to-Space Bias in Image Generation

この論文は、画像生成モデルにおけるテキストの記述順序が空間配置や役割の紐付けに誤った影響を与える「順序から空間へのバイアス（OTS）」を特定し、その原因がデータ駆動型であることを示すとともに、初期段階での介入や微調整によってこのバイアスを大幅に低減できることを実証しています。

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

Glass Segmentation with Fusion of Learned and General Visual Features

この論文は、DINOv3 と Swin モデルの双バックボーン構造を採用し、一般視覚特徴とタスク固有の学習特徴を融合させることで、透明なガラスのセグメンテーションにおいて最先端の精度と競争力のある推論速度を達成する新しいアーキテクチャを提案しています。

Risto Ojala, Tristan Ellison, Mo Chen2026-03-05💻 cs

QD-PCQA: Quality-Aware Domain Adaptation for Point Cloud Quality Assessment

本論文は、ラベル付き画像からラベルなし点雲へ品質評価の知識を転移する際、既存の手法が見過ごしていた品質のランキング感度や品質を考慮した特徴整合の課題を解決するため、ランク重み付き条件整合戦略と品質ガイド付き特徴拡張戦略を導入した新しい品質意識ドメイン適応フレームワーク「QD-PCQA」を提案し、点雲品質評価の汎化性能を大幅に向上させることを示しています。

Guohua Zhang, Jian Jin, Meiqin Liu + 2 more2026-03-05💻 cs

PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation

本論文は、ストリーミング 3D 空間エンコーダとシグナル画像特徴を融合させ、潜在空間における環境ダイナミクスの予測を学習させることで、視覚言語ナビゲーションの長期的な堅牢性と性能を大幅に向上させた統合型ストリーミングエージェント「PROSPECT」を提案するものです。

Zehua Fan, Wenqi Lyu, Wenxuan Song + 12 more2026-03-05🤖 cs.AI

DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation

本論文は、低解像度ストリームで視覚的整合性とカメラ姿勢を効率的に推定し、高解像度ストリームで細部を保持するデュアルストリームトランスフォーマー「DAGE」を提案し、2K 解像度や長系列入力に対応しながら、動画幾何学推定と多視点再構成において新たな最先端性能を達成したことを報告しています。

Tuan Duc Ngo, Jiahui Huang, Seoung Wug Oh + 4 more2026-03-05💻 cs

WSI-INR: Implicit Neural Representations for Lesion Segmentation in Whole-Slide Images

本論文は、従来のパッチ分割手法の空間的連続性の欠如を解決し、マルチ解像度ハッシュグリッド符号化と共有デコーダを備えた「WSI-INR」と呼ばれる新しいパッチフリーの Implicit Neural Representations 枠組みを提案し、病理画像における病変セグメンテーションの解像度変化に対する頑健性と精度を大幅に向上させたことを報告しています。

Yunheng Wu, Wenqi Huang, Liangyi Wang + 4 more2026-03-05💻 cs

Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding

この論文は、オープンセットの細粒度視覚理解において、知識検索と視覚的証拠の空間的結合を通じて専門家の推論を模倣する「KFRA」という新しいエージェントフレームワークと、その性能を評価するベンチマーク「FGExpertBench」を提案し、既存手法を大幅に上回る推論精度と解釈可能性を実現したことを報告しています。

Junhan Chen, Zilu Zhou, Yujun Tong + 3 more2026-03-05💻 cs

LiDAR Prompted Spatio-Temporal Multi-View Stereo for Autonomous Driving

本論文は、LiDAR 情報を幾何学的なプロンプトとして活用し、時空間一貫性を確保する新しいマルチビュー・ステレオフレームワーク「DriveMVS」を提案し、自動運転における高精度なメトリック深度推定とドメイン間一般化を実現するものである。

Qihao Sun, Jiarun Liu, Ziqian Ni + 5 more2026-03-05💻 cs

Small Object Detection in Complex Backgrounds with Multi-Scale Attention and Global Relation Modeling

この論文は、複雑な背景における小物体検出の課題を解決するため、細部を保持するウェーブレットダウンサンプリング、長距離依存性のモデル化、クロススケール注意機構、および中心支援損失を組み合わせた新しいフレームワークを提案し、RGBT-Tiny ベンチマークで最先端の性能を達成したことを報告しています。

Wenguang Tao, Xiaotian Wang, Tian Yan + 2 more2026-03-05💻 cs

TAP: A Token-Adaptive Predictor Framework for Training-Free Diffusion Acceleration

本論文は、拡散モデルの推論速度を向上させるため、追加学習なしで各トークンの動的特性に適応的に予測器を選択する「TAP（Token-Adaptive Predictor）」フレームワークを提案し、大幅な高速化と高品質な生成を両立させることを示しています。

Haowei Zhu, Tingxuan Huang, Xing Wang + 7 more2026-03-05🤖 cs.LG

When and Where to Reset Matters for Long-Term Test-Time Adaptation

本論文は、長期テスト時適応におけるモデル崩壊を回避しつつ、蓄積された有用な知識を維持するために、リセットのタイミングと対象を動的に決定する適応的・選択的リセット手法、重要度認識正則化、およびオンザフライ適応調整を組み合わせた新たなアプローチを提案し、その有効性を示しています。

Taejun Lim, Joong-Won Hwang, Kibok Lee2026-03-05🤖 cs.AI

Separators in Enhancing Autoregressive Pretraining for Vision Mamba

Vision Mamba の自己回帰事前学習において、画像の区切りを示す「STAR（Separators for AutoRegressive pretraining）」を導入することで入力シーケンス長を 4 倍に拡張し、ImageNet-1k で 83.5% の高精度を達成する手法を提案しています。

Hanpeng Liu, Zidan Wang, Shuoxi Zhang + 2 more2026-03-05🤖 cs.AI

Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10

本論文は、光吸収や散乱といった水中の視覚的課題に対処するため、画像品質向上モジュール、二重プーリング逐次注意機構、および FGIoU 損失関数を YOLOv10 に統合し、RUOD および DUO データセットで高精度かつ軽量な水中物体検出を実現する新しいフレームワークを提案しています。

Md. Mushibur Rahman, Umme Fawzia Rahim, Enam Ahmed Taufik2026-03-05💻 cs

Vector-Quantized Soft Label Compression for Dataset Distillation

本論文は、データセット蒸留における合成データと教師モデルからのソフトラベルの保存コスト、特に大規模クラス設定でのオーバーヘッドを解決するため、ソフトラベルをベクトル量子化オートエンコーダ（VQAE）で圧縮し、ImageNet-1K などのベンチマークで既存手法に比べて 30〜40 倍の圧縮率を達成しつつ性能を 90% 以上維持する手法を提案する。

Ali Abbasi, Ashkan Shahbazi, Hamed Pirsiavash + 1 more2026-03-05💻 cs

Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

本論文は、意味的に類似する概念間の局所構造の一貫性を学習・活用する「構造認識型プロンプト適応（SPA）」を提案し、既存のプロンプトチューニング手法を拡張することで、既知から未知の属性・物体への一般化を可能にするオープンボキャブラリ構成ゼロショット学習の性能を大幅に向上させることを示しています。

Yihang Duan, Jiong Wang, Pengpeng Zeng + 5 more2026-03-05💻 cs

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

本論文は、マルチモーダル推論モデルの冷間起動段階における「怠惰な注意局在化」という現象を解明し、視覚アテンションを直接制御するトレーニングフリー介入や、視覚的アンカーとアテンション誘導を組み合わせた新しい冷間起動フレームワーク「AVAR」を提案することで、Qwen2.5-VL-7B においてマルチモーダル推論性能を大幅に向上させることを示しています。

Ruilin Luo, Chufan Shi, Yizhen Zhang + 10 more2026-03-05🤖 cs.AI

Universal Pansharpening Foundation Model

本論文は、多様な衛星センサーやシーンに汎用的に適用可能なパンシャープニング基盤モデル「FoundPS」を提案し、モダリティ交差型トランスフォーマーや潜在拡散ブリッジモデルなどの新手法により、既存手法の限界を克服して高い一般化性能と頑健性を達成したことを示しています。

Hebaixu Wang, Jing Zhang, Haonan Guo + 4 more2026-03-05💻 cs

All-in-One Image Restoration via Causal-Deconfounding Wavelet-Disentangled Prompt Network

この論文は、画像復元における偽相関と偏った劣化推定の課題を解決するため、ウェーブレット変換を用いて劣化と意味特徴を分離し、因果的デコンファウンディングを行う「CWP-Net」という新しいオールインワン画像復元モデルを提案し、その有効性を示しています。

Bingnan Wang, Bin Qin, Jiangmeng Li + 3 more2026-03-05💻 cs

DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

本論文は、人間が雑音環境下で視覚的証拠を特定し文脈と関連付ける能力に着想を得て、階層的スキャン、リフォーカス、証拠強化推論を組み合わせた訓練不要のフレームワーク「DeepScan」を提案し、大規模視覚言語モデルの視覚的根拠に基づく推論能力、特に微細な視覚理解の精度を大幅に向上させることを示しています。

Yangfu Li, Hongjian Zhan, Jiawei Chen + 3 more2026-03-05💻 cs

← 前へ次へ →