MPFlow: Multi-modal Posterior-Guided Flow Matching for Zero-Shot MRI Reconstruction

本論文は、追加の MRI モダリティを事前再学習なしで推論時に活用し、自己教師あり事前学習「PAMRI」によるクロスモーダルガイダンスと整合性制約を組み合わせることで、ゼロショット MRI 再構築における幻覚を抑制し、画像品質を維持しながらサンプリング効率を大幅に向上させるフレームワーク「MPFlow」を提案するものである。

Seunghoi Kim, Chen Jin, Henry F. J. Tregidgo + 2 more2026-03-05🤖 cs.AI

Order Is Not Layout: Order-to-Space Bias in Image Generation

この論文は、画像生成モデルにおけるテキストの記述順序が空間配置や役割の紐付けに誤った影響を与える「順序から空間へのバイアス(OTS)」を特定し、その原因がデータ駆動型であることを示すとともに、初期段階での介入や微調整によってこのバイアスを大幅に低減できることを実証しています。

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

QD-PCQA: Quality-Aware Domain Adaptation for Point Cloud Quality Assessment

本論文は、ラベル付き画像からラベルなし点雲へ品質評価の知識を転移する際、既存の手法が見過ごしていた品質のランキング感度や品質を考慮した特徴整合の課題を解決するため、ランク重み付き条件整合戦略と品質ガイド付き特徴拡張戦略を導入した新しい品質意識ドメイン適応フレームワーク「QD-PCQA」を提案し、点雲品質評価の汎化性能を大幅に向上させることを示しています。

Guohua Zhang, Jian Jin, Meiqin Liu + 2 more2026-03-05💻 cs

PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation

本論文は、ストリーミング 3D 空間エンコーダとシグナル画像特徴を融合させ、潜在空間における環境ダイナミクスの予測を学習させることで、視覚言語ナビゲーションの長期的な堅牢性と性能を大幅に向上させた統合型ストリーミングエージェント「PROSPECT」を提案するものです。

Zehua Fan, Wenqi Lyu, Wenxuan Song + 12 more2026-03-05🤖 cs.AI

DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation

本論文は、低解像度ストリームで視覚的整合性とカメラ姿勢を効率的に推定し、高解像度ストリームで細部を保持するデュアルストリームトランスフォーマー「DAGE」を提案し、2K 解像度や長系列入力に対応しながら、動画幾何学推定と多視点再構成において新たな最先端性能を達成したことを報告しています。

Tuan Duc Ngo, Jiahui Huang, Seoung Wug Oh + 4 more2026-03-05💻 cs

WSI-INR: Implicit Neural Representations for Lesion Segmentation in Whole-Slide Images

本論文は、従来のパッチ分割手法の空間的連続性の欠如を解決し、マルチ解像度ハッシュグリッド符号化と共有デコーダを備えた「WSI-INR」と呼ばれる新しいパッチフリーの Implicit Neural Representations 枠組みを提案し、病理画像における病変セグメンテーションの解像度変化に対する頑健性と精度を大幅に向上させたことを報告しています。

Yunheng Wu, Wenqi Huang, Liangyi Wang + 4 more2026-03-05💻 cs

Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding

この論文は、オープンセットの細粒度視覚理解において、知識検索と視覚的証拠の空間的結合を通じて専門家の推論を模倣する「KFRA」という新しいエージェントフレームワークと、その性能を評価するベンチマーク「FGExpertBench」を提案し、既存手法を大幅に上回る推論精度と解釈可能性を実現したことを報告しています。

Junhan Chen, Zilu Zhou, Yujun Tong + 3 more2026-03-05💻 cs

Small Object Detection in Complex Backgrounds with Multi-Scale Attention and Global Relation Modeling

この論文は、複雑な背景における小物体検出の課題を解決するため、細部を保持するウェーブレットダウンサンプリング、長距離依存性のモデル化、クロススケール注意機構、および中心支援損失を組み合わせた新しいフレームワークを提案し、RGBT-Tiny ベンチマークで最先端の性能を達成したことを報告しています。

Wenguang Tao, Xiaotian Wang, Tian Yan + 2 more2026-03-05💻 cs

When and Where to Reset Matters for Long-Term Test-Time Adaptation

本論文は、長期テスト時適応におけるモデル崩壊を回避しつつ、蓄積された有用な知識を維持するために、リセットのタイミングと対象を動的に決定する適応的・選択的リセット手法、重要度認識正則化、およびオンザフライ適応調整を組み合わせた新たなアプローチを提案し、その有効性を示しています。

Taejun Lim, Joong-Won Hwang, Kibok Lee2026-03-05🤖 cs.AI

Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10

本論文は、光吸収や散乱といった水中の視覚的課題に対処するため、画像品質向上モジュール、二重プーリング逐次注意機構、および FGIoU 損失関数を YOLOv10 に統合し、RUOD および DUO データセットで高精度かつ軽量な水中物体検出を実現する新しいフレームワークを提案しています。

Md. Mushibur Rahman, Umme Fawzia Rahim, Enam Ahmed Taufik2026-03-05💻 cs

Vector-Quantized Soft Label Compression for Dataset Distillation

本論文は、データセット蒸留における合成データと教師モデルからのソフトラベルの保存コスト、特に大規模クラス設定でのオーバーヘッドを解決するため、ソフトラベルをベクトル量子化オートエンコーダ(VQAE)で圧縮し、ImageNet-1K などのベンチマークで既存手法に比べて 30〜40 倍の圧縮率を達成しつつ性能を 90% 以上維持する手法を提案する。

Ali Abbasi, Ashkan Shahbazi, Hamed Pirsiavash + 1 more2026-03-05💻 cs

Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

本論文は、意味的に類似する概念間の局所構造の一貫性を学習・活用する「構造認識型プロンプト適応(SPA)」を提案し、既存のプロンプトチューニング手法を拡張することで、既知から未知の属性・物体への一般化を可能にするオープンボキャブラリ構成ゼロショット学習の性能を大幅に向上させることを示しています。

Yihang Duan, Jiong Wang, Pengpeng Zeng + 5 more2026-03-05💻 cs

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

本論文は、マルチモーダル推論モデルの冷間起動段階における「怠惰な注意局在化」という現象を解明し、視覚アテンションを直接制御するトレーニングフリー介入や、視覚的アンカーとアテンション誘導を組み合わせた新しい冷間起動フレームワーク「AVAR」を提案することで、Qwen2.5-VL-7B においてマルチモーダル推論性能を大幅に向上させることを示しています。

Ruilin Luo, Chufan Shi, Yizhen Zhang + 10 more2026-03-05🤖 cs.AI

All-in-One Image Restoration via Causal-Deconfounding Wavelet-Disentangled Prompt Network

この論文は、画像復元における偽相関と偏った劣化推定の課題を解決するため、ウェーブレット変換を用いて劣化と意味特徴を分離し、因果的デコンファウンディングを行う「CWP-Net」という新しいオールインワン画像復元モデルを提案し、その有効性を示しています。

Bingnan Wang, Bin Qin, Jiangmeng Li + 3 more2026-03-05💻 cs

DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

本論文は、人間が雑音環境下で視覚的証拠を特定し文脈と関連付ける能力に着想を得て、階層的スキャン、リフォーカス、証拠強化推論を組み合わせた訓練不要のフレームワーク「DeepScan」を提案し、大規模視覚言語モデルの視覚的根拠に基づく推論能力、特に微細な視覚理解の精度を大幅に向上させることを示しています。

Yangfu Li, Hongjian Zhan, Jiawei Chen + 3 more2026-03-05💻 cs