Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

本論文は、多画像推論における推論型 VLM の注意メカニズムに存在する「拡散的なパルス」や位置バイアスという課題を特定し、推論時に画像の計画と焦点を明示的に制御するトレーニング不要の手法「PulseFocus」を提案することで、BLINK や MuirBench などのベンチマークで性能向上を実現したことを報告しています。

Chenjun Li2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

マルチモーダル大規模言語モデル(MLLM)をゼロショットで異常検知に応用する研究において、現状のモデルは正常クラスへの過度なバイアスによりリコールが極端に低下する課題があるものの、クラス固有の指示を用いることで性能を大幅に改善できる可能性が示されました。

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

本論文は、リソース制約のある環境でのテスト時適応(TTA)向けに、バックプロパゲーション不要かつメモリ効率が良く、中間特徴統計量と予測エントロピーを最適化するゼロ次順方向最適化手法「FOZO」を提案し、ImageNet 系列のベンチマークや量子化モデルにおいて既存の勾配ベース手法や先行するフォワードオンリー手法を上回る性能を実証したものである。

Xingyu Wang, Tao Wang2026-03-06💻 cs

Toward Real-world Infrared Image Super-Resolution: A Unified Autoregressive Framework and Benchmark Dataset

この論文は、現実世界の赤外線画像の超解像課題に対処するため、熱的・構造的ガイダンスを用いた統一的な自己回帰フレームワーク「Real-IISR」と、実環境で取得されたペアデータセット「FLIR-IISR」を提案し、物理的整合性を保ちながら高品質な画像復元を実現するものです。

Yang Zou, Jun Ma, Zhidong Jiao + 3 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

本論文は、GPT-5 が医療テキスト推論や画像診断の統合において GPT-4o よりも大幅に向上したことを示す一方で、神経放射線学や専門的な乳房画像診断といった高度に専門化された領域では依然として専門特化型モデルに劣るため、一般目的の基盤モデルは特定タスク向けシステムを完全に代替する段階には至っていないと結論付けています。

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

Evaluating and Correcting Human Annotation Bias in Dynamic Micro-Expression Recognition

本論文は、多文化環境におけるマイクロ表情認識の人間によるアノテーション誤差を軽減するため、キーフレームの動的再選択と共有パラメータを持つ二ブランチ構造を用いた「グローバル反単調微分選択戦略(GAMDSS)」を提案し、既存モデルのパラメータ増加なしに認識性能を向上させることを示しています。

Feng Liu, Bingyu Nan, Xuezhong Qian + 1 more2026-03-06💻 cs

MADCrowner: Margin Aware Dental Crown Design with Template Deformation and Refinement

本論文は、臨床ワークフローに着想を得たテンプレート変形とマージンセグメンテーションを組み合わせることで、既存の手法が抱える解像度やノイズ、過剰な表面復元といった課題を克服し、幾何学的精度と臨床的有用性の両面で優れた自動歯科クラウン設計フレームワーク「MADCrowner」を提案するものである。

Linda Wei, Chang Liu, Wenran Zhang + 9 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

本論文は、エッジデバイスで生画像を数学的に不可逆な抽象特徴ベクトルに変換し、クラウドで動的輪郭言語を用いて行動認識と意味的再構成を行う「AI Flow」パラダイムに基づく新たなプライバシー保護知覚フレームワーク「Privacy-Aware Camera 2.0」を提案し、プライバシー保護と証拠能力の両立を実現するものである。

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

LAW & ORDER: Adaptive Spatial Weighting for Medical Diffusion and Segmentation

この論文は、医療画像の病変領域と背景の空間的不均衡に対処するため、拡散モデルの学習に適応的な重み付けを行う「LAW」と、効率的なセグメンテーションを実現する「ORDER」という 2 つのネットワークアダプターを提案し、合成データの質向上とセグメンテーション精度の大幅な改善、および計算コストの低減を実証しています。

Anugunj Naman, Ayushman Singh, Gaibo Zhang + 1 more2026-03-06💻 cs

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

本論文は、マルチモーダル大規模言語モデルにおけるポストトレーニング量子化の課題である平滑化の不一致とクロスモーダル計算不変性を解決するため、モダリティ固有の平滑化と SVD whitening を用いたクロスモーダル補償を組み合わせた新しいフレームワーク「MASQuant」を提案し、その有効性を示すものである。

Lulu Hu, Wenhu Xiao, Xin Chen + 4 more2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

CLIP の視覚エンコーダが持つ識別能力と詳細知覚能力の両方を同時に向上させるため、拡散モデルによる画像再構成プロセスに、再構成された画像から得られる対照信号を注入する「Diffusion Contrastive Reconstruction (DCR)」を提案し、勾配競合を回避してバランスの取れた視覚表現を実現する手法を提示しています。

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

本論文は、MRI シーケンスや撮像平面といったカテゴリカルなメタデータを明示的に活用して特徴抽出を導く「Meta-D」というアーキテクチャを提案し、2D 腫瘍検出における F1 スコアの向上と、モダリティが欠損した 3D 脳腫瘍セグメンテーションにおける精度向上およびモデル軽量化を実現したことを報告しています。

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

Revisiting Shape from Polarization in the Era of Vision Foundation Models

本論文は、高品質な実物 3D スキャンデータと事前学習済み DINOv3 の事前知識、およびセンサーノイズを考慮したデータ拡張を活用することで、少量データと軽量モデルでも RGB 単独のビジョン基盤モデルを上回る偏光からの形状復元(SfP)を実現し、偏光モダリティの有効性を再評価した研究です。

Chenhao Li, Taishi Ono, Takeshi Uemori + 1 more2026-03-06💻 cs

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

この論文は、インスタンス依存の部分的ラベル学習におけるインスタンスの絡み合い問題を解決するため、クラス固有の特徴を強化するデータ拡張と曖昧なラベルに対する重み付けペナルティを組み合わせた新規な「CAD」フレームワークを提案し、クラス境界の明確化と分類性能の向上を実現したことを示しています。

Rui Zhao, Bin Shi, Kai Sun + 1 more2026-03-06🤖 cs.LG

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

本論文は、単一のパラダイムに依存する既存の手法の限界を克服し、視覚と言語の多様な表現を統合して最適化を行う「多パラダイム協調攻撃(MPCAttack)」フレームワークを提案することで、マルチモーダル大規模言語モデルに対する敵対的攻撃の転移性を飛躍的に向上させることを示しています。

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs