cs.CV 件の論文 | Gist.Science

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

本論文は、多画像推論における推論型 VLM の注意メカニズムに存在する「拡散的なパルス」や位置バイアスという課題を特定し、推論時に画像の計画と焦点を明示的に制御するトレーニング不要の手法「PulseFocus」を提案することで、BLINK や MuirBench などのベンチマークで性能向上を実現したことを報告しています。

Chenjun Li2026-03-06💻 cs

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

本論文は、リソース制約のある環境での展開を可能にするため、剪定、量子化、知識蒸留という 3 つの圧縮手法をハイパースペクトル画像分類タスクで体系的に評価し、モデルサイズと計算コストを大幅に削減しつつ高い分類精度を維持できることを実証した研究です。

Sai Shi2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

マルチモーダル大規模言語モデル（MLLM）をゼロショットで異常検知に応用する研究において、現状のモデルは正常クラスへの過度なバイアスによりリコールが極端に低下する課題があるものの、クラス固有の指示を用いることで性能を大幅に改善できる可能性が示されました。

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

本論文は、リソース制約のある環境でのテスト時適応（TTA）向けに、バックプロパゲーション不要かつメモリ効率が良く、中間特徴統計量と予測エントロピーを最適化するゼロ次順方向最適化手法「FOZO」を提案し、ImageNet 系列のベンチマークや量子化モデルにおいて既存の勾配ベース手法や先行するフォワードオンリー手法を上回る性能を実証したものである。

Xingyu Wang, Tao Wang2026-03-06💻 cs

Toward Real-world Infrared Image Super-Resolution: A Unified Autoregressive Framework and Benchmark Dataset

この論文は、現実世界の赤外線画像の超解像課題に対処するため、熱的・構造的ガイダンスを用いた統一的な自己回帰フレームワーク「Real-IISR」と、実環境で取得されたペアデータセット「FLIR-IISR」を提案し、物理的整合性を保ちながら高品質な画像復元を実現するものです。

Yang Zou, Jun Ma, Zhidong Jiao + 3 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

本論文は、GPT-5 が医療テキスト推論や画像診断の統合において GPT-4o よりも大幅に向上したことを示す一方で、神経放射線学や専門的な乳房画像診断といった高度に専門化された領域では依然として専門特化型モデルに劣るため、一般目的の基盤モデルは特定タスク向けシステムを完全に代替する段階には至っていないと結論付けています。

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

Evaluating and Correcting Human Annotation Bias in Dynamic Micro-Expression Recognition

本論文は、多文化環境におけるマイクロ表情認識の人間によるアノテーション誤差を軽減するため、キーフレームの動的再選択と共有パラメータを持つ二ブランチ構造を用いた「グローバル反単調微分選択戦略（GAMDSS）」を提案し、既存モデルのパラメータ増加なしに認識性能を向上させることを示しています。

Feng Liu, Bingyu Nan, Xuezhong Qian + 1 more2026-03-06💻 cs

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

本論文は、低解像度入力からの動的 DSA 画像の超解像再構成を可能にする新たなフレームワーク「DSA-SRGS」を提案し、マルチフィデリティなテクスチャ学習と放射サブピクセル密化技術により、血管の詳細な構造を高精度に復元することを示しています。

Shiyu Zhang, Zhicong Wu, Huangxuan Zhao + 7 more2026-03-06💻 cs

MADCrowner: Margin Aware Dental Crown Design with Template Deformation and Refinement

本論文は、臨床ワークフローに着想を得たテンプレート変形とマージンセグメンテーションを組み合わせることで、既存の手法が抱える解像度やノイズ、過剰な表面復元といった課題を克服し、幾何学的精度と臨床的有用性の両面で優れた自動歯科クラウン設計フレームワーク「MADCrowner」を提案するものである。

Linda Wei, Chang Liu, Wenran Zhang + 9 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

本論文は、エッジデバイスで生画像を数学的に不可逆な抽象特徴ベクトルに変換し、クラウドで動的輪郭言語を用いて行動認識と意味的再構成を行う「AI Flow」パラダイムに基づく新たなプライバシー保護知覚フレームワーク「Privacy-Aware Camera 2.0」を提案し、プライバシー保護と証拠能力の両立を実現するものである。

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

RMK RetinaNet: Rotated Multi-Kernel RetinaNet for Robust Oriented Object Detection in Remote Sensing Imagery

リモートセンシング画像における回転物体検出の課題を解決するため、多スケール特徴抽出、文脈モデル化、空間詳細の保持、および角度回帰の安定性を向上させる新たなアーキテクチャ「RMK RetinaNet」を提案し、複数のデータセットで最先端の性能を実証した論文です。

Huiran Sun2026-03-06💻 cs

LAW & ORDER: Adaptive Spatial Weighting for Medical Diffusion and Segmentation

この論文は、医療画像の病変領域と背景の空間的不均衡に対処するため、拡散モデルの学習に適応的な重み付けを行う「LAW」と、効率的なセグメンテーションを実現する「ORDER」という 2 つのネットワークアダプターを提案し、合成データの質向上とセグメンテーション精度の大幅な改善、および計算コストの低減を実証しています。

Anugunj Naman, Ayushman Singh, Gaibo Zhang + 1 more2026-03-06💻 cs

Comparative Evaluation of Traditional Methods and Deep Learning for Brain Glioma Imaging. Review Paper

この論文は、脳膠腫の画像解析における従来の手法と深層学習（特に畳み込みニューラルネットワーク）を比較評価し、後者がセグメンテーションや分類タスクにおいて従来手法を上回る性能を示すことを示唆しています。

Kiranmayee Janardhan, Vinay Martin DSa Prabhu, T. Christy Bobby2026-03-06💻 cs

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

本論文は、マルチモーダル大規模言語モデルにおけるポストトレーニング量子化の課題である平滑化の不一致とクロスモーダル計算不変性を解決するため、モダリティ固有の平滑化と SVD whitening を用いたクロスモーダル補償を組み合わせた新しいフレームワーク「MASQuant」を提案し、その有効性を示すものである。

Lulu Hu, Wenhu Xiao, Xin Chen + 4 more2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

CLIP の視覚エンコーダが持つ識別能力と詳細知覚能力の両方を同時に向上させるため、拡散モデルによる画像再構成プロセスに、再構成された画像から得られる対照信号を注入する「Diffusion Contrastive Reconstruction (DCR)」を提案し、勾配競合を回避してバランスの取れた視覚表現を実現する手法を提示しています。

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

本論文は、MRI シーケンスや撮像平面といったカテゴリカルなメタデータを明示的に活用して特徴抽出を導く「Meta-D」というアーキテクチャを提案し、2D 腫瘍検出における F1 スコアの向上と、モダリティが欠損した 3D 脳腫瘍セグメンテーションにおける精度向上およびモデル軽量化を実現したことを報告しています。

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

Revisiting Shape from Polarization in the Era of Vision Foundation Models

本論文は、高品質な実物 3D スキャンデータと事前学習済み DINOv3 の事前知識、およびセンサーノイズを考慮したデータ拡張を活用することで、少量データと軽量モデルでも RGB 単独のビジョン基盤モデルを上回る偏光からの形状復元（SfP）を実現し、偏光モダリティの有効性を再評価した研究です。

Chenhao Li, Taishi Ono, Takeshi Uemori + 1 more2026-03-06💻 cs

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

この論文は、インスタンス依存の部分的ラベル学習におけるインスタンスの絡み合い問題を解決するため、クラス固有の特徴を強化するデータ拡張と曖昧なラベルに対する重み付けペナルティを組み合わせた新規な「CAD」フレームワークを提案し、クラス境界の明確化と分類性能の向上を実現したことを示しています。

Rui Zhao, Bin Shi, Kai Sun + 1 more2026-03-06🤖 cs.LG

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

本論文は、既存の視覚言語モデルへの敵対的攻撃が持つ転移性の限界を克服するため、動的な対照学習と意味的拡張を組み合わせた「SADCA」という新たな攻撃手法を提案し、その有効性を多様な実験で実証したものである。

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

本論文は、単一のパラダイムに依存する既存の手法の限界を克服し、視覚と言語の多様な表現を統合して最適化を行う「多パラダイム協調攻撃（MPCAttack）」フレームワークを提案することで、マルチモーダル大規模言語モデルに対する敵対的攻撃の転移性を飛躍的に向上させることを示しています。

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

← 前へ次へ →