XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

非線形な強度変化や極端な視点変化、ラベル付きデータ不足といった課題に対処するため、自己教師あり学習とモジュール設計を採用し、多様なマルチスペクトル画像の整合および登録タスクにおいて最先端の性能を発揮する新しいフレームワーク「XPoint」を提案する。

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

本論文は、単一のモノクロ画像から食品の3D 点雲を再構成し、2D 画像と 3D 点雲の両方の特徴を統合して深層回帰モデルを用いることで、物理的参照物や深度情報なしに高精度な食品分量推定を実現する新しいフレームワーク「MFP3D」を提案し、MetaFood3D データセットにおける既存手法を上回る性能を実証したものである。

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment

本論文は、画像品質評価(IQA)をより微細なレベルで行うための新たなパラダイム「Grounding-IQA」を提案し、これを実現するための大規模データセット「GIQA-160K」とベンチマーク「GIQA-Bench」を構築するとともに、マルチモーダル大規模言語モデルを用いた詳細な品質評価手法を開発したことを示しています。

Zheng Chen, Xun Zhang, Wenbo Li + 7 more2026-03-03💻 cs

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

本論文は、観測データとノイズの情報を明示的に組み込んだ「DAWN-FM」という新しいフローマッチング手法を提案し、画像のぼけ除去や断層撮影など、ノイズや不完全なデータに起因する逆問題に対して、従来の事前学習済み拡散モデルよりも頑健で不確実性も定量化可能な高精度な解を導出することを示しています。

Shadab Ahamed, Eldad Haber2026-03-03⚡ eess

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

本論文は、大規模言語モデルを活用した融合型微細記述と、位置情報強化テキストおよび多スケール変形交差モダリティ相互作用を組み合わせた可変形状のアノマリー局在化技術により、ゼロショットおよびフューショット異常検出の精度を飛躍的に向上させる「FiLo++」を提案しています。

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 3 more2026-03-03💻 cs

Deep generative computed perfusion-deficit mapping of ischaemic stroke

この論文は、急性虚血性脳卒中患者のルーチン CT 血管造影(CTA)画像から深層生成推論を用いて虚血性灌流欠損マップを生成し、病変の特定なしに NIHSS 下位スコアに対応する神経基盤を同定し、超急性期における臨床的・科学的価値を有する新たな機能解剖学的モデルを構築したことを示しています。

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

本論文は、視覚・聴覚・テキスト入力を同時に評価する初のオムニモーダル動画理解ベンチマーク「WorldSense」を提案し、既存モデルが現実世界のシナリオ理解において依然として課題を抱えていることを示すとともに、今後の開発指針を提供することを目的としています。

Jack Hong, Shilin Yan, Jiayin Cai + 3 more2026-03-03🤖 cs.AI

Precise Parameter Localization for Textual Generation in Diffusion Models

この論文は、拡散モデルにおけるテキスト生成がパラメータの 1% 未満の注意層に限定されていることを発見し、この特定層を局所化することで、LoRA 微調整による性能向上、画像内テキスト編集、および有害テキストの防止など、多様な応用を可能にする手法を提案しています。

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs

Openfly: A comprehensive platform for aerial vision-language navigation

本論文は、屋外空撮における視覚言語ナビゲーション(VLN)の研究を促進するため、多様なレンダリングエンジンと自動化ツールチェーンを活用して大規模データセットとベンチマーク「OpenFly」を構築し、キーフレームを考慮したエージェント「OpenFly-Agent」を提案するものである。

Yunpeng Gao, Chenhui Li, Zhongrui You + 20 more2026-03-03💻 cs

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

LLaVE は、標準的な InfoNCE 損失の限界を克服するために難易度重み付き対照学習を導入し、MMEB ベンチマークで SOTA 性能を達成するとともに、画像 - テキストデータからゼロショットで動画検索タスクにも強力に汎化する大規模マルチモーダル埋め込みモデルを提案するものです。

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

この論文は、既存のモデルと DeepSeek-R1 を活用して作成した高品質なマルチモーダル推論データセットを用いた冷間起動と、過剰思考を抑制する Progressive Thinking Suppression Training 戦略を組み合わせた強化学習により、マルチモーダル大規模言語モデルの推論能力を飛躍的に向上させた「Vision-R1」を提案し、MathVista ベンチマークで OpenAI O1 に匹敵する性能を達成したことを報告しています。

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

本論文は、セマンティックな高次元特徴とピクセルレベルの低次元特徴をそれぞれ独立した階層的なコードブックで表現する「SemHiTok」という新しいユニファイド画像トークナイザーを提案し、マルチモーダルな理解と生成の両方のタスクにおいて優れた性能を実現することを示しています。

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI