MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

本論文は、事前学習済みの拡散モデルを活用し、画像経路とテキスト経路を統合することで、複数の前景オブジェクトに対して幾何学的・位置的に整合性の取れた物理的に妥当な影を生成する「MultiShadow」という手法を提案し、単一・複数オブジェクト両方の設定で最先端の性能を達成することを示しています。

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

本論文は、希少な対データに依存せず超低磁場 MRI の画質を向上させるため、拡散モデルによる分布整合と解剖学的構造保存正則化を組み合わせた、多段階改良型非対照ニューラルシュレーディンガーブリッジ手法を提案し、現実性と構造的忠実性の両立を実現したことを報告しています。

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

本論文は、未整列画像からピクセルアライメントに依存しないグローバルなシーン表現を学習し、可視・不可視領域を含む完全な物理的に妥当な 3 点群を生成する新しいアモダル 3 次元復元手法「NOVA3R」を提案し、既存の最良手法を上回る精度と完全性を達成したことを示しています。

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

この論文は、脳小血管病変の重要なマーカーである拡大血管周囲腔とラクナ梗塞の放射学的類似性による検出の難しさを解決するため、モルフォロジー分離アーキテクチャと混合教師学習、解剖学的推論較正を組み合わせた統合フレームワークを提案し、VALDO 2021 および EPAD コホートデータで最先端の性能を実証したものである。

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

本論文は、マルチモーダルタスクにおける推論の有用性を定量化し、「思考境界」を確立することで、すべてのタスクに推論を適用するパラダイムを見直し、リソース効率のよい適応型システムの開発を促す「Dual Tuning」というフレームワークを提案しています。

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

本論文は、3D CNN、3D 人体ポーズ、および物体検出情報をクロスアテンション機構で統合するマルチモーダル深層学習アプローチを提案し、高齢者の見守り支援システム(AAL)における日常生活動作認識の精度向上と、高齢者の安全・自立の促進に貢献するものである。

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

この論文は、圧縮イメージングにおける演算子不整合が深層学習手法の性能を大幅に低下させることを初めて包括的に検証し、演算子条件付きアーキテクチャや盲推定キャリブレーションの重要性を明らかにした「InverseNet」という新しいベンチマークを提案するものです。

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

本論文は、So2Sat LCZ42 データセットを用いて、CNN ベースの深層学習モデルにおけるマルチモーダルリモートセンシングデータの融合戦略(ハイブリッド融合、アテンション機構、マルチスケール処理、重み付き決定レベル融合)とデータ・ラベルのグループ化手法を分析し、ハイブリッド融合とグループ化の組み合わせが全体的な精度を 76.6% に向上させ、過小表現クラスの予測精度改善に特に有効であることを示しています。

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

本論文は、マルチクラス核の重心を空間的指標として用い、2 つのタスク固有 LoRA アダプターを共有バックボーンに統合する「Dual-LoRA 制御拡散モデル」を提案し、単一モデルで組織の局所構造復元と全体的構造合成の両方を高精度かつ生物学的に整合性のある形で実現する手法を確立したものである。

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

既存の合成画像検索ベンチマークの限界を克服し、複数の正解、明示的なハードネガティブ、多様な指示パラフレーズ、複数画像クエリ、公平性評価に対応した大規模な実世界ベンチマーク「PinPoint」を提案し、既存手法の課題を特定するとともに、オフザシェルフのMLLMを用いたトレーニング不要の再ランク付け手法を提案する。

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs

SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D

本論文は、3D 再構成を不要とし、ColPali 型のクロスモーダル検索と重み付きパッチ類似度選択メカニズムを用いてマルチモーダル大規模言語モデルを拡張する「SGR3 モデル」を提案し、訓練不要でありながら GNN ベースの専門モデルに匹敵する 3D シーングラフ生成を実現することを示しています。

Zirui Wang, Ruiping Liu, Yufan Chen + 7 more2026-03-06💻 cs

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

本論文は、拡散 MRI 信号から微細構造の境界を明示的に復元するために、四面体グリッド上の面透過性を学習可能なパラメータとして扱う完全微分可能な Bloch-Torrey シミュレータ「Spinverse」を提案し、幾何学的事前知識と多段階最適化により、トポロジーを固定せずに多様な微細構造を高精度に再構成する手法を示しています。

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs

Using Vision + Language Models to Predict Item Difficulty

本論文は、GPT-4.1-nano を用いてデータ可視化リテラシーテストの項目難易度を予測する研究において、視覚とテキストの両方の特徴を組み合わせたマルチモーダル手法が、単一のモダリティを用いる手法よりも高い精度を達成し、LLM の心理計測分析および自動項目作成への可能性を実証したことを報告しています。

Samin Khan2026-03-06💻 cs