cs.CV 件の論文 | Gist.Science

MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

本論文は、事前学習済みの拡散モデルを活用し、画像経路とテキスト経路を統合することで、複数の前景オブジェクトに対して幾何学的・位置的に整合性の取れた物理的に妥当な影を生成する「MultiShadow」という手法を提案し、単一・複数オブジェクト両方の設定で最先端の性能を達成することを示しています。

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

本論文では、複雑な座標変換や IoU 指標による検証の難しさを克服し、SSD や YOLO などのアンカーベース物体検出モデルのロバスト性を初めて正式に検証可能にする新しいフレームワーク「IoUCert」を提案しています。

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

本論文は、希少な対データに依存せず超低磁場 MRI の画質を向上させるため、拡散モデルによる分布整合と解剖学的構造保存正則化を組み合わせた、多段階改良型非対照ニューラルシュレーディンガーブリッジ手法を提案し、現実性と構造的忠実性の両立を実現したことを報告しています。

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

本論文は、生物物理学的な腫瘍成長モデルと生成モデルを統合し、患者固有の脳 MRI 画像からグリオーブラストーマの時間的進行と浸透を現実的に合成・可視化する「TumorFlow」フレームワークを提案するものである。

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

本論文は、未整列画像からピクセルアライメントに依存しないグローバルなシーン表現を学習し、可視・不可視領域を含む完全な物理的に妥当な 3 点群を生成する新しいアモダル 3 次元復元手法「NOVA3R」を提案し、既存の最良手法を上回る精度と完全性を達成したことを示しています。

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

この論文は、脳小血管病変の重要なマーカーである拡大血管周囲腔とラクナ梗塞の放射学的類似性による検出の難しさを解決するため、モルフォロジー分離アーキテクチャと混合教師学習、解剖学的推論較正を組み合わせた統合フレームワークを提案し、VALDO 2021 および EPAD コホートデータで最先端の性能を実証したものである。

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

本論文は、多視点動画から身体と形状に依存しない複数の衣類レイヤーを分解して表現する「Gaussian Wardrobe」を提案し、高忠実度な動的アバターの生成と、異なる人物間での衣類の自由な転送を可能にする仮想試着を実現するものです。

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

本研究は、言語による視覚特徴の再調整（Semantic Anchoring）が、犬とヒトの病理画像における種間・癌種間転移学習における埋め込み空間の崩壊を克服し、従来の視覚言語モデルの限界を超えた汎化性能を実現することを示しています。

Ekansh Arora2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

本論文は、マルチモーダルタスクにおける推論の有用性を定量化し、「思考境界」を確立することで、すべてのタスクに推論を適用するパラダイムを見直し、リソース効率のよい適応型システムの開発を促す「Dual Tuning」というフレームワークを提案しています。

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

本論文は、AI エージェントが過去の経験を体系的に蓄積・再利用し、タスク実行の効率と安全性を大幅に向上させるために、20 万を超えるスキルを管理・評価・接続する大規模インフラ「SkillNet」を提案し、その有効性を複数のベンチマークで実証したものである。

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

本論文は、3D CNN、3D 人体ポーズ、および物体検出情報をクロスアテンション機構で統合するマルチモーダル深層学習アプローチを提案し、高齢者の見守り支援システム（AAL）における日常生活動作認識の精度向上と、高齢者の安全・自立の促進に貢献するものである。

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

この論文は、圧縮イメージングにおける演算子不整合が深層学習手法の性能を大幅に低下させることを初めて包括的に検証し、演算子条件付きアーキテクチャや盲推定キャリブレーションの重要性を明らかにした「InverseNet」という新しいベンチマークを提案するものです。

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

本論文は、So2Sat LCZ42 データセットを用いて、CNN ベースの深層学習モデルにおけるマルチモーダルリモートセンシングデータの融合戦略（ハイブリッド融合、アテンション機構、マルチスケール処理、重み付き決定レベル融合）とデータ・ラベルのグループ化手法を分析し、ハイブリッド融合とグループ化の組み合わせが全体的な精度を 76.6% に向上させ、過小表現クラスの予測精度改善に特に有効であることを示しています。

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

本論文は、マルチクラス核の重心を空間的指標として用い、2 つのタスク固有 LoRA アダプターを共有バックボーンに統合する「Dual-LoRA 制御拡散モデル」を提案し、単一モデルで組織の局所構造復元と全体的構造合成の両方を高精度かつ生物学的に整合性のある形で実現する手法を確立したものである。

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

Mask-aware inference with State-Space Models

本論文は、任意の形状の欠損データを扱うための部分畳み込みの原理を状態空間モデル（Mamba）に適用した「Partial Vision Mamba（PVM）」を提案し、深度補完や画像修復などのタスクにおける有効性を示しています。

Ignasi Mas, Ramon Morros, Javier-Ruiz Hidalgo + 1 more2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

既存の合成画像検索ベンチマークの限界を克服し、複数の正解、明示的なハードネガティブ、多様な指示パラフレーズ、複数画像クエリ、公平性評価に対応した大規模な実世界ベンチマーク「PinPoint」を提案し、既存手法の課題を特定するとともに、オフザシェルフのMLLMを用いたトレーニング不要の再ランク付け手法を提案する。

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs

SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D

本論文は、3D 再構成を不要とし、ColPali 型のクロスモーダル検索と重み付きパッチ類似度選択メカニズムを用いてマルチモーダル大規模言語モデルを拡張する「SGR3 モデル」を提案し、訓練不要でありながら GNN ベースの専門モデルに匹敵する 3D シーングラフ生成を実現することを示しています。

Zirui Wang, Ruiping Liu, Yufan Chen + 7 more2026-03-06💻 cs

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

本論文は、拡散 MRI 信号から微細構造の境界を明示的に復元するために、四面体グリッド上の面透過性を学習可能なパラメータとして扱う完全微分可能な Bloch-Torrey シミュレータ「Spinverse」を提案し、幾何学的事前知識と多段階最適化により、トポロジーを固定せずに多様な微細構造を高精度に再構成する手法を示しています。

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs

Using Vision + Language Models to Predict Item Difficulty

本論文は、GPT-4.1-nano を用いてデータ可視化リテラシーテストの項目難易度を予測する研究において、視覚とテキストの両方の特徴を組み合わせたマルチモーダル手法が、単一のモダリティを用いる手法よりも高い精度を達成し、LLM の心理計測分析および自動項目作成への可能性を実証したことを報告しています。

Samin Khan2026-03-06💻 cs

sFRC for assessing hallucinations in medical image restoration

この論文は、医療画像復元における深層学習モデルの出力に生じるハルシネーション（幻覚）を検出するための新しい手法「sFRC」を提案し、その数学的定式化と、CT や MRI の様々な復元タスクにおける有効性を実証しています。

Prabhat Kc, Rongping Zeng, Nirmal Soni + 1 more2026-03-06🔬 physics

← 前へ次へ →