ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

本研究は、深層学習モデルとオブジェクトベース画像解析を統合した「ForCM」手法を提案し、アマゾン熱帯雨林のマルチスペクトル・センチネル 2 画像を用いた森林被覆マッピングにおいて、従来の手法よりも高い精度を達成したことを示しています。

Maisha Haque, Israt Jahan Ayshi, Sadaf M. Anis + 8 more2026-03-03🤖 cs.AI

TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

本論文は、新しい物体とスタイルを同時に導入する際に従来手法が抱える課題を解決するため、物体とスタイルのそれぞれに対応する 2 つのテキストプロンプトを単一のノイズ除去軌道に注入し、クロスアテンションによる物体融合と自己アテンションによるスタイル融合を組み合わせる軽量かつ学習不要なフレームワーク「TP-Blend」を提案するものである。

Xin Jin, Yichuan Zhong, Yapeng Tian2026-03-03🤖 cs.AI

Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints

この論文は、CLIP 駆動の勾配と幾何学的制約(軟 ICP や貫通損失)を組み合わせ、事前学習モデルの再訓練なしでテキスト指示に基づいたゼロショット 3D メッシュ間の位置・回転・スケールを最適化する「Copy-Transform-Paste」手法を提案し、その有効性を新たなベンチマークで実証したものです。

Rotem Gatenyo, Ohad Fried2026-03-03💻 cs

Counterfactual Explanations on Robust Perceptual Geodesics

本論文は、人間の知覚に整合するロバストな視覚特徴から誘導されたリッチマン計量を用いて、モデルの予測変化を最小限の意味的摂動で実現する「知覚的対極測地線(PCG)」を提案し、従来の平坦な幾何学に基づく手法が抱えるオフ・マンホールドのアーティファクトや意味的ドリフトを解消し、より滑らかで意味的に妥当な対極説明を可能にすることを示しています。

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

本論文は、現実世界の視覚的ノイズや複雑な推論課題に対処するため、マルチターン・多エンティティ・多スケールにわたる視覚・テキスト検索を可能にし、強化学習を通じて深層調査能力を内包させた新しいマルチモーダル大規模言語モデル「Vision-DeepResearch」を提案し、既存の最先端モデルやクローズドソースの基盤モデルを大幅に凌駕する性能を実証しています。

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning

本論文は、多モーダル大規模言語モデルの感情理解能力を向上させるため、心の理論(ToM)に基づく階層的ベンチマーク「HitEmotion」、ToM 誘導の推論チェーン、および中間メンタル状態を教師信号とする強化学習手法「TMPO」を提案し、これらが最先端モデルの感情推論能力の欠陥を明らかにするとともに、精度と推論の忠実性を高めることを実証したものである。

Meng Luo, Bobo Li, Shanqing Xu + 8 more2026-03-03💻 cs

CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions

本論文は、物理的性質が未知の条件下でも多視点映像から布の動的挙動を教師なしで学習する新たな枠組み「CloDS」を提案し、メッシュベースのガウススプラッティングを用いた双方向マッピングにより、複雑な変形や自己遮蔽に対処しながら高い汎化性能を実現することを示しています。

Yuliang Zhan, Jian Li, Wenbing Huang + 3 more2026-03-03🤖 cs.AI

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

本論文は、既存のベンチマークが抱える視覚検索の漏洩や非現実的な評価シナリオといった課題を解決するため、現実的な条件下でのマルチモーダル大規模言語モデルの視覚・テキスト検索能力を評価する「Vision-DeepResearch Benchmark(VDR-Bench)」を構築し、さらに効果的な視覚検索を可能にする多段階の切り抜き検索ワークフローを提案するものです。

Yu Zeng, Wenxuan Huang, Zhen Fang + 14 more2026-03-03💬 cs.CL

RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing

本論文は、テキストプロンプトを用いて可変長の動画を効率的に編集する新たな「残差フロー拡散モデル(RFDM)」を提案し、従来の画像モデルと同等の計算コストで高品質な因果的な動画編集を実現するとともに、新たな評価ベンチマークを構築したことを示しています。

Mohammadreza Salehi, Mehdi Noroozi, Luca Morreale + 4 more2026-03-03💻 cs

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

本論文は、単一スライス画像からの 3D 再構成における既存の基礎モデルの限界を定量化し、特に医療画像では深度の曖昧さにより体積的重なりが低いものの、SAM3D がトポロジーの類似性において最も優れていることを示し、信頼性の高い医療 3D 再構成にはドメイン固有の適応と解剖学的制約が必要であると結論付けています。

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

本論文は、リアルタイム動画生成における遅延や時間的安定性の課題を解決するため、マルチ教師学習、適応的 CFG 較正、ハイブリッド長尾強制、VAE デコーダ精製という 4 つの設計要素を備えた「EchoTorrent」を提案し、高品質かつ低遅延なストリーミング型マルチモーダル動画生成を実現するものである。

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs

Deformation-Free Cross-Domain Image Registration via Position-Encoded Temporal Attention

この論文は、Adaptive Instance Normalization を用いた画像分解と位置符号化された時間的注意機構を組み合わせることで、変形場の推定を不要としながらドメイン間画像登録の精度と速度を向上させる「GPEReg-Net」を提案し、複数のベンチマークで既存手法を上回る性能を達成したことを報告しています。

Yiwen Wang, Jiahao Qin2026-03-03🤖 cs.AI

Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

本論文は、電子顕微鏡画像のドメイン適応セグメンテーションにおいて、スパースな点と局所的な人間の好みを弱教師信号として活用し、自己学習とプロンプト誘導対照学習を統合した「Prefer-DAS」を提案することで、既存の手法や教師ありモデルに匹敵する高い汎用性と精度を実現したことを報告しています。

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs