TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

本論文は、複雑なクエリに対して構造化された推論(Chain-of-Thought)を生成し、それを圧縮して埋め込み表現に統合する「TRACE」という新しいユニバーサルマルチモーダル検索フレームワークを提案し、M-BEIR ベンチマークで最先端の性能を達成するとともに、推論の必要性に応じた自動的な経路選択と優れたゼロショット転移能力を実現したことを示しています。

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

本論文は、U-Net のスキップ接続におけるノイズや無関係な特徴量の伝播を解決するため、デコーダの文脈に基づいて特徴量選択を明示的にスパース化し、1\ell_1 近接演算子を用いた軟しきい値ゲートとチャネルゲーティングを導入した「ProSMA-UNet」を提案し、特に 3D セグメンテーションタスクで大幅な性能向上を実現したことを報告しています。

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

Specificity-aware reinforcement learning for fine-grained open-world classification

本論文は、オープンワールド設定における微細な画像分類において、推論型マルチモーダルモデルが汎用的な予測に陥る問題を解決するため、正解性と具体性のバランスを最適化する新しい強化学習フレームワーク「SpeciaRL」を提案し、その有効性を示したものである。

Samuele Angheben, Davide Berasi, Alessandro Conti + 2 more2026-03-05💻 cs

mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

本論文は、深層学習における新しい残差結合手法である多様体制約ハイパー結合(mHC)を hyperspectral image(HSI)分類に特化して改良し、クラスタリング誘導型 Mamba モジュール、物理的スペクトル知識に基づく並列ストリーム、および可解釈性を高める残差行列の実装を組み合わせた「mHC-HSI」を提案し、既存手法を上回る精度と説明可能性の実証を示すものである。

Yimin Zhu, Zack Dewis, Quinn Ledingham + 6 more2026-03-05💻 cs

Impact of Localization Errors on Label Quality for Online HD Map Construction

本論文は、オンライン HD 地図構築においてローカライゼーション誤差がラベル品質に与える影響を分析し、位置誤差よりも角度誤差が遠距離のラベル歪みに与える影響が大きいこと、およびノイズの増加に対してモデル性能が非線形的に低下することを明らかにした。

Alexander Blumberg, Jonas Merkert, Richard Fehler + 4 more2026-03-05💻 cs

Beyond Pixel Histories: World Models with Persistent 3D State

この論文は、既存のインタラクティブな世界モデルが抱える 3 次元の一貫性や空間的記憶の欠如を解決するため、潜在空間における 3 次元シーンの進化をシミュレートすることで、持続的な空間記憶と幾何学的整合性を実現する新しい世界モデル「PERSIST」を提案し、長期的な安定性や 3 次元空間での環境編集といった新たな能力を実証したものである。

Samuel Garcin, Thomas Walker, Steven McDonagh + 5 more2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

本論文は、大規模な疑似教師あり事前学習、シミュレーションに基づく教師あり微調整、そして強化学習という 3 段階のトレーニング手法を採用し、動画拡散モデルから物理的に整合性の高い 4 次元世界表現を学習する「Phys4D」を提案し、従来の外観中心のモデルを超えた細かな物理的整合性と生成性能の実現を示しています。

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

本研究は、Sentinel-1、RCM、AMSR2 のマルチソースデータを融合し、地理的加重弱教師あり学習とベイズ的拡張を備えた高解像度トランスフォーマーモデルを提案することで、200 メートル解像度のパン・アーктиック海氷濃度マッピングとその不確実性推定を高精度に実現する手法を開発した。

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

本論文は、物理法則を遵守するテキストから動画生成を可能にするため、強化学習と動的な報酬カリキュラムを用いてプロンプトを自動最適化するフレームワーク「PhyPrompt」を提案し、大規模な汎用モデルを上回る物理的妥当性と意味的忠実度の両立を実現したことを示しています。

Shang Wu, Chenwei Xu, Zhuofan Xia + 6 more2026-03-05🤖 cs.AI

PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

Pinterest は、VLM(視覚言語モデル)の強みを推薦システムに統合し、画像とテキストの整合性学習と隣接アライメント目的を備えたハイブリッド Vision Transformer 構造「PinCLIP」を開発することで、検索精度の向上、コールドスタート問題の解決、そしてエンゲージメントの大幅な増加を実現しました。

Josh Beal, Eric Kim, Jinfeng Rao + 3 more2026-03-05💻 cs

Modeling Cross-vision Synergy for Unified Large Vision Model

画像、動画、3D データを統合的に処理する大規模視覚モデルにおいて、異なる視覚モダリティ間の相補的な事前知識を活用した「クロスビジョン・シナジー」を実現するため、動的モダリティルーターを備えたスパースな混合专家モデルとシナジー意識型の学習手法を提案する PolyV は、10 のベンチマークで既存モデルを大幅に上回る性能を示しました。

Shengqiong Wu, Lanhu Wu, Mingyang Bao + 5 more2026-03-05💻 cs

From Local Matches to Global Masks: Novel Instance Detection in Open-World Scenes

この論文は、提案ベースの手法の限界を克服し、テンプレート画像とクエリ画像の密なパッチマッチングから候補点を生成し、それを基に拡張された Segment Anything Model(SAM)を誘導することで、開かれた世界における新規物体インスタンスの検出とセグメンテーションを可能にする「L2G-Det」と呼ばれるローカルからグローバルへの検出フレームワークを提案するものである。

Qifan Zhang, Sai Haneesh Allu, Jikai Wang + 2 more2026-03-05💻 cs