Soft Equivariance Regularization for Invariant Self-Supervised Learning

この論文は、不変性と等変性のトレードオフを解決するため、最終埋め込みには不変性を維持しつつ中間空間トークンマップに等変性を「ソフト」に付与する新しい正則化手法「Soft Equivariance Regularization (SER)」を提案し、画像認識や物体検出などのタスクで既存の自己教師あり学習手法を大幅に改善することを示しています。

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

この論文は、複数の医療機関間での拡散 MRI 解析を妨げるスキャナ間変動を、生体被験者の移動データに依存せず、輸送可能なファントムのみで訓練された深層学習モデル「HARP」を用いて効果的に調和させる手法を提案し、大規模臨床研究の現実性と拡張性を大幅に向上させることを示しています。

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

この論文は、放射線科医の視覚的検索プロセスを捉えた時間順の視線追跡データを「視線トークン」として VLM に導入し、医療画像の視覚的推論を人間のように順序立てて行うことで、MIMIC-EYE などのベンチマークにおいて最先端の性能とドメイン外での頑健性を達成した手法を提案しています。

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Multi-label Instance-level Generalised Visual Grounding in Agriculture

この論文は、精密農業における作物と雑草のインスタンスレベルの視覚的グラウンディングを可能にするため、負の表現を含む新しいデータセット「gRef-CW」と、マルチラベル階層関連性スコアリングを組み合わせたフレームワーク「Weed-VG」を提案するものです。

Mohammadreza Haghighat, Alzayat Saleh, Mostafa Rahimi Azghadi2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

既存の画像品質評価手法が科学的妥当性を考慮していない課題を解決するため、科学的知識と知覚の両次元を評価対象とする新たな枠組み「SIQA」と大規模ベンチマークを提案し、モデルが専門家の評価スコアと一致しても科学的理解が不足している可能性を示唆する研究です。

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

本論文は、RGB 入力のみを用いたマルチモーダル大規模言語モデル(MLLM)がカメラ固有のパラメータに過剰適合し汎化能力に欠けることを指摘し、カメラ内部パラメータの注入、カメラパラメータの多様化によるデータ拡張、および 3D 視覚基盤モデルからの幾何学的知識の蒸留を行う「カメラ認識型 MLLM」を提案することで、空間推論タスクにおけるカメラ間での汎化性能を大幅に向上させることを示しています。

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

この論文は、埋め込みアルゴリズムに依存せず画像の透かし有無を検出する新しいタスク「UWPD」を提案し、大規模データセット「UniFreq-100K」と、周波数帯域を動的に制御して透かし信号を抽出する「FSNet」モデルを開発することで、未知の透かしに対するゼロショット検出性能を大幅に向上させたことを示しています。

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

この論文は、既存の手法が抱える語彙制限の課題を克服するため、新規なオープンボキャブラリタスクとベンチマークを提案し、階層的埋め込みと並列なクロスモーダル精緻化を採用した「HERO」と呼ばれる統一的なフレームワークを構築することで、動画内の文脈的セグメント特定における汎化性能を大幅に向上させたことを示しています。

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

ButterflyViT: 354×\times Expert Compression for Edge Vision Transformers

本論文は、エッジデバイス向けにビジョントランスフォーマーの専門家(エキスパート)を独立した重み行列ではなく共有基底からの幾何学的な再配向として表現する「ButterflyViT」を提案し、64 個の専門家において精度をほぼ損なうことなくメモリ使用量を 354 倍削減することに成功したことを報告しています。

Aryan Karmore2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

本論文は、可視画像と植生指数を融合し、自己注意機構と Grad-CAM++ などの説明可能性手法を組み合わせた軽量 CNN「XMACNet」を提案し、合成データ拡張により構築した新たな唐辛子病害データセット上で、既存モデルを上回る高精度かつ解釈可能な病害分類を実現したことを報告しています。

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track

この論文は、第 4 回マルチモーダル航空画像コンペティション(MAVIC-T)の翻訳トラックで 2 位を獲得した「EarthBridge」という高忠実度変換フレームワークを提案し、非マルコフ型ブリッジプロセスを用いた拡散ブリッジ暗黙モデル(DBIM)と対照的学習に基づく非対照変換(CUT)を組み合わせることで、EO、IR、SAR 間のクロスモーダル画像変換における空間詳細とスペクトル精度を大幅に向上させたことを述べています。

Zhenyuan Chen, Guanyuan Shen, Feng Zhang2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

本論文は、長視野の視覚言語モデルにおいて、最終的な正解率ではなく「時間的視覚 grounding(視覚入力との一貫性)」を定量化する指標が、分布外汎化性能を予測する強力な指標となり得ることを実証しています。

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

本論文は、意味情報に依存せず運動学的なねじれ同等性に基づいて剛体を定義する「MotionBit」概念と、それを評価する手動ラベル付きベンチマーク「MoRiBo」、そして学習不要のグラフベースセグメンテーション手法を提案し、これらが物理的相互作用の理解やロボティクスタスクにおける重要な基盤となることを示しています。

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

本論文は、X 線画像特有の幾何学的曖昧性や物理的減弱特性を考慮し、確率的な密度スケーリングにより不確実なガウスプリミティブのアンサンブルを構築して構造分散を最大化する視点を逐次選択する「Perturbed Gaussian Ensemble」という枠組みを提案し、スパースビュー CT 再構成の精度向上を実現するものである。

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs