Multi-label Instance-level Generalised Visual Grounding in Agriculture

この論文は、精密農業における作物と雑草のインスタンスレベルの視覚的グラウンディングを可能にするため、負の表現を含む新しいデータセット「gRef-CW」と、マルチラベル階層関連性スコアリングを組み合わせたフレームワーク「Weed-VG」を提案するものです。

Mohammadreza Haghighat, Alzayat Saleh, Mostafa Rahimi Azghadi2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

既存の画像品質評価手法が科学的妥当性を考慮していない課題を解決するため、科学的知識と知覚の両次元を評価対象とする新たな枠組み「SIQA」と大規模ベンチマークを提案し、モデルが専門家の評価スコアと一致しても科学的理解が不足している可能性を示唆する研究です。

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

本論文は、RGB 入力のみを用いたマルチモーダル大規模言語モデル(MLLM)がカメラ固有のパラメータに過剰適合し汎化能力に欠けることを指摘し、カメラ内部パラメータの注入、カメラパラメータの多様化によるデータ拡張、および 3D 視覚基盤モデルからの幾何学的知識の蒸留を行う「カメラ認識型 MLLM」を提案することで、空間推論タスクにおけるカメラ間での汎化性能を大幅に向上させることを示しています。

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

この論文は、埋め込みアルゴリズムに依存せず画像の透かし有無を検出する新しいタスク「UWPD」を提案し、大規模データセット「UniFreq-100K」と、周波数帯域を動的に制御して透かし信号を抽出する「FSNet」モデルを開発することで、未知の透かしに対するゼロショット検出性能を大幅に向上させたことを示しています。

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

この論文は、既存の手法が抱える語彙制限の課題を克服するため、新規なオープンボキャブラリタスクとベンチマークを提案し、階層的埋め込みと並列なクロスモーダル精緻化を採用した「HERO」と呼ばれる統一的なフレームワークを構築することで、動画内の文脈的セグメント特定における汎化性能を大幅に向上させたことを示しています。

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

ButterflyViT: 354×\times Expert Compression for Edge Vision Transformers

本論文は、エッジデバイス向けにビジョントランスフォーマーの専門家(エキスパート)を独立した重み行列ではなく共有基底からの幾何学的な再配向として表現する「ButterflyViT」を提案し、64 個の専門家において精度をほぼ損なうことなくメモリ使用量を 354 倍削減することに成功したことを報告しています。

Aryan Karmore2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

本論文は、可視画像と植生指数を融合し、自己注意機構と Grad-CAM++ などの説明可能性手法を組み合わせた軽量 CNN「XMACNet」を提案し、合成データ拡張により構築した新たな唐辛子病害データセット上で、既存モデルを上回る高精度かつ解釈可能な病害分類を実現したことを報告しています。

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track

この論文は、第 4 回マルチモーダル航空画像コンペティション(MAVIC-T)の翻訳トラックで 2 位を獲得した「EarthBridge」という高忠実度変換フレームワークを提案し、非マルコフ型ブリッジプロセスを用いた拡散ブリッジ暗黙モデル(DBIM)と対照的学習に基づく非対照変換(CUT)を組み合わせることで、EO、IR、SAR 間のクロスモーダル画像変換における空間詳細とスペクトル精度を大幅に向上させたことを述べています。

Zhenyuan Chen, Guanyuan Shen, Feng Zhang2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

本論文は、長視野の視覚言語モデルにおいて、最終的な正解率ではなく「時間的視覚 grounding(視覚入力との一貫性)」を定量化する指標が、分布外汎化性能を予測する強力な指標となり得ることを実証しています。

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

本論文は、意味情報に依存せず運動学的なねじれ同等性に基づいて剛体を定義する「MotionBit」概念と、それを評価する手動ラベル付きベンチマーク「MoRiBo」、そして学習不要のグラフベースセグメンテーション手法を提案し、これらが物理的相互作用の理解やロボティクスタスクにおける重要な基盤となることを示しています。

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

本論文は、X 線画像特有の幾何学的曖昧性や物理的減弱特性を考慮し、確率的な密度スケーリングにより不確実なガウスプリミティブのアンサンブルを構築して構造分散を最大化する視点を逐次選択する「Perturbed Gaussian Ensemble」という枠組みを提案し、スパースビュー CT 再構成の精度向上を実現するものである。

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs

An Extended Topological Model For High-Contrast Optical Flow

この論文は、Sintel データセットから抽出された高コントラストなオプティカルフローパッチの低次元モデルとして、従来のトーラスモデルの限界を説明し、運動境界付近に集中する重要な二値ステップエッジパッチを記述する新しい 3 次元多様体モデルを提案し、視覚データ推論におけるトポロジーと幾何学の微妙な相互作用を解明したものである。

Brad Turow, Jose A. Perea2026-03-10🔢 math

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

この論文は、大腸内視鏡検査における複雑な蠕動運動を正確に再現する新しい動的ガウススプラッティング手法「ColonSplat」を提案し、その評価のために真の地対データを含む合成データセット「DynamicColon」を構築したことを述べています。

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs