cs.CV 件の論文 | Gist.Science

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

本論文は、大規模な Vision Transformer を容量制約の厳しい CNN へ非対称的に蒸留する際、表現空間の次元が劇的に縮退（次元崩壊）し、これが教師モデルが持つノイズ耐性を失わせる根本的な幾何学的限界であることを示しています。

Kabir Thayani2026-03-10💻 cs

Multi-label Instance-level Generalised Visual Grounding in Agriculture

この論文は、精密農業における作物と雑草のインスタンスレベルの視覚的グラウンディングを可能にするため、負の表現を含む新しいデータセット「gRef-CW」と、マルチラベル階層関連性スコアリングを組み合わせたフレームワーク「Weed-VG」を提案するものです。

Mohammadreza Haghighat, Alzayat Saleh, Mostafa Rahimi Azghadi2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

既存の画像品質評価手法が科学的妥当性を考慮していない課題を解決するため、科学的知識と知覚の両次元を評価対象とする新たな枠組み「SIQA」と大規模ベンチマークを提案し、モデルが専門家の評価スコアと一致しても科学的理解が不足している可能性を示唆する研究です。

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

本論文は、RGB 入力のみを用いたマルチモーダル大規模言語モデル（MLLM）がカメラ固有のパラメータに過剰適合し汎化能力に欠けることを指摘し、カメラ内部パラメータの注入、カメラパラメータの多様化によるデータ拡張、および 3D 視覚基盤モデルからの幾何学的知識の蒸留を行う「カメラ認識型 MLLM」を提案することで、空間推論タスクにおけるカメラ間での汎化性能を大幅に向上させることを示しています。

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

Uncertainty-Aware Solar Flare Regression

本論文は、太陽フレア予測の信頼性向上を目的として、分布仮定を必要としないコンフォーマル予測の枠組みを適用し、特にコンフォーマライズド・_quantile_回帰が他の手法よりも高いカバレッジ率と適切な区間長を実現することを示しています。

Jinsu Hong, Chetraj Pandey, Berkay Aydin2026-03-10🔭 astro-ph

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

この論文は、埋め込みアルゴリズムに依存せず画像の透かし有無を検出する新しいタスク「UWPD」を提案し、大規模データセット「UniFreq-100K」と、周波数帯域を動的に制御して透かし信号を抽出する「FSNet」モデルを開発することで、未知の透かしに対するゼロショット検出性能を大幅に向上させたことを示しています。

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

この論文は、既存の手法が抱える語彙制限の課題を克服するため、新規なオープンボキャブラリタスクとベンチマークを提案し、階層的埋め込みと並列なクロスモーダル精緻化を採用した「HERO」と呼ばれる統一的なフレームワークを構築することで、動画内の文脈的セグメント特定における汎化性能を大幅に向上させたことを示しています。

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

Vessel-Aware Deep Learning for OCTA-Based Detection of AMD

本論文は、OCTA 画像から得られる血管の屈曲度や欠損マップなどの血管特異的バイオマーカーを外部乗算アテンション機構で統合し、加齢黄斑変性の病態生理に即した解釈可能な深層学習モデルを提案するものである。

Margalit G. Mitzner, Moinak Bhattacharya, Zhilin Zou, Chao Chen, Prateek Prasanna2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

この論文は、異なる学習目的（DDPM と Flow Matching）を混在させて分散学習を可能にする効率的なフレームワークを提案し、従来の分散拡散モデルに比べて計算リソースとデータを大幅に削減しながら、より優れた生成品質と多様性を達成する手法を提示しています。

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

ButterflyViT: 354 $\times$ Expert Compression for Edge Vision Transformers

本論文は、エッジデバイス向けにビジョントランスフォーマーの専門家（エキスパート）を独立した重み行列ではなく共有基底からの幾何学的な再配向として表現する「ButterflyViT」を提案し、64 個の専門家において精度をほぼ損なうことなくメモリ使用量を 354 倍削減することに成功したことを報告しています。

Aryan Karmore2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

本論文は、可視画像と植生指数を融合し、自己注意機構と Grad-CAM++ などの説明可能性手法を組み合わせた軽量 CNN「XMACNet」を提案し、合成データ拡張により構築した新たな唐辛子病害データセット上で、既存モデルを上回る高精度かつ解釈可能な病害分類を実現したことを報告しています。

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track

この論文は、第 4 回マルチモーダル航空画像コンペティション（MAVIC-T）の翻訳トラックで 2 位を獲得した「EarthBridge」という高忠実度変換フレームワークを提案し、非マルコフ型ブリッジプロセスを用いた拡散ブリッジ暗黙モデル（DBIM）と対照的学習に基づく非対照変換（CUT）を組み合わせることで、EO、IR、SAR 間のクロスモーダル画像変換における空間詳細とスペクトル精度を大幅に向上させたことを述べています。

Zhenyuan Chen, Guanyuan Shen, Feng Zhang2026-03-10💻 cs

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression

この論文は、外部事前知識を階層的な辞書構造で効率的に活用し、パラメータ推定ネットワークを改良することで、学習型画像圧縮の符号化効率を大幅に向上させる「HiDE」という新しいフレームワークを提案しています。

Haoxuan Xiong, Yuanyuan Xu, Kun Zhu, Yiming Wang, Baoliu Ye2026-03-10💻 cs

A Hybrid Machine Learning Model for Cerebral Palsy Detection

本論文は、VGG19、Efficient-Net、ResNet50 の 3 つの CNN モデルと Bi-LSTM を組み合わせたハイブリッド機械学習モデルを提案し、脳 MRI 画像を用いて新生児の脳性麻痺を 98.83% の精度で早期検出可能であることを示しています。

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

本論文は、長視野の視覚言語モデルにおいて、最終的な正解率ではなく「時間的視覚 grounding（視覚入力との一貫性）」を定量化する指標が、分布外汎化性能を予測する強力な指標となり得ることを実証しています。

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

← 前へ次へ →

cs.CV

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Multi-label Instance-level Generalised Visual Grounding in Agriculture

SIQA: Toward Reliable Scientific Image Quality Assessment

On the Generalization Capacities of MLLMs for Spatial Intelligence

Uncertainty-Aware Solar Flare Regression

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

Vessel-Aware Deep Learning for OCTA-Based Detection of AMD

Heterogeneous Decentralized Diffusion Models

ButterflyViT: 354 $\times$ Expert Compression for Edge Vision Transformers

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression

A Hybrid Machine Learning Model for Cerebral Palsy Detection

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

An Extended Topological Model For High-Contrast Optical Flow

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

IGLU: The Integrated Gaussian Linear Unit Activation Function

cs.CV

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Multi-label Instance-level Generalised Visual Grounding in Agriculture

SIQA: Toward Reliable Scientific Image Quality Assessment

On the Generalization Capacities of MLLMs for Spatial Intelligence

Uncertainty-Aware Solar Flare Regression

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

Vessel-Aware Deep Learning for OCTA-Based Detection of AMD

Heterogeneous Decentralized Diffusion Models

ButterflyViT: 354×\times× Expert Compression for Edge Vision Transformers

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression

A Hybrid Machine Learning Model for Cerebral Palsy Detection

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

An Extended Topological Model For High-Contrast Optical Flow

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

IGLU: The Integrated Gaussian Linear Unit Activation Function

ButterflyViT: 354 $\times$ Expert Compression for Edge Vision Transformers