cs.CV 件の論文 | Gist.Science

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

本論文は、クラス固有の概念を潜在変数として扱い、LLM による概念合成と多様性確保、そして外れ値を抑制する適応的ソフトトリム尤度を用いることで、ゼロショット画像認識の性能を飛躍的に向上させる概念誘導ベイズフレームワークを提案するものです。

Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li2026-03-10💻 cs

Geometric Transformation-Embedded Mamba for Learned Video Compression

この論文は、明示的な運動推定を不要とし、カスケード型Mambaモジュールと局所性改善フィードフォワードネットワークを統合した直接変換戦略に基づく、低ビットレート条件下で高画質かつ時間的一貫性を有する新しい学習型動画圧縮フレームワークを提案するものです。

Hao Wei, Yanhui Zhou, Chenyang Ge2026-03-10💻 cs

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

本論文は、特異値分解によるスペクトル分解と、粗から細への可変形集約モジュールおよび空間・スペクトル相互注意機構を組み合わせた新しい融合フレームワークを提案し、未登録の参照画像を用いたハイパースペクトル画像の超解像性能を大幅に向上させることを示しています。

Yingkai Zhang, Tao Zhang, Jing Nie, Ying Fu2026-03-10💻 cs

RLPR: Radar-to-LiDAR Place Recognition via Two-Stage Asymmetric Cross-Modal Alignment for Autonomous Driving

この論文は、悪天候下でも機能するレーダーと既存の LiDAR 地図を統合する新しいフレームワーク「RLPR」を提案し、センサー固有の信号特性を抽象化する双ストリームネットワークと、事前学習されたレーダー分岐を指針とした非対称なクロスモーダル整合戦略により、既存の手法を上回る認識精度とゼロショット汎化性能を達成することを示しています。

Zhangshuo Qi, Jingyi Xu, Luqi Cheng, Shichen Wen, Guangming Xiong2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

本論文は、Vision Transformer の線形層を特異値分解し特異値のみを適応させる「IMSE」を提案し、エントロピー最小化の限界を克服する多様性最大化損失とドメイン認識スペクトルコード検索を導入することで、テスト時適応および継続的テスト時適応において極めて少ない学習パラメータで最先端の性能を実現する手法を提示しています。

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

A Hybrid Vision Transformer Approach for Mathematical Expression Recognition

本論文は、2 次元構造を持つ数式認識の課題に対し、2 次元位置符号化を備えたハイブリッド・ビジョン・トランスフォーマーをエンコーダに、カバレッジ・アテンション・デコーダを採用し、IM2LATEX-100K データセットで BLEU 89.94 を達成して最先端の手法を上回る性能を示した研究です。

Anh Duy Le, Van Linh Pham, Vinh Loi Ly, Nam Quan Nguyen, Huu Thang Nguyen, Tuan Anh Tran2026-03-10💻 cs

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

本論文は、学生が描いたオートマトン図を Vision-Language モデルで記述化し、それを大規模言語モデルで TikZ コードに変換する手法を評価した結果、画像からの直接記述化には誤りが多く、人間の修正が品質向上に不可欠であることを示し、自動採点や教材作成への応用可能性を論じています。

Ethan Young, Zichun Wang, Aiden Taylor, Chance Jewell, Julian Myers, Satya Sri Rajiteswari Nimmagadda, Anthony White, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

$L^3$ :Scene-agnostic Visual Localization in the Wild

この論文は、オフラインの事前処理やシーン表現の保存を一切必要とせず、RGB 画像からのオンライン 3 次元再構成と 2D-3D 対応関係に基づく 2 段階のスケール復元・姿勢最適化を行うことで、疎なシーンでも最先端の精度と頑健性を達成する新しいマップフリー視覚局所化フレームワーク「 $L^3$ 」を提案するものである。

Yu Zhang, Muhua Zhu, Yifei Xue, Tie Ji, Yizhen Lao2026-03-10💻 cs

VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

本論文は、テキストエンコーダや言語モデルに依存せず、Vision Transformer の学習可能トークンと空間認識型クロスアテンション機構を活用して、産業・医療分野の 13 のベンチマークで最先端の性能を達成するゼロショット異常検出手法「VisualAD」を提案するものです。

Yanning Hou, Peiyuan Li, Zirui Liu, Yitong Wang, Yanran Ruan, Jianfeng Qiu, Ke Xu2026-03-10💻 cs

SGG-R $^{\rm 3}$ : From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

本論文は、タスク固有の推論と長尾分布の偏りを克服するため、連鎖思考に基づく教師あり微調整とグループ系列方策最適化を組み合わせた新しい構造推論フレームワーク「SGG-R $^{\rm 3}$ 」を提案し、バイアスのないエンドツーエンドのシーングラフ生成を実現するものです。

Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li2026-03-10💻 cs

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

この論文は、指差しなどの共発話ジェスチャーと音声の時間的・空間的整合性を厳密に評価するための新しいベンチマーク「EcoG-Bench」を提案し、現在の多モーダルモデルが人間の能力に比べて大幅に劣っていること、およびその主なボトルネックがモデルの推論能力ではなく、時間的アライメントの手がかりを捉えにくいマルチモーダルインターフェースにあることを明らかにしています。

Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang2026-03-10💻 cs

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

この論文は、手術室における頻繁な遮蔽（オクルージョン）に強靭な拡張現実（AR）ナビゲーションを実現するため、複数のセンサモダリティを融合し、動的なシーングラフ表現とリアルタイムな追跡信頼性推定を組み合わせたデバイス非依存型の手術器具追跡フレームワークを提案するものである。

Jiaming Zhang, Mingxu Liu, Hongchao Shu, Ruixing Liang, Yihao Liu, Ojas Taskar, Amir Kheradmand, Mehran Armand, Alejandro Martin-Gomez2026-03-10💻 cs

← 前へ次へ →

cs.CV

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

Geometric Transformation-Embedded Mamba for Learned Video Compression

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

RLPR: Radar-to-LiDAR Place Recognition via Two-Stage Asymmetric Cross-Modal Alignment for Autonomous Driving

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

A Hybrid Vision Transformer Approach for Mathematical Expression Recognition

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

$L^3$ :Scene-agnostic Visual Localization in the Wild

VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

SGG-R $^{\rm 3}$ : From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

VSDiffusion: Taming Ill-Posed Shadow Generation via Visibility-Constrained Diffusion

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

cs.CV

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

Geometric Transformation-Embedded Mamba for Learned Video Compression

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

RLPR: Radar-to-LiDAR Place Recognition via Two-Stage Asymmetric Cross-Modal Alignment for Autonomous Driving

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

A Hybrid Vision Transformer Approach for Mathematical Expression Recognition

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

L3L^3L3:Scene-agnostic Visual Localization in the Wild

VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

SGG-R3^{\rm 3}3: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

VSDiffusion: Taming Ill-Posed Shadow Generation via Visibility-Constrained Diffusion

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

$L^3$ :Scene-agnostic Visual Localization in the Wild

SGG-R $^{\rm 3}$ : From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation