Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

本論文は、クラス固有の概念を潜在変数として扱い、LLM による概念合成と多様性確保、そして外れ値を抑制する適応的ソフトトリム尤度を用いることで、ゼロショット画像認識の性能を飛躍的に向上させる概念誘導ベイズフレームワークを提案するものです。

Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li2026-03-10💻 cs

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

本論文は、特異値分解によるスペクトル分解と、粗から細への可変形集約モジュールおよび空間・スペクトル相互注意機構を組み合わせた新しい融合フレームワークを提案し、未登録の参照画像を用いたハイパースペクトル画像の超解像性能を大幅に向上させることを示しています。

Yingkai Zhang, Tao Zhang, Jing Nie, Ying Fu2026-03-10💻 cs

RLPR: Radar-to-LiDAR Place Recognition via Two-Stage Asymmetric Cross-Modal Alignment for Autonomous Driving

この論文は、悪天候下でも機能するレーダーと既存の LiDAR 地図を統合する新しいフレームワーク「RLPR」を提案し、センサー固有の信号特性を抽象化する双ストリームネットワークと、事前学習されたレーダー分岐を指針とした非対称なクロスモーダル整合戦略により、既存の手法を上回る認識精度とゼロショット汎化性能を達成することを示しています。

Zhangshuo Qi, Jingyi Xu, Luqi Cheng, Shichen Wen, Guangming Xiong2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

本論文は、Vision Transformer の線形層を特異値分解し特異値のみを適応させる「IMSE」を提案し、エントロピー最小化の限界を克服する多様性最大化損失とドメイン認識スペクトルコード検索を導入することで、テスト時適応および継続的テスト時適応において極めて少ない学習パラメータで最先端の性能を実現する手法を提示しています。

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

A Hybrid Vision Transformer Approach for Mathematical Expression Recognition

本論文は、2 次元構造を持つ数式認識の課題に対し、2 次元位置符号化を備えたハイブリッド・ビジョン・トランスフォーマーをエンコーダに、カバレッジ・アテンション・デコーダを採用し、IM2LATEX-100K データセットで BLEU 89.94 を達成して最先端の手法を上回る性能を示した研究です。

Anh Duy Le, Van Linh Pham, Vinh Loi Ly, Nam Quan Nguyen, Huu Thang Nguyen, Tuan Anh Tran2026-03-10💻 cs

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

本論文は、学生が描いたオートマトン図を Vision-Language モデルで記述化し、それを大規模言語モデルで TikZ コードに変換する手法を評価した結果、画像からの直接記述化には誤りが多く、人間の修正が品質向上に不可欠であることを示し、自動採点や教材作成への応用可能性を論じています。

Ethan Young, Zichun Wang, Aiden Taylor, Chance Jewell, Julian Myers, Satya Sri Rajiteswari Nimmagadda, Anthony White, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

L3L^3:Scene-agnostic Visual Localization in the Wild

この論文は、オフラインの事前処理やシーン表現の保存を一切必要とせず、RGB 画像からのオンライン 3 次元再構成と 2D-3D 対応関係に基づく 2 段階のスケール復元・姿勢最適化を行うことで、疎なシーンでも最先端の精度と頑健性を達成する新しいマップフリー視覚局所化フレームワーク「L3L^3」を提案するものである。

Yu Zhang, Muhua Zhu, Yifei Xue, Tie Ji, Yizhen Lao2026-03-10💻 cs

VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

本論文は、テキストエンコーダや言語モデルに依存せず、Vision Transformer の学習可能トークンと空間認識型クロスアテンション機構を活用して、産業・医療分野の 13 のベンチマークで最先端の性能を達成するゼロショット異常検出手法「VisualAD」を提案するものです。

Yanning Hou, Peiyuan Li, Zirui Liu, Yitong Wang, Yanran Ruan, Jianfeng Qiu, Ke Xu2026-03-10💻 cs

SGG-R3^{\rm 3}: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

本論文は、タスク固有の推論と長尾分布の偏りを克服するため、連鎖思考に基づく教師あり微調整とグループ系列方策最適化を組み合わせた新しい構造推論フレームワーク「SGG-R3^{\rm 3}」を提案し、バイアスのないエンドツーエンドのシーングラフ生成を実現するものです。

Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li2026-03-10💻 cs

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

この論文は、指差しなどの共発話ジェスチャーと音声の時間的・空間的整合性を厳密に評価するための新しいベンチマーク「EcoG-Bench」を提案し、現在の多モーダルモデルが人間の能力に比べて大幅に劣っていること、およびその主なボトルネックがモデルの推論能力ではなく、時間的アライメントの手がかりを捉えにくいマルチモーダルインターフェースにあることを明らかにしています。

Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang2026-03-10💻 cs

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

この論文は、手術室における頻繁な遮蔽(オクルージョン)に強靭な拡張現実(AR)ナビゲーションを実現するため、複数のセンサモダリティを融合し、動的なシーングラフ表現とリアルタイムな追跡信頼性推定を組み合わせたデバイス非依存型の手術器具追跡フレームワークを提案するものである。

Jiaming Zhang, Mingxu Liu, Hongchao Shu, Ruixing Liang, Yihao Liu, Ojas Taskar, Amir Kheradmand, Mehran Armand, Alejandro Martin-Gomez2026-03-10💻 cs

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

LiDAR ベースの 3D 物体検出において、アンカーや NMS を不要とし、近傍から遠方へ向かう順序で物体を離散トークン列として生成する自己回帰モデル「AutoReg3D」を提案し、従来の検出器と同等の性能を達成しながら言語モデルの最新技術を 3D 知覚へ応用する新たな道を開いた。

Zanming Huang, Jinsu Yoo, Sooyoung Jeon, Zhenzhen Liu, Mark Campbell, Kilian Q Weinberger, Bharath Hariharan, Wei-Lun Chao, Katie Z Luo2026-03-10💻 cs

AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

本論文は、大規模言語モデルの推論能力を活用し、新しい軌道トークン化手法と自動的な思考連鎖生成メカニズムを導入することで、人間が混在する環境におけるロボット軌道予測の精度、特に長期的な予測と汎化性能を飛躍的に向上させた「AutoTraces」を提案しています。

Teng Wang, Yanting Lu, Ruize Wang2026-03-10💻 cs

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

この論文は、既存の航空用視覚言語ナビゲーション手法が抱える空間推論の不足や言語的曖昧さを解消するため、追加学習なしで画像平面上で直接推論を行う「ViSA(視覚空間推論)強化フレームワーク」を提案し、CityNav ベンチマークにおいて最先端手法を大幅に上回る成功率を達成したことを報告しています。

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

本論文は、現実世界の多様な環境におけるアナログ時計の読み取りが現在の視覚言語モデルにとって依然として課題であることを指摘し、実世界データセット「TickTockVQA」と最適化手法「Swap-DPO」を提案することで、モデルの時計読み取り精度と空間的推論能力を大幅に向上させることを示しています。

Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee2026-03-10💻 cs

Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

この論文は、赤外線画像が欠落している状況でも可視光画像から高品質な融合画像を生成するために、共有辞書に基づく係数領域での推論と大規模言語モデルを活用した意味的事前知識を組み合わせた新しいフレームワーク「Missing No More」を提案し、その有効性を検証したものである。

Yafei Zhang, Meng Ma, Huafeng Li, Yu Liu2026-03-10💻 cs

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

本論文は、3D 物体形状とテキスト指示の間のモダリティギャップを克服し、物理的に安定かつ意味的に整合性の高い把持姿勢を生成するために、拡散モデルと細粒度な構造化言語ラベルを活用した新しいフレームワーク「AffordGrasp」を提案し、既存手法を大幅に上回る性能を実証したものである。

Xiaofei Wu, Yi Zhang, Yumeng Liu, Yuexin Ma, Yujiao Shi, Xuming He2026-03-10💻 cs