MC-INR: Efficient Encoding of Multivariate Scientific Simulation Data using Meta-Learning and Clustered Implicit Neural Representations

本論文は、メタ学習とクラスタリングを組み合わせ、局所誤差に基づく動的再クラスタリング機構と分岐層を導入することで、構造化されていないグリッド上の多変量科学シミュレーションデータを効率的に符号化し、既存手法の課題を克服する新たなフレームワーク「MC-INR」を提案するものである。

Hyunsoo Son, Jeonghyun Noh, Suemin Jeon + 2 more2026-03-04🤖 cs.LG

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

この論文は、既存の視覚言語行動(VLA)モデルが抱える推論能力と操作性能のトレードオフや catastrophic forgetting の課題を解決するため、大規模視覚言語モデルの柔軟な推論能力を維持しつつ、新しい「VLA-IT」というトレーニング手法と 65 万サンプルのデータセットを用いて両者を最適化したエンドツーエンドモデル「InstructVLA」を提案し、シミュレーションおよび実世界での高い汎化性能と操作精度を実証したものである。

Shuai Yang, Hao Li, Bin Wang + 7 more2026-03-04💻 cs

DMTrack: Spatio-Temporal Multimodal Tracking via Dual-Adapter

本論文は、凍結されたバックボーンから抽出された特徴を調整する時空間マルチモーダルアダプターと、段階的なクロスモーダルプロンプトを促進するプログレッシブ・マルチモーダル・コンプリメンタリーアダプターという 2 つのモジュールを組み合わせた「DMTrack」を提案し、わずか 0.93M の学習可能パラメータで 5 つのベンチマークにおいて最先端の性能を達成することを示しています。

Weihong Li, Shaohua Dong, Haonan Lu + 3 more2026-03-04🤖 cs.AI

Zero-shot CT Super-Resolution using Diffusion-based 2D Projection Priors and Signed 3D Gaussians

この論文は、拡散モデルを用いた 2D 投影の事前知識と、正負の密度を学習する新しい負アルファブレンディング 3D ガウススプラッティング手法を組み合わせることで、単一の低解像度 CT 入力から高解像度画像を再構成するゼロショット 3D スーパー解像度フレームワークを提案し、臨床的な有用性を示したものである。

Jeonghyun Noh, Hyun-Jic Oh, Won-Ki Jeong2026-03-04⚡ eess

ConEQsA: Concurrent and Asynchronous Embodied Questions Scheduling and Answering

本論文は、リアルタイムな複数質問への対応を可能にする新たな課題「EQsA」を定義し、共有メモリと優先度計画を用いたエージェントフレームワーク「ConEQsA」と、公平な評価のためのベンチマークおよび指標を提案し、現実的な多質問負荷下での効率性と応答性の向上を実証しています。

Haisheng Wang, Dong Liu, Weiming Zhi2026-03-04🤖 cs.AI

Are VLMs Ready for Lane Topology Awareness in Autonomous Driving?

本論文は、自律走行における道路トポロジー理解のためのビジョン・ランゲージモデル(VLM)の能力を包括的に評価し、最先端モデルであっても空間推論に根本的な限界があることを明らかにするとともに、モデルサイズや推論トークンの長さなどが性能に正の相関を持つことを示しています。

Xin Chen, Jia He, Maozheng Li + 5 more2026-03-04💻 cs

Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents

本論文は、RGB と分光データの統合、MCP ベースのツールエコシステム、および包括的な評価ベンチマーク「Earth-Bench」を導入することで、複雑な地球観測タスクにおける推論と定量的分析を可能にする新たなエージェントフレームワーク「Earth-Agent」を提案し、地球観測分野における LLM の次世代応用へのパラダイムシフトを確立するものです。

Peilin Feng, Zhutao Lv, Junyan Ye + 8 more2026-03-04💻 cs

EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model

本論文は、従来の拡散モデルに比べて推論速度が速く、かつ個別の被写体への微調整を不要とする効率的な生成を実現するため、視覚的自動回帰(VAR)モデルを基盤とし、被写体の高次な意味的特徴と低次な詳細な特徴を分離して注入する二重経路戦略を採用した「EchoGen」という新しいフレームワークを提案するものである。

Ruixiao Dong, Zhendong Wang, Keli Liu + 5 more2026-03-04💻 cs

Arbitrary Generative Video Interpolation

この論文は、任意の時間位置と任意の長さの中間フレームを生成可能にするため、時刻認識ローテート位置埋め込みと外観・運動の分離条件付け戦略を導入した新しい生成型動画補間フレームワーク「ArbInterp」を提案し、既存手法を上回る高忠実度かつ滑らかな時空間連続性を達成したことを述べています。

Guozhen Zhang, Haiguang Wang, Chunyu Wang + 3 more2026-03-04💻 cs

MIRAGE: Runtime Scheduling for Multi-Vector Image Retrieval with Hierarchical Decomposition

本論文は、マルチモーダル大規模言語モデルにおける画像検索の精度と効率を向上させるため、階層的分解に基づく新しいスケジューリングフレームワーク「MIRAGE」を提案し、既存システムと比較して最大 3.5 倍の計算削減と大幅な精度向上を実現したことを示しています。

Maoliang Li, Ke Li, Yaoyang Liu + 5 more2026-03-04💻 cs

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

本論文は、強化学習を用いた画像品質評価モデルが持つ優れた汎化性能の源泉が「推論による冗長な視覚表現から汎用的なテキスト表現への変換」にあることを解明し、その知見に基づいて推論プロセスや大規模言語モデルの依存を排除しながら、同等の汎化性能を極めて少ないパラメータと推論時間で実現する新たな手法「RALI」を提案するものである。

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs